Trascrizione Whisper: modelli, velocità e come usarla offline (guida 2026)

2 luglio 2026
·
9 min read
·Whisper Notes Team

La trascrizione Whisper significa convertire il parlato in testo con Whisper di OpenAI — un modello di IA open source che puoi eseguire nel cloud, su un server o interamente sul tuo dispositivo. Questa guida spiega come funziona Whisper, quale dimensione del modello scegliere, quanto è davvero accurato e il modo più rapido per usarlo offline su Mac o iPhone.

Che cos'è Whisper, esattamente?

Whisper è un modello di riconoscimento vocale automatico (ASR) pubblicato da OpenAI a settembre 2022 con licenza MIT. È un transformer encoder-decoder addestrato su oltre 680.000 ore di audio multilingue, in grado di trascrivere circa 100 lingue e di tradurre verso l'inglese.

La parte che conta per te: i pesi del modello sono aperti. A differenza delle API vocali di Google o Amazon, Whisper non deve girare sul server di qualcun altro. Esiste un intero ecosistema per eseguirlo in locale — whisper.cpp, faster-whisper e app native come Whisper Notes. È questo che rende possibile una trascrizione davvero offline e privata.

Dimensioni dei modelli Whisper: quale usare

Whisper esiste in sei dimensioni principali. Più grande significa più accurato e più lento:

Modello Parametri Velocità Ideale per
tiny 39M Il più veloce Bozze rapide, hardware modesto
base 74M Molto veloce Audio semplice e pulito
small 244M Veloce Buon equilibrio velocità/accuratezza su mobile
medium 769M Moderata Raramente la scelta giusta oggi
large-v3 1,55B Il più lento Massima accuratezza, audio difficile
large-v3-turbo 809M ~5x più veloce di large-v3 La scelta predefinita nel 2026

Per quasi tutti, la risposta è large-v3-turbo: mantiene l'encoder di large-v3 ma riduce i layer del decoder da 32 a 4, offrendo un'accuratezza quasi identica per una frazione del calcolo. L'abbiamo testato in dettaglio in Whisper Large V3 Turbo vs V3.

Quanto è accurata la trascrizione Whisper?

Su audio inglese pulito, i modelli grandi raggiungono un tasso di errore sulle parole (WER) di circa il 5-8% — paragonabile a una trascrizione umana professionale per la maggior parte degli usi pratici. L'accuratezza cala con rumore di fondo, accenti marcati, voci sovrapposte e lingue con pochi dati di addestramento.

Il difetto più famoso di Whisper: le allucinazioni durante i silenzi. Il suo decoder autoregressivo a volte inventa frasi ripetute o crediti di sottotitoli quando nessuno sta parlando. I modelli più recenti risolvono il problema — Parakeet V3 di NVIDIA è stato addestrato appositamente su audio senza parlato e nei nostri test non produce alcuna allucinazione (benchmark completo Parakeet V3 vs Whisper).

Per cinese, giapponese, coreano e cantonese, un modello specializzato batte Whisper sia in velocità che in punteggiatura: vedi SenseVoice vs Whisper per le lingue CJK.

5 modi per fare trascrizione Whisper

Metodo Costo Privacy Configurazione
API di OpenAI Pagamento a minuto di audio L'audio viene caricato Chiave API + codice
openai-whisper (Python di riferimento) Gratis 100% locale Ambiente Python, GPU consigliata
whisper.cpp / faster-whisper Gratis 100% locale Riga di comando
App nativa (Whisper Notes) $6.99 una tantum, prova gratuita su Mac 100% sul dispositivo Nessuna
Demo web Piani gratuiti limitati L'audio viene caricato Nessuna

La regola pratica: se vivi nel terminale, faster-whisper è eccellente. Se stai costruendo un prodotto, l'API ha senso ($0.006 al minuto — pensata per gli sviluppatori). Se vuoi solo trascrivere le tue registrazioni in privato senza toccare Python, usa un'app nativa — è l'intera ragione d'essere delle app Whisper per Mac.

Stai valutando gli strumenti offline in senso più ampio — incluse le opzioni per Windows e Android? Leggi la nostra guida completa alla trascrizione vocale offline.

Whisper contro i nuovi modelli locali (2026)

Whisper ha inaugurato l'era della trascrizione locale, ma non è più solo. Velocità misurate su un Mac M4 Pro:

Modello Lingue Velocità Punto di forza
Whisper Large V3 Turbo 100+ ~12x tempo reale La copertura linguistica più ampia
Parakeet V3 25 (europee, italiano incluso) ~100x tempo reale 6,32% di WER, nessuna allucinazione nei silenzi
SenseVoice Small zh, ja, ko, yue, en ~52x tempo reale Il migliore per cinese, giapponese, coreano

Tutti e tre girano in locale dentro Whisper Notes, e puoi cambiare modello a ogni registrazione. I benchmark a confronto sono sulla nostra pagina di confronto dei modelli Whisper.

Come fare la trascrizione Whisper offline su Mac e iPhone

Niente riga di comando, niente Python, niente cloud:

  1. Scarica Whisper Notes per Mac (prova gratuita) o per iPhone ($6.99 una tantum).
  2. Scegli un modello: Whisper Large V3 Turbo per la copertura linguistica più ampia, Parakeet V3 per la massima velocità in italiano e nelle altre lingue europee, SenseVoice per le lingue CJK. Si scarica una volta e poi funziona per sempre offline.
  3. Registra direttamente, detta in qualsiasi app tenendo premuto Fn, oppure trascina file audio e video (MP3, WAV, M4A, MP4).
  4. Il testo compare man mano che viene elaborato. Esporta in TXT o SRT.

Scettico sull'"offline"? Attiva prima la modalità aereo. La trascrizione gira a piena velocità — non viene caricato nulla, mai.

Quanto è accurata la trascrizione Whisper in italiano? Quale modello scegliere?

Molto accurata — se scegli il modello giusto. Per l'audio in italiano la raccomandazione chiara è Parakeet V3: il modello predefinito di Whisper Notes, che copre 25 lingue europee incluso l'italiano, trascrive nella classe del 6,32% di WER e gira circa 10x più veloce di Whisper. Se le tue registrazioni includono lingue che Parakeet non copre, passa a Whisper Large V3 Turbo (oltre 100 lingue, ~1,5 GB) — puoi scegliere il modello a ogni registrazione, tutto interamente sul tuo dispositivo.

Domande frequenti

La trascrizione Whisper è gratuita?

Il modello in sé è gratuito e open source (licenza MIT). Eseguirlo con strumenti da riga di comando come whisper.cpp non costa nulla, ma richiede configurazione. L'API di OpenAI fattura $0.006 al minuto di audio. Le app native impacchettano i modelli per un piccolo prezzo — Whisper Notes costa $6.99 una tantum, con prova gratuita su Mac (10.000 parole).

La trascrizione Whisper può funzionare offline?

Sì — è proprio il senso dei pesi aperti. Una volta che il file del modello è sul tuo dispositivo, non serve internet. Whisper Notes esegue Whisper Large V3 Turbo su Apple Silicon tramite CoreML/Metal, completamente offline. Puoi verificarlo con la modalità aereo.

Quale modello Whisper è il più accurato?

large-v3 ha la migliore accuratezza pura. large-v3-turbo lo eguaglia a una frazione di punto percentuale di WER, girando circa 5x più veloce — ecco perché oggi è la scelta predefinita nella maggior parte degli strumenti.

Whisper supporta la mia lingua?

Whisper copre circa 100 lingue, con i risultati migliori in quelle con più dati (inglese, spagnolo, tedesco, francese, italiano ecc.). Per cinese, giapponese, coreano e cantonese, SenseVoice offre una punteggiatura migliore e una velocità molto superiore su Apple Silicon.

Esiste un'app di trascrizione Whisper per iPhone?

Sì. Whisper Notes esegue modelli Whisper ottimizzati per il Neural Engine dell'iPhone (iPhone 12 e successivi) — registra, importa da Memo Vocali o File e trascrivi tutto sul dispositivo per $6.99, senza abbonamento.