La trascrizione Whisper significa convertire il parlato in testo con Whisper di OpenAI — un modello di IA open source che puoi eseguire nel cloud, su un server o interamente sul tuo dispositivo. Questa guida spiega come funziona Whisper, quale dimensione del modello scegliere, quanto è davvero accurato e il modo più rapido per usarlo offline su Mac o iPhone.
Che cos'è Whisper, esattamente?
Whisper è un modello di riconoscimento vocale automatico (ASR) pubblicato da OpenAI a settembre 2022 con licenza MIT. È un transformer encoder-decoder addestrato su oltre 680.000 ore di audio multilingue, in grado di trascrivere circa 100 lingue e di tradurre verso l'inglese.
La parte che conta per te: i pesi del modello sono aperti. A differenza delle API vocali di Google o Amazon, Whisper non deve girare sul server di qualcun altro. Esiste un intero ecosistema per eseguirlo in locale — whisper.cpp, faster-whisper e app native come Whisper Notes. È questo che rende possibile una trascrizione davvero offline e privata.
Dimensioni dei modelli Whisper: quale usare
Whisper esiste in sei dimensioni principali. Più grande significa più accurato e più lento:
| Modello | Parametri | Velocità | Ideale per |
|---|---|---|---|
| tiny | 39M | Il più veloce | Bozze rapide, hardware modesto |
| base | 74M | Molto veloce | Audio semplice e pulito |
| small | 244M | Veloce | Buon equilibrio velocità/accuratezza su mobile |
| medium | 769M | Moderata | Raramente la scelta giusta oggi |
| large-v3 | 1,55B | Il più lento | Massima accuratezza, audio difficile |
| large-v3-turbo | 809M | ~5x più veloce di large-v3 | La scelta predefinita nel 2026 |
Per quasi tutti, la risposta è large-v3-turbo: mantiene l'encoder di large-v3 ma riduce i layer del decoder da 32 a 4, offrendo un'accuratezza quasi identica per una frazione del calcolo. L'abbiamo testato in dettaglio in Whisper Large V3 Turbo vs V3.
Quanto è accurata la trascrizione Whisper?
Su audio inglese pulito, i modelli grandi raggiungono un tasso di errore sulle parole (WER) di circa il 5-8% — paragonabile a una trascrizione umana professionale per la maggior parte degli usi pratici. L'accuratezza cala con rumore di fondo, accenti marcati, voci sovrapposte e lingue con pochi dati di addestramento.
Il difetto più famoso di Whisper: le allucinazioni durante i silenzi. Il suo decoder autoregressivo a volte inventa frasi ripetute o crediti di sottotitoli quando nessuno sta parlando. I modelli più recenti risolvono il problema — Parakeet V3 di NVIDIA è stato addestrato appositamente su audio senza parlato e nei nostri test non produce alcuna allucinazione (benchmark completo Parakeet V3 vs Whisper).
Per cinese, giapponese, coreano e cantonese, un modello specializzato batte Whisper sia in velocità che in punteggiatura: vedi SenseVoice vs Whisper per le lingue CJK.
5 modi per fare trascrizione Whisper
| Metodo | Costo | Privacy | Configurazione |
|---|---|---|---|
| API di OpenAI | Pagamento a minuto di audio | L'audio viene caricato | Chiave API + codice |
| openai-whisper (Python di riferimento) | Gratis | 100% locale | Ambiente Python, GPU consigliata |
| whisper.cpp / faster-whisper | Gratis | 100% locale | Riga di comando |
| App nativa (Whisper Notes) | $6.99 una tantum, prova gratuita su Mac | 100% sul dispositivo | Nessuna |
| Demo web | Piani gratuiti limitati | L'audio viene caricato | Nessuna |
La regola pratica: se vivi nel terminale, faster-whisper è eccellente. Se stai costruendo un prodotto, l'API ha senso ($0.006 al minuto — pensata per gli sviluppatori). Se vuoi solo trascrivere le tue registrazioni in privato senza toccare Python, usa un'app nativa — è l'intera ragione d'essere delle app Whisper per Mac.
Stai valutando gli strumenti offline in senso più ampio — incluse le opzioni per Windows e Android? Leggi la nostra guida completa alla trascrizione vocale offline.
Whisper contro i nuovi modelli locali (2026)
Whisper ha inaugurato l'era della trascrizione locale, ma non è più solo. Velocità misurate su un Mac M4 Pro:
| Modello | Lingue | Velocità | Punto di forza |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x tempo reale | La copertura linguistica più ampia |
| Parakeet V3 | 25 (europee, italiano incluso) | ~100x tempo reale | 6,32% di WER, nessuna allucinazione nei silenzi |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x tempo reale | Il migliore per cinese, giapponese, coreano |
Tutti e tre girano in locale dentro Whisper Notes, e puoi cambiare modello a ogni registrazione. I benchmark a confronto sono sulla nostra pagina di confronto dei modelli Whisper.
Come fare la trascrizione Whisper offline su Mac e iPhone
Niente riga di comando, niente Python, niente cloud:
- Scarica Whisper Notes per Mac (prova gratuita) o per iPhone ($6.99 una tantum).
- Scegli un modello: Whisper Large V3 Turbo per la copertura linguistica più ampia, Parakeet V3 per la massima velocità in italiano e nelle altre lingue europee, SenseVoice per le lingue CJK. Si scarica una volta e poi funziona per sempre offline.
- Registra direttamente, detta in qualsiasi app tenendo premuto Fn, oppure trascina file audio e video (MP3, WAV, M4A, MP4).
- Il testo compare man mano che viene elaborato. Esporta in TXT o SRT.
Scettico sull'"offline"? Attiva prima la modalità aereo. La trascrizione gira a piena velocità — non viene caricato nulla, mai.
Quanto è accurata la trascrizione Whisper in italiano? Quale modello scegliere?
Molto accurata — se scegli il modello giusto. Per l'audio in italiano la raccomandazione chiara è Parakeet V3: il modello predefinito di Whisper Notes, che copre 25 lingue europee incluso l'italiano, trascrive nella classe del 6,32% di WER e gira circa 10x più veloce di Whisper. Se le tue registrazioni includono lingue che Parakeet non copre, passa a Whisper Large V3 Turbo (oltre 100 lingue, ~1,5 GB) — puoi scegliere il modello a ogni registrazione, tutto interamente sul tuo dispositivo.
Domande frequenti
La trascrizione Whisper è gratuita?
Il modello in sé è gratuito e open source (licenza MIT). Eseguirlo con strumenti da riga di comando come whisper.cpp non costa nulla, ma richiede configurazione. L'API di OpenAI fattura $0.006 al minuto di audio. Le app native impacchettano i modelli per un piccolo prezzo — Whisper Notes costa $6.99 una tantum, con prova gratuita su Mac (10.000 parole).
La trascrizione Whisper può funzionare offline?
Sì — è proprio il senso dei pesi aperti. Una volta che il file del modello è sul tuo dispositivo, non serve internet. Whisper Notes esegue Whisper Large V3 Turbo su Apple Silicon tramite CoreML/Metal, completamente offline. Puoi verificarlo con la modalità aereo.
Quale modello Whisper è il più accurato?
large-v3 ha la migliore accuratezza pura. large-v3-turbo lo eguaglia a una frazione di punto percentuale di WER, girando circa 5x più veloce — ecco perché oggi è la scelta predefinita nella maggior parte degli strumenti.
Whisper supporta la mia lingua?
Whisper copre circa 100 lingue, con i risultati migliori in quelle con più dati (inglese, spagnolo, tedesco, francese, italiano ecc.). Per cinese, giapponese, coreano e cantonese, SenseVoice offre una punteggiatura migliore e una velocità molto superiore su Apple Silicon.
Esiste un'app di trascrizione Whisper per iPhone?
Sì. Whisper Notes esegue modelli Whisper ottimizzati per il Neural Engine dell'iPhone (iPhone 12 e successivi) — registra, importa da Memo Vocali o File e trascrivi tutto sul dispositivo per $6.99, senza abbonamento.