A partire dalla versione 1.3.2, Whisper Notes per Mac include NVIDIA Parakeet TDT 0.6B come motore di riconoscimento vocale predefinito. È 10 volte più veloce di Whisper Large V3 Turbo per l'inglese, e più preciso. I modelli Whisper restano disponibili se hai bisogno di altre lingue.
Perché abbiamo cambiato il modello predefinito
Whisper è fantastico, ma è stato progettato come modello generico. Gestisce più di 100 lingue, traduce, genera timestamp — un coltellino svizzero. Il compromesso è la velocità. Per la dettatura in inglese, dove vuoi solo vedere le parole sullo schermo il prima possibile, è troppo.
C'era una cosa che mi dava fastidio: usando la dettatura di sistema con il tasto Fn con Whisper, finire una frase di circa 1 minuto significava aspettare 3-5 secondi prima che la trascrizione comparisse. Quella pausa spezza il ritmo. Smetti di parlare, aspetti, fissi il cursore — e la magia della scrittura vocale svanisce.
Parakeet ha cambiato tutto. La velocità è tale che la trascrizione compare nell'istante in cui smetti di parlare. Parli, e le parole sono semplicemente lì. Una volta che provi quella sensazione — quel flusso continuo, senza alcuna attesa — è davvero difficile tornare a Whisper.
Quanto è veloce Parakeet V3?
I numeri parlano chiaro. Ecco un confronto reale con un file audio di 35 minuti sullo stesso Mac:
| Modello | Audio di 35 min |
|---|---|
| Whisper Large V3 Turbo | 3 minuti |
| Parakeet TDT 0.6B v3 | 18 secondi |
10 volte più veloce. E siccome il modello è più piccolo (600M contro 800M parametri), consuma meno memoria e meno batteria.
Cosa rende Parakeet v3 così veloce
Whisper ascolta l'audio come se leggessi un libro ad alta voce — parola per parola, frame per frame, senza mai saltare avanti. Anche durante i silenzi, continua a elaborare, a indovinare cosa viene dopo. È scrupoloso, ma lento.
Parakeet adotta un approccio radicalmente diverso. Comprime il segnale audio 8 volte prima di elaborarlo, così il modello vede solo ciò che conta. Poi, invece di passare in rassegna ogni singolo frame, predice non solo quale parola hai detto, ma quanto dura quella parola — e salta avanti. Silenzio? Saltato. Una vocale lunga? Una sola previsione invece di decine.
Il risultato è un modello che elabora il parlato come fa il tuo cervello — concentrandosi sulle parole e ignorando le pause. Ecco perché è 10 volte più veloce, con meno parametri e maggiore precisione.
Benchmark: Parakeet v3 vs Whisper
Parakeet v3 eguaglia o batte modelli 2-4 volte più grandi nei benchmark FLEURS, CoVoST e MLS
Nella classifica Open ASR di Hugging Face, Parakeet v3 è in cima con soli 600M parametri — meno della metà degli 1,55 miliardi di Whisper Large V3:
| Modello | Parametri | WER medio | Velocità (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
WER più basso = meno errori. RTFx più alto = più veloce. Parakeet vince su entrambi i fronti. Con 600M parametri, è anche il modello più piccolo della lista — il che significa che gira alla grande su Apple Silicon con un consumo minimo di memoria e batteria.
Basta allucinazioni
Se hai usato Whisper per la dettatura, probabilmente l'hai visto allucinare durante i silenzi — ripetendo frasi, inventando parole o tirando fuori un "Subtitles by Amara.org" dal nulla. Succede perché il decoder autoregressivo di Whisper si aspetta sempre di produrre testo, anche quando non c'è niente da trascrivere.
NVIDIA ha addestrato Parakeet su 36.000 ore di audio puramente non verbale (rumore di fondo, colpi di tosse, silenzio) abbinato a stringhe vuote. Il modello ha imparato come suona il silenzio e sta zitto. Per la dettatura di sistema in modalità "sempre attiva", è una svolta — niente più testo spazzatura quando fai una pausa per pensare.
Lingue supportate da Parakeet
Parakeet v3 supporta 25 lingue: bulgaro, croato, ceco, danese, olandese, inglese, estone, finlandese, francese, tedesco, greco, ungherese, italiano, lettone, lituano, maltese, polacco, portoghese, romeno, russo, slovacco, sloveno, spagnolo, svedese e ucraino.
Copre la maggior parte dell'Europa, ma non include cinese, giapponese, coreano, arabo o hindi. Per questo abbiamo mantenuto i modelli Whisper come opzioni scaricabili. Se detti in giapponese o mandarino, scegli Whisper Large V3 Turbo dal selettore modelli. Per inglese e lingue europee, Parakeet v3 è semplicemente il motore migliore.
Selettore modelli: Parakeet V3 (predefinito), Whisper Small e Whisper Large V3 Turbo — tutti in esecuzione locale
Selettore modelli in Whisper Notes
Apri le Impostazioni per cambiare modello:
- Parakeet V3 (predefinito) — Il più veloce, ideale per inglese e lingue europee
- Whisper Small — Leggero, oltre 100 lingue
- Whisper Large V3 Turbo — Il modello multilingue più preciso
Tutti i modelli girano al 100% in locale sul tuo Mac. Niente internet, niente cloud, nessun dato esce dal tuo dispositivo.
Provalo
Parakeet v3 è disponibile ora nella versione Mac — basta scaricare l'ultimo DMG. Se i riscontri saranno positivi, porteremo Parakeet anche nella versione iOS in un futuro aggiornamento.
Domande o suggerimenti? Scrivici a support@whispernotes.app.