Parakeet V3 è ora il motore predefinito su Mac — 10x più veloce di Whisper

7 marzo 2026
·
6 min read
·Whisper Notes Team

A partire dalla versione 1.3.2, Whisper Notes per Mac include NVIDIA Parakeet TDT 0.6B come motore di riconoscimento vocale predefinito. È 10 volte più veloce di Whisper Large V3 Turbo per l'inglese, e più preciso. I modelli Whisper restano disponibili se hai bisogno di altre lingue.

Perché abbiamo cambiato il modello predefinito

Whisper è fantastico, ma è stato progettato come modello generico. Gestisce più di 100 lingue, traduce, genera timestamp — un coltellino svizzero. Il compromesso è la velocità. Per la dettatura in inglese, dove vuoi solo vedere le parole sullo schermo il prima possibile, è troppo.

C'era una cosa che mi dava fastidio: usando la dettatura di sistema con il tasto Fn con Whisper, finire una frase di circa 1 minuto significava aspettare 3-5 secondi prima che la trascrizione comparisse. Quella pausa spezza il ritmo. Smetti di parlare, aspetti, fissi il cursore — e la magia della scrittura vocale svanisce.

Parakeet ha cambiato tutto. La velocità è tale che la trascrizione compare nell'istante in cui smetti di parlare. Parli, e le parole sono semplicemente . Una volta che provi quella sensazione — quel flusso continuo, senza alcuna attesa — è davvero difficile tornare a Whisper.

Quanto è veloce Parakeet V3?

I numeri parlano chiaro. Ecco un confronto reale con un file audio di 35 minuti sullo stesso Mac:

Modello Audio di 35 min
Whisper Large V3 Turbo 3 minuti
Parakeet TDT 0.6B v3 18 secondi

10 volte più veloce. E siccome il modello è più piccolo (600M contro 800M parametri), consuma meno memoria e meno batteria.

Cosa rende Parakeet v3 così veloce

Whisper ascolta l'audio come se leggessi un libro ad alta voce — parola per parola, frame per frame, senza mai saltare avanti. Anche durante i silenzi, continua a elaborare, a indovinare cosa viene dopo. È scrupoloso, ma lento.

Parakeet adotta un approccio radicalmente diverso. Comprime il segnale audio 8 volte prima di elaborarlo, così il modello vede solo ciò che conta. Poi, invece di passare in rassegna ogni singolo frame, predice non solo quale parola hai detto, ma quanto dura quella parola — e salta avanti. Silenzio? Saltato. Una vocale lunga? Una sola previsione invece di decine.

Il risultato è un modello che elabora il parlato come fa il tuo cervello — concentrandosi sulle parole e ignorando le pause. Ecco perché è 10 volte più veloce, con meno parametri e maggiore precisione.

Benchmark: Parakeet v3 vs Whisper

Confronto del tasso di errore per parola: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T su diversi dataset di riferimento

Parakeet v3 eguaglia o batte modelli 2-4 volte più grandi nei benchmark FLEURS, CoVoST e MLS

Nella classifica Open ASR di Hugging Face, Parakeet v3 è in cima con soli 600M parametri — meno della metà degli 1,55 miliardi di Whisper Large V3:

Modello Parametri WER medio Velocità (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER più basso = meno errori. RTFx più alto = più veloce. Parakeet vince su entrambi i fronti. Con 600M parametri, è anche il modello più piccolo della lista — il che significa che gira alla grande su Apple Silicon con un consumo minimo di memoria e batteria.

Basta allucinazioni

Se hai usato Whisper per la dettatura, probabilmente l'hai visto allucinare durante i silenzi — ripetendo frasi, inventando parole o tirando fuori un "Subtitles by Amara.org" dal nulla. Succede perché il decoder autoregressivo di Whisper si aspetta sempre di produrre testo, anche quando non c'è niente da trascrivere.

NVIDIA ha addestrato Parakeet su 36.000 ore di audio puramente non verbale (rumore di fondo, colpi di tosse, silenzio) abbinato a stringhe vuote. Il modello ha imparato come suona il silenzio e sta zitto. Per la dettatura di sistema in modalità "sempre attiva", è una svolta — niente più testo spazzatura quando fai una pausa per pensare.

Lingue supportate da Parakeet

Parakeet v3 supporta 25 lingue: bulgaro, croato, ceco, danese, olandese, inglese, estone, finlandese, francese, tedesco, greco, ungherese, italiano, lettone, lituano, maltese, polacco, portoghese, romeno, russo, slovacco, sloveno, spagnolo, svedese e ucraino.

Copre la maggior parte dell'Europa, ma non include cinese, giapponese, coreano, arabo o hindi. Per questo abbiamo mantenuto i modelli Whisper come opzioni scaricabili. Se detti in giapponese o mandarino, scegli Whisper Large V3 Turbo dal selettore modelli. Per inglese e lingue europee, Parakeet v3 è semplicemente il motore migliore.

Selettore modelli di Whisper Notes per Mac che mostra Parakeet V3 come predefinito, con Whisper Small e Whisper Large V3 Turbo come opzioni scaricabili

Selettore modelli: Parakeet V3 (predefinito), Whisper Small e Whisper Large V3 Turbo — tutti in esecuzione locale

Selettore modelli in Whisper Notes

Apri le Impostazioni per cambiare modello:

  • Parakeet V3 (predefinito) — Il più veloce, ideale per inglese e lingue europee
  • Whisper Small — Leggero, oltre 100 lingue
  • Whisper Large V3 Turbo — Il modello multilingue più preciso

Tutti i modelli girano al 100% in locale sul tuo Mac. Niente internet, niente cloud, nessun dato esce dal tuo dispositivo.

Provalo

Parakeet v3 è disponibile ora nella versione Mac — basta scaricare l'ultimo DMG. Se i riscontri saranno positivi, porteremo Parakeet anche nella versione iOS in un futuro aggiornamento.

Domande o suggerimenti? Scrivici a support@whispernotes.app.