A partir de la versió 1.3.2, Whisper Notes per a Mac ve amb NVIDIA Parakeet TDT 0.6B com a motor de reconeixement de veu per defecte. És 10x més ràpid que Whisper Large V3 Turbo per a anglès, i més precís. Els models Whisper continuen disponibles si necessiteu altres idiomes.
Per què hem canviat el model per defecte
Whisper està molt bé, però va ser dissenyat com un model de propòsit general. Gestiona més de 100 idiomes, tradueix, genera marques de temps — una navalla suïssa. El preu a pagar és la velocitat. Per al dictat en anglès, quan només vols que les paraules surtin a la pantalla ràpid, és excessiu.
Hi ha una cosa que em molestava: quan feia servir el dictat a tot el sistema amb la tecla Fn amb Whisper, acabar una frase d'~1 minut significava esperar 3–5 segons perquè aparegués la transcripció. Aquesta pausa trenca el ritme. Deixes de parlar, esperes, mires el cursor — mata la màgia d'escriure amb la veu.
Parakeet ho ha canviat completament. La velocitat és tan alta que la transcripció apareix a l'instant que deixes de parlar. Parles, i les paraules simplement hi són. Un cop experimentes aquesta sensació — aquest flux fluid, sense esperes — és molt difícil tornar a Whisper.
Com de ràpid és Parakeet V3?
Els números parlen més fort que les paraules. Aquí teniu una comparació real amb un fitxer d'àudio de 35 minuts al mateix Mac:
| Model | Àudio de 35 min |
|---|---|
| Whisper Large V3 Turbo | 3 minuts |
| Parakeet TDT 0.6B v3 | 18 segons |
10x més ràpid. I com que el model és més petit (600M vs 800M paràmetres), utilitza menys memòria i menys bateria.
Què fa que Parakeet v3 sigui tan ràpid
Whisper escolta l'àudio com si llegissis un llibre en veu alta — paraula per paraula, fotograma per fotograma, sense saltar-se res. Fins i tot durant el silenci, continua processant, endevinant què ve després. És minuciós, però lent.
Parakeet utilitza un enfocament fonamentalment diferent. Comprimeix el senyal d'àudio 8x abans de processar-lo, de manera que el model només veu el que importa. Després, en lloc de processar cada fotograma un per un, prediu no només quina paraula has dit, sinó quant dura — i salta endavant. Silenci? Saltat completament. Una vocal llarga? Una sola predicció en lloc de dotzenes.
El resultat és un model que processa la parla com ho fa el teu cervell — centrant-se en les paraules, ignorant els buits. Per això és 10x més ràpid amb menys paràmetres i més precisió.
Benchmarks: Parakeet v3 vs Whisper
Parakeet v3 iguala o supera models 2-4x més grans als benchmarks FLEURS, CoVoST i MLS
A la Hugging Face Open ASR Leaderboard, Parakeet v3 lidera la classificació amb només 600M paràmetres — menys de la meitat dels 1.55B de Whisper Large V3:
| Model | Paràmetres | WER Mitjà | Velocitat (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
WER més baix = menys errors. RTFx més alt = més ràpid. Parakeet guanya en tots dos. Amb 600M paràmetres, també és el model més petit de la llista — cosa que significa que funciona de meravella a Apple Silicon amb un consum mínim de memòria i bateria.
S'han acabat les al·lucinacions
Si heu fet servir Whisper per al dictat, segurament l'heu vist al·lucinar durant el silenci — repetint frases, inventant paraules, o escupint "Subtitles by Amara.org" del no-res. Això passa perquè el decodificador autoregressiu de Whisper sempre espera produir text, fins i tot quan no hi ha res a transcriure.
NVIDIA va entrenar Parakeet amb 36,000 hores d'àudio pur sense parla (soroll de fons, tossos, silenci) emparellat amb cadenes buides com a objectiu. El model va aprendre com sona el silenci i es queda callat. Per al dictat a tot el sistema sempre actiu, això és un canvi de joc — s'ha acabat el text brossa quan fas una pausa per pensar.
Idiomes que suporta Parakeet
Parakeet v3 suporta 25 idiomes: búlgar, croat, txec, danès, neerlandès, anglès, estonià, finlandès, francès, alemany, grec, hongarès, italià, letó, lituà, maltès, polonès, portuguès, romanès, rus, eslovac, eslovè, espanyol, suec i ucraïnès.
Això cobreix la major part d'Europa, però no suporta xinès, japonès, coreà, àrab ni hindi. Per això hem mantingut els models Whisper com a opcions descarregables. Si dicteu en japonès o mandarí, trieu Whisper Large V3 Turbo al selector de models. Per a anglès i idiomes europeus, Parakeet v3 és simplement el millor motor.
Selector de models: Parakeet V3 (per defecte), Whisper Small i Whisper Large V3 Turbo — tots funcionant localment
Selector de Models a Whisper Notes
Obriu Configuració per canviar entre models:
- Parakeet V3 (per defecte) — El més ràpid, ideal per a anglès i idiomes europeus
- Whisper Small — Lleuger, més de 100 idiomes
- Whisper Large V3 Turbo — El model multilingüe més precís
Tots els models funcionen 100% localment al vostre Mac. Sense internet, sense núvol, cap dada surt del vostre dispositiu.
Proveu-lo
Parakeet v3 ja està disponible a la versió Mac — només cal descarregar l'últim DMG. Si el feedback és positiu, portarem Parakeet a la versió iOS en una futura actualització.
Preguntes o comentaris? Escriviu a support@whispernotes.app.