Parakeet V3 vs Whisper: 10x més ràpid, millor precisió (Benchmark)

7 de març del 2026
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
Velocitat 10×
Idiomes compatibles 25 100+
Taxa d'error anglès (WER) 6.32% 7.44%
Taxa d'error mitjana 25 idiomes (WER) 12.0% 12.6%
Al·lucinacions Cap En silenci
Ideal per a Anglès i europeus Asiàtics, àrab, 100+

* Velocitat: àudio de 35 min a Apple Silicon. WER anglès: Open ASR Leaderboard. Mitjana 25 idiomes: benchmark FLEURS.

A partir de la versió 1.3.2, Whisper Notes per a Mac ve amb NVIDIA Parakeet TDT 0.6B com a motor de reconeixement de veu per defecte. És 10x més ràpid que Whisper Large V3 Turbo per a anglès, i més precís. Els models Whisper continuen disponibles si necessiteu altres idiomes.

Per què hem canviat el model per defecte

Whisper està molt bé, però va ser dissenyat com un model de propòsit general. Gestiona més de 100 idiomes, tradueix, genera marques de temps — una navalla suïssa. El preu a pagar és la velocitat. Per al dictat en anglès, quan només vols que les paraules surtin a la pantalla ràpid, és excessiu.

Hi ha una cosa que em molestava: quan feia servir el dictat a tot el sistema amb la tecla Fn amb Whisper, acabar una frase d'~1 minut significava esperar 3–5 segons perquè aparegués la transcripció. Aquesta pausa trenca el ritme. Deixes de parlar, esperes, mires el cursor — mata la màgia d'escriure amb la veu.

Parakeet ho ha canviat completament. La velocitat és tan alta que la transcripció apareix a l'instant que deixes de parlar. Parles, i les paraules simplement hi són. Un cop experimentes aquesta sensació — aquest flux fluid, sense esperes — és molt difícil tornar a Whisper.

Com de ràpid és Parakeet V3?

Els números parlen més fort que les paraules. Aquí teniu una comparació real amb un fitxer d'àudio de 35 minuts al mateix Mac:

Model Àudio de 35 min
Whisper Large V3 Turbo 3 minuts
Parakeet TDT 0.6B v3 18 segons

10x més ràpid. I com que el model és més petit (600M vs 800M paràmetres), utilitza menys memòria i menys bateria.

Què fa que Parakeet v3 sigui tan ràpid

Whisper escolta l'àudio com si llegissis un llibre en veu alta — paraula per paraula, fotograma per fotograma, sense saltar-se res. Fins i tot durant el silenci, continua processant, endevinant què ve després. És minuciós, però lent.

Parakeet utilitza un enfocament fonamentalment diferent. Comprimeix el senyal d'àudio 8x abans de processar-lo, de manera que el model només veu el que importa. Després, en lloc de processar cada fotograma un per un, prediu no només quina paraula has dit, sinó quant dura — i salta endavant. Silenci? Saltat completament. Una vocal llarga? Una sola predicció en lloc de dotzenes.

El resultat és un model que processa la parla com ho fa el teu cervell — centrant-se en les paraules, ignorant els buits. Per això és 10x més ràpid amb menys paràmetres i més precisió.

Benchmarks: Parakeet v3 vs Whisper

Comparació de la taxa d'error de paraules: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T en diversos conjunts de dades de referència

Parakeet v3 iguala o supera models 2-4x més grans als benchmarks FLEURS, CoVoST i MLS

A la Hugging Face Open ASR Leaderboard, Parakeet v3 lidera la classificació amb només 600M paràmetres — menys de la meitat dels 1.55B de Whisper Large V3:

Model Paràmetres WER Mitjà Velocitat (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER més baix = menys errors. RTFx més alt = més ràpid. Parakeet guanya en tots dos. Amb 600M paràmetres, també és el model més petit de la llista — cosa que significa que funciona de meravella a Apple Silicon amb un consum mínim de memòria i bateria.

WER multilingüe: els 25 idiomes

La taula de dalt només cobreix l'anglès. Aquí teniu la imatge completa — com els tres models disponibles a Whisper Notes es comparen als 25 idiomes que suporta Parakeet, mesurats al benchmark FLEURS. WER més baix = menys errors de transcripció. El millor valor entre Large V3 i Parakeet es ressalta per fila:

Idioma Whisper Small Whisper Large V3 Parakeet V3
Búlgar 37.3 12.9 12.6
Croat 33.4 11.1 12.5
Txec 37.6 11.3 11.0
Danès 32.8 12.6 18.4
Neerlandès 16.4 5.6 7.5
Anglès 6.1 4.3 4.9
Estonià 51.3 19.1 17.7
Finlandès 24.0 7.7 13.2
Francès 15.0 6.3 5.2
Alemany 10.2 4.3 5.0
Grec 30.8 27.0 20.7
Hongarès 38.9 14.1 15.7
Italià 9.8 2.3 3.0
Letó 53.2 18.3 22.8
Lituà 65.6 22.3 20.4
Maltès 92.2 68.9 20.5
Polonès 14.7 4.7 7.3
Portuguès 7.3 3.7 4.8
Romanès 29.8 8.2 12.4
Rus 11.4 4.2 5.5
Eslovac 33.3 8.4 8.8
Eslovè 49.3 19.9 24.0
Espanyol 5.6 3.1 3.5
Suec 20.8 7.9 15.1
Ucraïnès 19.3 6.5 6.8
Mitjana 29.8 12.6 12.0

WER (%) a FLEURS. Dades de Whisper Small de Radford et al.; dades de Large V3 i Parakeet V3 de l'article NVIDIA Canary-1B-v2.

Whisper Large V3 té avantatge a la majoria d'idiomes individuals — al cap i a la fi, és 2,5 vegades més gran. Però Parakeet V3 l'iguala en mitjana (12,0% vs 12,6%), guanya decisivament en grec, francès, estonià i maltès, i aplasta Whisper Small en tots els idiomes (60% menys errors en mitjana). La veritable història no és una fracció de percentatge en WER — és el paquet complet: precisió al nivell de Large V3 a 23 vegades la velocitat, amb el 40% de la memòria, zero al·lucinacions i tot executant-se localment al teu Mac.

S'han acabat les al·lucinacions

Si heu fet servir Whisper per al dictat, segurament l'heu vist al·lucinar durant el silenci — repetint frases, inventant paraules, o escupint "Subtitles by Amara.org" del no-res. Això passa perquè el decodificador autoregressiu de Whisper sempre espera produir text, fins i tot quan no hi ha res a transcriure.

NVIDIA va entrenar Parakeet amb 36,000 hores d'àudio pur sense parla (soroll de fons, tossos, silenci) emparellat amb cadenes buides com a objectiu. El model va aprendre com sona el silenci i es queda callat. Per al dictat a tot el sistema sempre actiu, això és un canvi de joc — s'ha acabat el text brossa quan fas una pausa per pensar.

Idiomes que suporta Parakeet

Parakeet v3 suporta 25 idiomes: búlgar, croat, txec, danès, neerlandès, anglès, estonià, finlandès, francès, alemany, grec, hongarès, italià, letó, lituà, maltès, polonès, portuguès, romanès, rus, eslovac, eslovè, espanyol, suec i ucraïnès.

Això cobreix la major part d'Europa, però no suporta xinès, japonès, coreà, àrab ni hindi. Per això hem mantingut els models Whisper com a opcions descarregables. Si dicteu en japonès o mandarí, trieu Whisper Large V3 Turbo al selector de models. Per a anglès i idiomes europeus, Parakeet v3 és simplement el millor motor.

Selector de models de Whisper Notes Mac mostrant Parakeet V3 per defecte, amb Whisper Small i Whisper Large V3 Turbo com a opcions descarregables

Selector de models: Parakeet V3 (per defecte), Whisper Small i Whisper Large V3 Turbo — tots funcionant localment

Selector de Models a Whisper Notes

Obriu Configuració per canviar entre models:

  • Parakeet V3 (per defecte) — El més ràpid, ideal per a anglès i idiomes europeus
  • Whisper Small — Lleuger, més de 100 idiomes
  • Whisper Large V3 Turbo — El model multilingüe més precís

Tots els models funcionen 100% localment al vostre Mac. Sense internet, sense núvol, cap dada surt del vostre dispositiu.

I Parakeet V2?

Si heu fet servir V2, potser us pregunteu com es compara. V2 era un model només per a anglès — i la seva precisió en anglès és de fet lleugerament millor que la de V3 (WER 6,05 % vs 6,32 %). V3 intercanvia aquest petit marge pel suport de 25 idiomes. Tots dos són molt més precisos que Whisper.

Parakeet V2 Parakeet V3 Whisper Large V3
WER anglès 6.05% 6.32% 7.44%
Idiomes Només anglès 25 100+

En resum: si només necessiteu anglès, V2 i V3 són excel·lents. V3 és el predeterminat a Whisper Notes perquè el suport multilingüe és important per a la majoria d'usuaris — i la diferència en la precisió de l'anglès és insignificant.

Proveu-lo

Parakeet v3 ja està disponible a la versió Mac — només cal descarregar l'últim DMG. (Actualització: Parakeet ja està disponible a l'última versió d'iOS.)

Preguntes o comentaris? Escriviu a support@whispernotes.app.