Parakeet V3 vs Whisper: 10x rychlejší, vyšší přesnost (Benchmark)

7. března 2026
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
Rychlost 10×
Podporované jazyky 25 100+
Chybovost angličtiny (WER) 6.32% 7.44%
Prům. chybovost 25 jazyků (WER) 12.0% 12.6%
Halucinace Žádné Při tichu
Vhodné pro Angličtinu a evropské Asijské, arabštinu, 100+

* Rychlost: 35 min zvuku, Apple Silicon. Anglický WER: Open ASR Leaderboard. Prům. 25 jazyků: benchmark FLEURS.

Od verze 1.3.2 používá Whisper Notes pro Mac jako výchozí engine rozpoznávání řeči NVIDIA Parakeet TDT 0.6B. Je 10x rychlejší než Whisper Large V3 Turbo pro angličtinu a navíc přesnější. Modely Whisper jsou pořád dostupné, pokud potřebuješ jiné jazyky.

Proč jsme změnili výchozí model

Whisper je skvělý, ale byl navržený jako univerzální nástroj. Zvládá 100+ jazyků, překládá, generuje časové značky — takový švýcarský nůž. Daň za to je rychlost. Pro diktování v angličtině, kdy prostě chceš slova na obrazovce co nejrychleji, je to zbytečný kanón na vrabce.

Tady je to, co mě štvalo: při použití systémového diktování přes Fn s Whisperem po zhruba minutovém úseku člověk čekal 3–5 sekund, než se objevil přepis. Ta pauza rozbíjí flow. Přestaneš mluvit, čekáš, koukáš na kurzor — a kouzlo hlasového psaní je pryč.

Parakeet to kompletně změnil. Rychlost je tak vysoká, že přepis se objeví v okamžiku, kdy přestaneš mluvit. Mluvíš a slova tam prostě jsou. Jakmile tohle jednou zažiješ — ten plynulý, bezodkladný tok — zpátky na Whisper se vrací fakt těžko.

Jak rychlý je Parakeet V3?

Čísla mluví za vše. Tady je reálné srovnání na 35minutovém audio souboru na tom samém Macu:

Model 35 min audio
Whisper Large V3 Turbo 3 minuty
Parakeet TDT 0.6B v3 18 sekund

10x rychlejší. A protože je model menší (600M vs. 800M parametrů), spotřebuje i méně paměti a baterie.

Čím je Parakeet v3 tak rychlý

Whisper zpracovává audio stejně, jako bys četl knihu nahlas — slovo po slově, snímek po snímku, nikdy nepředbíhá. I během ticha pořád zpracovává a hádá, co přijde dál. Je to důkladné, ale pomalé.

Parakeet má zásadně jiný přístup. Před zpracováním zkomprimuje audio signál 8x, takže model vidí jen to podstatné. Pak, místo aby drtil každý jednotlivý snímek, předpovídá nejen jaké slovo jsi řekl, ale i jak dlouho to slovo trvá — a přeskočí dopředu. Ticho? Přeskočeno. Dlouhá samohláska? Jedna predikce místo desítek.

Výsledek je model, který zpracovává řeč tak, jako to dělá tvůj mozek — soustředí se na slova a ignoruje mezery. Proto je 10x rychlejší s menším počtem parametrů a vyšší přesností.

Benchmarky: Parakeet v3 vs. Whisper

Srovnání Word Error Rate: Parakeet TDT 0.6B v3 vs. Whisper Large V3 a Seamless M4T na více benchmarkových datasetech

Parakeet v3 vyrovná nebo překoná modely 2–4x větší na benchmarcích FLEURS, CoVoST a MLS

Na Hugging Face Open ASR Leaderboard vede Parakeet v3 žebříček s pouhými 600M parametry — to je méně než polovina 1.55B u Whisper Large V3:

Model Parametry Průměrný WER Rychlost (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

Nižší WER = méně chyb. Vyšší RTFx = rychlejší. Parakeet vyhrává v obojím. S 600M parametry je to navíc nejmenší model v celém seznamu — což znamená, že na Apple Silicon běží krásně s minimální spotřebou paměti a baterie.

Vícejazyčný WER: všech 25 jazyků

Tabulka výše se týká pouze angličtiny. Tady je kompletní obraz — jak si tři modely dostupné ve Whisper Notes vedou ve všech 25 jazycích, které Parakeet podporuje, měřeno na benchmarku FLEURS. Nižší WER = méně chyb přepisu. Nejlepší hodnota mezi Large V3 a Parakeet je zvýrazněna v každém řádku:

Jazyk Whisper Small Whisper Large V3 Parakeet V3
Bulharština 37.3 12.9 12.6
Chorvatština 33.4 11.1 12.5
Čeština 37.6 11.3 11.0
Dánština 32.8 12.6 18.4
Holandština 16.4 5.6 7.5
Angličtina 6.1 4.3 4.9
Estonština 51.3 19.1 17.7
Finština 24.0 7.7 13.2
Francouzština 15.0 6.3 5.2
Němčina 10.2 4.3 5.0
Řečtina 30.8 27.0 20.7
Maďarština 38.9 14.1 15.7
Italština 9.8 2.3 3.0
Lotyština 53.2 18.3 22.8
Litevština 65.6 22.3 20.4
Maltština 92.2 68.9 20.5
Polština 14.7 4.7 7.3
Portugalština 7.3 3.7 4.8
Rumunština 29.8 8.2 12.4
Ruština 11.4 4.2 5.5
Slovenština 33.3 8.4 8.8
Slovinština 49.3 19.9 24.0
Španělština 5.6 3.1 3.5
Švédština 20.8 7.9 15.1
Ukrajinština 19.3 6.5 6.8
Průměr 29.8 12.6 12.0

WER (%) na FLEURS. Data Whisper Small z Radford et al.; data Large V3 a Parakeet V3 z článku NVIDIA Canary-1B-v2.

Whisper Large V3 vede na většině jednotlivých jazyků — je koneckonců 2,5x větší. Ale Parakeet V3 se mu vyrovná v průměru (12,0 % vs. 12,6 %), rozhodně vítězí na řečtině, francouzštině, estonštině a maltštině a drtí Whisper Small po celé čáře (o 60 % méně chyb v průměru). Nejde o zlomek procenta WER — jde o celkový balík: přesnost na úrovni Large V3 při 23x vyšší rychlosti, se 40 % paměti, nula halucinací a vše běží lokálně na tvém Macu.

Žádné halucinace

Pokud jsi Whisper používal na diktování, pravděpodobně jsi viděl, jak během ticha halucinuje — opakuje fráze, vymýšlí slova nebo odněkud vyplivne „Subtitles by Amara.org". Děje se to proto, že autoregresivní dekodér Whisperu vždycky očekává, že vygeneruje text, i když není co přepisovat.

NVIDIA natrénovala Parakeet na 36 000 hodinách čistě neřečového audia (šum na pozadí, kašlání, ticho) s prázdnými řetězci jako cílovým textem. Model se naučil rozpoznat ticho a mlčet. Pro režim stálého systémového diktování je to zásadní změna — žádný nesmyslný text, když se zastavíš a přemýšlíš.

Jaké jazyky Parakeet podporuje

Parakeet v3 podporuje 25 jazyků: bulharštinu, chorvatštinu, češtinu, dánštinu, holandštinu, angličtinu, estonštinu, finštinu, francouzštinu, němčinu, řečtinu, maďarštinu, italštinu, lotyštinu, litevštinu, maltštinu, polštinu, portugalštinu, rumunštinu, ruštinu, slovenštinu, slovinštinu, španělštinu, švédštinu a ukrajinštinu.

To pokrývá většinu Evropy, ale nepodporuje čínštinu, japonštinu, korejštinu, arabštinu ani hindštinu. Proto jsme modely Whisper nechali jako volitelné ke stažení. Pokud diktuješ v japonštině nebo mandarínštině, vyber si Whisper Large V3 Turbo v přepínači modelů. Pro angličtinu a evropské jazyky je Parakeet v3 prostě lepší engine.

Přepínač modelů ve Whisper Notes pro Mac: Parakeet V3 jako výchozí, Whisper Small a Whisper Large V3 Turbo ke stažení

Přepínač modelů: Parakeet V3 (výchozí), Whisper Small a Whisper Large V3 Turbo — vše běží lokálně

Přepínač modelů ve Whisper Notes

Otevři Nastavení a přepínej mezi modely:

  • Parakeet V3 (výchozí) — Nejrychlejší, nejlepší volba pro angličtinu a evropské jazyky
  • Whisper Small — Lehký, 100+ jazyků
  • Whisper Large V3 Turbo — Nejpřesnější vícejazyčný model

Všechny modely běží na 100 % lokálně na tvém Macu. Bez internetu, bez cloudu, žádná data neopouštějí tvoje zařízení.

A co Parakeet V2?

Pokud jste používali V2, možná vás zajímá srovnání. V2 byl čistě anglický model — a jeho přesnost v angličtině je ve skutečnosti o trochu lepší než u V3 (WER 6,05 % vs 6,32 %). V3 tuto nepatrnou ztrátu vyměnil za podporu 25 jazyků. Oba jsou výrazně přesnější než Whisper.

Parakeet V2 Parakeet V3 Whisper Large V3
WER (angličtina) 6.05% 6.32% 7.44%
Jazyky Pouze angličtina 25 100+

Stručně: pokud potřebujete jen angličtinu, V2 i V3 jsou skvělé. V3 je výchozí ve Whisper Notes, protože vícejazyčná podpora je pro většinu uživatelů důležitá — a rozdíl v přesnosti angličtiny je zanedbatelný.

Vyzkoušej to

Parakeet v3 je dostupný hned teď ve verzi pro Mac — stačí stáhnout nejnovější DMG. (Aktualizace: Parakeet je nyní k dispozici i v nejnovější verzi pro iOS.)

Otázky nebo zpětná vazba? Napiš na support@whispernotes.app.