TL;DR
| Parakeet V3 | Whisper Large V3 | |
|---|---|---|
| Rychlost | 10× | 1× |
| Podporované jazyky | 25 | 100+ |
| Chybovost angličtiny (WER) | 6.32% | 7.44% |
| Prům. chybovost 25 jazyků (WER) | 12.0% | 12.6% |
| Halucinace | Žádné | Při tichu |
| Vhodné pro | Angličtinu a evropské | Asijské, arabštinu, 100+ |
* Rychlost: 35 min zvuku, Apple Silicon. Anglický WER: Open ASR Leaderboard. Prům. 25 jazyků: benchmark FLEURS.
Od verze 1.3.2 používá Whisper Notes pro Mac jako výchozí engine rozpoznávání řeči NVIDIA Parakeet TDT 0.6B. Je 10x rychlejší než Whisper Large V3 Turbo pro angličtinu a navíc přesnější. Modely Whisper jsou pořád dostupné, pokud potřebuješ jiné jazyky.
Proč jsme změnili výchozí model
Whisper je skvělý, ale byl navržený jako univerzální nástroj. Zvládá 100+ jazyků, překládá, generuje časové značky — takový švýcarský nůž. Daň za to je rychlost. Pro diktování v angličtině, kdy prostě chceš slova na obrazovce co nejrychleji, je to zbytečný kanón na vrabce.
Tady je to, co mě štvalo: při použití systémového diktování přes Fn s Whisperem po zhruba minutovém úseku člověk čekal 3–5 sekund, než se objevil přepis. Ta pauza rozbíjí flow. Přestaneš mluvit, čekáš, koukáš na kurzor — a kouzlo hlasového psaní je pryč.
Parakeet to kompletně změnil. Rychlost je tak vysoká, že přepis se objeví v okamžiku, kdy přestaneš mluvit. Mluvíš a slova tam prostě jsou. Jakmile tohle jednou zažiješ — ten plynulý, bezodkladný tok — zpátky na Whisper se vrací fakt těžko.
Jak rychlý je Parakeet V3?
Čísla mluví za vše. Tady je reálné srovnání na 35minutovém audio souboru na tom samém Macu:
| Model | 35 min audio |
|---|---|
| Whisper Large V3 Turbo | 3 minuty |
| Parakeet TDT 0.6B v3 | 18 sekund |
10x rychlejší. A protože je model menší (600M vs. 800M parametrů), spotřebuje i méně paměti a baterie.
Čím je Parakeet v3 tak rychlý
Whisper zpracovává audio stejně, jako bys četl knihu nahlas — slovo po slově, snímek po snímku, nikdy nepředbíhá. I během ticha pořád zpracovává a hádá, co přijde dál. Je to důkladné, ale pomalé.
Parakeet má zásadně jiný přístup. Před zpracováním zkomprimuje audio signál 8x, takže model vidí jen to podstatné. Pak, místo aby drtil každý jednotlivý snímek, předpovídá nejen jaké slovo jsi řekl, ale i jak dlouho to slovo trvá — a přeskočí dopředu. Ticho? Přeskočeno. Dlouhá samohláska? Jedna predikce místo desítek.
Výsledek je model, který zpracovává řeč tak, jako to dělá tvůj mozek — soustředí se na slova a ignoruje mezery. Proto je 10x rychlejší s menším počtem parametrů a vyšší přesností.
Benchmarky: Parakeet v3 vs. Whisper
Parakeet v3 vyrovná nebo překoná modely 2–4x větší na benchmarcích FLEURS, CoVoST a MLS
Na Hugging Face Open ASR Leaderboard vede Parakeet v3 žebříček s pouhými 600M parametry — to je méně než polovina 1.55B u Whisper Large V3:
| Model | Parametry | Průměrný WER | Rychlost (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Nižší WER = méně chyb. Vyšší RTFx = rychlejší. Parakeet vyhrává v obojím. S 600M parametry je to navíc nejmenší model v celém seznamu — což znamená, že na Apple Silicon běží krásně s minimální spotřebou paměti a baterie.
Vícejazyčný WER: všech 25 jazyků
Tabulka výše se týká pouze angličtiny. Tady je kompletní obraz — jak si tři modely dostupné ve Whisper Notes vedou ve všech 25 jazycích, které Parakeet podporuje, měřeno na benchmarku FLEURS. Nižší WER = méně chyb přepisu. Nejlepší hodnota mezi Large V3 a Parakeet je zvýrazněna v každém řádku:
| Jazyk | Whisper Small | Whisper Large V3 | Parakeet V3 |
|---|---|---|---|
| Bulharština | 37.3 | 12.9 | 12.6 |
| Chorvatština | 33.4 | 11.1 | 12.5 |
| Čeština | 37.6 | 11.3 | 11.0 |
| Dánština | 32.8 | 12.6 | 18.4 |
| Holandština | 16.4 | 5.6 | 7.5 |
| Angličtina | 6.1 | 4.3 | 4.9 |
| Estonština | 51.3 | 19.1 | 17.7 |
| Finština | 24.0 | 7.7 | 13.2 |
| Francouzština | 15.0 | 6.3 | 5.2 |
| Němčina | 10.2 | 4.3 | 5.0 |
| Řečtina | 30.8 | 27.0 | 20.7 |
| Maďarština | 38.9 | 14.1 | 15.7 |
| Italština | 9.8 | 2.3 | 3.0 |
| Lotyština | 53.2 | 18.3 | 22.8 |
| Litevština | 65.6 | 22.3 | 20.4 |
| Maltština | 92.2 | 68.9 | 20.5 |
| Polština | 14.7 | 4.7 | 7.3 |
| Portugalština | 7.3 | 3.7 | 4.8 |
| Rumunština | 29.8 | 8.2 | 12.4 |
| Ruština | 11.4 | 4.2 | 5.5 |
| Slovenština | 33.3 | 8.4 | 8.8 |
| Slovinština | 49.3 | 19.9 | 24.0 |
| Španělština | 5.6 | 3.1 | 3.5 |
| Švédština | 20.8 | 7.9 | 15.1 |
| Ukrajinština | 19.3 | 6.5 | 6.8 |
| Průměr | 29.8 | 12.6 | 12.0 |
WER (%) na FLEURS. Data Whisper Small z Radford et al.; data Large V3 a Parakeet V3 z článku NVIDIA Canary-1B-v2.
Whisper Large V3 vede na většině jednotlivých jazyků — je koneckonců 2,5x větší. Ale Parakeet V3 se mu vyrovná v průměru (12,0 % vs. 12,6 %), rozhodně vítězí na řečtině, francouzštině, estonštině a maltštině a drtí Whisper Small po celé čáře (o 60 % méně chyb v průměru). Nejde o zlomek procenta WER — jde o celkový balík: přesnost na úrovni Large V3 při 23x vyšší rychlosti, se 40 % paměti, nula halucinací a vše běží lokálně na tvém Macu.
Žádné halucinace
Pokud jsi Whisper používal na diktování, pravděpodobně jsi viděl, jak během ticha halucinuje — opakuje fráze, vymýšlí slova nebo odněkud vyplivne „Subtitles by Amara.org". Děje se to proto, že autoregresivní dekodér Whisperu vždycky očekává, že vygeneruje text, i když není co přepisovat.
NVIDIA natrénovala Parakeet na 36 000 hodinách čistě neřečového audia (šum na pozadí, kašlání, ticho) s prázdnými řetězci jako cílovým textem. Model se naučil rozpoznat ticho a mlčet. Pro režim stálého systémového diktování je to zásadní změna — žádný nesmyslný text, když se zastavíš a přemýšlíš.
Jaké jazyky Parakeet podporuje
Parakeet v3 podporuje 25 jazyků: bulharštinu, chorvatštinu, češtinu, dánštinu, holandštinu, angličtinu, estonštinu, finštinu, francouzštinu, němčinu, řečtinu, maďarštinu, italštinu, lotyštinu, litevštinu, maltštinu, polštinu, portugalštinu, rumunštinu, ruštinu, slovenštinu, slovinštinu, španělštinu, švédštinu a ukrajinštinu.
To pokrývá většinu Evropy, ale nepodporuje čínštinu, japonštinu, korejštinu, arabštinu ani hindštinu. Proto jsme modely Whisper nechali jako volitelné ke stažení. Pokud diktuješ v japonštině nebo mandarínštině, vyber si Whisper Large V3 Turbo v přepínači modelů. Pro angličtinu a evropské jazyky je Parakeet v3 prostě lepší engine.
Přepínač modelů: Parakeet V3 (výchozí), Whisper Small a Whisper Large V3 Turbo — vše běží lokálně
Přepínač modelů ve Whisper Notes
Otevři Nastavení a přepínej mezi modely:
- Parakeet V3 (výchozí) — Nejrychlejší, nejlepší volba pro angličtinu a evropské jazyky
- Whisper Small — Lehký, 100+ jazyků
- Whisper Large V3 Turbo — Nejpřesnější vícejazyčný model
Všechny modely běží na 100 % lokálně na tvém Macu. Bez internetu, bez cloudu, žádná data neopouštějí tvoje zařízení.
A co Parakeet V2?
Pokud jste používali V2, možná vás zajímá srovnání. V2 byl čistě anglický model — a jeho přesnost v angličtině je ve skutečnosti o trochu lepší než u V3 (WER 6,05 % vs 6,32 %). V3 tuto nepatrnou ztrátu vyměnil za podporu 25 jazyků. Oba jsou výrazně přesnější než Whisper.
| Parakeet V2 | Parakeet V3 | Whisper Large V3 | |
|---|---|---|---|
| WER (angličtina) | 6.05% | 6.32% | 7.44% |
| Jazyky | Pouze angličtina | 25 | 100+ |
Stručně: pokud potřebujete jen angličtinu, V2 i V3 jsou skvělé. V3 je výchozí ve Whisper Notes, protože vícejazyčná podpora je pro většinu uživatelů důležitá — a rozdíl v přesnosti angličtiny je zanedbatelný.
Vyzkoušej to
Parakeet v3 je dostupný hned teď ve verzi pro Mac — stačí stáhnout nejnovější DMG. (Aktualizace: Parakeet je nyní k dispozici i v nejnovější verzi pro iOS.)
Otázky nebo zpětná vazba? Napiš na support@whispernotes.app.