Od verze 1.3.2 používá Whisper Notes pro Mac jako výchozí engine rozpoznávání řeči NVIDIA Parakeet TDT 0.6B. Je 10x rychlejší než Whisper Large V3 Turbo pro angličtinu a navíc přesnější. Modely Whisper jsou pořád dostupné, pokud potřebuješ jiné jazyky.
Proč jsme změnili výchozí model
Whisper je skvělý, ale byl navržený jako univerzální nástroj. Zvládá 100+ jazyků, překládá, generuje časové značky — takový švýcarský nůž. Daň za to je rychlost. Pro diktování v angličtině, kdy prostě chceš slova na obrazovce co nejrychleji, je to zbytečný kanón na vrabce.
Tady je to, co mě štvalo: při použití systémového diktování přes Fn s Whisperem po zhruba minutovém úseku člověk čekal 3–5 sekund, než se objevil přepis. Ta pauza rozbíjí flow. Přestaneš mluvit, čekáš, koukáš na kurzor — a kouzlo hlasového psaní je pryč.
Parakeet to kompletně změnil. Rychlost je tak vysoká, že přepis se objeví v okamžiku, kdy přestaneš mluvit. Mluvíš a slova tam prostě jsou. Jakmile tohle jednou zažiješ — ten plynulý, bezodkladný tok — zpátky na Whisper se vrací fakt těžko.
Jak rychlý je Parakeet V3?
Čísla mluví za vše. Tady je reálné srovnání na 35minutovém audio souboru na tom samém Macu:
| Model | 35 min audio |
|---|---|
| Whisper Large V3 Turbo | 3 minuty |
| Parakeet TDT 0.6B v3 | 18 sekund |
10x rychlejší. A protože je model menší (600M vs. 800M parametrů), spotřebuje i méně paměti a baterie.
Čím je Parakeet v3 tak rychlý
Whisper zpracovává audio stejně, jako bys četl knihu nahlas — slovo po slově, snímek po snímku, nikdy nepředbíhá. I během ticha pořád zpracovává a hádá, co přijde dál. Je to důkladné, ale pomalé.
Parakeet má zásadně jiný přístup. Před zpracováním zkomprimuje audio signál 8x, takže model vidí jen to podstatné. Pak, místo aby drtil každý jednotlivý snímek, předpovídá nejen jaké slovo jsi řekl, ale i jak dlouho to slovo trvá — a přeskočí dopředu. Ticho? Přeskočeno. Dlouhá samohláska? Jedna predikce místo desítek.
Výsledek je model, který zpracovává řeč tak, jako to dělá tvůj mozek — soustředí se na slova a ignoruje mezery. Proto je 10x rychlejší s menším počtem parametrů a vyšší přesností.
Benchmarky: Parakeet v3 vs. Whisper
Parakeet v3 vyrovná nebo překoná modely 2–4x větší na benchmarcích FLEURS, CoVoST a MLS
Na Hugging Face Open ASR Leaderboard vede Parakeet v3 žebříček s pouhými 600M parametry — to je méně než polovina 1.55B u Whisper Large V3:
| Model | Parametry | Průměrný WER | Rychlost (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Nižší WER = méně chyb. Vyšší RTFx = rychlejší. Parakeet vyhrává v obojím. S 600M parametry je to navíc nejmenší model v celém seznamu — což znamená, že na Apple Silicon běží krásně s minimální spotřebou paměti a baterie.
Žádné halucinace
Pokud jsi Whisper používal na diktování, pravděpodobně jsi viděl, jak během ticha halucinuje — opakuje fráze, vymýšlí slova nebo odněkud vyplivne „Subtitles by Amara.org". Děje se to proto, že autoregresivní dekodér Whisperu vždycky očekává, že vygeneruje text, i když není co přepisovat.
NVIDIA natrénovala Parakeet na 36 000 hodinách čistě neřečového audia (šum na pozadí, kašlání, ticho) s prázdnými řetězci jako cílovým textem. Model se naučil rozpoznat ticho a mlčet. Pro režim stálého systémového diktování je to zásadní změna — žádný nesmyslný text, když se zastavíš a přemýšlíš.
Jaké jazyky Parakeet podporuje
Parakeet v3 podporuje 25 jazyků: bulharštinu, chorvatštinu, češtinu, dánštinu, holandštinu, angličtinu, estonštinu, finštinu, francouzštinu, němčinu, řečtinu, maďarštinu, italštinu, lotyštinu, litevštinu, maltštinu, polštinu, portugalštinu, rumunštinu, ruštinu, slovenštinu, slovinštinu, španělštinu, švédštinu a ukrajinštinu.
To pokrývá většinu Evropy, ale nepodporuje čínštinu, japonštinu, korejštinu, arabštinu ani hindštinu. Proto jsme modely Whisper nechali jako volitelné ke stažení. Pokud diktuješ v japonštině nebo mandarínštině, vyber si Whisper Large V3 Turbo v přepínači modelů. Pro angličtinu a evropské jazyky je Parakeet v3 prostě lepší engine.
Přepínač modelů: Parakeet V3 (výchozí), Whisper Small a Whisper Large V3 Turbo — vše běží lokálně
Přepínač modelů ve Whisper Notes
Otevři Nastavení a přepínej mezi modely:
- Parakeet V3 (výchozí) — Nejrychlejší, nejlepší volba pro angličtinu a evropské jazyky
- Whisper Small — Lehký, 100+ jazyků
- Whisper Large V3 Turbo — Nejpřesnější vícejazyčný model
Všechny modely běží na 100 % lokálně na tvém Macu. Bez internetu, bez cloudu, žádná data neopouštějí tvoje zařízení.
Vyzkoušej to
Parakeet v3 je dostupný hned teď ve verzi pro Mac — stačí stáhnout nejnovější DMG. Pokud budou ohlasy pozitivní, přineseme Parakeet i do iOS verze v některém z budoucích updatů.
Otázky nebo zpětná vazba? Napiš na support@whispernotes.app.