TL;DR
| Parakeet V3 | Whisper Large V3 | |
|---|---|---|
| Rýchlosť | 10× | 1× |
| Podporované jazyky | 25 | 100+ |
| Chybovosť angličtiny (WER) | 6.32% | 7.44% |
| Priem. chybovosť 25 jazykov (WER) | 12.0% | 12.6% |
| Halucinácie | Žiadne | Pri tichu |
| Vhodné pre | Angličtinu a európske | Ázijské, arabčinu, 100+ |
* Rýchlosť: 35 min zvuku, Apple Silicon. Anglický WER: Open ASR Leaderboard. Priem. 25 jazykov: benchmark FLEURS.
Od verzie 1.3.2 používa Whisper Notes pre Mac ako predvolený engine rozpoznávania reči NVIDIA Parakeet TDT 0.6B. Je 10x rýchlejší ako Whisper Large V3 Turbo pre angličtinu a navyše presnejší. Modely Whisper sú stále dostupné, ak potrebuješ iné jazyky.
Prečo sme zmenili predvolený model
Whisper je skvelý, ale bol navrhnutý ako univerzálny nástroj. Zvláda 100+ jazykov, prekladá, generuje časové značky — taký švajčiarsky nožík. Daňou za to je rýchlosť. Na diktovanie v angličtine, keď jednoducho chceš slová na obrazovke čo najrýchlejšie, je to zbytočne veľa.
Toto ma štvalo: pri používaní systémového diktovania cez Fn s Whisperom som po asi minútovom úseku čakal 3–5 sekúnd, kým sa objavil prepis. Tá pauza rozbíja flow. Prestaneš hovoriť, čakáš, pozeráš na kurzor — a kúzlo hlasového písania je preč.
Parakeet to úplne zmenil. Rýchlosť je taká vysoká, že prepis sa objaví v momente, keď prestaneš hovoriť. Hovoríš a slová tam jednoducho sú. Keď raz zažiješ ten pocit — plynulý, okamžitý tok bez čakania — vrátiť sa na Whisper je naozaj ťažké.
Aký rýchly je Parakeet V3?
Čísla hovoria za všetko. Tu je reálne porovnanie na 35-minútovom audio súbore na tom istom Macu:
| Model | 35 min audio |
|---|---|
| Whisper Large V3 Turbo | 3 minúty |
| Parakeet TDT 0.6B v3 | 18 sekúnd |
10x rýchlejšie. A keďže model je menší (600M vs. 800M parametrov), spotrebuje aj menej pamäte a batérie.
Čím je Parakeet v3 taký rýchly
Whisper spracováva audio rovnako, ako by si čítal knihu nahlas — slovo po slove, snímok po snímku, nikdy nepredbieha. Aj počas ticha stále spracováva a háda, čo príde ďalej. Je to dôkladné, ale pomalé.
Parakeet má zásadne odlišný prístup. Pred spracovaním skomprimuje audio signál 8x, takže model vidí len to podstatné. Potom, namiesto toho aby drvil každý jeden snímok, predpovedá nielen aké slovo si povedal, ale aj ako dlho to slovo trvá — a preskočí dopredu. Ticho? Preskočené. Dlhá samohláska? Jedna predikcia namiesto desiatok.
Výsledkom je model, ktorý spracováva reč tak, ako to robí tvoj mozog — sústreďuje sa na slová a ignoruje medzery. Preto je 10x rýchlejší s menším počtom parametrov a vyššou presnosťou.
Benchmarky: Parakeet v3 vs. Whisper
Parakeet v3 vyrovná alebo prekoná modely 2–4x väčšie na benchmarkoch FLEURS, CoVoST a MLS
Na Hugging Face Open ASR Leaderboard vedie Parakeet v3 rebríček s iba 600M parametrami — to je menej ako polovica z 1.55B u Whisper Large V3:
| Model | Parametre | Priemerný WER | Rýchlosť (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Nižší WER = menej chýb. Vyšší RTFx = rýchlejšie. Parakeet vyhráva v oboch. S 600M parametrami je to navyše najmenší model v celom zozname — čo znamená, že na Apple Silicon beží krásne s minimálnou spotrebou pamäte a batérie.
Viacjazyčný WER: všetkých 25 jazykov
Tabuľka vyššie sa týka iba angličtiny. Tu je kompletný obraz — ako si tri modely dostupné vo Whisper Notes vedú vo všetkých 25 jazykoch, ktoré Parakeet podporuje, merané na benchmarku FLEURS. Nižší WER = menej chýb prepisu. Najlepšia hodnota medzi Large V3 a Parakeet je zvýraznená v každom riadku:
| Jazyk | Whisper Small | Whisper Large V3 | Parakeet V3 |
|---|---|---|---|
| Bulharčina | 37.3 | 12.9 | 12.6 |
| Chorvátčina | 33.4 | 11.1 | 12.5 |
| Čeština | 37.6 | 11.3 | 11.0 |
| Dánčina | 32.8 | 12.6 | 18.4 |
| Holandčina | 16.4 | 5.6 | 7.5 |
| Angličtina | 6.1 | 4.3 | 4.9 |
| Estónčina | 51.3 | 19.1 | 17.7 |
| Fínčina | 24.0 | 7.7 | 13.2 |
| Francúzština | 15.0 | 6.3 | 5.2 |
| Nemčina | 10.2 | 4.3 | 5.0 |
| Gréčtina | 30.8 | 27.0 | 20.7 |
| Maďarčina | 38.9 | 14.1 | 15.7 |
| Taliančina | 9.8 | 2.3 | 3.0 |
| Lotyština | 53.2 | 18.3 | 22.8 |
| Litovčina | 65.6 | 22.3 | 20.4 |
| Maltčina | 92.2 | 68.9 | 20.5 |
| Poľština | 14.7 | 4.7 | 7.3 |
| Portugalčina | 7.3 | 3.7 | 4.8 |
| Rumunčina | 29.8 | 8.2 | 12.4 |
| Ruština | 11.4 | 4.2 | 5.5 |
| Slovenčina | 33.3 | 8.4 | 8.8 |
| Slovinčina | 49.3 | 19.9 | 24.0 |
| Španielčina | 5.6 | 3.1 | 3.5 |
| Švédčina | 20.8 | 7.9 | 15.1 |
| Ukrajinčina | 19.3 | 6.5 | 6.8 |
| Priemer | 29.8 | 12.6 | 12.0 |
WER (%) na FLEURS. Dáta Whisper Small z Radford et al.; dáta Large V3 a Parakeet V3 z článku NVIDIA Canary-1B-v2.
Whisper Large V3 vedie na väčšine jednotlivých jazykov — je predsa 2,5x väčší. Ale Parakeet V3 sa mu vyrovná v priemere (12,0 % vs. 12,6 %), rozhodne víťazí na gréčtine, francúzštine, estónčine a maltčine a drvivo poráža Whisper Small po celej čiare (o 60 % menej chýb v priemere). Nejde o zlomok percenta WER — ide o celkový balík: presnosť na úrovni Large V3 pri 23x vyššej rýchlosti, so 40 % pamäte, nula halucinácií a všetko beží lokálne na tvojom Macu.
Žiadne halucinácie
Ak si Whisper používal na diktovanie, pravdepodobne si videl, ako počas ticha halucinuje — opakuje frázy, vymýšľa slová alebo odniekiaľ vypľuje „Subtitles by Amara.org". Deje sa to preto, lebo autoregresívny dekodér Whisperu vždy očakáva, že vygeneruje text, aj keď nie je čo prepisovať.
NVIDIA natrénovala Parakeet na 36 000 hodinách čisto nerečového audia (šum na pozadí, kašľanie, ticho) s prázdnymi reťazcami ako cieľovým textom. Model sa naučil rozpoznať ticho a mlčať. Pre režim stáleho systémového diktovania je to zásadná zmena — žiaden nezmyselný text, keď sa zastavíš a premýšľaš.
Aké jazyky Parakeet podporuje
Parakeet v3 podporuje 25 jazykov: bulharčinu, chorvátčinu, češtinu, dánčinu, holandčinu, angličtinu, estónčinu, fínčinu, francúzštinu, nemčinu, gréčtinu, maďarčinu, taliančinu, lotyštinu, litovčinu, maltčinu, poľštinu, portugalčinu, rumunčinu, ruštinu, slovenčinu, slovinčinu, španielčinu, švédčinu a ukrajinčinu.
To pokrýva väčšinu Európy, ale nepodporuje čínštinu, japončinu, kórejčinu, arabčinu ani hindčinu. Preto sme modely Whisper nechali ako voliteľné na stiahnutie. Ak diktuješ v japončine alebo mandarínčine, vyber si Whisper Large V3 Turbo v prepínači modelov. Pre angličtinu a európske jazyky je Parakeet v3 jednoducho lepší engine.
Prepínač modelov: Parakeet V3 (predvolený), Whisper Small a Whisper Large V3 Turbo — všetko beží lokálne
Prepínač modelov vo Whisper Notes
Otvor Nastavenia a prepínaj medzi modelmi:
- Parakeet V3 (predvolený) — Najrýchlejší, najlepšia voľba pre angličtinu a európske jazyky
- Whisper Small — Ľahký, 100+ jazykov
- Whisper Large V3 Turbo — Najpresnejší viacjazyčný model
Všetky modely bežia na 100 % lokálne na tvojom Macu. Bez internetu, bez cloudu, žiadne dáta neopúšťajú tvoje zariadenie.
A čo Parakeet V2?
Ak ste používali V2, možno vás zaujíma porovnanie. V2 bol čisto anglický model — a jeho presnosť v angličtine je v skutočnosti o niečo lepšia ako u V3 (WER 6,05 % vs 6,32 %). V3 túto drobnú stratu vymenil za podporu 25 jazykov. Oba sú výrazne presnejšie ako Whisper.
| Parakeet V2 | Parakeet V3 | Whisper Large V3 | |
|---|---|---|---|
| WER (angličtina) | 6.05% | 6.32% | 7.44% |
| Jazyky | Iba angličtina | 25 | 100+ |
Stručne: ak potrebujete len angličtinu, V2 aj V3 sú skvelé. V3 je predvolený vo Whisper Notes, pretože viacjazyčná podpora je pre väčšinu používateľov dôležitá — a rozdiel v presnosti angličtiny je zanedbateľný.
Vyskúšaj to
Parakeet v3 je dostupný hneď teraz vo verzii pre Mac — stačí stiahnuť najnovší DMG. (Aktualizácia: Parakeet je teraz dostupný aj v najnovšej verzii pre iOS.)
Otázky alebo spätná väzba? Napíš na support@whispernotes.app.