TL;DR
| Parakeet V3 | Whisper Large V3 | |
|---|---|---|
| Sebesség | 10× | 1× |
| Támogatott nyelvek | 25 | 100+ |
| Angol hibaarány (WER) | 6.32% | 7.44% |
| Átl. hibaarány 25 nyelv (WER) | 12.0% | 12.6% |
| Hallucinációk | Nincs | Csend esetén |
| Legjobb | Angolra és európai ny. | Ázsiai, arab, 100+ |
* Sebesség: 35 perces hang, Apple Silicon. Angol WER: Open ASR Leaderboard. Átl. 25 nyelv: FLEURS benchmark.
Az 1.3.2-es verziótól kezdve a Whisper Notes for Mac alapértelmezett beszédmotorként az NVIDIA Parakeet TDT 0.6B-t használja. Angolra 10-szer gyorsabb, mint a Whisper Large V3 Turbo, és pontosabb is. Ha más nyelvekre van szükséged, a Whisper modellek továbbra is elérhetők.
Miért váltottunk alapértelmezést
A Whisper remek, de általános célú modellnek tervezték. Több mint 100 nyelvet kezel, fordít, időbélyegeket generál — egy igazi svájci bicska. Ennek ára a sebesség. Angol diktáláshoz, ahol csak azt akarod, hogy a szavak gyorsan megjelenjenek a képernyőn, túlzás.
Volt egy dolog, ami mindig zavart: amikor az Fn-billentyűs rendszerszintű diktálást használtam Whisperrel, egy kb. 1 perces beszéd után 3-5 másodpercet kellett várni, mire megjelent az átirat. Ez a szünet megtöri a flow-t. Abbahagyod a beszédet, vársz, bámulod a kurzort — tönkreteszi a hangalapú gépelés varázsát.
A Parakeet teljesen megváltoztatta ezt. Olyan gyors, hogy az átirat abban a pillanatban megjelenik, ahogy abbahagyod a beszédet. Beszélsz, és a szavak egyszerűen ott vannak. Ha egyszer megtapasztalod ezt az érzést — ezt a zökkenőmentes, nulla várakozású flow-t — nagyon nehéz visszamenni a Whisperhez.
Mennyire gyors a Parakeet V3?
A számok többet mondanak a szavaknál. Íme egy valós összehasonlítás egy 35 perces hangfájllal, ugyanazon a Mac-en:
| Modell | 35 perces hang |
|---|---|
| Whisper Large V3 Turbo | 3 perc |
| Parakeet TDT 0.6B v3 | 18 másodperc |
10-szer gyorsabb. És mivel a modell kisebb (600M vs 800M paraméter), kevesebb memóriát és akkumulátort is használ.
Mi teszi a Parakeet v3-at ilyen gyorssá
A Whisper úgy hallgatja a hangot, mint ahogy te olvasnál fel egy könyvet — szóról szóra, képkockáról képkockára, soha nem ugrik előre. Még csend közben is feldolgoz, találgatja, mi jön legközelebb. Ez alapos, de lassú.
A Parakeet alapvetően más megközelítést alkalmaz. A feldolgozás előtt 8-szorosára tömöríti a hangjelet, így a modell csak a lényeget látja. Aztán ahelyett, hogy minden egyes képkockán átrágná magát, nem csak azt jósolja meg, milyen szót mondtál, hanem azt is, meddig tart az a szó — és előreugrik. Csend? Teljesen átugorva. Hosszú magánhangzó? Egyetlen jóslat tucatok helyett.
Az eredmény egy olyan modell, ami úgy dolgozza fel a beszédet, ahogy az agyad — a szavakra fókuszál, a szüneteket figyelmen kívül hagyja. Ezért 10-szer gyorsabb kevesebb paraméterrel és magasabb pontossággal.
Benchmarkok: Parakeet v3 vs Whisper
A Parakeet v3 a FLEURS, CoVoST és MLS benchmarkokon felveszi a versenyt a nála 2-4-szer nagyobb modellekkel, vagy felülmúlja őket
A Hugging Face Open ASR Leaderboard-on a Parakeet v3 mindössze 600M paraméterrel vezeti a listát — ez kevesebb, mint a Whisper Large V3 1.55B-jének fele:
| Modell | Paraméterek | Átl. WER | Sebesség (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Alacsonyabb WER = kevesebb hiba. Magasabb RTFx = gyorsabb. A Parakeet mindkettőben nyer. 600M paraméterrel a lista legkisebb modellje is egyben — ami azt jelenti, hogy gyönyörűen fut Apple Siliconon minimális memória- és akkumulátorhasználattal.
Többnyelvű WER: Mind a 25 nyelv
A fenti ranglista csak az angolt fedi le. Itt a teljes kép — hogyan teljesít a Whisper Notes-ban elérhető három modell mind a 25 nyelven, amelyet a Parakeet támogat, a FLEURS benchmarkon mérve. Alacsonyabb WER = kevesebb átírási hiba. A Large V3 és a Parakeet közül a jobbat soronként kiemeljük:
| Nyelv | Whisper Small | Whisper Large V3 | Parakeet V3 |
|---|---|---|---|
| Bolgár | 37.3 | 12.9 | 12.6 |
| Horvát | 33.4 | 11.1 | 12.5 |
| Cseh | 37.6 | 11.3 | 11.0 |
| Dán | 32.8 | 12.6 | 18.4 |
| Holland | 16.4 | 5.6 | 7.5 |
| Angol | 6.1 | 4.3 | 4.9 |
| Észt | 51.3 | 19.1 | 17.7 |
| Finn | 24.0 | 7.7 | 13.2 |
| Francia | 15.0 | 6.3 | 5.2 |
| Német | 10.2 | 4.3 | 5.0 |
| Görög | 30.8 | 27.0 | 20.7 |
| Magyar | 38.9 | 14.1 | 15.7 |
| Olasz | 9.8 | 2.3 | 3.0 |
| Lett | 53.2 | 18.3 | 22.8 |
| Litván | 65.6 | 22.3 | 20.4 |
| Máltai | 92.2 | 68.9 | 20.5 |
| Lengyel | 14.7 | 4.7 | 7.3 |
| Portugál | 7.3 | 3.7 | 4.8 |
| Román | 29.8 | 8.2 | 12.4 |
| Orosz | 11.4 | 4.2 | 5.5 |
| Szlovák | 33.3 | 8.4 | 8.8 |
| Szlovén | 49.3 | 19.9 | 24.0 |
| Spanyol | 5.6 | 3.1 | 3.5 |
| Svéd | 20.8 | 7.9 | 15.1 |
| Ukrán | 19.3 | 6.5 | 6.8 |
| Átlag | 29.8 | 12.6 | 12.0 |
WER (%) a FLEURS benchmarkon. Whisper Small adatok: Radford et al.; Large V3 és Parakeet V3 adatok: NVIDIA Canary-1B-v2 cikk.
A Whisper Large V3 a legtöbb nyelvnél kicsit jobb — elvégre 2,5-szer nagyobb. De a Parakeet V3 átlagban tartja a lépést (12,0% vs 12,6%), a görögnél, franciánál, észtnél és máltainál egyértelműen nyer, és a Whisper Small-t mindenhol messze veri (átlagban 60%-kal kevesebb hiba). A lényeg nem egy tized százaléknyi WER-különbség — hanem az összcsomag: Large V3-szintű pontosság 23-szoros sebességgel, 40%-os memóriahasználattal, nulla hallucináció, és minden helyileg fut a Mac-eden.
Nincs több halucináció
Ha használtad már a Whispert diktálásra, valószínűleg láttad, hogy csend közben hallucinál — mondatokat ismétel, szavakat talál ki, vagy a semmiből kidobja, hogy "Subtitles by Amara.org". Ez azért történik, mert a Whisper autoregresszív dekódere mindig szöveget akar produkálni, még akkor is, ha nincs mit átírni.
Az NVIDIA 36 000 órányi tiszta nem-beszéd hangon (háttérzaj, köhögés, csend) tanította a Parakeetet, üres szöveg célokkal. A modell megtanulta, hogyan hangzik a csend, és csendben marad. A "mindig aktív" rendszerszintű diktáláshoz ez forradalmi változás — nem jelenik meg többé szemét szöveg, amikor megállsz gondolkodni.
Milyen nyelveket támogat a Parakeet
A Parakeet v3 25 nyelvet támogat: bolgár, horvát, cseh, dán, holland, angol, észt, finn, francia, német, görög, magyar, olasz, lett, litván, máltai, lengyel, portugál, román, orosz, szlovák, szlovén, spanyol, svéd és ukrán.
Ez lefedi Európa nagy részét, de nem támogatja a kínait, japánt, koreait, arabot vagy hindit. Ezért tartottuk meg a Whisper modelleket letölthető opcióként. Ha japánul vagy mandarinul diktálsz, válaszd a Whisper Large V3 Turbo-t a modellválasztóból. Angolhoz és európai nyelvekhez a Parakeet v3 egyszerűen a jobb motor.
Modellválasztó: Parakeet V3 (alapértelmezett), Whisper Small és Whisper Large V3 Turbo — mind helyben fut
Modellválasztó a Whisper Notes-ban
Nyisd meg a Beállításokat a modellek közötti váltáshoz:
- Parakeet V3 (alapértelmezett) — A leggyorsabb, angolhoz és európai nyelvekhez a legjobb
- Whisper Small — Könnyűsúlyú, 100+ nyelv
- Whisper Large V3 Turbo — A legpontosabb többnyelvű modell
Minden modell 100%-ban helyben fut a Mac-eden. Nincs internet, nincs felhő, az adataid nem hagyják el az eszközödet.
Mi a helyzet a Parakeet V2-vel?
Ha korábban a V2-t használtad, talán kíváncsi vagy az összehasonlításra. A V2 kizárólag angol nyelvű modell volt — és angol pontossága valójában kicsit jobb a V3-nál (WER 6,05 % vs 6,32 %). A V3 ezt a kis különbséget 25 nyelv támogatására cserélte. Mindkettő jóval pontosabb a Whispernél.
| Parakeet V2 | Parakeet V3 | Whisper Large V3 | |
|---|---|---|---|
| Angol WER | 6.05% | 6.32% | 7.44% |
| Nyelvek | Csak angol | 25 | 100+ |
Röviden: ha csak angolra van szükséged, mind a V2, mind a V3 kiváló. A V3 az alapértelmezett a Whisper Notes-ban, mert a többnyelvű támogatás a legtöbb felhasználó számára fontos — az angol pontosságbeli különbség elhanyagolható.
Próbáld ki
A Parakeet v3 már elérhető a Mac verzióban — csak töltsd le a legújabb DMG-t. (Frissítés: a Parakeet mostantól az iOS legújabb verziójában is elérhető.)
Kérdésed vagy visszajelzésed van? Írj e-mailt: support@whispernotes.app.