Parakeet V3 vs Whisper: 10x gyorsabb, pontosabb (Benchmark)

2026. március 7.
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
Sebesség 10×
Támogatott nyelvek 25 100+
Angol hibaarány (WER) 6.32% 7.44%
Átl. hibaarány 25 nyelv (WER) 12.0% 12.6%
Hallucinációk Nincs Csend esetén
Legjobb Angolra és európai ny. Ázsiai, arab, 100+

* Sebesség: 35 perces hang, Apple Silicon. Angol WER: Open ASR Leaderboard. Átl. 25 nyelv: FLEURS benchmark.

Az 1.3.2-es verziótól kezdve a Whisper Notes for Mac alapértelmezett beszédmotorként az NVIDIA Parakeet TDT 0.6B-t használja. Angolra 10-szer gyorsabb, mint a Whisper Large V3 Turbo, és pontosabb is. Ha más nyelvekre van szükséged, a Whisper modellek továbbra is elérhetők.

Miért váltottunk alapértelmezést

A Whisper remek, de általános célú modellnek tervezték. Több mint 100 nyelvet kezel, fordít, időbélyegeket generál — egy igazi svájci bicska. Ennek ára a sebesség. Angol diktáláshoz, ahol csak azt akarod, hogy a szavak gyorsan megjelenjenek a képernyőn, túlzás.

Volt egy dolog, ami mindig zavart: amikor az Fn-billentyűs rendszerszintű diktálást használtam Whisperrel, egy kb. 1 perces beszéd után 3-5 másodpercet kellett várni, mire megjelent az átirat. Ez a szünet megtöri a flow-t. Abbahagyod a beszédet, vársz, bámulod a kurzort — tönkreteszi a hangalapú gépelés varázsát.

A Parakeet teljesen megváltoztatta ezt. Olyan gyors, hogy az átirat abban a pillanatban megjelenik, ahogy abbahagyod a beszédet. Beszélsz, és a szavak egyszerűen ott vannak. Ha egyszer megtapasztalod ezt az érzést — ezt a zökkenőmentes, nulla várakozású flow-t — nagyon nehéz visszamenni a Whisperhez.

Mennyire gyors a Parakeet V3?

A számok többet mondanak a szavaknál. Íme egy valós összehasonlítás egy 35 perces hangfájllal, ugyanazon a Mac-en:

Modell 35 perces hang
Whisper Large V3 Turbo 3 perc
Parakeet TDT 0.6B v3 18 másodperc

10-szer gyorsabb. És mivel a modell kisebb (600M vs 800M paraméter), kevesebb memóriát és akkumulátort is használ.

Mi teszi a Parakeet v3-at ilyen gyorssá

A Whisper úgy hallgatja a hangot, mint ahogy te olvasnál fel egy könyvet — szóról szóra, képkockáról képkockára, soha nem ugrik előre. Még csend közben is feldolgoz, találgatja, mi jön legközelebb. Ez alapos, de lassú.

A Parakeet alapvetően más megközelítést alkalmaz. A feldolgozás előtt 8-szorosára tömöríti a hangjelet, így a modell csak a lényeget látja. Aztán ahelyett, hogy minden egyes képkockán átrágná magát, nem csak azt jósolja meg, milyen szót mondtál, hanem azt is, meddig tart az a szó — és előreugrik. Csend? Teljesen átugorva. Hosszú magánhangzó? Egyetlen jóslat tucatok helyett.

Az eredmény egy olyan modell, ami úgy dolgozza fel a beszédet, ahogy az agyad — a szavakra fókuszál, a szüneteket figyelmen kívül hagyja. Ezért 10-szer gyorsabb kevesebb paraméterrel és magasabb pontossággal.

Benchmarkok: Parakeet v3 vs Whisper

Szóhibaarány összehasonlítás: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T több benchmark adatkészleten

A Parakeet v3 a FLEURS, CoVoST és MLS benchmarkokon felveszi a versenyt a nála 2-4-szer nagyobb modellekkel, vagy felülmúlja őket

A Hugging Face Open ASR Leaderboard-on a Parakeet v3 mindössze 600M paraméterrel vezeti a listát — ez kevesebb, mint a Whisper Large V3 1.55B-jének fele:

Modell Paraméterek Átl. WER Sebesség (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

Alacsonyabb WER = kevesebb hiba. Magasabb RTFx = gyorsabb. A Parakeet mindkettőben nyer. 600M paraméterrel a lista legkisebb modellje is egyben — ami azt jelenti, hogy gyönyörűen fut Apple Siliconon minimális memória- és akkumulátorhasználattal.

Többnyelvű WER: Mind a 25 nyelv

A fenti ranglista csak az angolt fedi le. Itt a teljes kép — hogyan teljesít a Whisper Notes-ban elérhető három modell mind a 25 nyelven, amelyet a Parakeet támogat, a FLEURS benchmarkon mérve. Alacsonyabb WER = kevesebb átírási hiba. A Large V3 és a Parakeet közül a jobbat soronként kiemeljük:

Nyelv Whisper Small Whisper Large V3 Parakeet V3
Bolgár 37.3 12.9 12.6
Horvát 33.4 11.1 12.5
Cseh 37.6 11.3 11.0
Dán 32.8 12.6 18.4
Holland 16.4 5.6 7.5
Angol 6.1 4.3 4.9
Észt 51.3 19.1 17.7
Finn 24.0 7.7 13.2
Francia 15.0 6.3 5.2
Német 10.2 4.3 5.0
Görög 30.8 27.0 20.7
Magyar 38.9 14.1 15.7
Olasz 9.8 2.3 3.0
Lett 53.2 18.3 22.8
Litván 65.6 22.3 20.4
Máltai 92.2 68.9 20.5
Lengyel 14.7 4.7 7.3
Portugál 7.3 3.7 4.8
Román 29.8 8.2 12.4
Orosz 11.4 4.2 5.5
Szlovák 33.3 8.4 8.8
Szlovén 49.3 19.9 24.0
Spanyol 5.6 3.1 3.5
Svéd 20.8 7.9 15.1
Ukrán 19.3 6.5 6.8
Átlag 29.8 12.6 12.0

WER (%) a FLEURS benchmarkon. Whisper Small adatok: Radford et al.; Large V3 és Parakeet V3 adatok: NVIDIA Canary-1B-v2 cikk.

A Whisper Large V3 a legtöbb nyelvnél kicsit jobb — elvégre 2,5-szer nagyobb. De a Parakeet V3 átlagban tartja a lépést (12,0% vs 12,6%), a görögnél, franciánál, észtnél és máltainál egyértelműen nyer, és a Whisper Small-t mindenhol messze veri (átlagban 60%-kal kevesebb hiba). A lényeg nem egy tized százaléknyi WER-különbség — hanem az összcsomag: Large V3-szintű pontosság 23-szoros sebességgel, 40%-os memóriahasználattal, nulla hallucináció, és minden helyileg fut a Mac-eden.

Nincs több halucináció

Ha használtad már a Whispert diktálásra, valószínűleg láttad, hogy csend közben hallucinál — mondatokat ismétel, szavakat talál ki, vagy a semmiből kidobja, hogy "Subtitles by Amara.org". Ez azért történik, mert a Whisper autoregresszív dekódere mindig szöveget akar produkálni, még akkor is, ha nincs mit átírni.

Az NVIDIA 36 000 órányi tiszta nem-beszéd hangon (háttérzaj, köhögés, csend) tanította a Parakeetet, üres szöveg célokkal. A modell megtanulta, hogyan hangzik a csend, és csendben marad. A "mindig aktív" rendszerszintű diktáláshoz ez forradalmi változás — nem jelenik meg többé szemét szöveg, amikor megállsz gondolkodni.

Milyen nyelveket támogat a Parakeet

A Parakeet v3 25 nyelvet támogat: bolgár, horvát, cseh, dán, holland, angol, észt, finn, francia, német, görög, magyar, olasz, lett, litván, máltai, lengyel, portugál, román, orosz, szlovák, szlovén, spanyol, svéd és ukrán.

Ez lefedi Európa nagy részét, de nem támogatja a kínait, japánt, koreait, arabot vagy hindit. Ezért tartottuk meg a Whisper modelleket letölthető opcióként. Ha japánul vagy mandarinul diktálsz, válaszd a Whisper Large V3 Turbo-t a modellválasztóból. Angolhoz és európai nyelvekhez a Parakeet v3 egyszerűen a jobb motor.

Whisper Notes Mac modellválasztó, ahol a Parakeet V3 az alapértelmezett, mellette a Whisper Small és Whisper Large V3 Turbo letölthető opciókként

Modellválasztó: Parakeet V3 (alapértelmezett), Whisper Small és Whisper Large V3 Turbo — mind helyben fut

Modellválasztó a Whisper Notes-ban

Nyisd meg a Beállításokat a modellek közötti váltáshoz:

  • Parakeet V3 (alapértelmezett) — A leggyorsabb, angolhoz és európai nyelvekhez a legjobb
  • Whisper Small — Könnyűsúlyú, 100+ nyelv
  • Whisper Large V3 Turbo — A legpontosabb többnyelvű modell

Minden modell 100%-ban helyben fut a Mac-eden. Nincs internet, nincs felhő, az adataid nem hagyják el az eszközödet.

Mi a helyzet a Parakeet V2-vel?

Ha korábban a V2-t használtad, talán kíváncsi vagy az összehasonlításra. A V2 kizárólag angol nyelvű modell volt — és angol pontossága valójában kicsit jobb a V3-nál (WER 6,05 % vs 6,32 %). A V3 ezt a kis különbséget 25 nyelv támogatására cserélte. Mindkettő jóval pontosabb a Whispernél.

Parakeet V2 Parakeet V3 Whisper Large V3
Angol WER 6.05% 6.32% 7.44%
Nyelvek Csak angol 25 100+

Röviden: ha csak angolra van szükséged, mind a V2, mind a V3 kiváló. A V3 az alapértelmezett a Whisper Notes-ban, mert a többnyelvű támogatás a legtöbb felhasználó számára fontos — az angol pontosságbeli különbség elhanyagolható.

Próbáld ki

A Parakeet v3 már elérhető a Mac verzióban — csak töltsd le a legújabb DMG-t. (Frissítés: a Parakeet mostantól az iOS legújabb verziójában is elérhető.)

Kérdésed vagy visszajelzésed van? Írj e-mailt: support@whispernotes.app.