Parakeet V3 a Mac alapértelmezett motorja — 10x gyorsabb mint a Whisper

2026. március 7.
·
6 min read
·Whisper Notes Team

Az 1.3.2-es verziótól kezdve a Whisper Notes for Mac alapértelmezett beszédmotorként az NVIDIA Parakeet TDT 0.6B-t használja. Angolra 10-szer gyorsabb, mint a Whisper Large V3 Turbo, és pontosabb is. Ha más nyelvekre van szükséged, a Whisper modellek továbbra is elérhetők.

Miért váltottunk alapértelmezést

A Whisper remek, de általános célú modellnek tervezték. Több mint 100 nyelvet kezel, fordít, időbélyegeket generál — egy igazi svájci bicska. Ennek ára a sebesség. Angol diktáláshoz, ahol csak azt akarod, hogy a szavak gyorsan megjelenjenek a képernyőn, túlzás.

Volt egy dolog, ami mindig zavart: amikor az Fn-billentyűs rendszerszintű diktálást használtam Whisperrel, egy kb. 1 perces beszéd után 3-5 másodpercet kellett várni, mire megjelent az átirat. Ez a szünet megtöri a flow-t. Abbahagyod a beszédet, vársz, bámulod a kurzort — tönkreteszi a hangalapú gépelés varázsát.

A Parakeet teljesen megváltoztatta ezt. Olyan gyors, hogy az átirat abban a pillanatban megjelenik, ahogy abbahagyod a beszédet. Beszélsz, és a szavak egyszerűen ott vannak. Ha egyszer megtapasztalod ezt az érzést — ezt a zökkenőmentes, nulla várakozású flow-t — nagyon nehéz visszamenni a Whisperhez.

Mennyire gyors a Parakeet V3?

A számok többet mondanak a szavaknál. Íme egy valós összehasonlítás egy 35 perces hangfájllal, ugyanazon a Mac-en:

Modell 35 perces hang
Whisper Large V3 Turbo 3 perc
Parakeet TDT 0.6B v3 18 másodperc

10-szer gyorsabb. És mivel a modell kisebb (600M vs 800M paraméter), kevesebb memóriát és akkumulátort is használ.

Mi teszi a Parakeet v3-at ilyen gyorssá

A Whisper úgy hallgatja a hangot, mint ahogy te olvasnál fel egy könyvet — szóról szóra, képkockáról képkockára, soha nem ugrik előre. Még csend közben is feldolgoz, találgatja, mi jön legközelebb. Ez alapos, de lassú.

A Parakeet alapvetően más megközelítést alkalmaz. A feldolgozás előtt 8-szorosára tömöríti a hangjelet, így a modell csak a lényeget látja. Aztán ahelyett, hogy minden egyes képkockán átrágná magát, nem csak azt jósolja meg, milyen szót mondtál, hanem azt is, meddig tart az a szó — és előreugrik. Csend? Teljesen átugorva. Hosszú magánhangzó? Egyetlen jóslat tucatok helyett.

Az eredmény egy olyan modell, ami úgy dolgozza fel a beszédet, ahogy az agyad — a szavakra fókuszál, a szüneteket figyelmen kívül hagyja. Ezért 10-szer gyorsabb kevesebb paraméterrel és magasabb pontossággal.

Benchmarkok: Parakeet v3 vs Whisper

Szóhibaarány összehasonlítás: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T több benchmark adatkészleten

A Parakeet v3 a FLEURS, CoVoST és MLS benchmarkokon felveszi a versenyt a nála 2-4-szer nagyobb modellekkel, vagy felülmúlja őket

A Hugging Face Open ASR Leaderboard-on a Parakeet v3 mindössze 600M paraméterrel vezeti a listát — ez kevesebb, mint a Whisper Large V3 1.55B-jének fele:

Modell Paraméterek Átl. WER Sebesség (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

Alacsonyabb WER = kevesebb hiba. Magasabb RTFx = gyorsabb. A Parakeet mindkettőben nyer. 600M paraméterrel a lista legkisebb modellje is egyben — ami azt jelenti, hogy gyönyörűen fut Apple Siliconon minimális memória- és akkumulátorhasználattal.

Nincs több halucináció

Ha használtad már a Whispert diktálásra, valószínűleg láttad, hogy csend közben hallucinál — mondatokat ismétel, szavakat talál ki, vagy a semmiből kidobja, hogy "Subtitles by Amara.org". Ez azért történik, mert a Whisper autoregresszív dekódere mindig szöveget akar produkálni, még akkor is, ha nincs mit átírni.

Az NVIDIA 36 000 órányi tiszta nem-beszéd hangon (háttérzaj, köhögés, csend) tanította a Parakeetet, üres szöveg célokkal. A modell megtanulta, hogyan hangzik a csend, és csendben marad. A "mindig aktív" rendszerszintű diktáláshoz ez forradalmi változás — nem jelenik meg többé szemét szöveg, amikor megállsz gondolkodni.

Milyen nyelveket támogat a Parakeet

A Parakeet v3 25 nyelvet támogat: bolgár, horvát, cseh, dán, holland, angol, észt, finn, francia, német, görög, magyar, olasz, lett, litván, máltai, lengyel, portugál, román, orosz, szlovák, szlovén, spanyol, svéd és ukrán.

Ez lefedi Európa nagy részét, de nem támogatja a kínait, japánt, koreait, arabot vagy hindit. Ezért tartottuk meg a Whisper modelleket letölthető opcióként. Ha japánul vagy mandarinul diktálsz, válaszd a Whisper Large V3 Turbo-t a modellválasztóból. Angolhoz és európai nyelvekhez a Parakeet v3 egyszerűen a jobb motor.

Whisper Notes Mac modellválasztó, ahol a Parakeet V3 az alapértelmezett, mellette a Whisper Small és Whisper Large V3 Turbo letölthető opciókként

Modellválasztó: Parakeet V3 (alapértelmezett), Whisper Small és Whisper Large V3 Turbo — mind helyben fut

Modellválasztó a Whisper Notes-ban

Nyisd meg a Beállításokat a modellek közötti váltáshoz:

  • Parakeet V3 (alapértelmezett) — A leggyorsabb, angolhoz és európai nyelvekhez a legjobb
  • Whisper Small — Könnyűsúlyú, 100+ nyelv
  • Whisper Large V3 Turbo — A legpontosabb többnyelvű modell

Minden modell 100%-ban helyben fut a Mac-eden. Nincs internet, nincs felhő, az adataid nem hagyják el az eszközödet.

Próbáld ki

A Parakeet v3 már elérhető a Mac verzióban — csak töltsd le a legújabb DMG-t. Ha a visszajelzések pozitívak lesznek, egy jövőbeli frissítésben az iOS verzióba is elhozzuk a Parakeetet.

Kérdésed vagy visszajelzésed van? Írj e-mailt: support@whispernotes.app.