Az 1.3.2-es verziótól kezdve a Whisper Notes for Mac alapértelmezett beszédmotorként az NVIDIA Parakeet TDT 0.6B-t használja. Angolra 10-szer gyorsabb, mint a Whisper Large V3 Turbo, és pontosabb is. Ha más nyelvekre van szükséged, a Whisper modellek továbbra is elérhetők.
Miért váltottunk alapértelmezést
A Whisper remek, de általános célú modellnek tervezték. Több mint 100 nyelvet kezel, fordít, időbélyegeket generál — egy igazi svájci bicska. Ennek ára a sebesség. Angol diktáláshoz, ahol csak azt akarod, hogy a szavak gyorsan megjelenjenek a képernyőn, túlzás.
Volt egy dolog, ami mindig zavart: amikor az Fn-billentyűs rendszerszintű diktálást használtam Whisperrel, egy kb. 1 perces beszéd után 3-5 másodpercet kellett várni, mire megjelent az átirat. Ez a szünet megtöri a flow-t. Abbahagyod a beszédet, vársz, bámulod a kurzort — tönkreteszi a hangalapú gépelés varázsát.
A Parakeet teljesen megváltoztatta ezt. Olyan gyors, hogy az átirat abban a pillanatban megjelenik, ahogy abbahagyod a beszédet. Beszélsz, és a szavak egyszerűen ott vannak. Ha egyszer megtapasztalod ezt az érzést — ezt a zökkenőmentes, nulla várakozású flow-t — nagyon nehéz visszamenni a Whisperhez.
Mennyire gyors a Parakeet V3?
A számok többet mondanak a szavaknál. Íme egy valós összehasonlítás egy 35 perces hangfájllal, ugyanazon a Mac-en:
| Modell | 35 perces hang |
|---|---|
| Whisper Large V3 Turbo | 3 perc |
| Parakeet TDT 0.6B v3 | 18 másodperc |
10-szer gyorsabb. És mivel a modell kisebb (600M vs 800M paraméter), kevesebb memóriát és akkumulátort is használ.
Mi teszi a Parakeet v3-at ilyen gyorssá
A Whisper úgy hallgatja a hangot, mint ahogy te olvasnál fel egy könyvet — szóról szóra, képkockáról képkockára, soha nem ugrik előre. Még csend közben is feldolgoz, találgatja, mi jön legközelebb. Ez alapos, de lassú.
A Parakeet alapvetően más megközelítést alkalmaz. A feldolgozás előtt 8-szorosára tömöríti a hangjelet, így a modell csak a lényeget látja. Aztán ahelyett, hogy minden egyes képkockán átrágná magát, nem csak azt jósolja meg, milyen szót mondtál, hanem azt is, meddig tart az a szó — és előreugrik. Csend? Teljesen átugorva. Hosszú magánhangzó? Egyetlen jóslat tucatok helyett.
Az eredmény egy olyan modell, ami úgy dolgozza fel a beszédet, ahogy az agyad — a szavakra fókuszál, a szüneteket figyelmen kívül hagyja. Ezért 10-szer gyorsabb kevesebb paraméterrel és magasabb pontossággal.
Benchmarkok: Parakeet v3 vs Whisper
A Parakeet v3 a FLEURS, CoVoST és MLS benchmarkokon felveszi a versenyt a nála 2-4-szer nagyobb modellekkel, vagy felülmúlja őket
A Hugging Face Open ASR Leaderboard-on a Parakeet v3 mindössze 600M paraméterrel vezeti a listát — ez kevesebb, mint a Whisper Large V3 1.55B-jének fele:
| Modell | Paraméterek | Átl. WER | Sebesség (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Alacsonyabb WER = kevesebb hiba. Magasabb RTFx = gyorsabb. A Parakeet mindkettőben nyer. 600M paraméterrel a lista legkisebb modellje is egyben — ami azt jelenti, hogy gyönyörűen fut Apple Siliconon minimális memória- és akkumulátorhasználattal.
Nincs több halucináció
Ha használtad már a Whispert diktálásra, valószínűleg láttad, hogy csend közben hallucinál — mondatokat ismétel, szavakat talál ki, vagy a semmiből kidobja, hogy "Subtitles by Amara.org". Ez azért történik, mert a Whisper autoregresszív dekódere mindig szöveget akar produkálni, még akkor is, ha nincs mit átírni.
Az NVIDIA 36 000 órányi tiszta nem-beszéd hangon (háttérzaj, köhögés, csend) tanította a Parakeetet, üres szöveg célokkal. A modell megtanulta, hogyan hangzik a csend, és csendben marad. A "mindig aktív" rendszerszintű diktáláshoz ez forradalmi változás — nem jelenik meg többé szemét szöveg, amikor megállsz gondolkodni.
Milyen nyelveket támogat a Parakeet
A Parakeet v3 25 nyelvet támogat: bolgár, horvát, cseh, dán, holland, angol, észt, finn, francia, német, görög, magyar, olasz, lett, litván, máltai, lengyel, portugál, román, orosz, szlovák, szlovén, spanyol, svéd és ukrán.
Ez lefedi Európa nagy részét, de nem támogatja a kínait, japánt, koreait, arabot vagy hindit. Ezért tartottuk meg a Whisper modelleket letölthető opcióként. Ha japánul vagy mandarinul diktálsz, válaszd a Whisper Large V3 Turbo-t a modellválasztóból. Angolhoz és európai nyelvekhez a Parakeet v3 egyszerűen a jobb motor.
Modellválasztó: Parakeet V3 (alapértelmezett), Whisper Small és Whisper Large V3 Turbo — mind helyben fut
Modellválasztó a Whisper Notes-ban
Nyisd meg a Beállításokat a modellek közötti váltáshoz:
- Parakeet V3 (alapértelmezett) — A leggyorsabb, angolhoz és európai nyelvekhez a legjobb
- Whisper Small — Könnyűsúlyú, 100+ nyelv
- Whisper Large V3 Turbo — A legpontosabb többnyelvű modell
Minden modell 100%-ban helyben fut a Mac-eden. Nincs internet, nincs felhő, az adataid nem hagyják el az eszközödet.
Próbáld ki
A Parakeet v3 már elérhető a Mac verzióban — csak töltsd le a legújabb DMG-t. Ha a visszajelzések pozitívak lesznek, egy jövőbeli frissítésben az iOS verzióba is elhozzuk a Parakeetet.
Kérdésed vagy visszajelzésed van? Írj e-mailt: support@whispernotes.app.