Od verzije 1.3.2, Whisper Notes za Mac koristi NVIDIA Parakeet TDT 0.6B kao zadani engine za prepoznavanje govora. 10x je brži od Whisper Large V3 Turbo za engleski i pritom precizniji. Whisper modeli su i dalje dostupni ako ti trebaju drugi jezici.
Zašto smo promijenili zadani model
Whisper je odličan, ali je dizajniran kao univerzalni alat. Podržava 100+ jezika, prevodi, generira vremenske oznake — pravi švicarski nožić. Cijena za to je brzina. Za diktiranje na engleskom, kad jednostavno želiš riječi na ekranu što brže, to je previše.
Evo što me smetalo: kad koristiš sistemsko diktiranje preko Fn tipke s Whisperom, nakon otprilike minutnog govora trebaš čekati 3–5 sekundi da se pojavi transkript. Ta pauza lomi ritam. Prestaneš govoriti, čekaš, gledaš u kursor — i čarolija glasovnog tipkanja nestane.
Parakeet je to potpuno promijenio. Brzina je toliko velika da se transkript pojavi u trenutku kad prestaneš govoriti. Govoriš i riječi su jednostavno tu. Kad jednom osjetiš to — taj bešavni tok bez čekanja — jako se teško vratiti na Whisper.
Koliko je brz Parakeet V3?
Brojke govore sve. Evo stvarne usporedbe na 35-minutnoj audio datoteci na istom Macu:
| Model | 35 min audio |
|---|---|
| Whisper Large V3 Turbo | 3 minute |
| Parakeet TDT 0.6B v3 | 18 sekundi |
10x brže. A budući da je model manji (600M naspram 800M parametara), troši i manje memorije i baterije.
Što Parakeet v3 čini tako brzim
Whisper obrađuje audio kao da čitaš knjigu naglas — riječ po riječ, okvir po okvir, nikad ne preskače unaprijed. Čak i tijekom tišine nastavlja obrađivati i pogađati što dolazi sljedeće. To je temeljito, ali sporo.
Parakeet ima fundamentalno drugačiji pristup. Komprimira audio signal 8x prije obrade, tako da model vidi samo ono što je bitno. Zatim, umjesto da melje svaki pojedinačni okvir, predviđa ne samo koju si riječ rekao, nego i koliko dugo ta riječ traje — i preskače naprijed. Tišina? Potpuno preskočena. Dugi samoglasnik? Jedna predikcija umjesto desetaka.
Rezultat je model koji obrađuje govor onako kako to radi tvoj mozak — fokusira se na riječi, ignorira praznine. Zato je 10x brži s manje parametara i višom preciznošću.
Benchmarkovi: Parakeet v3 vs. Whisper
Parakeet v3 izjednačuje ili nadmašuje modele 2-4x veće na benchmarkovima FLEURS, CoVoST i MLS
Na Hugging Face Open ASR Leaderboard ljestvici, Parakeet v3 je na vrhu sa samo 600M parametara — to je manje od polovice 1.55B koliko ima Whisper Large V3:
| Model | Parametri | Prosječni WER | Brzina (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Niži WER = manje grešaka. Viši RTFx = brže. Parakeet pobjeđuje u oboje. Sa 600M parametara, to je ujedno i najmanji model na cijelom popisu — što znači da prekrasno radi na Apple Siliconu s minimalnom potrošnjom memorije i baterije.
Nema više halucinacija
Ako si koristio Whisper za diktiranje, vjerojatno si vidio kako halucinira tijekom tišine — ponavlja fraze, izmišlja riječi ili iz ničega izbaci „Subtitles by Amara.org". To se događa jer autoregresivni dekoder Whispera uvijek očekuje da će generirati tekst, čak i kad nema ništa za transkribirati.
NVIDIA je trenirala Parakeet na 36 000 sati čistog negovornog audia (pozadinska buka, kašljanje, tišina) s praznim stringovima kao ciljnim tekstom. Model je naučio prepoznati tišinu i šutjeti. Za režim stalnog sistemskog diktiranja to je presudna promjena — nema više besmislenog teksta kad se zaustavljaš da razmisliš.
Koje jezike Parakeet podržava
Parakeet v3 podržava 25 jezika: bugarski, hrvatski, češki, danski, nizozemski, engleski, estonski, finski, francuski, njemački, grčki, mađarski, talijanski, latvijski, litvanski, malteški, poljski, portugalski, rumunjski, ruski, slovački, slovenski, španjolski, švedski i ukrajinski.
To pokriva veći dio Europe, ali ne podržava kineski, japanski, korejski, arapski ni hindi. Zato smo Whisper modele ostavili kao opcije za preuzimanje. Ako diktiraš na japanskom ili mandarinskom, odaberi Whisper Large V3 Turbo u izborniku modela. Za engleski i europske jezike, Parakeet v3 je jednostavno bolji engine.
Izbornik modela: Parakeet V3 (zadani), Whisper Small i Whisper Large V3 Turbo — sve radi lokalno
Izbornik modela u Whisper Notes
Otvori Postavke za prebacivanje između modela:
- Parakeet V3 (zadani) — Najbrži, najbolji izbor za engleski i europske jezike
- Whisper Small — Lagani, 100+ jezika
- Whisper Large V3 Turbo — Najprecizniji višejezični model
Svi modeli rade 100% lokalno na tvom Macu. Bez interneta, bez clouda, podaci ne napuštaju tvoj uređaj.
Isprobaj
Parakeet v3 je dostupan odmah u verziji za Mac — samo preuzmi najnoviji DMG. Ako povratne informacije budu pozitivne, donijeti ćemo Parakeet i u iOS verziju u nekom od budućih ažuriranja.
Pitanja ili povratne informacije? Piši na support@whispernotes.app.