Od wersji 1.3.2 Whisper Notes na Maca jest dostarczany z NVIDIA Parakeet TDT 0.6B jako domyslnym silnikiem mowy. Jest 10x szybszy niz Whisper Large V3 Turbo dla angielskiego i dokladniejszy. Modele Whisper sa nadal dostepne, jesli potrzebujesz innych jezykow.
Dlaczego zmienilismy domyslny model
Whisper jest swietny, ale zostal zaprojektowany jako model ogolnego przeznaczenia. Obsluguje ponad 100 jezykow, tlumaczy, generuje znaczniki czasowe — prawdziwy scyzoryk szwajcarski. Kompromisem jest predkosc. Do dyktowania po angielsku, gdzie po prostu chcesz szybko zobaczyc slowa na ekranie, to przesada.
Co mnie naprawde irytowalo: kiedy uzywalem systemowego dyktowania klawiszem Fn z Whisperem, po okolo minutowej wypowiedzi musialem czekac 3–5 sekund na pojawienie sie transkrypcji. Ta pauza przerywa flow. Przestajesz mowic, czekasz, gapisz sie na kursor — to zabija magie pisania glosem.
Parakeet zmienil to calkowicie. Predkosc jest tak duza, ze tekst pojawia sie w momencie, gdy przestajesz mowic. Mowisz, a slowa po prostu sa. Kiedy raz doswiadczysz tego uczucia — tego plynnego, bezoczekiwaniowego flow — naprawde trudno wrocic do Whispera.
Jak szybki jest Parakeet V3?
Liczby mowia wiecej niz slowa. Oto rzeczywiste porownanie z uzyciem 35-minutowego pliku audio na tym samym Macu:
| Model | 35 min audio |
|---|---|
| Whisper Large V3 Turbo | 3 minuty |
| Parakeet TDT 0.6B v3 | 18 sekund |
To 10x szybciej. A poniewaz model jest mniejszy (600M vs 800M parametrow), zuzywa tez mniej pamieci i mniej baterii.
Co sprawia, ze Parakeet v3 jest tak szybki
Whisper slucha audio tak, jakbys czytal ksiazke na glos — slowo po slowie, klatka po klatce, nigdy nie przeskakujac do przodu. Nawet podczas ciszy wciaz przetwarza, wciaz zgaduje, co bedzie dalej. Dokladne, ale wolne.
Parakeet podchodzi do tego fundamentalnie inaczej. Kompresuje sygnal audio 8x przed przetwarzaniem, wiec model widzi tylko to, co istotne. Nastepnie, zamiast przedzierac sie przez kazda klatke, przewiduje nie tylko jakie slowo powiedziales, ale tez jak dlugo to slowo trwa — i przeskakuje dalej. Cisza? Calkowicie pominieta. Dluga samogloska? Jedna predykcja zamiast dziesiatok.
Efektem jest model, ktory przetwarza mowe tak jak twoj mozg — skupia sie na slowach, ignoruje przerwy. Dlatego jest 10x szybszy, z mniejsza liczba parametrow i wyzsza dokladnoscia.
Benchmarki: Parakeet v3 vs Whisper
Parakeet v3 dorownuje lub pokonuje modele 2-4x wieksze na benchmarkach FLEURS, CoVoST i MLS
Na Hugging Face Open ASR Leaderboard Parakeet v3 prowadzi z zaledwie 600M parametrow — mniej niz polowa 1,55B Whisper Large V3:
| Model | Parametry | Sr. WER | Predkosc (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Nizszy WER = mniej bledow. Wyzszy RTFx = szybciej. Parakeet wygrywa na obu frontach. Z 600M parametrow jest tez najmniejszym modelem na liscie — co oznacza, ze pieknie dziala na Apple Silicon z minimalnym zuzyciem pamieci i baterii.
Koniec z halucynacjami
Jesli uzywales Whispera do dyktowania, pewnie widziales, jak halucynuje podczas ciszy — powtarza frazy, wymysla slowa albo ni stad, ni zowad wypluwac "Subtitles by Amara.org". Dzieje sie tak, poniewaz autoregresyjny dekoder Whispera zawsze oczekuje, ze ma produkowac tekst, nawet gdy nie ma nic do transkrybowania.
NVIDIA wytrenowala Parakeeta na 36 000 godzin czystego audio bez mowy (szumy tla, kaszel, cisza) sparowanego z pustymi lancuchami docelowymi. Model nauczyl sie, jak brzmi cisza, i milczy. Dla systemowego dyktowania dzialajacego caly czas to zmienia wszystko — koniec ze smieciowym tekstem, gdy robisz pauze na myslenie.
Jezyki obslugiwane przez Parakeeta
Parakeet v3 obsluguje 25 jezykow: angielski, bulgarsk, chorwacki, czeski, dunski, estonski, finski, francuski, grecki, hiszpanski, holenderski, litewski, lotewski, maltanski, niemiecki, polski, portugalski, rumunski, rosyjski, slowacki, slowenski, szwedzki, ukrainski, wegierski i wloski.
To pokrywa wiekszosc Europy, ale nie obsluguje chinskiego, japonskiego, koreanskiego, arabskiego ani hindi. Dlatego zachowalismy modele Whisper jako opcje do pobrania. Jesli dyktujesz po japonsku lub mandarynsku, wybierz Whisper Large V3 Turbo w selektorze modeli. Dla angielskiego i jezykow europejskich Parakeet v3 jest po prostu lepszym silnikiem.
Selektor modeli: Parakeet V3 (domyslny), Whisper Small i Whisper Large V3 Turbo — wszystkie dzialaja lokalnie
Selektor modeli w Whisper Notes
Otworz Ustawienia, zeby przelaczac miedzy modelami:
- Parakeet V3 (domyslny) — Najszybszy, najlepszy dla angielskiego i jezykow europejskich
- Whisper Small — Lekki, ponad 100 jezykow
- Whisper Large V3 Turbo — Najdokladniejszy model wielojezyczny
Wszystkie modele dzialaja w 100% lokalnie na Twoim Macu. Bez internetu, bez chmury, zadne dane nie opuszczaja Twojego urzadzenia.
Wyprobuj
Parakeet v3 jest juz dostepny w wersji na Maca — wystarczy pobrac najnowszy DMG. Jesli feedback bedzie pozytywny, przeniesiemy Parakeeta na wersje iOS w przyszlej aktualizacji.
Pytania lub feedback? Pisz na support@whispernotes.app.