Parakeet V3 jest teraz domyślnym silnikiem na Mac — 10x szybszy niż Whisper

7 marca 2026
·
6 min read
·Whisper Notes Team

Od wersji 1.3.2 Whisper Notes na Maca jest dostarczany z NVIDIA Parakeet TDT 0.6B jako domyslnym silnikiem mowy. Jest 10x szybszy niz Whisper Large V3 Turbo dla angielskiego i dokladniejszy. Modele Whisper sa nadal dostepne, jesli potrzebujesz innych jezykow.

Dlaczego zmienilismy domyslny model

Whisper jest swietny, ale zostal zaprojektowany jako model ogolnego przeznaczenia. Obsluguje ponad 100 jezykow, tlumaczy, generuje znaczniki czasowe — prawdziwy scyzoryk szwajcarski. Kompromisem jest predkosc. Do dyktowania po angielsku, gdzie po prostu chcesz szybko zobaczyc slowa na ekranie, to przesada.

Co mnie naprawde irytowalo: kiedy uzywalem systemowego dyktowania klawiszem Fn z Whisperem, po okolo minutowej wypowiedzi musialem czekac 3–5 sekund na pojawienie sie transkrypcji. Ta pauza przerywa flow. Przestajesz mowic, czekasz, gapisz sie na kursor — to zabija magie pisania glosem.

Parakeet zmienil to calkowicie. Predkosc jest tak duza, ze tekst pojawia sie w momencie, gdy przestajesz mowic. Mowisz, a slowa po prostu sa. Kiedy raz doswiadczysz tego uczucia — tego plynnego, bezoczekiwaniowego flow — naprawde trudno wrocic do Whispera.

Jak szybki jest Parakeet V3?

Liczby mowia wiecej niz slowa. Oto rzeczywiste porownanie z uzyciem 35-minutowego pliku audio na tym samym Macu:

Model 35 min audio
Whisper Large V3 Turbo 3 minuty
Parakeet TDT 0.6B v3 18 sekund

To 10x szybciej. A poniewaz model jest mniejszy (600M vs 800M parametrow), zuzywa tez mniej pamieci i mniej baterii.

Co sprawia, ze Parakeet v3 jest tak szybki

Whisper slucha audio tak, jakbys czytal ksiazke na glos — slowo po slowie, klatka po klatce, nigdy nie przeskakujac do przodu. Nawet podczas ciszy wciaz przetwarza, wciaz zgaduje, co bedzie dalej. Dokladne, ale wolne.

Parakeet podchodzi do tego fundamentalnie inaczej. Kompresuje sygnal audio 8x przed przetwarzaniem, wiec model widzi tylko to, co istotne. Nastepnie, zamiast przedzierac sie przez kazda klatke, przewiduje nie tylko jakie slowo powiedziales, ale tez jak dlugo to slowo trwa — i przeskakuje dalej. Cisza? Calkowicie pominieta. Dluga samogloska? Jedna predykcja zamiast dziesiatok.

Efektem jest model, ktory przetwarza mowe tak jak twoj mozg — skupia sie na slowach, ignoruje przerwy. Dlatego jest 10x szybszy, z mniejsza liczba parametrow i wyzsza dokladnoscia.

Benchmarki: Parakeet v3 vs Whisper

Porownanie wskaznika bledow slow: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T na wielu zbiorach benchmarkowych

Parakeet v3 dorownuje lub pokonuje modele 2-4x wieksze na benchmarkach FLEURS, CoVoST i MLS

Na Hugging Face Open ASR Leaderboard Parakeet v3 prowadzi z zaledwie 600M parametrow — mniej niz polowa 1,55B Whisper Large V3:

Model Parametry Sr. WER Predkosc (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

Nizszy WER = mniej bledow. Wyzszy RTFx = szybciej. Parakeet wygrywa na obu frontach. Z 600M parametrow jest tez najmniejszym modelem na liscie — co oznacza, ze pieknie dziala na Apple Silicon z minimalnym zuzyciem pamieci i baterii.

Koniec z halucynacjami

Jesli uzywales Whispera do dyktowania, pewnie widziales, jak halucynuje podczas ciszy — powtarza frazy, wymysla slowa albo ni stad, ni zowad wypluwac "Subtitles by Amara.org". Dzieje sie tak, poniewaz autoregresyjny dekoder Whispera zawsze oczekuje, ze ma produkowac tekst, nawet gdy nie ma nic do transkrybowania.

NVIDIA wytrenowala Parakeeta na 36 000 godzin czystego audio bez mowy (szumy tla, kaszel, cisza) sparowanego z pustymi lancuchami docelowymi. Model nauczyl sie, jak brzmi cisza, i milczy. Dla systemowego dyktowania dzialajacego caly czas to zmienia wszystko — koniec ze smieciowym tekstem, gdy robisz pauze na myslenie.

Jezyki obslugiwane przez Parakeeta

Parakeet v3 obsluguje 25 jezykow: angielski, bulgarsk, chorwacki, czeski, dunski, estonski, finski, francuski, grecki, hiszpanski, holenderski, litewski, lotewski, maltanski, niemiecki, polski, portugalski, rumunski, rosyjski, slowacki, slowenski, szwedzki, ukrainski, wegierski i wloski.

To pokrywa wiekszosc Europy, ale nie obsluguje chinskiego, japonskiego, koreanskiego, arabskiego ani hindi. Dlatego zachowalismy modele Whisper jako opcje do pobrania. Jesli dyktujesz po japonsku lub mandarynsku, wybierz Whisper Large V3 Turbo w selektorze modeli. Dla angielskiego i jezykow europejskich Parakeet v3 jest po prostu lepszym silnikiem.

Selektor modeli Whisper Notes na Maca pokazujacy Parakeet V3 jako domyslny, z Whisper Small i Whisper Large V3 Turbo jako opcjami do pobrania

Selektor modeli: Parakeet V3 (domyslny), Whisper Small i Whisper Large V3 Turbo — wszystkie dzialaja lokalnie

Selektor modeli w Whisper Notes

Otworz Ustawienia, zeby przelaczac miedzy modelami:

  • Parakeet V3 (domyslny) — Najszybszy, najlepszy dla angielskiego i jezykow europejskich
  • Whisper Small — Lekki, ponad 100 jezykow
  • Whisper Large V3 Turbo — Najdokladniejszy model wielojezyczny

Wszystkie modele dzialaja w 100% lokalnie na Twoim Macu. Bez internetu, bez chmury, zadne dane nie opuszczaja Twojego urzadzenia.

Wyprobuj

Parakeet v3 jest juz dostepny w wersji na Maca — wystarczy pobrac najnowszy DMG. Jesli feedback bedzie pozytywny, przeniesiemy Parakeeta na wersje iOS w przyszlej aktualizacji.

Pytania lub feedback? Pisz na support@whispernotes.app.