Parakeet V3 vs Whisper: 10x szybszy, lepsza dokładność (Benchmark)

TL;DR

	Parakeet V3	Porównanie z Whisperem
Szybkość	10× vs Turbo; ~23× vs V3	Punkt odniesienia: Turbo / Large V3
Obsługiwane języki	25	ponad 100
Współczynnik błędów ang. (WER)	6,32%	Turbo 7,83%; V3 7,44%
Śr. wsp. błędów, 25 języków (WER)	12,0%	12,6%
Halucynacje	W naszych testach praktycznie żadnych na ciszy	Mogą pojawiać się na ciszy
Najlepszy do	Angielski i języki europejskie	Azjatyckie, arabski, ponad 100

* Szybkość: to samo 35-minutowe audio na Apple Silicon. Angielski WER: Hugging Face Open ASR Leaderboard. Średnia z 25 języków: benchmark FLEURS. Zachowanie na ciszy to nasza obserwacja produktowa, nie gwarancja zera błędów.

Od wersji 1.3.2 (Direct Download / DMG) Whisper Notes na Maca jest dostarczany z NVIDIA Parakeet TDT 0.6B jako domyślnym silnikiem mowy. Jest 10x szybszy niż Whisper Large V3 Turbo dla angielskiego i dokładniejszy. Modele Whisper są nadal dostępne, jeśli potrzebujesz innych języków.

Dlaczego zmieniliśmy domyślny model

Whisper jest świetny, ale został zaprojektowany jako model ogólnego przeznaczenia. Obsługuje ponad 100 języków, tłumaczy, generuje znaczniki czasu — prawdziwy scyzoryk szwajcarski. Kompromisem jest szybkość. Do dyktowania po angielsku, gdzie po prostu chcesz szybko zobaczyć słowa na ekranie, to przesada.

Oto co mnie naprawdę irytowało: kiedy używałem systemowego dyktowania klawiszem Fn z Whisperem, po około minutowej wypowiedzi musiałem czekać 3–5 sekund na pojawienie się transkrypcji. Ta pauza przerywa flow. Przestajesz mówić, czekasz, gapisz się na kursor — to zabija magię pisania głosem.

Parakeet zmienił to całkowicie. Szybkość jest tak duża, że tekst pojawia się w chwili, gdy przestajesz mówić. Mówisz, a słowa po prostu są. Kiedy raz doświadczysz tego uczucia — tego płynnego flow bez czekania — naprawdę trudno wrócić do Whispera.

Jak szybki jest Parakeet V3?

Liczby mówią więcej niż słowa. Oto rzeczywiste porównanie z użyciem 35-minutowego pliku audio na tym samym Macu:

Model	35 min audio
Whisper Large V3 Turbo	3 minuty
Parakeet TDT 0.6B v3	18 sekund

To 10x szybciej. A ponieważ model jest mniejszy (600 mln vs 800 mln parametrów), zużywa też mniej pamięci i mniej baterii.

Co sprawia, że Parakeet v3 jest tak szybki

Whisper słucha audio tak, jakbyś czytał książkę na głos — słowo po słowie, klatka po klatce, nigdy nie przeskakując do przodu. Nawet podczas ciszy wciąż przetwarza, wciąż zgaduje, co będzie dalej. Dokładne, ale wolne.

Parakeet podchodzi do tego fundamentalnie inaczej. Kompresuje sygnał audio 8x przed przetwarzaniem, więc model widzi tylko to, co istotne. Następnie, zamiast przedzierać się przez każdą klatkę, przewiduje nie tylko jakie słowo powiedziałeś, ale też jak długo to słowo trwa — i przeskakuje dalej. Cisza? Całkowicie pominięta. Długa samogłoska? Jedna predykcja zamiast dziesiątek.

Efektem jest model, który przetwarza mowę tak jak Twój mózg — skupia się na słowach, ignoruje przerwy. Dlatego jest 10x szybszy przy mniejszej liczbie parametrów i wyższej dokładności.

Benchmarki: Parakeet v3 vs Whisper

Porównanie współczynnika błędów słów: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T na wielu zbiorach benchmarkowych

Parakeet v3 dorównuje lub pokonuje modele 2–4x większe na benchmarkach FLEURS, CoVoST i MLS

Na Hugging Face Open ASR Leaderboard Parakeet v3 prowadzi z zaledwie 600 mln parametrów — mniej niż połowa z 1,55 mld Whisper Large V3:

Model	Parametry	Śr. WER	Szybkość (RTFx)
Parakeet TDT 0.6B v3	0,6 mld	6,32%	3333x
Canary 1B v2	1,0 mld	7,15%	749x
Whisper Large V3	1,55 mld	7,44%	146x
Whisper Large V3 Turbo	0,8 mld	7,83%	350x

Niższy WER = mniej błędów. Wyższy RTFx = szybciej. Parakeet wygrywa na obu frontach. Z 600 mln parametrów jest też najmniejszym modelem na tej liście — co oznacza, że pięknie działa na Apple Silicon z minimalnym zużyciem pamięci i baterii.

Wielojęzyczny WER: wszystkie 25 języków

Powyższy ranking dotyczy tylko angielskiego. Oto pełny obraz — jak trzy modele dostępne w Whisper Notes wypadają we wszystkich 25 językach obsługiwanych przez Parakeeta, mierzone na benchmarku FLEURS. Niższy WER = mniej błędów transkrypcji. Najlepsza wartość między Large V3 a Parakeet jest wyróżniona w każdym wierszu:

Język	Whisper Small	Whisper Large V3	Parakeet V3
Bułgarski	37.3	12.9	12.6
Chorwacki	33.4	11.1	12.5
Czeski	37.6	11.3	11.0
Duński	32.8	12.6	18.4
Niderlandzki	16.4	5.6	7.5
Angielski	6.1	4.3	4.9
Estoński	51.3	19.1	17.7
Fiński	24.0	7.7	13.2
Francuski	15.0	6.3	5.2
Niemiecki	10.2	4.3	5.0
Grecki	30.8	27.0	20.7
Węgierski	38.9	14.1	15.7
Włoski	9.8	2.3	3.0
Łotewski	53.2	18.3	22.8
Litewski	65.6	22.3	20.4
Maltański	92.2	68.9	20.5
Polski	14.7	4.7	7.3
Portugalski	7.3	3.7	4.8
Rumuński	29.8	8.2	12.4
Rosyjski	11.4	4.2	5.5
Słowacki	33.3	8.4	8.8
Słoweński	49.3	19.9	24.0
Hiszpański	5.6	3.1	3.5
Szwedzki	20.8	7.9	15.1
Ukraiński	19.3	6.5	6.8
Średnia	29.8	12.6	12.0

WER (%) na FLEURS. Dane Whisper Small z Radford et al.; dane Large V3 i Parakeet V3 z artykułu NVIDIA Canary-1B-v2.

Whisper Large V3 wygrywa w większości pojedynczych języków, ale Parakeet V3 jest blisko w średniej (12,0% vs 12,6%), prowadzi w greckim, francuskim, estońskim i maltańskim, a średni współczynnik błędów Whisper Small tnie o około 60%. Praktyczna przewaga to kombinacja: wielojęzyczna dokładność na poziomie Large V3 przy około 23× szybkości, mniejszy narzut środowiska uruchomieniowego i znacznie bardziej niezawodna obsługa ciszy w naszych testach dyktowania.

Dlaczego halucynuje mniej na ciszy

Jeśli używałeś Whispera do dyktowania, pewnie widziałeś, jak halucynuje podczas ciszy — powtarza frazy, wymyśla słowa albo ni stąd, ni zowąd wypluwa „Subtitles by Amara.org". Dzieje się tak, ponieważ autoregresyjny dekoder Whispera zawsze oczekuje, że ma produkować tekst, nawet gdy nie ma nic do transkrybowania.

Architektura transduktora w Parakeecie może emitować puste wyjścia, zamiast wymuszać token tekstowy. W naszych testach dyktowania systemowego sprawia to, że znacznie rzadziej niż Whisper wypełnia pauzę powtórzonym lub niezwiązanym tekstem. To wciąż model mowy, więc uczciwe stwierdzenie brzmi „znacznie rzadziej", a nie „nigdy".

Języki obsługiwane przez Parakeeta

Parakeet v3 obsługuje 25 języków: angielski, bułgarski, chorwacki, czeski, duński, estoński, fiński, francuski, grecki, hiszpański, litewski, łotewski, maltański, niderlandzki, niemiecki, polski, portugalski, rosyjski, rumuński, słowacki, słoweński, szwedzki, ukraiński, węgierski i włoski.

To pokrywa większość Europy, ale nie chiński, japoński, koreański, arabski ani hindi. Dla chińskiego, japońskiego, koreańskiego i kantońskiego wybierz SenseVoice; dla arabskiego, hindi i innych języków spoza zestawu Parakeeta użyj Whisper Large V3 Turbo.

Selektor modeli Whisper Notes na Maca pokazujący Parakeet V3, SenseVoice Small, Whisper Small i Whisper Large V3 Turbo

Selektor modeli: Parakeet V3 (domyślny), SenseVoice Small, Whisper Small i Whisper Large V3 Turbo — wszystkie działają lokalnie

Selektor modeli w Whisper Notes

Otwórz Ustawienia, żeby przełączać się między modelami:

Parakeet V3 (domyślny) — najszybszy, najlepszy dla angielskiego i języków europejskich
SenseVoice Small — najszybszy dla chińskiego, japońskiego, koreańskiego i kantońskiego
Whisper Small — lekki, ponad 100 języków
Whisper Large V3 Turbo — szerokie pokrycie ponad 100 języków

Wszystkie modele działają w 100% lokalnie na Twoim Macu. Bez internetu, bez chmury, żadne dane nie opuszczają Twojego urządzenia.

A co z Parakeet V2?

Jeśli korzystałeś z V2, pewnie zastanawiasz się, jak wypada w porównaniu. V2 to model wyłącznie do angielskiego — a jego dokładność w angielskim jest w zasadzie nieco lepsza niż V3 (WER 6,05% vs 6,32%). V3 zamienia tę drobną różnicę na obsługę 25 języków. Oba są znacznie dokładniejsze od Whispera.

	Parakeet V2	Parakeet V3	Whisper Large V3
WER (angielski)	6,05%	6,32%	7,44%
Języki	Tylko angielski	25	ponad 100

W skrócie: jeśli potrzebujesz tylko angielskiego, V2 i V3 są świetne. V3 jest domyślnym modelem w Whisper Notes, bo wielojęzyczność jest ważna dla większości użytkowników — a różnica w dokładności angielskiego jest pomijalna.

A co z WhisperKit?

WhisperKit to otwartoźródłowy framework Swift od Argmax do uruchamiania modeli Whisper na urządzeniach Apple. To narzędzie dla deweloperów, nie aplikacja dla użytkownika końcowego — i uruchamia Whispera, nie Parakeeta (który jest rodziną modeli NVIDIA). Jeśli chcesz transkrypcji na urządzeniu w stylu WhisperKit bez samodzielnego pisania Swifta, Whisper Notes pakuje tę samą ideę w gotową aplikację: Parakeet V3, Whisper Large V3 Turbo i SenseVoice, wszystkie działające lokalnie na Macu i iPhonie.

Porównujesz wszystkie lokalne opcje? Każdy działający na urządzeniu model mowy na tekst — warianty Whisper, Parakeet V3, SenseVoice i Voxtral — zestawiamy obok siebie na naszej stronie porównania modeli Whisper. Dopiero zaczynasz z Whisperem? Zacznij od przewodnika po transkrypcji Whisper — czym jest ten model, wszystkie sposoby jego uruchomienia i ile to kosztuje.

Najczęściej zadawane pytania

Czy Parakeet V3 jest lepszy od Whispera?

Dla angielskiego i języków europejskich — często tak. W naszym 35-minutowym teście Parakeet był 10× szybszy niż Whisper Turbo, a Open ASR Leaderboard podaje 6,32% WER dla angielskiego dla Parakeeta wobec 7,83% dla Turbo. Whisper wciąż obsługuje znacznie więcej języków: ponad 100 wobec 25 Parakeeta.

Jakie języki obsługuje Parakeet V3?

Parakeet V3 obsługuje 25 języków: angielski, bułgarski, chorwacki, czeski, duński, estoński, fiński, francuski, grecki, hiszpański, litewski, łotewski, maltański, niderlandzki, niemiecki, polski, portugalski, rosyjski, rumuński, słowacki, słoweński, szwedzki, ukraiński, węgierski i włoski.

Czy mogę uruchomić Parakeet V3 na Macu?

Tak. Whisper Notes na Maca dostarcza Parakeet V3 jako domyślny silnik. Działa w 100% lokalnie na Apple Silicon — bez internetu, bez chmury, żadne dane nie opuszczają urządzenia. Pobierz darmowy DMG z okresem próbnym, aby wypróbować.

Czy Parakeet V3 halucynuje jak Whisper?

W naszych testach ciszy znacznie rzadziej, ale żaden model mowy nie zasługuje na deklarację „nigdy". Parakeet może emitować puste wyjścia podczas pauz, podczas gdy autoregresyjny dekoder Whispera jest bardziej podatny na powtarzane frazy lub niezwiązany tekst przy cichym wejściu.

Parakeet V2 czy V3 — którego użyć?

Parakeet V2 obsługuje tylko angielski, z odrobinę lepszą dokładnością (6,05% vs 6,32% WER). V3 zamienia tę drobną różnicę na 25 języków europejskich i jest domyślny w Whisper Notes. Jeśli nie transkrybujesz wyłącznie angielskiego w pogoni za ostatnim ułamkiem procenta, używaj V3.

Czy Parakeet V3 obsługuje japoński, chiński lub koreański?

Nie — jego 25 języków to wyłącznie języki europejskie. Dla chińskiego, japońskiego, koreańskiego i kantońskiego Whisper Notes zawiera SenseVoice (52x szybszy niż Whisper dla CJK) oraz modele Whisper. Wszystkie działają offline zarówno na Macu, jak i na iPhonie.

Jak duży jest Parakeet V3?

600 milionów parametrów — pobieranie 465 MB, które podczas transkrypcji w naszej wersji na Maca używa około 800 MB pamięci. Whisper Large V3 Turbo to pobieranie około 1,6 GB i około 1,6 GB pamięci w tej samej aplikacji.

Wypróbuj

Parakeet v3 jest już dostępny w wersji na Maca — wystarczy pobrać najnowszy DMG. Aktualizacja: Parakeet jest teraz dostępny również w najnowszej wersji na iOS.

Pytania lub uwagi? Napisz na support@whispernotes.app.