SenseVoice: 52× szybsza transkrypcja chińskiego, japońskiego i koreańskiego na Mac

W SKRÓCIE — Porównanie trzech modeli Mac

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 min angielski	2,91s (103×)	5,8s (52×)	20,92s (14,3×)
27 min chiński	10,10s (161×)	13,83s (118×)	2 min 4s (13,1×)
Języki	25 (europejskich)	5 (zh, en, ja, ko, yue)	99+
Pobieranie	465 MB	827 MB	1,5 GB
Pamięć	~800 MB	~700 MB	~1,6 GB
Najlepszy do	Angielski & europejskie	Chiński, japoński, koreański, kantoński	Wszystko inne (99+ języków)

* Testy szybkości na Apple M4 Pro, 32 GB. 5-minutowy podcast po angielsku i 27-minutowy podcast po chińsku. Współczynnik czasu rzeczywistego = czas trwania audio ÷ czas przetwarzania (wyższy = szybszy). SenseVoice jest dostępny tylko na macOS. iOS używa Parakeet (przez ANE) i Whisper.

Od wersji 1.4.8, Whisper Notes dla Mac zawiera SenseVoice Small jako dedykowany silnik do transkrypcji chińskiego, japońskiego, koreańskiego i kantońskiego. Zastępuje Qwen3-ASR i działa na GPU Apple przez MLX zamiast CPU — przetwarzając 27-minutowy chiński podcast w 13,83 sekundy zamiast 3 minut i 44 sekund.

Dlaczego zastąpiliśmy Qwen3-ASR

Qwen3-ASR był solidnym modelem. Obsługiwał 30 języków plus 22 chińskie dialekty, a jego dokładność dla chińskiego była bliska najlepszym wynikom. Ale miał problem, który narastał z długością audio: szybkość.

Qwen3 używał architektury autoregresyjnej — tego samego podejścia co Whisper, przetwarzając audio klatka po klatce, nigdy nie przeskakując do przodu. Na 27-minutowym chińskim podkaście zajmowało to 73 sekundy. Użyteczne, ale dalekie od natychmiastowego wyniku, jaki Parakeet V3 zapewnia dla angielskiego.

Głębszym problemem była nasza infrastruktura. Nasza integracja Qwen3 korzystała z sherpa-onnx — biblioteki C z wrapperem Swift o 2 249 liniach, który kierował wszystko przez rdzenie CPU. GPU pozostawało bezczynne, podczas gdy CPU twojego Maca wykonywał całą pracę.

SenseVoice rozwiązał oba problemy. Nieavtoregresyjna architektura zapewniająca szybkość. Apple MLX dla akceleracji GPU. Rezultat: 16,2-krotne przyspieszenie na tym samym sprzęcie, z kodem zredukowanym z 2 249 do 288 linii.

Benchmark

Wszystkie trzy modele działają na tym samym Apple M4 Pro, te same pliki audio, te same warunki. Bez chmury. Bez internetu. Tylko krzem.

Model	5 min angielski	27 min chiński	Szybkość (RTFx)
Parakeet V3	2,91s	10,10s	103–161×
SenseVoice Small	5,8s	13,83s	52–118×
Whisper Large V3 Turbo	20,92s	2 min 4s	13–14×
Qwen3-ASR (usunięty)	—	73s	4,7×

SenseVoice jest mniej więcej o połowę wolniejszy od Parakeet V3 — ale wciąż nadzwyczajnie szybki. 27-minutowy podcast jest gotowy w mniej niż 14 sekund. Naciskasz transkrybuj, czekasz jeden oddech i tekst jest na ekranie.

Porównaj to z Whisper — 2 minuty i 4 sekundy, albo starym Qwen3 — 73 sekundy. Architektura ma większe znaczenie niż liczba parametrów.

Oficjalna tabela porównania szybkości inferencji z artykułu FunAudioLLM: SenseVoice-Small (70ms na 10s audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) — architektura modelu, parametry, obsługiwane języki, RTF i opóźnienie

Oficjalny benchmark inferencji z artykułu FunAudioLLM: SenseVoice-Small przetwarza 10s audio w 70ms (GPU A800). Whisper-Large-V3 potrzebuje 1 281ms. To 18-krotna różnica w czystym opóźnieniu inferencji.

Model	Czas ładowania	Pamięć	Rozmiar pobierania
Parakeet V3	0,77s	~800 MB	465 MB
SenseVoice Small	0,81s	~700 MB	827 MB
Whisper Small	1,03s	~487 MB	600 MB
Whisper Large V3 Turbo	3,18s	~1,6 GB	3 GB

* Czas ładowania i pamięć zmierzone na Apple M4 Pro, 32 GB.

SenseVoice ładuje się w mniej niż sekundę i zużywa mniej pamięci niż Parakeet. Na Macu z 8 GB działa komfortowo obok innych aplikacji.

Dlaczego SenseVoice jest szybszy: architektura + środowisko uruchomieniowe

Różnica w szybkości między Qwen3-ASR a SenseVoice wynika z dwóch niezależnych czynników.

Czynnik 1: Architektura modelu. Qwen3-ASR jest autoregresyjny — generuje tekst token po tokenie, każdy zależny od poprzedniego. SenseVoice używa nieavtoregresyjnego (NAR) enkodera, który przetwarza całe audio równolegle. Sama ta różnica architekturalna sprawia, że SenseVoice jest fundamentalnie szybszy, niezależnie od sprzętu.

Czynnik 2: Środowisko uruchomieniowe. Nasza integracja Qwen3-ASR używała sherpa-onnx, które działało na CPU. SenseVoice działa przez Apple MLX, kierując obliczenia na GPU. Czy Qwen3 mógłby też działać na MLX? Tak — ale wciąż byłby wolniejszy od SenseVoice, ponieważ wąskie gardło autoregresyjne tkwi w architekturze, nie w środowisku uruchomieniowym.

	Qwen3-ASR (stary)	SenseVoice (nowy)
Architektura	Autoregresyjna (token po tokenie)	Nieavtoregresyjna (równoległa)
Środowisko uruchomieniowe	sherpa-onnx (CPU)	Apple MLX (GPU)
27 min chiński	224 sekundy	13,83 sekundy
Łączne przyspieszenie	punkt odniesienia	16,2× szybciej
Kod źródłowy	Framework C 168 MB + 2 249 linii Swift	288 linii Swift Actor

* Ten sam 27-minutowy chiński podcast, Apple M4 Pro. Przyspieszenie 16,2× łączy ulepszenia zarówno architekturalne (NAR vs AR), jak i środowiska uruchomieniowego (GPU vs CPU).

Kod też się uprościł. Nowa implementacja SenseVoice to pojedynczy Swift Actor o 288 liniach, komunikujący się bezpośrednio z MLX i zastępujący framework C o rozmiarze 168 MB. Mniej kodu, mniej błędów, lżejsza aplikacja.

Pięć języków, zrobionych dobrze

SenseVoice nie próbuje robić wszystkiego. Obsługuje pięć języków:

Język	SenseVoice-Small	Whisper-Large-V3	Zwycięzca
Chiński (zh-CN)	10,78% CER	12,55% CER	SenseVoice (-14%)
Kantoński (yue)	7,09% CER	10,41% CER	SenseVoice (-32%)
Japoński (ja)	11,96% CER	10,34% CER	Whisper (nieznacznie)
Koreański (ko)	8,28% CER	5,59% CER	Whisper
Angielski (en)	14,71% WER	9,39% WER	Whisper (użyj Parakeet)

* Benchmark CommonVoice, CER = wskaźnik błędów znakowych, WER = wskaźnik błędów słownych. Niższy jest lepszy. Źródło: artykuł FunAudioLLM (2024). Opóźnienie inferencji SenseVoice-Small: 70ms na 10s audio (GPU A800), ponad 15× szybszy niż Whisper-Large-V3.

Porównanie dokładności SenseVoice vs Whisper na benchmarku CommonVoice dla chińskiego, kantońskiego, angielskiego, japońskiego, koreańskiego i 25 innych języków — wykres słupkowy WER/CER

Benchmark CommonVoice: SenseVoice-Small (żółty) vs Whisper-Small (niebieski) vs Whisper-Large-V3 (pomarańczowy). Niższy jest lepszy. Źródło: artykuł FunAudioLLM

Liczby opowiadają uczciwą historię. SenseVoice pokonuje Whisper pod względem dokładności dla chińskiego i kantońskiego ze znaczącą przewagą, podczas gdy Whisper jest dokładniejszy dla japońskiego, koreańskiego i angielskiego. Ale SenseVoice jest ponad 15× szybszy niż Whisper-Large-V3. Dla większości zastosowań w praktyce różnica w szybkości liczy się bardziej niż kilka punktów procentowych dokładności.

Wynik dla kantońskiego zasługuje na osobne wyróżnienie. Whisper-Small osiąga 38,97% CER na kantońskim — praktycznie bezużyteczny. Nawet Whisper-Large-V3 osiąga tylko 10,41%. SenseVoice osiąga 7,09%. Przed SenseVoice nie było dobrego sposobu na transkrypcję kantońskiego lokalnie na Macu. Jeśli mówisz po kantońsku, ten model powstał dla ciebie.

Wynik transkrypcji koreańskiego z SenseVoice w Whisper Notes dla Mac pokazujący dokładny tekst koreański z wideo

Transkrypcja koreańskiego z SenseVoice: import wideo z napisami z znacznikami czasu

Test w warunkach rzeczywistych: 27-minutowy chiński podcast

Przetransskrybowaliśmy 27-minutowy odcinek Thirteen Invitations (十三邀), chińskiego podcastu z wywiadami, zarówno za pomocą SenseVoice, jak i Whisper Large V3 Turbo na tym samym M4 Pro. ElevenLabs Scribe (chmura) posłużył jako punkt odniesienia. Oba modele działające na urządzeniu popełniają mniej więcej tyle samo błędów, ale różnego rodzaju:

	SenseVoice	Whisper Large V3
Czas	13,83s	2 min 4s
Błędy (próbka 5 min)	~15–20	~12–15
Najgorszy błąd	时差→食堂 (strefa czasowa→stołówka)	西昌→西藏 (miasto Xichang→Tybet, 4 000 km pomyłki)
Wzorzec błędów	Zamiany homofonów	Błędy geograficzne/faktyczne

* Porównanie ręczne z ElevenLabs Scribe (referencja chmurowa, również niedoskonała). Oba modele na urządzeniu poprawnie napisały «根深蒂固», gdzie Scribe popełnił błąd.

Porównywalna dokładność. 9× szybciej. Dla transkrypcji chińskiego w codziennym użyciu SenseVoice dostarcza użyteczny transkrypt, zanim Whisper skończy się ładować.

Kiedy użyć którego modelu

Whisper Notes dla Mac jest teraz dostarczany z czterema modelami mowy. Każdy jest zoptymalizowany do innych scenariuszy:

Potrzebujesz...	Użyj tego modelu	Dlaczego
Angielski lub języki europejskie, maksymalna szybkość	Parakeet V3	103× czas rzeczywisty, najniższy wskaźnik błędów. Domyślny.
Chiński, japoński, koreański lub kantoński	SenseVoice Small	52–118× czas rzeczywisty. Jedyny model z obsługą kantońskiego.
Którykolwiek z 99+ języków (arabski, tajski, rosyjski itp.)	Whisper Large V3 Turbo	Najszersze wsparcie językowe. Wolniejszy, ale uniwersalny.
Mniejsze zużycie pamięci (starsze Maki)	Whisper Small	487 MB pamięci. Dobry dla Maków z 8 GB i innymi otwartymi aplikacjami.

Wybór modelu w Whisper Notes Mac pokazujący Parakeet V3, SenseVoice Small, Whisper Small i Whisper Large V3 Turbo z rozmiarami pobierania i obsługą języków

Ustawienia → Model transkrypcji: wybierz odpowiedni silnik dla swojego języka

Selektor modeli w Ustawieniach pokazuje wszystkie cztery opcje z rozmiarami pobierania, liczbą języków i wymaganiami pamięciowymi. SenseVoice pobiera się przy pierwszym użyciu (~827 MB) i zostaje na twoim urządzeniu.

Ograniczenia

SenseVoice nie jest modelem uniwersalnym. Oto czego nie potrafi:

• Tylko 5 języków. Jeśli potrzebujesz tajskiego, rosyjskiego, arabskiego, hindi lub któregokolwiek z ponad 90 innych języków obsługiwanych przez Whisper, zostań przy Whisper.

• Tylko Mac. SenseVoice działa przez Apple MLX, który wymaga macOS. Nie jest dostępny na iPhone. Użytkownicy iOS mają Parakeet (dla języków europejskich) i Whisper.

• Osobliwość przy cichym dźwięku. Podczas bardzo krótkich lub bardzo cichych segmentów SenseVoice może czasem przełączyć się na wyjście po chińsku, niezależnie od wybranego języka. Ręczne ustawienie języka (zamiast «Auto») zmniejsza to zjawisko.

• Brak streamingu. W przeciwieństwie do trybu strumieniowego Whisper, SenseVoice przetwarza pełne audio po nagraniu. Dla długich plików automatycznie segmentuje w punktach ciszy i pokazuje wyniki stopniowo.

To ograniczenia architekturalne, nie błędy. Model wytrenowany na 5 językach opanowuje te 5 języków wyjątkowo dobrze. Obsługa 99+ języków przez Whisper wiąże się z niższą szybkością i wyższymi wskaźnikami błędów dla każdego indywidualnego języka.

Wypróbuj

SenseVoice jest dostępny w Whisper Notes dla Mac od wersji 1.4.8. Pobierz go w Ustawienia → Model transkrypcji → SenseVoice Small (~827 MB). Wymaga Maca z Apple Silicon (M1 lub nowszy).

Jeśli używasz Parakeet V3 i dyktujesz głównie po angielsku, nie musisz zmieniać. SenseVoice jest na wypadek, gdy potrzebujesz chińskiego, japońskiego, koreańskiego lub kantońskiego — i chcesz to szybko.

Pobierz na Maca

Pełny dziennik zmian: whispernotes.app/changelog

Pytania lub opinie: mac@whispernotes.app