SenseVoice: 52× brža transkripcija kineskog, japanskog i korejskog na Mac

12. svibnja 2026.
·
7 min read
·Whisper Notes Team

SAŽETAK — Usporedba tri Mac modela

Parakeet V3 SenseVoice Small Whisper Large V3 Turbo
5 min engleski 2,91 s (103×) 5,8 s (52×) 20,92 s (14,3×)
27 min kineski 10,10 s (161×) 13,83 s (118×) 2 min 4 s (13,1×)
Jezici 25 (europski) 5 (zh, en, ja, ko, yue) 99+
Preuzimanje 465 MB 827 MB 1,5 GB
Memorija ~800 MB ~700 MB ~1,6 GB
Najbolje za Engleski & europske jezike Kineski, japanski, korejski, kantonski Sve ostalo (99+ jezika)

* Testovi brzine na Apple M4 Pro, 32 GB. 5-minutni engleski podcast i 27-minutni kineski podcast. Faktor stvarnog vremena = trajanje zvuka ÷ vrijeme obrade (više = brže). SenseVoice je samo za macOS. iOS koristi Parakeet (putem ANE) i Whisper.

Počevši od verzije 1.4.8, Whisper Notes za Mac dolazi sa SenseVoice Small kao namjenskim motorom za transkripciju kineskog, japanskog, korejskog i kantonskog jezika. Zamjenjuje Qwen3-ASR i radi na Appleovom GPU-u putem MLX-a umjesto CPU-a — obrađuje 27-minutni kineski podcast za 13,83 sekunde umjesto 3 minute i 44 sekunde.

Zašto smo zamijenili Qwen3-ASR

Qwen3-ASR bio je solidan model. Podržavao je 30 jezika plus 22 kineska dijalekta, a njegova točnost u kineskom bila je blizu vrhunske razine. No imao je problem koji se pogoršavao s duljinom zvuka: brzina.

Qwen3 je koristio autoregresivnu arhitekturu — isti pristup kao Whisper, obrađujući zvuk okvir po okvir, nikad ne preskačući. Na 27-minutnom kineskom podcastu trebalo mu je 73 sekunde. Upotrebljivo, ali daleko od iskustva trenutnog rezultata koje Parakeet V3 nudi za engleski.

Dublji problem bila je naša infrastruktura. Naša integracija Qwen3 koristila je sherpa-onnx, C biblioteku s omotačem od 2.249 redaka u Swiftu koji je sve usmjeravao kroz CPU jezgre. GPU je bio neaktivan dok je CPU vašeg Maca radio sav posao.

SenseVoice je riješio oba problema. Neautoregresivna arhitektura za brzinu. Apple MLX za ubrzanje GPU-a. Rezultat: 16,2× poboljšanje brzine na istom hardveru, baza koda smanjena s 2.249 na 288 redaka.

Benchmark

Sva tri modela pokrenuta na istom Apple M4 Pro, iste audio datoteke, isti uvjeti. Bez oblaka. Bez interneta. Samo silicij.

Model 5 min engleski 27 min kineski Brzina (RTFx)
Parakeet V3 2,91 s 10,10 s 103–161×
SenseVoice Small 5,8 s 13,83 s 52–118×
Whisper Large V3 Turbo 20,92 s 2 min 4 s 13–14×
Qwen3-ASR (uklonjen) 73 s 4,7×

SenseVoice je otprilike upola sporiji od Parakeet V3 — ali i dalje iznimno brz. 27-minutni podcast završava za manje od 14 sekundi. Pritisnete transkripciju, pričekate jedan udah i tekst je tu.

Usporedite to s Whisperovim 2 minute i 4 sekunde ili starim Qwen3 od 73 sekunde. Arhitektura je važnija od broja parametara.

Službena tablica usporedbe brzine zaključivanja iz članka FunAudioLLM: SenseVoice-Small (70 ms za 10 s zvuka) naspram Whisper-Small (518 ms) naspram Whisper-Large-V3 (1281 ms) — arhitektura modela, parametri, podržani jezici, RTF i latencija

Službeni benchmark zaključivanja iz članka FunAudioLLM: SenseVoice-Small obrađuje 10 s zvuka za 70 ms (A800 GPU). Whisper-Large-V3 treba 1.281 ms. To je 18× razlika u sirovoj latenciji zaključivanja.

Model Vrijeme učitavanja Memorija Veličina preuzimanja
Parakeet V3 0,77 s ~800 MB 465 MB
SenseVoice Small 0,81 s ~700 MB 827 MB
Whisper Small 1,03 s ~487 MB 600 MB
Whisper Large V3 Turbo 3,18 s ~1,6 GB 3 GB

* Vrijeme učitavanja i memorija mjereni na Apple M4 Pro, 32 GB.

SenseVoice se učitava za manje od sekunde i koristi manje memorije od Parakeeta. Na 8 GB Macu radi ugodno uz vaše ostale aplikacije.

Zašto je SenseVoice brži: Arhitektura + Runtime

Razlika u brzini između Qwen3-ASR-a i SenseVoicea proizlazi iz dva neovisna čimbenika.

Čimbenik 1: Arhitektura modela. Qwen3-ASR je autoregresivan — generira tekstualne tokene jedan po jedan, svaki ovisi o prethodnom. SenseVoice koristi neautoregresivni (NAR) enkoder koji obrađuje cijeli zvuk paralelno. Sama ova arhitektonska razlika čini SenseVoice temeljno bržim, bez obzira na hardver.

Čimbenik 2: Runtime. Naša integracija Qwen3-ASR koristila je sherpa-onnx koji je radio na CPU-u. SenseVoice radi putem Apple MLX-a, usmjeravajući računanje na GPU. Bi li Qwen3 mogao raditi i na MLX-u? Da — ali bi i dalje bio sporiji od SenseVoicea jer je autoregresivno usko grlo u arhitekturi, a ne u runtimeu.

Qwen3-ASR (stari) SenseVoice (novi)
Arhitektura Autoregresivna (token po token) Neautoregresivna (paralelna)
Runtime sherpa-onnx (CPU) Apple MLX (GPU)
27 min kineski 224 sekunde 13,83 sekunde
Ukupno ubrzanje polazna točka 16,2× brže
Baza koda 168 MB C framework + 2.249 redaka Swift 288 redaka Swift Actor

* Isti 27-minutni kineski podcast, Apple M4 Pro. Ubrzanje od 16,2× kombinira i arhitektonska (NAR naspram AR) i runtime (GPU naspram CPU) poboljšanja.

Kod je također postao jednostavniji. Nova implementacija SenseVoicea je jedan Swift Actor od 288 redaka koji izravno komunicira s MLX-om, zamjenjujući C framework od 168 MB. Manje koda, manje grešaka, manja aplikacija.

Pet jezika, dobro odrađeno

SenseVoice ne pokušava raditi sve. Podržava pet jezika:

Jezik SenseVoice-Small Whisper-Large-V3 Pobjednik
Kineski (zh-CN) 10,78 % CER 12,55 % CER SenseVoice (-14 %)
Kantonski (yue) 7,09 % CER 10,41 % CER SenseVoice (-32 %)
Japanski (ja) 11,96 % CER 10,34 % CER Whisper (blago)
Korejski (ko) 8,28 % CER 5,59 % CER Whisper
Engleski (en) 14,71 % WER 9,39 % WER Whisper (koristite Parakeet)

* CommonVoice benchmark, CER = stopa pogreške znakova, WER = stopa pogreške riječi. Niže je bolje. Izvor: članak FunAudioLLM (2024). Latencija zaključivanja SenseVoice-Small: 70 ms za 10 s zvuka (A800 GPU), više od 15× brže od Whisper-Large-V3.

Usporedba točnosti SenseVoice naspram Whisper na CommonVoice benchmarku za kineski, kantonski, engleski, japanski, korejski i 25 drugih jezika — stupčasti grafikon WER/CER

CommonVoice benchmark: SenseVoice-Small (žuta) naspram Whisper-Small (plava) naspram Whisper-Large-V3 (narančasta). Niže je bolje. Izvor: članak FunAudioLLM

Brojevi pričaju poštenu priču. SenseVoice nadmašuje Whisper u točnosti kineskog i kantonskog s značajnom razlikom, dok je Whisper točniji za japanski, korejski i engleski. No SenseVoice je više od 15× brži od Whisper-Large-V3. Za većinu stvarne upotrebe, razlika u brzini važnija je od nekoliko postotnih bodova točnosti.

Rezultat za kantonski zaslužuje posebnu pozornost. Whisper-Small postiže 38,97 % CER za kantonski — gotovo neupotrebljivo. Čak i Whisper-Large-V3 postiže samo 10,41 %. SenseVoice postiže 7,09 %. Prije SenseVoicea nije postojao dobar način za lokalno transkribiranje kantonskog na Macu. Ako govorite kantonski, ovaj model postoji za vas.

Rezultat transkripcije korejskog pomoću SenseVoicea u Whisper Notes za Mac koji prikazuje točan korejski tekst iz videa

Transkripcija korejskog pomoću SenseVoicea: uvoz videa s titlovima s vremenskim oznakama

Test u stvarnom svijetu: 27-minutni kineski podcast

Transkribovali smo 27-minutnu epizodu Thirteen Invitations (十三邀), kineskog intervju podcasta, s SenseVoiceom i Whisper Large V3 Turbo na istom M4 Pro. ElevenLabs Scribe (oblak) služio je kao referenca. Oba modela na uređaju rade otprilike isti broj pogrešaka, ali različitih vrsta:

SenseVoice Whisper Large V3
Vrijeme 13,83 s 2 min 4 s
Pogreške (uzorak od 5 min) ~15–20 ~12–15
Najgora pogreška 时差→食堂 (vremenska razlika→kantina) 西昌→西藏 (grad Xichang→Tibet, 4.000 km pogreška)
Uzorak pogrešaka Zamjene homofona Geografske/činjenične pogreške

* Ručna usporedba s ElevenLabs Scribe (oblak referenca, također nesavršena). Oba modela na uređaju ispravno su napisala „根深蒂固" gdje je Scribe pogriješio.

Usporediva točnost. 9× brže. Za transkripciju kineskog u stvarnom svijetu, SenseVoice vam daje upotrebljiv transkript prije nego Whisper završi učitavanje.

Kada koristiti koji model

Whisper Notes za Mac sada dolazi s četiri govorna modela. Svaki je optimiziran za različite scenarije:

Trebate... Koristite ovaj model Zašto
Engleski ili europske jezike, maksimalnu brzinu Parakeet V3 103× stvarno vrijeme, najniža stopa pogreške. Zadano.
Kineski, japanski, korejski ili kantonski SenseVoice Small 52–118× stvarno vrijeme. Jedini model s podrškom za kantonski.
Bilo koji od 99+ jezika (arapski, tajlandski, ruski itd.) Whisper Large V3 Turbo Najšira jezična podrška. Sporiji ali univerzalan.
Manje korištenje memorije (stariji Macovi) Whisper Small 487 MB memorije. Dobro za 8 GB Macove s drugim aplikacijama.
Whisper Notes Mac odabir modela prikazuje Parakeet V3, SenseVoice Small, Whisper Small i Whisper Large V3 Turbo s veličinama preuzimanja i jezičnom podrškom

Postavke → Model transkripcije: odaberite pravi motor za svoj jezik

Odabir modela u Postavkama prikazuje sve četiri opcije s veličinama preuzimanja, brojem jezika i zahtjevima za memorijom. SenseVoice se preuzima pri prvom korištenju (~827 MB) i ostaje na vašem uređaju.

Kompromisi

SenseVoice nije univerzalni model. Evo što ne može:

Samo 5 jezika. Ako trebate tajlandski, ruski, arapski, hindski ili bilo koji od ostalih 90+ jezika koje Whisper podržava, ostanite na Whisperu.

Samo Mac. SenseVoice radi putem Apple MLX-a koji zahtijeva macOS. Nije dostupan na iPhoneu. Korisnici iOS-a imaju Parakeet (za europske jezike) i Whisper.

Problem s tihim zvukom. Tijekom vrlo kratkih ili vrlo tihih segmenata, SenseVoice se ponekad može vratiti na kineski izlaz bez obzira na odabrani jezik. Ručno postavljanje jezika (umjesto "Auto") smanjuje ovo.

Bez streaminga. Za razliku od Whisperovog streaming načina, SenseVoice obrađuje cijeli zvuk nakon snimanja. Za duge datoteke, automatski segmentira na točkama tišine i prikazuje rezultate postupno.

To su arhitektonska ograničenja, ne greške. Model treniran na 5 jezika izuzetno dobro radi tih 5 jezika. Whisperova podrška za 99+ jezika dolazi sa sporijim brzinama i višim stopama pogreške za bilo koji pojedinačni jezik.

Isprobajte

SenseVoice je dostupan u Whisper Notes za Mac verzija 1.4.8 i novija. Preuzmite ga iz Postavke → Model transkripcije → SenseVoice Small (~827 MB). Zahtijeva Apple Silicon Mac (M1 ili noviji).

Ako koristite Parakeet V3 i diktirate uglavnom na engleskom, nema potrebe za prebacivanjem. SenseVoice je za situacije kad vam treba kineski, japanski, korejski ili kantonski — i želite to brzo.

Preuzmi za Mac

Kompletna evidencija promjena: whispernotes.app/changelog

Pitanja ili povratne informacije: mac@whispernotes.app