SenseVoice: 52× rýchlejší prepis čínštiny, japončiny a kórejčiny na Mac

ZHRNUTIE — Porovnanie troch modelov pre Mac

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 min angličtina	2,91 s (103×)	5,8 s (52×)	20,92 s (14,3×)
27 min čínština	10,10 s (161×)	13,83 s (118×)	2 min 4 s (13,1×)
Jazyky	25 (európske)	5 (zh, en, ja, ko, yue)	99+
Stiahnutie	465 MB	827 MB	1,5 GB
Pamäť	~800 MB	~700 MB	~1,6 GB
Najlepšie pre	Angličtinu & európske jazyky	Čínštinu, japončinu, kórejčinu, kantončinu	Všetko ostatné (99+ jazykov)

* Testy rýchlosti na Apple M4 Pro, 32 GB. 5-minútový anglický podcast a 27-minútový čínsky podcast. Faktor reálneho času = dĺžka audia ÷ čas spracovania (vyššie = rýchlejšie). SenseVoice je len pre macOS. iOS používa Parakeet (cez ANE) a Whisper.

Od verzie 1.4.8 obsahuje Whisper Notes pre Mac model SenseVoice Small ako špecializovaný engine na prepis čínštiny, japončiny, kórejčiny a kantončiny. Nahrádza Qwen3-ASR a beží na GPU Apple cez MLX namiesto CPU — 27-minútový čínsky podcast spracuje za 13,83 sekundy namiesto 3 minút a 44 sekúnd.

Prečo sme nahradili Qwen3-ASR

Qwen3-ASR bol solídny model. Podporoval 30 jazykov plus 22 čínskych dialektov a jeho presnosť v čínštine bola takmer na špičkovej úrovni. Mal ale problém, ktorý sa zhoršoval s dĺžkou audia: rýchlosť.

Qwen3 používal autoregresívnu architektúru — rovnaký prístup ako Whisper, spracovával audio snímok po snímku, nikdy nepreskočil dopredu. Na 27-minútovom čínskom podcaste trval 73 sekúnd. Použiteľné, ale nie ten zážitok okamžitého výsledku, ktorý Parakeet V3 ponúka pre angličtinu.

Hlbší problém bola naša infraštruktúra. Naša integrácia Qwen3 používala sherpa-onnx, knižnicu v C s 2 249-riadkovým Swift wrapperom, ktorý všetko smeroval cez jadrá CPU. GPU nečinne stálo, zatiaľ čo CPU vášho Macu robilo všetku prácu.

SenseVoice vyriešil oba problémy. Neautoregresívna architektúra pre rýchlosť. Apple MLX pre akceleráciu GPU. Výsledok: 16,2-násobné zrýchlenie na tom istom hardvéri, kódová základňa sa zmenšila z 2 249 riadkov na 288.

Benchmark

Všetky tri modely bežali na tom istom Apple M4 Pro, rovnaké audio súbory, rovnaké podmienky. Žiadny cloud. Žiadny internet. Len kremík.

Model	5 min angličtina	27 min čínština	Rýchlosť (RTFx)
Parakeet V3	2,91 s	10,10 s	103–161×
SenseVoice Small	5,8 s	13,83 s	52–118×
Whisper Large V3 Turbo	20,92 s	2 min 4 s	13–14×
Qwen3-ASR (odstránený)	—	73 s	4,7×

SenseVoice je približne polovičnou rýchlosťou oproti Parakeet V3 — stále však mimoriadne rýchly. 27-minútový podcast sa dokončí za menej ako 14 sekúnd. Stlačíte prepis, počkáte jeden nádych a text je tu.

Porovnajte to s Whisperom za 2 minúty a 4 sekundy alebo starým Qwen3 za 73 sekúnd. Na architektúre záleží viac ako na počte parametrov.

Oficiálna tabuľka porovnania rýchlosti inferencie z článku FunAudioLLM: SenseVoice-Small (70 ms na 10 s audia) vs Whisper-Small (518 ms) vs Whisper-Large-V3 (1281 ms) — architektúra modelu, parametre, podporované jazyky, RTF a latencia

Oficiálny benchmark inferencie z článku FunAudioLLM: SenseVoice-Small spracuje 10 s audia za 70 ms (A800 GPU). Whisper-Large-V3 potrebuje 1 281 ms. To je 18-násobný rozdiel v surovej latencii inferencie.

Model	Čas načítania	Pamäť	Veľkosť stiahnutia
Parakeet V3	0,77 s	~800 MB	465 MB
SenseVoice Small	0,81 s	~700 MB	827 MB
Whisper Small	1,03 s	~487 MB	600 MB
Whisper Large V3 Turbo	3,18 s	~1,6 GB	3 GB

* Čas načítania a pamäť merané na Apple M4 Pro, 32 GB.

SenseVoice sa načíta za menej ako sekundu a používa menej pamäte ako Parakeet. Na 8 GB Macu beží pohodlne vedľa vašich ďalších aplikácií.

Prečo je SenseVoice rýchlejší: Architektúra + Runtime

Rozdiel v rýchlosti medzi Qwen3-ASR a SenseVoice pochádza z dvoch nezávislých faktorov.

Faktor 1: Architektúra modelu. Qwen3-ASR je autoregresívny — generuje textové tokeny jeden po druhom, každý závisí od predchádzajúceho. SenseVoice používa neautoregresívny (NAR) enkodér, ktorý spracováva celé audio paralelne. Tento architektonický rozdiel sám o sebe robí SenseVoice zásadne rýchlejším, bez ohľadu na hardvér.

Faktor 2: Runtime. Naša integrácia Qwen3-ASR používala sherpa-onnx, ktorý bežal na CPU. SenseVoice beží cez Apple MLX a smeruje výpočty na GPU. Mohol by Qwen3 tiež bežať na MLX? Áno — ale stále by bol pomalší ako SenseVoice, pretože autoregresívne úzke hrdlo je v architektúre, nie v runtime.

	Qwen3-ASR (starý)	SenseVoice (nový)
Architektúra	Autoregresívna (token po tokene)	Neautoregresívna (paralelná)
Runtime	sherpa-onnx (CPU)	Apple MLX (GPU)
27 min čínština	224 sekúnd	13,83 sekúnd
Celkové zrýchlenie	základ	16,2× rýchlejšie
Kódová základňa	168 MB C framework + 2 249 riadkov Swift	288 riadkov Swift Actor

* Ten istý 27-minútový čínsky podcast, Apple M4 Pro. Zrýchlenie 16,2× kombinuje architektonické (NAR vs AR) aj runtime (GPU vs CPU) vylepšenia.

Kód sa tiež zjednodušil. Nová implementácia SenseVoice je jeden 288-riadkový Swift Actor komunikujúci priamo s MLX, nahrádzajúci 168 MB C framework. Menej kódu, menej chýb, menšia aplikácia.

Päť jazykov, dobre zvládnutých

SenseVoice sa nesnaží robiť všetko. Zvláda päť jazykov:

Jazyk	SenseVoice-Small	Whisper-Large-V3	Víťaz
Čínština (zh-CN)	10,78 % CER	12,55 % CER	SenseVoice (-14 %)
Kantončina (yue)	7,09 % CER	10,41 % CER	SenseVoice (-32 %)
Japončina (ja)	11,96 % CER	10,34 % CER	Whisper (mierne)
Kórejčina (ko)	8,28 % CER	5,59 % CER	Whisper
Angličtina (en)	14,71 % WER	9,39 % WER	Whisper (použite Parakeet)

* Benchmark CommonVoice, CER = miera chybovosti znakov, WER = miera chybovosti slov. Nižšie je lepšie. Zdroj: článok FunAudioLLM (2024). Latencia inferencie SenseVoice-Small: 70 ms na 10 s audia (A800 GPU), viac ako 15× rýchlejšie ako Whisper-Large-V3.

Porovnanie presnosti SenseVoice vs Whisper na benchmarku CommonVoice naprieč čínštinou, kantončinou, angličtinou, japončinou, kórejčinou a 25 ďalšími jazykmi — stĺpcový graf WER/CER

Benchmark CommonVoice: SenseVoice-Small (žltá) vs Whisper-Small (modrá) vs Whisper-Large-V3 (oranžová). Nižšie je lepšie. Zdroj: článok FunAudioLLM

Čísla rozprávajú úprimný príbeh. SenseVoice prekonáva Whisper v presnosti čínštiny a kantončiny s výrazným náskokom, zatiaľ čo Whisper je presnejší pre japončinu, kórejčinu a angličtinu. Ale SenseVoice je viac ako 15× rýchlejší ako Whisper-Large-V3. Pre väčšinu reálneho použitia záleží na rozdiele v rýchlosti viac ako na pár percentuálnych bodoch presnosti.

Výsledok kantončiny si zaslúži osobitnú zmienku. Whisper-Small dosahuje 38,97 % CER v kantončine — takmer nepoužiteľný. Ani Whisper-Large-V3 zvládne len 10,41 %. SenseVoice dosahuje 7,09 %. Pred SenseVoice neexistoval dobrý spôsob, ako lokálne prepisovať kantončinu na Macu. Ak hovoríte kantonsky, tento model existuje pre vás.

Výsledok prepisu kórejčiny pomocou SenseVoice v Whisper Notes pre Mac zobrazujúci presný kórejský text z videa

Prepis kórejčiny pomocou SenseVoice: import videa s titulkami s časovými značkami

Test v reálnom svete: 27-minútový čínsky podcast

Prepísali sme 27-minútovú epizódu Thirteen Invitations (十三邀), čínskeho rozhovorového podcastu, pomocou SenseVoice aj Whisper Large V3 Turbo na tom istom M4 Pro. ElevenLabs Scribe (cloud) slúžil ako referencia. Oba modely na zariadení robia približne rovnaký počet chýb, ale rôzneho druhu:

	SenseVoice	Whisper Large V3
Čas	13,83 s	2 min 4 s
Chyby (5 min vzorka)	~15–20	~12–15
Najhoršia chyba	时差→食堂 (časový posun→jedáleň)	西昌→西藏 (mesto Xichang→Tibet, 4 000 km vedľa)
Vzor chýb	Zámeny homofónov	Geografické/faktické chyby

* Ručné porovnanie s ElevenLabs Scribe (cloudová referencia, tiež nie bezchybná). Oba modely na zariadení správne napísali „根深蒂固", kde Scribe chyboval.

Porovnateľná presnosť. 9× rýchlejšie. Pre reálny prepis čínštiny vám SenseVoice dá použiteľný prepis skôr, ako Whisper dokončí načítanie.

Kedy použiť ktorý model

Whisper Notes pre Mac teraz obsahuje štyri rečové modely. Každý je optimalizovaný pre rôzne scenáre:

Potrebujete...	Použite tento model	Prečo
Angličtinu alebo európske jazyky, maximálnu rýchlosť	Parakeet V3	103× reálny čas, najnižšia chybovosť. Predvolený.
Čínštinu, japončinu, kórejčinu alebo kantončinu	SenseVoice Small	52–118× reálny čas. Jediný model s podporou kantončiny.
Ktorýkoľvek z 99+ jazykov (arabčina, thajčina, ruština atď.)	Whisper Large V3 Turbo	Najširšia jazyková podpora. Pomalší, ale univerzálny.
Nižšiu spotrebu pamäte (staršie Macy)	Whisper Small	487 MB pamäte. Vhodný pre 8 GB Macy s ďalšími aplikáciami.

Výber modelov Whisper Notes Mac zobrazujúci Parakeet V3, SenseVoice Small, Whisper Small a Whisper Large V3 Turbo s veľkosťami stiahnutia a jazykovou podporou

Nastavenia → Model prepisu: vyberte správny engine pre svoj jazyk

Výber modelov v Nastaveniach zobrazuje všetky štyri možnosti s veľkosťami stiahnutia, počtami jazykov a požiadavkami na pamäť. SenseVoice sa stiahne pri prvom použití (~827 MB) a zostane na vašom zariadení.

Kompromisy

SenseVoice nie je univerzálny model. Čo nedokáže:

• Iba 5 jazykov. Ak potrebujete thajčinu, ruštinu, arabčinu, hindčinu alebo ktorýkoľvek z ďalších 90+ jazykov, ktoré Whisper podporuje, zostaňte pri Whisperi.

• Iba Mac. SenseVoice beží cez Apple MLX, ktorý vyžaduje macOS. Nie je dostupný na iPhone. Používatelia iOS majú Parakeet (pre európske jazyky) a Whisper.

• Problém s tichým zvukom. Počas veľmi krátkych alebo veľmi tichých segmentov sa SenseVoice môže občas vrátiť k čínskemu výstupu bez ohľadu na vybraný jazyk. Ručné nastavenie jazyka (namiesto „Auto") to znižuje.

• Žiadne streamovanie. Na rozdiel od režimu streamovania Whisperu spracováva SenseVoice celé audio po nahraní. Pri dlhých súboroch automaticky segmentuje v bodoch ticha a zobrazuje výsledky postupne.

Sú to architektonické obmedzenia, nie chyby. Model trénovaný na 5 jazykoch zvláda týchto 5 jazykov mimoriadne dobre. Podpora 99+ jazykov u Whisperu prichádza s pomalšou rýchlosťou a vyššou chybovosťou pri každom jednotlivom jazyku.

Vyskúšajte to

SenseVoice je dostupný v Whisper Notes pre Mac od verzie 1.4.8. Stiahnite ho v Nastaveniach → Model prepisu → SenseVoice Small (~827 MB). Vyžaduje Mac s Apple Silicon (M1 alebo novší).

Ak používate Parakeet V3 a diktujete prevažne anglicky, nemusíte prepínať. SenseVoice je pre prípady, keď potrebujete čínštinu, japončinu, kórejčinu alebo kantončinu — a chcete to rýchlo.

Stiahnuť pre Mac

Kompletný zoznam zmien: whispernotes.app/changelog

Otázky alebo spätná väzba: mac@whispernotes.app