ZHRNUTIE — Porovnanie troch modelov pre Mac
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 min angličtina | 2,91 s (103×) | 5,8 s (52×) | 20,92 s (14,3×) |
| 27 min čínština | 10,10 s (161×) | 13,83 s (118×) | 2 min 4 s (13,1×) |
| Jazyky | 25 (európske) | 5 (zh, en, ja, ko, yue) | 99+ |
| Stiahnutie | 465 MB | 827 MB | 1,5 GB |
| Pamäť | ~800 MB | ~700 MB | ~1,6 GB |
| Najlepšie pre | Angličtinu & európske jazyky | Čínštinu, japončinu, kórejčinu, kantončinu | Všetko ostatné (99+ jazykov) |
* Testy rýchlosti na Apple M4 Pro, 32 GB. 5-minútový anglický podcast a 27-minútový čínsky podcast. Faktor reálneho času = dĺžka audia ÷ čas spracovania (vyššie = rýchlejšie). SenseVoice je len pre macOS. iOS používa Parakeet (cez ANE) a Whisper.
Od verzie 1.4.8 obsahuje Whisper Notes pre Mac model SenseVoice Small ako špecializovaný engine na prepis čínštiny, japončiny, kórejčiny a kantončiny. Nahrádza Qwen3-ASR a beží na GPU Apple cez MLX namiesto CPU — 27-minútový čínsky podcast spracuje za 13,83 sekundy namiesto 3 minút a 44 sekúnd.
Prečo sme nahradili Qwen3-ASR
Qwen3-ASR bol solídny model. Podporoval 30 jazykov plus 22 čínskych dialektov a jeho presnosť v čínštine bola takmer na špičkovej úrovni. Mal ale problém, ktorý sa zhoršoval s dĺžkou audia: rýchlosť.
Qwen3 používal autoregresívnu architektúru — rovnaký prístup ako Whisper, spracovával audio snímok po snímku, nikdy nepreskočil dopredu. Na 27-minútovom čínskom podcaste trval 73 sekúnd. Použiteľné, ale nie ten zážitok okamžitého výsledku, ktorý Parakeet V3 ponúka pre angličtinu.
Hlbší problém bola naša infraštruktúra. Naša integrácia Qwen3 používala sherpa-onnx, knižnicu v C s 2 249-riadkovým Swift wrapperom, ktorý všetko smeroval cez jadrá CPU. GPU nečinne stálo, zatiaľ čo CPU vášho Macu robilo všetku prácu.
SenseVoice vyriešil oba problémy. Neautoregresívna architektúra pre rýchlosť. Apple MLX pre akceleráciu GPU. Výsledok: 16,2-násobné zrýchlenie na tom istom hardvéri, kódová základňa sa zmenšila z 2 249 riadkov na 288.
Benchmark
Všetky tri modely bežali na tom istom Apple M4 Pro, rovnaké audio súbory, rovnaké podmienky. Žiadny cloud. Žiadny internet. Len kremík.
| Model | 5 min angličtina | 27 min čínština | Rýchlosť (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2,91 s | 10,10 s | 103–161× |
| SenseVoice Small | 5,8 s | 13,83 s | 52–118× |
| Whisper Large V3 Turbo | 20,92 s | 2 min 4 s | 13–14× |
| Qwen3-ASR (odstránený) | — | 73 s | 4,7× |
SenseVoice je približne polovičnou rýchlosťou oproti Parakeet V3 — stále však mimoriadne rýchly. 27-minútový podcast sa dokončí za menej ako 14 sekúnd. Stlačíte prepis, počkáte jeden nádych a text je tu.
Porovnajte to s Whisperom za 2 minúty a 4 sekundy alebo starým Qwen3 za 73 sekúnd. Na architektúre záleží viac ako na počte parametrov.
Oficiálny benchmark inferencie z článku FunAudioLLM: SenseVoice-Small spracuje 10 s audia za 70 ms (A800 GPU). Whisper-Large-V3 potrebuje 1 281 ms. To je 18-násobný rozdiel v surovej latencii inferencie.
| Model | Čas načítania | Pamäť | Veľkosť stiahnutia |
|---|---|---|---|
| Parakeet V3 | 0,77 s | ~800 MB | 465 MB |
| SenseVoice Small | 0,81 s | ~700 MB | 827 MB |
| Whisper Small | 1,03 s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3,18 s | ~1,6 GB | 3 GB |
* Čas načítania a pamäť merané na Apple M4 Pro, 32 GB.
SenseVoice sa načíta za menej ako sekundu a používa menej pamäte ako Parakeet. Na 8 GB Macu beží pohodlne vedľa vašich ďalších aplikácií.
Prečo je SenseVoice rýchlejší: Architektúra + Runtime
Rozdiel v rýchlosti medzi Qwen3-ASR a SenseVoice pochádza z dvoch nezávislých faktorov.
Faktor 1: Architektúra modelu. Qwen3-ASR je autoregresívny — generuje textové tokeny jeden po druhom, každý závisí od predchádzajúceho. SenseVoice používa neautoregresívny (NAR) enkodér, ktorý spracováva celé audio paralelne. Tento architektonický rozdiel sám o sebe robí SenseVoice zásadne rýchlejším, bez ohľadu na hardvér.
Faktor 2: Runtime. Naša integrácia Qwen3-ASR používala sherpa-onnx, ktorý bežal na CPU. SenseVoice beží cez Apple MLX a smeruje výpočty na GPU. Mohol by Qwen3 tiež bežať na MLX? Áno — ale stále by bol pomalší ako SenseVoice, pretože autoregresívne úzke hrdlo je v architektúre, nie v runtime.
| Qwen3-ASR (starý) | SenseVoice (nový) | |
|---|---|---|
| Architektúra | Autoregresívna (token po tokene) | Neautoregresívna (paralelná) |
| Runtime | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 min čínština | 224 sekúnd | 13,83 sekúnd |
| Celkové zrýchlenie | základ | 16,2× rýchlejšie |
| Kódová základňa | 168 MB C framework + 2 249 riadkov Swift | 288 riadkov Swift Actor |
* Ten istý 27-minútový čínsky podcast, Apple M4 Pro. Zrýchlenie 16,2× kombinuje architektonické (NAR vs AR) aj runtime (GPU vs CPU) vylepšenia.
Kód sa tiež zjednodušil. Nová implementácia SenseVoice je jeden 288-riadkový Swift Actor komunikujúci priamo s MLX, nahrádzajúci 168 MB C framework. Menej kódu, menej chýb, menšia aplikácia.
Päť jazykov, dobre zvládnutých
SenseVoice sa nesnaží robiť všetko. Zvláda päť jazykov:
| Jazyk | SenseVoice-Small | Whisper-Large-V3 | Víťaz |
|---|---|---|---|
| Čínština (zh-CN) | 10,78 % CER | 12,55 % CER | SenseVoice (-14 %) |
| Kantončina (yue) | 7,09 % CER | 10,41 % CER | SenseVoice (-32 %) |
| Japončina (ja) | 11,96 % CER | 10,34 % CER | Whisper (mierne) |
| Kórejčina (ko) | 8,28 % CER | 5,59 % CER | Whisper |
| Angličtina (en) | 14,71 % WER | 9,39 % WER | Whisper (použite Parakeet) |
* Benchmark CommonVoice, CER = miera chybovosti znakov, WER = miera chybovosti slov. Nižšie je lepšie. Zdroj: článok FunAudioLLM (2024). Latencia inferencie SenseVoice-Small: 70 ms na 10 s audia (A800 GPU), viac ako 15× rýchlejšie ako Whisper-Large-V3.
Benchmark CommonVoice: SenseVoice-Small (žltá) vs Whisper-Small (modrá) vs Whisper-Large-V3 (oranžová). Nižšie je lepšie. Zdroj: článok FunAudioLLM
Čísla rozprávajú úprimný príbeh. SenseVoice prekonáva Whisper v presnosti čínštiny a kantončiny s výrazným náskokom, zatiaľ čo Whisper je presnejší pre japončinu, kórejčinu a angličtinu. Ale SenseVoice je viac ako 15× rýchlejší ako Whisper-Large-V3. Pre väčšinu reálneho použitia záleží na rozdiele v rýchlosti viac ako na pár percentuálnych bodoch presnosti.
Výsledok kantončiny si zaslúži osobitnú zmienku. Whisper-Small dosahuje 38,97 % CER v kantončine — takmer nepoužiteľný. Ani Whisper-Large-V3 zvládne len 10,41 %. SenseVoice dosahuje 7,09 %. Pred SenseVoice neexistoval dobrý spôsob, ako lokálne prepisovať kantončinu na Macu. Ak hovoríte kantonsky, tento model existuje pre vás.
Prepis kórejčiny pomocou SenseVoice: import videa s titulkami s časovými značkami
Test v reálnom svete: 27-minútový čínsky podcast
Prepísali sme 27-minútovú epizódu Thirteen Invitations (十三邀), čínskeho rozhovorového podcastu, pomocou SenseVoice aj Whisper Large V3 Turbo na tom istom M4 Pro. ElevenLabs Scribe (cloud) slúžil ako referencia. Oba modely na zariadení robia približne rovnaký počet chýb, ale rôzneho druhu:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Čas | 13,83 s | 2 min 4 s |
| Chyby (5 min vzorka) | ~15–20 | ~12–15 |
| Najhoršia chyba | 时差→食堂 (časový posun→jedáleň) | 西昌→西藏 (mesto Xichang→Tibet, 4 000 km vedľa) |
| Vzor chýb | Zámeny homofónov | Geografické/faktické chyby |
* Ručné porovnanie s ElevenLabs Scribe (cloudová referencia, tiež nie bezchybná). Oba modely na zariadení správne napísali „根深蒂固", kde Scribe chyboval.
Porovnateľná presnosť. 9× rýchlejšie. Pre reálny prepis čínštiny vám SenseVoice dá použiteľný prepis skôr, ako Whisper dokončí načítanie.
Kedy použiť ktorý model
Whisper Notes pre Mac teraz obsahuje štyri rečové modely. Každý je optimalizovaný pre rôzne scenáre:
| Potrebujete... | Použite tento model | Prečo |
|---|---|---|
| Angličtinu alebo európske jazyky, maximálnu rýchlosť | Parakeet V3 | 103× reálny čas, najnižšia chybovosť. Predvolený. |
| Čínštinu, japončinu, kórejčinu alebo kantončinu | SenseVoice Small | 52–118× reálny čas. Jediný model s podporou kantončiny. |
| Ktorýkoľvek z 99+ jazykov (arabčina, thajčina, ruština atď.) | Whisper Large V3 Turbo | Najširšia jazyková podpora. Pomalší, ale univerzálny. |
| Nižšiu spotrebu pamäte (staršie Macy) | Whisper Small | 487 MB pamäte. Vhodný pre 8 GB Macy s ďalšími aplikáciami. |
Nastavenia → Model prepisu: vyberte správny engine pre svoj jazyk
Výber modelov v Nastaveniach zobrazuje všetky štyri možnosti s veľkosťami stiahnutia, počtami jazykov a požiadavkami na pamäť. SenseVoice sa stiahne pri prvom použití (~827 MB) a zostane na vašom zariadení.
Kompromisy
SenseVoice nie je univerzálny model. Čo nedokáže:
• Iba 5 jazykov. Ak potrebujete thajčinu, ruštinu, arabčinu, hindčinu alebo ktorýkoľvek z ďalších 90+ jazykov, ktoré Whisper podporuje, zostaňte pri Whisperi.
• Iba Mac. SenseVoice beží cez Apple MLX, ktorý vyžaduje macOS. Nie je dostupný na iPhone. Používatelia iOS majú Parakeet (pre európske jazyky) a Whisper.
• Problém s tichým zvukom. Počas veľmi krátkych alebo veľmi tichých segmentov sa SenseVoice môže občas vrátiť k čínskemu výstupu bez ohľadu na vybraný jazyk. Ručné nastavenie jazyka (namiesto „Auto") to znižuje.
• Žiadne streamovanie. Na rozdiel od režimu streamovania Whisperu spracováva SenseVoice celé audio po nahraní. Pri dlhých súboroch automaticky segmentuje v bodoch ticha a zobrazuje výsledky postupne.
Sú to architektonické obmedzenia, nie chyby. Model trénovaný na 5 jazykoch zvláda týchto 5 jazykov mimoriadne dobre. Podpora 99+ jazykov u Whisperu prichádza s pomalšou rýchlosťou a vyššou chybovosťou pri každom jednotlivom jazyku.
Vyskúšajte to
SenseVoice je dostupný v Whisper Notes pre Mac od verzie 1.4.8. Stiahnite ho v Nastaveniach → Model prepisu → SenseVoice Small (~827 MB). Vyžaduje Mac s Apple Silicon (M1 alebo novší).
Ak používate Parakeet V3 a diktujete prevažne anglicky, nemusíte prepínať. SenseVoice je pre prípady, keď potrebujete čínštinu, japončinu, kórejčinu alebo kantončinu — a chcete to rýchlo.
Kompletný zoznam zmien: whispernotes.app/changelog
Otázky alebo spätná väzba: mac@whispernotes.app