SenseVoice: 52×-es gyorsabb kínai, japán és koreai átírás Mac-en

2026. május 12.
·
7 min read
·Whisper Notes Team

ÖSSZEFOGLALÓ — Három Mac modell összehasonlítása

Parakeet V3 SenseVoice Small Whisper Large V3 Turbo
5 perc angol 2,91 mp (103×) 5,8 mp (52×) 20,92 mp (14,3×)
27 perc kínai 10,10 mp (161×) 13,83 mp (118×) 2 perc 4 mp (13,1×)
Nyelvek 25 (európai) 5 (zh, en, ja, ko, yue) 99+
Letöltés 465 MB 827 MB 1,5 GB
Memória ~800 MB ~700 MB ~1,6 GB
Legjobb ehhez Angol & európai nyelvek Kínai, japán, koreai, kantoni Minden más (99+ nyelv)

* Sebességtesztek Apple M4 Pro-n, 32 GB. 5 perces angol podcast és 27 perces kínai podcast. Valósidejű faktor = hang időtartama ÷ feldolgozási idő (magasabb = gyorsabb). A SenseVoice csak macOS-en érhető el. Az iOS Parakeet-et (ANE-n keresztül) és Whispert használ.

Az 1.4.8-as verziótól kezdve a Mac-es Whisper Notes a SenseVoice Small modellt tartalmazza dedikált motorként a kínai, japán, koreai és kantoni átíráshoz. Ez a Qwen3-ASR helyébe lép, és az Apple GPU-ján fut MLX-en keresztül a CPU helyett — egy 27 perces kínai podcastot 13,83 másodperc alatt dolgoz fel a korábbi 3 perc 44 másodperc helyett.

Miért cseréltük le a Qwen3-ASR-t

A Qwen3-ASR egy szilárd modell volt. 30 nyelvet és 22 kínai dialektust támogatott, és a kínai pontossága közel volt a csúcsszínvonalhoz. De volt egy problémája, ami az audio hosszával csak romlott: a sebesség.

A Qwen3 autoregresszív architektúrát használt — ugyanaz a megközelítés, mint a Whisperé, képkockáról képkockára dolgozza fel a hangot, soha nem ugrik előre. Egy 27 perces kínai podcastnál 73 másodpercet vett igénybe. Használható, de nem az az azonnali eredmény élmény, amit a Parakeet V3 nyújt angolra.

A mélyebb probléma az infrastruktúránk volt. A Qwen3 integrációnk a sherpa-onnx-et használta, egy C könyvtárat 2 249 soros Swift wrapperrel, ami mindent a CPU magokon keresztül irányított. A GPU tétlenül állt, miközben a Mac CPU-ja végezte az összes munkát.

A SenseVoice mindkét problémát megoldotta. Nem-autoregresszív architektúra a sebességért. Apple MLX a GPU-gyorsításért. Az eredmény: 16,2-szeres sebességnövekedés ugyanazon a hardveren, a kódbázis 2 249 sorról 288-ra csökkent.

A benchmark

Mindhárom modell ugyanazon az Apple M4 Pro-n futott, ugyanazokkal a hangfájlokkal, ugyanazokkal a feltételekkel. Nincs felhő. Nincs internet. Csak szilícium.

Modell 5 perc angol 27 perc kínai Sebesség (RTFx)
Parakeet V3 2,91 mp 10,10 mp 103–161×
SenseVoice Small 5,8 mp 13,83 mp 52–118×
Whisper Large V3 Turbo 20,92 mp 2 perc 4 mp 13–14×
Qwen3-ASR (eltávolítva) 73 mp 4,7×

A SenseVoice nagyjából fele olyan gyors, mint a Parakeet V3 — de még így is rendkívül gyors. Egy 27 perces podcast 14 másodperc alatt elkészül. Megnyomja az átírás gombot, egy lélegzetnyi várakozás, és ott a szöveg.

Hasonlítsa össze a Whisper 2 perc 4 másodpercével vagy a régi Qwen3 73 másodpercével. Az architektúra fontosabb, mint a paraméterek száma.

Hivatalos következtetési sebesség összehasonlító táblázat a FunAudioLLM cikkből: SenseVoice-Small (70 ms 10 mp hangra) vs Whisper-Small (518 ms) vs Whisper-Large-V3 (1281 ms) — modell architektúra, paraméterek, támogatott nyelvek, RTF és késleltetés

Hivatalos következtetési benchmark a FunAudioLLM cikkből: A SenseVoice-Small 10 mp hangot 70 ms alatt dolgoz fel (A800 GPU). A Whisper-Large-V3-nak 1 281 ms kell. Ez 18-szoros különbség a nyers következtetési késleltetésben.

Modell Betöltési idő Memória Letöltés mérete
Parakeet V3 0,77 mp ~800 MB 465 MB
SenseVoice Small 0,81 mp ~700 MB 827 MB
Whisper Small 1,03 mp ~487 MB 600 MB
Whisper Large V3 Turbo 3,18 mp ~1,6 GB 3 GB

* Betöltési idő és memória Apple M4 Pro-n, 32 GB-val mérve.

A SenseVoice egy másodperc alatt töltődik be, és kevesebb memóriát használ, mint a Parakeet. Egy 8 GB-os Macen kényelmesen fut a többi alkalmazás mellett.

Miért gyorsabb a SenseVoice: Architektúra + futtatókörnyezet

A Qwen3-ASR és a SenseVoice közötti sebességkülönbség két független tényezőből ered.

1. tényező: Modell architektúra. A Qwen3-ASR autoregresszív — szöveges tokeneket generál egyenként, mindegyik az előzőtől függ. A SenseVoice nem-autoregresszív (NAR) kódolót használ, amely az egész hangot párhuzamosan dolgozza fel. Ez az architekturális különbség önmagában alapvetően gyorsabbá teszi a SenseVoice-t, függetlenül a hardvertől.

2. tényező: Futtatókörnyezet. A Qwen3-ASR integrációnk a sherpa-onnx-et használta, ami CPU-n futott. A SenseVoice az Apple MLX-en keresztül fut, a számításokat a GPU-ra irányítva. Futhatna a Qwen3 is MLX-en? Igen — de akkor is lassabb lenne a SenseVoice-nál, mert az autoregresszív szűk keresztmetszet az architektúrában van, nem a futtatókörnyezetben.

Qwen3-ASR (régi) SenseVoice (új)
Architektúra Autoregresszív (tokenről tokenre) Nem-autoregresszív (párhuzamos)
Futtatókörnyezet sherpa-onnx (CPU) Apple MLX (GPU)
27 perc kínai 224 másodperc 13,83 másodperc
Összesített gyorsulás kiindulás 16,2× gyorsabb
Kódbázis 168 MB C keretrendszer + 2 249 sor Swift 288 sor Swift Actor

* Ugyanaz a 27 perces kínai podcast, Apple M4 Pro. A 16,2× gyorsulás az architekturális (NAR vs AR) és futtatókörnyezeti (GPU vs CPU) javítások együttes hatása.

A kód is egyszerűbb lett. Az új SenseVoice implementáció egyetlen 288 soros Swift Actor, amely közvetlenül kommunikál az MLX-szel, lecserélve a 168 MB-os C keretrendszert. Kevesebb kód, kevesebb hiba, kisebb alkalmazás.

Öt nyelv, jól csinálva

A SenseVoice nem próbál mindent megcsinálni. Öt nyelvet kezel:

Nyelv SenseVoice-Small Whisper-Large-V3 Győztes
Kínai (zh-CN) 10,78% CER 12,55% CER SenseVoice (-14%)
Kantoni (yue) 7,09% CER 10,41% CER SenseVoice (-32%)
Japán (ja) 11,96% CER 10,34% CER Whisper (enyhén)
Koreai (ko) 8,28% CER 5,59% CER Whisper
Angol (en) 14,71% WER 9,39% WER Whisper (használjon Parakeet-et)

* CommonVoice benchmark, CER = karakterhibaarány, WER = szóhibaarány. Alacsonyabb jobb. Forrás: FunAudioLLM cikk (2024). SenseVoice-Small következtetési késleltetés: 70 ms 10 mp hangra (A800 GPU), több mint 15× gyorsabb a Whisper-Large-V3-nál.

SenseVoice vs Whisper pontosság összehasonlítása a CommonVoice benchmarkon kínai, kantoni, angol, japán, koreai és 25 más nyelven — WER/CER oszlopdiagram

CommonVoice benchmark: SenseVoice-Small (sárga) vs Whisper-Small (kék) vs Whisper-Large-V3 (narancssárga). Alacsonyabb jobb. Forrás: FunAudioLLM cikk

A számok őszinte történetet mesélnek. A SenseVoice jelentős különbséggel felülmúlja a Whispert a kínai és kantoni pontosságban, míg a Whisper pontosabb japánra, koreaira és angolra. De a SenseVoice több mint 15-ször gyorsabb a Whisper-Large-V3-nál. A legtöbb valós használatban a sebességkülönbség fontosabb, mint néhány százalékpontnyi pontosság.

A kantoni eredmény külön kiemelést érdemel. A Whisper-Small 38,97% CER-t ér el kantonira — szinte használhatatlan. Még a Whisper-Large-V3 is csak 10,41%-ot tud. A SenseVoice 7,09%-ot ér el. A SenseVoice előtt nem volt jó módja a kantoni helyi átírásának Macen. Ha kantoniul beszél, ez a modell önnek készült.

SenseVoice koreai átírás eredménye a Mac-es Whisper Notes-ban, pontos koreai szöveget mutatva egy videóból

Koreai átírás SenseVoice-szal: videó importálás időbélyeges feliratokkal

Valós teszt: 27 perces kínai podcast

Átírtunk egy 27 perces epizódot a Thirteen Invitations (十三邀) kínai interjú podcastból, SenseVoice-szal és Whisper Large V3 Turbo-val is ugyanazon az M4 Pro-n. Az ElevenLabs Scribe (felhő) szolgált referenciaként. Mindkét eszközön futó modell nagyjából ugyanannyi hibát ejt, de különböző típusúakat:

SenseVoice Whisper Large V3
Idő 13,83 mp 2 perc 4 mp
Hibák (5 perces minta) ~15–20 ~12–15
Legrosszabb hiba 时差→食堂 (időeltolódás→menza) 西昌→西藏 (Xichang város→Tibet, 4 000 km-es eltérés)
Hibamintázat Homofonok felcserélése Földrajzi/ténybeli hibák

* Kézi összehasonlítás az ElevenLabs Scribe-bal (felhő referencia, szintén nem tökéletes). Mindkét eszközön futó modell helyesen írta a „根深蒂固" kifejezést, ahol a Scribe hibázott.

Összehasonlítható pontosság. 9× gyorsabb. Valós kínai átíráshoz a SenseVoice már kész az átirattal, mielőtt a Whisper befejezné a betöltést.

Melyik modellt mikor használjuk

A Mac-es Whisper Notes most négy beszédmodellel érkezik. Mindegyik különböző forgatókönyvekre van optimalizálva:

Amire szüksége van... Használja ezt a modellt Miért
Angol vagy európai nyelvek, maximális sebesség Parakeet V3 103× valós idő, legalacsonyabb hibaarány. Alapértelmezett.
Kínai, japán, koreai vagy kantoni SenseVoice Small 52–118× valós idő. Az egyetlen modell kantoni támogatással.
Bármely 99+ nyelvből (arab, thai, orosz stb.) Whisper Large V3 Turbo Legszélesebb nyelvtámogatás. Lassabb, de univerzális.
Alacsonyabb memóriahasználat (régebbi Macek) Whisper Small 487 MB memória. Jó 8 GB-os Macekhez más alkalmazások futtatása mellett.
Whisper Notes Mac modellválasztó Parakeet V3, SenseVoice Small, Whisper Small és Whisper Large V3 Turbo megjelenítésével, letöltési méretekkel és nyelvtámogatással

Beállítások → Átírási modell: válassza ki a megfelelő motort az ön nyelvéhez

A Beállítások modellválasztója mind a négy opciót megjeleníti a letöltési méretekkel, nyelvek számával és memóriaigénnyel. A SenseVoice az első használatkor töltődik le (~827 MB) és az eszközön marad.

Kompromisszumok

A SenseVoice nem univerzális modell. Amit nem tud:

Csak 5 nyelv. Ha thai, orosz, arab, hindi vagy a Whisper által támogatott egyéb 90+ nyelv bármelyikére van szüksége, maradjon a Whispernél.

Csak Mac. A SenseVoice az Apple MLX-en keresztül fut, amihez macOS szükséges. Nem érhető el iPhone-on. Az iOS felhasználóknak Parakeet (európai nyelvekhez) és Whisper áll rendelkezésre.

Halk hang probléma. Nagyon rövid vagy nagyon halk szegmenseknél a SenseVoice néha visszaválthat kínai kimenetre a kiválasztott nyelvtől függetlenül. A nyelv kézi beállítása ("Automatikus" helyett) csökkenti ezt.

Nincs streaming. A Whisper streaming módjával ellentétben a SenseVoice a felvétel után dolgozza fel a teljes hangot. Hosszú fájloknál automatikusan szegmentál a csendpontoknál és fokozatosan mutatja az eredményeket.

Ezek architekturális korlátok, nem hibák. Egy 5 nyelvre tanított modell azt az 5 nyelvet rendkívül jól csinálja. A Whisper 99+ nyelv támogatása lassabb sebességgel és magasabb hibaaránnyal jár minden egyes nyelven.

Próbálja ki

A SenseVoice a Mac-es Whisper Notes 1.4.8-as és újabb verzióiban érhető el. Töltse le a Beállítások → Átírási modell → SenseVoice Small (~827 MB) menüpontból. Apple Silicon Mac (M1 vagy újabb) szükséges.

Ha a Parakeet V3-at használja és főleg angolul diktál, nincs szükség váltásra. A SenseVoice arra való, amikor kínaira, japánra, koreaira vagy kantonira van szüksége — és gyorsan akarja.

Letöltés Macre

Teljes változásnapló: whispernotes.app/changelog

Kérdések vagy visszajelzés: mac@whispernotes.app