SenseVoice: 52×-es gyorsabb kínai, japán és koreai átírás Mac-en

ÖSSZEFOGLALÓ — Három Mac modell összehasonlítása

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 perc angol	2,91 mp (103×)	5,8 mp (52×)	20,92 mp (14,3×)
27 perc kínai	10,10 mp (161×)	13,83 mp (118×)	2 perc 4 mp (13,1×)
Nyelvek	25 (európai)	5 (zh, en, ja, ko, yue)	99+
Letöltés	465 MB	827 MB	1,5 GB
Memória	~800 MB	~700 MB	~1,6 GB
Legjobb ehhez	Angol & európai nyelvek	Kínai, japán, koreai, kantoni	Minden más (99+ nyelv)

* Sebességtesztek Apple M4 Pro-n, 32 GB. 5 perces angol podcast és 27 perces kínai podcast. Valósidejű faktor = hang időtartama ÷ feldolgozási idő (magasabb = gyorsabb). A SenseVoice csak macOS-en érhető el. Az iOS Parakeet-et (ANE-n keresztül) és Whispert használ.

Az 1.4.8-as verziótól kezdve a Mac-es Whisper Notes a SenseVoice Small modellt tartalmazza dedikált motorként a kínai, japán, koreai és kantoni átíráshoz. Ez a Qwen3-ASR helyébe lép, és az Apple GPU-ján fut MLX-en keresztül a CPU helyett — egy 27 perces kínai podcastot 13,83 másodperc alatt dolgoz fel a korábbi 3 perc 44 másodperc helyett.

Miért cseréltük le a Qwen3-ASR-t

A Qwen3-ASR egy szilárd modell volt. 30 nyelvet és 22 kínai dialektust támogatott, és a kínai pontossága közel volt a csúcsszínvonalhoz. De volt egy problémája, ami az audio hosszával csak romlott: a sebesség.

A Qwen3 autoregresszív architektúrát használt — ugyanaz a megközelítés, mint a Whisperé, képkockáról képkockára dolgozza fel a hangot, soha nem ugrik előre. Egy 27 perces kínai podcastnál 73 másodpercet vett igénybe. Használható, de nem az az azonnali eredmény élmény, amit a Parakeet V3 nyújt angolra.

A mélyebb probléma az infrastruktúránk volt. A Qwen3 integrációnk a sherpa-onnx-et használta, egy C könyvtárat 2 249 soros Swift wrapperrel, ami mindent a CPU magokon keresztül irányított. A GPU tétlenül állt, miközben a Mac CPU-ja végezte az összes munkát.

A SenseVoice mindkét problémát megoldotta. Nem-autoregresszív architektúra a sebességért. Apple MLX a GPU-gyorsításért. Az eredmény: 16,2-szeres sebességnövekedés ugyanazon a hardveren, a kódbázis 2 249 sorról 288-ra csökkent.

A benchmark

Mindhárom modell ugyanazon az Apple M4 Pro-n futott, ugyanazokkal a hangfájlokkal, ugyanazokkal a feltételekkel. Nincs felhő. Nincs internet. Csak szilícium.

Modell	5 perc angol	27 perc kínai	Sebesség (RTFx)
Parakeet V3	2,91 mp	10,10 mp	103–161×
SenseVoice Small	5,8 mp	13,83 mp	52–118×
Whisper Large V3 Turbo	20,92 mp	2 perc 4 mp	13–14×
Qwen3-ASR (eltávolítva)	—	73 mp	4,7×

A SenseVoice nagyjából fele olyan gyors, mint a Parakeet V3 — de még így is rendkívül gyors. Egy 27 perces podcast 14 másodperc alatt elkészül. Megnyomja az átírás gombot, egy lélegzetnyi várakozás, és ott a szöveg.

Hasonlítsa össze a Whisper 2 perc 4 másodpercével vagy a régi Qwen3 73 másodpercével. Az architektúra fontosabb, mint a paraméterek száma.

Hivatalos következtetési sebesség összehasonlító táblázat a FunAudioLLM cikkből: SenseVoice-Small (70 ms 10 mp hangra) vs Whisper-Small (518 ms) vs Whisper-Large-V3 (1281 ms) — modell architektúra, paraméterek, támogatott nyelvek, RTF és késleltetés

Hivatalos következtetési benchmark a FunAudioLLM cikkből: A SenseVoice-Small 10 mp hangot 70 ms alatt dolgoz fel (A800 GPU). A Whisper-Large-V3-nak 1 281 ms kell. Ez 18-szoros különbség a nyers következtetési késleltetésben.

Modell	Betöltési idő	Memória	Letöltés mérete
Parakeet V3	0,77 mp	~800 MB	465 MB
SenseVoice Small	0,81 mp	~700 MB	827 MB
Whisper Small	1,03 mp	~487 MB	600 MB
Whisper Large V3 Turbo	3,18 mp	~1,6 GB	3 GB

* Betöltési idő és memória Apple M4 Pro-n, 32 GB-val mérve.

A SenseVoice egy másodperc alatt töltődik be, és kevesebb memóriát használ, mint a Parakeet. Egy 8 GB-os Macen kényelmesen fut a többi alkalmazás mellett.

Miért gyorsabb a SenseVoice: Architektúra + futtatókörnyezet

A Qwen3-ASR és a SenseVoice közötti sebességkülönbség két független tényezőből ered.

1. tényező: Modell architektúra. A Qwen3-ASR autoregresszív — szöveges tokeneket generál egyenként, mindegyik az előzőtől függ. A SenseVoice nem-autoregresszív (NAR) kódolót használ, amely az egész hangot párhuzamosan dolgozza fel. Ez az architekturális különbség önmagában alapvetően gyorsabbá teszi a SenseVoice-t, függetlenül a hardvertől.

2. tényező: Futtatókörnyezet. A Qwen3-ASR integrációnk a sherpa-onnx-et használta, ami CPU-n futott. A SenseVoice az Apple MLX-en keresztül fut, a számításokat a GPU-ra irányítva. Futhatna a Qwen3 is MLX-en? Igen — de akkor is lassabb lenne a SenseVoice-nál, mert az autoregresszív szűk keresztmetszet az architektúrában van, nem a futtatókörnyezetben.

	Qwen3-ASR (régi)	SenseVoice (új)
Architektúra	Autoregresszív (tokenről tokenre)	Nem-autoregresszív (párhuzamos)
Futtatókörnyezet	sherpa-onnx (CPU)	Apple MLX (GPU)
27 perc kínai	224 másodperc	13,83 másodperc
Összesített gyorsulás	kiindulás	16,2× gyorsabb
Kódbázis	168 MB C keretrendszer + 2 249 sor Swift	288 sor Swift Actor

* Ugyanaz a 27 perces kínai podcast, Apple M4 Pro. A 16,2× gyorsulás az architekturális (NAR vs AR) és futtatókörnyezeti (GPU vs CPU) javítások együttes hatása.

A kód is egyszerűbb lett. Az új SenseVoice implementáció egyetlen 288 soros Swift Actor, amely közvetlenül kommunikál az MLX-szel, lecserélve a 168 MB-os C keretrendszert. Kevesebb kód, kevesebb hiba, kisebb alkalmazás.

Öt nyelv, jól csinálva

A SenseVoice nem próbál mindent megcsinálni. Öt nyelvet kezel:

Nyelv	SenseVoice-Small	Whisper-Large-V3	Győztes
Kínai (zh-CN)	10,78% CER	12,55% CER	SenseVoice (-14%)
Kantoni (yue)	7,09% CER	10,41% CER	SenseVoice (-32%)
Japán (ja)	11,96% CER	10,34% CER	Whisper (enyhén)
Koreai (ko)	8,28% CER	5,59% CER	Whisper
Angol (en)	14,71% WER	9,39% WER	Whisper (használjon Parakeet-et)

* CommonVoice benchmark, CER = karakterhibaarány, WER = szóhibaarány. Alacsonyabb jobb. Forrás: FunAudioLLM cikk (2024). SenseVoice-Small következtetési késleltetés: 70 ms 10 mp hangra (A800 GPU), több mint 15× gyorsabb a Whisper-Large-V3-nál.

SenseVoice vs Whisper pontosság összehasonlítása a CommonVoice benchmarkon kínai, kantoni, angol, japán, koreai és 25 más nyelven — WER/CER oszlopdiagram

CommonVoice benchmark: SenseVoice-Small (sárga) vs Whisper-Small (kék) vs Whisper-Large-V3 (narancssárga). Alacsonyabb jobb. Forrás: FunAudioLLM cikk

A számok őszinte történetet mesélnek. A SenseVoice jelentős különbséggel felülmúlja a Whispert a kínai és kantoni pontosságban, míg a Whisper pontosabb japánra, koreaira és angolra. De a SenseVoice több mint 15-ször gyorsabb a Whisper-Large-V3-nál. A legtöbb valós használatban a sebességkülönbség fontosabb, mint néhány százalékpontnyi pontosság.

A kantoni eredmény külön kiemelést érdemel. A Whisper-Small 38,97% CER-t ér el kantonira — szinte használhatatlan. Még a Whisper-Large-V3 is csak 10,41%-ot tud. A SenseVoice 7,09%-ot ér el. A SenseVoice előtt nem volt jó módja a kantoni helyi átírásának Macen. Ha kantoniul beszél, ez a modell önnek készült.

SenseVoice koreai átírás eredménye a Mac-es Whisper Notes-ban, pontos koreai szöveget mutatva egy videóból

Koreai átírás SenseVoice-szal: videó importálás időbélyeges feliratokkal

Valós teszt: 27 perces kínai podcast

Átírtunk egy 27 perces epizódot a Thirteen Invitations (十三邀) kínai interjú podcastból, SenseVoice-szal és Whisper Large V3 Turbo-val is ugyanazon az M4 Pro-n. Az ElevenLabs Scribe (felhő) szolgált referenciaként. Mindkét eszközön futó modell nagyjából ugyanannyi hibát ejt, de különböző típusúakat:

	SenseVoice	Whisper Large V3
Idő	13,83 mp	2 perc 4 mp
Hibák (5 perces minta)	~15–20	~12–15
Legrosszabb hiba	时差→食堂 (időeltolódás→menza)	西昌→西藏 (Xichang város→Tibet, 4 000 km-es eltérés)
Hibamintázat	Homofonok felcserélése	Földrajzi/ténybeli hibák

* Kézi összehasonlítás az ElevenLabs Scribe-bal (felhő referencia, szintén nem tökéletes). Mindkét eszközön futó modell helyesen írta a „根深蒂固" kifejezést, ahol a Scribe hibázott.

Összehasonlítható pontosság. 9× gyorsabb. Valós kínai átíráshoz a SenseVoice már kész az átirattal, mielőtt a Whisper befejezné a betöltést.

Melyik modellt mikor használjuk

A Mac-es Whisper Notes most négy beszédmodellel érkezik. Mindegyik különböző forgatókönyvekre van optimalizálva:

Amire szüksége van...	Használja ezt a modellt	Miért
Angol vagy európai nyelvek, maximális sebesség	Parakeet V3	103× valós idő, legalacsonyabb hibaarány. Alapértelmezett.
Kínai, japán, koreai vagy kantoni	SenseVoice Small	52–118× valós idő. Az egyetlen modell kantoni támogatással.
Bármely 99+ nyelvből (arab, thai, orosz stb.)	Whisper Large V3 Turbo	Legszélesebb nyelvtámogatás. Lassabb, de univerzális.
Alacsonyabb memóriahasználat (régebbi Macek)	Whisper Small	487 MB memória. Jó 8 GB-os Macekhez más alkalmazások futtatása mellett.

Whisper Notes Mac modellválasztó Parakeet V3, SenseVoice Small, Whisper Small és Whisper Large V3 Turbo megjelenítésével, letöltési méretekkel és nyelvtámogatással

Beállítások → Átírási modell: válassza ki a megfelelő motort az ön nyelvéhez

A Beállítások modellválasztója mind a négy opciót megjeleníti a letöltési méretekkel, nyelvek számával és memóriaigénnyel. A SenseVoice az első használatkor töltődik le (~827 MB) és az eszközön marad.

Kompromisszumok

A SenseVoice nem univerzális modell. Amit nem tud:

• Csak 5 nyelv. Ha thai, orosz, arab, hindi vagy a Whisper által támogatott egyéb 90+ nyelv bármelyikére van szüksége, maradjon a Whispernél.

• Csak Mac. A SenseVoice az Apple MLX-en keresztül fut, amihez macOS szükséges. Nem érhető el iPhone-on. Az iOS felhasználóknak Parakeet (európai nyelvekhez) és Whisper áll rendelkezésre.

• Halk hang probléma. Nagyon rövid vagy nagyon halk szegmenseknél a SenseVoice néha visszaválthat kínai kimenetre a kiválasztott nyelvtől függetlenül. A nyelv kézi beállítása ("Automatikus" helyett) csökkenti ezt.

• Nincs streaming. A Whisper streaming módjával ellentétben a SenseVoice a felvétel után dolgozza fel a teljes hangot. Hosszú fájloknál automatikusan szegmentál a csendpontoknál és fokozatosan mutatja az eredményeket.

Ezek architekturális korlátok, nem hibák. Egy 5 nyelvre tanított modell azt az 5 nyelvet rendkívül jól csinálja. A Whisper 99+ nyelv támogatása lassabb sebességgel és magasabb hibaaránnyal jár minden egyes nyelven.

Próbálja ki

A SenseVoice a Mac-es Whisper Notes 1.4.8-as és újabb verzióiban érhető el. Töltse le a Beállítások → Átírási modell → SenseVoice Small (~827 MB) menüpontból. Apple Silicon Mac (M1 vagy újabb) szükséges.

Ha a Parakeet V3-at használja és főleg angolul diktál, nincs szükség váltásra. A SenseVoice arra való, amikor kínaira, japánra, koreaira vagy kantonira van szüksége — és gyorsan akarja.

Letöltés Macre

Teljes változásnapló: whispernotes.app/changelog

Kérdések vagy visszajelzés: mac@whispernotes.app