ÖSSZEFOGLALÓ — Három Mac modell összehasonlítása
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 perc angol | 2,91 mp (103×) | 5,8 mp (52×) | 20,92 mp (14,3×) |
| 27 perc kínai | 10,10 mp (161×) | 13,83 mp (118×) | 2 perc 4 mp (13,1×) |
| Nyelvek | 25 (európai) | 5 (zh, en, ja, ko, yue) | 99+ |
| Letöltés | 465 MB | 827 MB | 1,5 GB |
| Memória | ~800 MB | ~700 MB | ~1,6 GB |
| Legjobb ehhez | Angol & európai nyelvek | Kínai, japán, koreai, kantoni | Minden más (99+ nyelv) |
* Sebességtesztek Apple M4 Pro-n, 32 GB. 5 perces angol podcast és 27 perces kínai podcast. Valósidejű faktor = hang időtartama ÷ feldolgozási idő (magasabb = gyorsabb). A SenseVoice csak macOS-en érhető el. Az iOS Parakeet-et (ANE-n keresztül) és Whispert használ.
Az 1.4.8-as verziótól kezdve a Mac-es Whisper Notes a SenseVoice Small modellt tartalmazza dedikált motorként a kínai, japán, koreai és kantoni átíráshoz. Ez a Qwen3-ASR helyébe lép, és az Apple GPU-ján fut MLX-en keresztül a CPU helyett — egy 27 perces kínai podcastot 13,83 másodperc alatt dolgoz fel a korábbi 3 perc 44 másodperc helyett.
Miért cseréltük le a Qwen3-ASR-t
A Qwen3-ASR egy szilárd modell volt. 30 nyelvet és 22 kínai dialektust támogatott, és a kínai pontossága közel volt a csúcsszínvonalhoz. De volt egy problémája, ami az audio hosszával csak romlott: a sebesség.
A Qwen3 autoregresszív architektúrát használt — ugyanaz a megközelítés, mint a Whisperé, képkockáról képkockára dolgozza fel a hangot, soha nem ugrik előre. Egy 27 perces kínai podcastnál 73 másodpercet vett igénybe. Használható, de nem az az azonnali eredmény élmény, amit a Parakeet V3 nyújt angolra.
A mélyebb probléma az infrastruktúránk volt. A Qwen3 integrációnk a sherpa-onnx-et használta, egy C könyvtárat 2 249 soros Swift wrapperrel, ami mindent a CPU magokon keresztül irányított. A GPU tétlenül állt, miközben a Mac CPU-ja végezte az összes munkát.
A SenseVoice mindkét problémát megoldotta. Nem-autoregresszív architektúra a sebességért. Apple MLX a GPU-gyorsításért. Az eredmény: 16,2-szeres sebességnövekedés ugyanazon a hardveren, a kódbázis 2 249 sorról 288-ra csökkent.
A benchmark
Mindhárom modell ugyanazon az Apple M4 Pro-n futott, ugyanazokkal a hangfájlokkal, ugyanazokkal a feltételekkel. Nincs felhő. Nincs internet. Csak szilícium.
| Modell | 5 perc angol | 27 perc kínai | Sebesség (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2,91 mp | 10,10 mp | 103–161× |
| SenseVoice Small | 5,8 mp | 13,83 mp | 52–118× |
| Whisper Large V3 Turbo | 20,92 mp | 2 perc 4 mp | 13–14× |
| Qwen3-ASR (eltávolítva) | — | 73 mp | 4,7× |
A SenseVoice nagyjából fele olyan gyors, mint a Parakeet V3 — de még így is rendkívül gyors. Egy 27 perces podcast 14 másodperc alatt elkészül. Megnyomja az átírás gombot, egy lélegzetnyi várakozás, és ott a szöveg.
Hasonlítsa össze a Whisper 2 perc 4 másodpercével vagy a régi Qwen3 73 másodpercével. Az architektúra fontosabb, mint a paraméterek száma.
Hivatalos következtetési benchmark a FunAudioLLM cikkből: A SenseVoice-Small 10 mp hangot 70 ms alatt dolgoz fel (A800 GPU). A Whisper-Large-V3-nak 1 281 ms kell. Ez 18-szoros különbség a nyers következtetési késleltetésben.
| Modell | Betöltési idő | Memória | Letöltés mérete |
|---|---|---|---|
| Parakeet V3 | 0,77 mp | ~800 MB | 465 MB |
| SenseVoice Small | 0,81 mp | ~700 MB | 827 MB |
| Whisper Small | 1,03 mp | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3,18 mp | ~1,6 GB | 3 GB |
* Betöltési idő és memória Apple M4 Pro-n, 32 GB-val mérve.
A SenseVoice egy másodperc alatt töltődik be, és kevesebb memóriát használ, mint a Parakeet. Egy 8 GB-os Macen kényelmesen fut a többi alkalmazás mellett.
Miért gyorsabb a SenseVoice: Architektúra + futtatókörnyezet
A Qwen3-ASR és a SenseVoice közötti sebességkülönbség két független tényezőből ered.
1. tényező: Modell architektúra. A Qwen3-ASR autoregresszív — szöveges tokeneket generál egyenként, mindegyik az előzőtől függ. A SenseVoice nem-autoregresszív (NAR) kódolót használ, amely az egész hangot párhuzamosan dolgozza fel. Ez az architekturális különbség önmagában alapvetően gyorsabbá teszi a SenseVoice-t, függetlenül a hardvertől.
2. tényező: Futtatókörnyezet. A Qwen3-ASR integrációnk a sherpa-onnx-et használta, ami CPU-n futott. A SenseVoice az Apple MLX-en keresztül fut, a számításokat a GPU-ra irányítva. Futhatna a Qwen3 is MLX-en? Igen — de akkor is lassabb lenne a SenseVoice-nál, mert az autoregresszív szűk keresztmetszet az architektúrában van, nem a futtatókörnyezetben.
| Qwen3-ASR (régi) | SenseVoice (új) | |
|---|---|---|
| Architektúra | Autoregresszív (tokenről tokenre) | Nem-autoregresszív (párhuzamos) |
| Futtatókörnyezet | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 perc kínai | 224 másodperc | 13,83 másodperc |
| Összesített gyorsulás | kiindulás | 16,2× gyorsabb |
| Kódbázis | 168 MB C keretrendszer + 2 249 sor Swift | 288 sor Swift Actor |
* Ugyanaz a 27 perces kínai podcast, Apple M4 Pro. A 16,2× gyorsulás az architekturális (NAR vs AR) és futtatókörnyezeti (GPU vs CPU) javítások együttes hatása.
A kód is egyszerűbb lett. Az új SenseVoice implementáció egyetlen 288 soros Swift Actor, amely közvetlenül kommunikál az MLX-szel, lecserélve a 168 MB-os C keretrendszert. Kevesebb kód, kevesebb hiba, kisebb alkalmazás.
Öt nyelv, jól csinálva
A SenseVoice nem próbál mindent megcsinálni. Öt nyelvet kezel:
| Nyelv | SenseVoice-Small | Whisper-Large-V3 | Győztes |
|---|---|---|---|
| Kínai (zh-CN) | 10,78% CER | 12,55% CER | SenseVoice (-14%) |
| Kantoni (yue) | 7,09% CER | 10,41% CER | SenseVoice (-32%) |
| Japán (ja) | 11,96% CER | 10,34% CER | Whisper (enyhén) |
| Koreai (ko) | 8,28% CER | 5,59% CER | Whisper |
| Angol (en) | 14,71% WER | 9,39% WER | Whisper (használjon Parakeet-et) |
* CommonVoice benchmark, CER = karakterhibaarány, WER = szóhibaarány. Alacsonyabb jobb. Forrás: FunAudioLLM cikk (2024). SenseVoice-Small következtetési késleltetés: 70 ms 10 mp hangra (A800 GPU), több mint 15× gyorsabb a Whisper-Large-V3-nál.
CommonVoice benchmark: SenseVoice-Small (sárga) vs Whisper-Small (kék) vs Whisper-Large-V3 (narancssárga). Alacsonyabb jobb. Forrás: FunAudioLLM cikk
A számok őszinte történetet mesélnek. A SenseVoice jelentős különbséggel felülmúlja a Whispert a kínai és kantoni pontosságban, míg a Whisper pontosabb japánra, koreaira és angolra. De a SenseVoice több mint 15-ször gyorsabb a Whisper-Large-V3-nál. A legtöbb valós használatban a sebességkülönbség fontosabb, mint néhány százalékpontnyi pontosság.
A kantoni eredmény külön kiemelést érdemel. A Whisper-Small 38,97% CER-t ér el kantonira — szinte használhatatlan. Még a Whisper-Large-V3 is csak 10,41%-ot tud. A SenseVoice 7,09%-ot ér el. A SenseVoice előtt nem volt jó módja a kantoni helyi átírásának Macen. Ha kantoniul beszél, ez a modell önnek készült.
Koreai átírás SenseVoice-szal: videó importálás időbélyeges feliratokkal
Valós teszt: 27 perces kínai podcast
Átírtunk egy 27 perces epizódot a Thirteen Invitations (十三邀) kínai interjú podcastból, SenseVoice-szal és Whisper Large V3 Turbo-val is ugyanazon az M4 Pro-n. Az ElevenLabs Scribe (felhő) szolgált referenciaként. Mindkét eszközön futó modell nagyjából ugyanannyi hibát ejt, de különböző típusúakat:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Idő | 13,83 mp | 2 perc 4 mp |
| Hibák (5 perces minta) | ~15–20 | ~12–15 |
| Legrosszabb hiba | 时差→食堂 (időeltolódás→menza) | 西昌→西藏 (Xichang város→Tibet, 4 000 km-es eltérés) |
| Hibamintázat | Homofonok felcserélése | Földrajzi/ténybeli hibák |
* Kézi összehasonlítás az ElevenLabs Scribe-bal (felhő referencia, szintén nem tökéletes). Mindkét eszközön futó modell helyesen írta a „根深蒂固" kifejezést, ahol a Scribe hibázott.
Összehasonlítható pontosság. 9× gyorsabb. Valós kínai átíráshoz a SenseVoice már kész az átirattal, mielőtt a Whisper befejezné a betöltést.
Melyik modellt mikor használjuk
A Mac-es Whisper Notes most négy beszédmodellel érkezik. Mindegyik különböző forgatókönyvekre van optimalizálva:
| Amire szüksége van... | Használja ezt a modellt | Miért |
|---|---|---|
| Angol vagy európai nyelvek, maximális sebesség | Parakeet V3 | 103× valós idő, legalacsonyabb hibaarány. Alapértelmezett. |
| Kínai, japán, koreai vagy kantoni | SenseVoice Small | 52–118× valós idő. Az egyetlen modell kantoni támogatással. |
| Bármely 99+ nyelvből (arab, thai, orosz stb.) | Whisper Large V3 Turbo | Legszélesebb nyelvtámogatás. Lassabb, de univerzális. |
| Alacsonyabb memóriahasználat (régebbi Macek) | Whisper Small | 487 MB memória. Jó 8 GB-os Macekhez más alkalmazások futtatása mellett. |
Beállítások → Átírási modell: válassza ki a megfelelő motort az ön nyelvéhez
A Beállítások modellválasztója mind a négy opciót megjeleníti a letöltési méretekkel, nyelvek számával és memóriaigénnyel. A SenseVoice az első használatkor töltődik le (~827 MB) és az eszközön marad.
Kompromisszumok
A SenseVoice nem univerzális modell. Amit nem tud:
• Csak 5 nyelv. Ha thai, orosz, arab, hindi vagy a Whisper által támogatott egyéb 90+ nyelv bármelyikére van szüksége, maradjon a Whispernél.
• Csak Mac. A SenseVoice az Apple MLX-en keresztül fut, amihez macOS szükséges. Nem érhető el iPhone-on. Az iOS felhasználóknak Parakeet (európai nyelvekhez) és Whisper áll rendelkezésre.
• Halk hang probléma. Nagyon rövid vagy nagyon halk szegmenseknél a SenseVoice néha visszaválthat kínai kimenetre a kiválasztott nyelvtől függetlenül. A nyelv kézi beállítása ("Automatikus" helyett) csökkenti ezt.
• Nincs streaming. A Whisper streaming módjával ellentétben a SenseVoice a felvétel után dolgozza fel a teljes hangot. Hosszú fájloknál automatikusan szegmentál a csendpontoknál és fokozatosan mutatja az eredményeket.
Ezek architekturális korlátok, nem hibák. Egy 5 nyelvre tanított modell azt az 5 nyelvet rendkívül jól csinálja. A Whisper 99+ nyelv támogatása lassabb sebességgel és magasabb hibaaránnyal jár minden egyes nyelven.
Próbálja ki
A SenseVoice a Mac-es Whisper Notes 1.4.8-as és újabb verzióiban érhető el. Töltse le a Beállítások → Átírási modell → SenseVoice Small (~827 MB) menüpontból. Apple Silicon Mac (M1 vagy újabb) szükséges.
Ha a Parakeet V3-at használja és főleg angolul diktál, nincs szükség váltásra. A SenseVoice arra való, amikor kínaira, japánra, koreaira vagy kantonira van szüksége — és gyorsan akarja.
Teljes változásnapló: whispernotes.app/changelog
Kérdések vagy visszajelzés: mac@whispernotes.app