SenseVoice: 52× snabbare transkription för kinesiska, japanska och koreanska på Mac

12 maj 2026
·
7 min read
·Whisper Notes Team

TL;DR -- Tre Mac-modeller jamforда

Parakeet V3 SenseVoice Small Whisper Large V3 Turbo
5 min engelska 2.91s (103×) 5.8s (52×) 20.92s (14.3×)
27 min kinesiska 10.10s (161×) 13.83s (118×) 2 min 4s (13.1×)
Sprak 25 (europeiska) 5 (zh, en, ja, ko, yue) 99+
Nedladdning 465 MB 827 MB 1.5 GB
Minne ~800 MB ~700 MB ~1.6 GB
Bast for Engelska & europeiska Kinesiska, japanska, koreanska, kantonesiska Allt annat (99+ sprak)

* Hastighetsbenchmark pa Apple M4 Pro, 32 GB. 5-minuters engelsk podcast och 27-minuters kinesisk podcast. Realtidsfaktor = ljudlangd / bearbetningstid (hogre = snabbare). SenseVoice ar endast for macOS. iOS anvander Parakeet (via ANE) och Whisper.

Fran och med version 1.4.8 levereras Whisper Notes for Mac med SenseVoice Small som dedikerad motor for kinesisk, japansk, koreansk och kantonesisk transkription. Den ersatter Qwen3-ASR och kor pa Apples GPU via MLX istallet for CPU -- en 27-minuters kinesisk podcast bearbetas pa 13,83 sekunder istallet for 3 minuter och 44 sekunder.

Varfor vi ersatte Qwen3-ASR

Qwen3-ASR var en solid modell. Den stodde 30 sprak plus 22 kinesiska dialekter, och dess kinesiska precision var nara state-of-the-art. Men den hade ett problem som blev varre ju langre ljudet var: hastighet.

Qwen3 anvande en autoregressiv arkitektur -- samma tillvagagangssatt som Whisper, bearbetar ljud bildruta for bildruta, hoppar aldrig framat. Pa en 27-minuters kinesisk podcast tog det 73 sekunder. Anvandbart, men inte den omedelbara upplevelsen som Parakeet V3 levererar for engelska.

Det djupare problemet var var infrastruktur. Var Qwen3-integration anvande sherpa-onnx, ett C-bibliotek med en 2 249-raders Swift-wrapper som dirigerade allt genom CPU-karnor. GPU:n satt sysslolost medan din Macs CPU gjorde allt arbete.

SenseVoice loste bada problemen. Icke-autoregressiv arkitektur for hastighet. Apple MLX for GPU-acceleration. Resultatet: 16,2x snabbare pa samma hardvara, med en kodbas reducerad fran 2 249 rader till 288.

Benchmarket

Alla tre modellerna kor pa samma Apple M4 Pro, samma ljudfiler, samma forutsattningar. Inget moln. Inget internet. Bara kisel.

Modell 5 min engelska 27 min kinesiska Hastighet (RTFx)
Parakeet V3 2.91s 10.10s 103--161x
SenseVoice Small 5.8s 13.83s 52--118x
Whisper Large V3 Turbo 20.92s 2 min 4s 13--14x
Qwen3-ASR (borttagen) -- 73s 4.7x

SenseVoice ar ungefar halften sa snabb som Parakeet V3 -- fortfarande extraordinart snabb. En 27-minuters podcast ar klar pa under 14 sekunder. Du trycker pa transkribera, vantar ett andetag, och texten ar dar.

Jamfor med Whisper pa 2 minuter och 4 sekunder, eller gamla Qwen3 pa 73 sekunder. Arkitekturen spelar storre roll an antalet parametrar.

Officiell jamforelsetabell for inferenshastighet fran FunAudioLLM-artikeln: SenseVoice-Small (70ms per 10s ljud) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - visar modellarkitektur, parametrar, sprakstod, RTF och latens

Officiellt inferensbenchmark fran FunAudioLLM-artikeln: SenseVoice-Small bearbetar 10s ljud pa 70ms (A800 GPU). Whisper-Large-V3 tar 1 281ms. Det ar 18x skillnad i ra inferenslatens.

Modell Laddningstid Minne Nedladdningsstorlek
Parakeet V3 0.77s ~800 MB 465 MB
SenseVoice Small 0.81s ~700 MB 827 MB
Whisper Small 1.03s ~487 MB 600 MB
Whisper Large V3 Turbo 3.18s ~1.6 GB 3 GB

* Laddningstid och minne matt pa Apple M4 Pro, 32 GB.

SenseVoice laddar pa under en sekund och anvander mindre minne an Parakeet. Pa en 8 GB Mac kor den bekvamt tillsammans med dina andra applikationer.

Varfor SenseVoice ar snabbare: Arkitektur + Korning

Hastighetsskillnaden mellan Qwen3-ASR och SenseVoice kommer fran tva oberoende faktorer.

Faktor 1: Modellarkitektur. Qwen3-ASR ar autoregressiv -- den genererar text token for token, dar varje token beror pa den foregaende. SenseVoice anvander en icke-autoregressiv (NAR) encoder som bearbetar hela ljudet parallellt. Denna arkitekturskillnad ensam gor SenseVoice fundamentalt snabbare, oavsett vilken hardvara du kor den pa.

Faktor 2: Korning. Var Qwen3-ASR-integration anvande sherpa-onnx, som korde pa CPU. SenseVoice kor genom Apple MLX och dirigerar berakningar till GPU:n. Kunde Qwen3 ocksa kora pa MLX? Ja -- men den skulle fortfarande vara langsammare an SenseVoice eftersom den autoregressiva flaskhalsen ligger i arkitekturen, inte i korningen.

Qwen3-ASR (gammal) SenseVoice (ny)
Arkitektur Autoregressiv (token for token) Icke-autoregressiv (parallell)
Korning sherpa-onnx (CPU) Apple MLX (GPU)
27 min kinesiska 224 sekunder 13,83 sekunder
Kombinerad hastighetsforstoring baslinje 16,2x snabbare
Kodbas 168 MB C-ramverk + 2 249 rader Swift 288 rader Swift Actor

* Samma 27-minuters kinesiska podcast, Apple M4 Pro. 16,2x hastighetsforstoring kombinerar bade arkitektur- (NAR vs AR) och korningsfordelarna (GPU vs CPU).

Koden blev enklare ocksa. Den nya SenseVoice-implementationen ar en enda 288-raders Swift Actor som kommunicerar direkt med MLX, och ersatter ett 168 MB C-ramverk. Mindre kod, farre buggar, mindre app.

Fem sprak, gjort ordentligt

SenseVoice forsoker inte gora allt. Den hanterar fem sprak:

Sprak SenseVoice-Small Whisper-Large-V3 Vinnare
Kinesiska (zh-CN) 10.78% CER 12.55% CER SenseVoice (-14%)
Kantonesiska (yue) 7.09% CER 10.41% CER SenseVoice (-32%)
Japanska (ja) 11.96% CER 10.34% CER Whisper (liten skillnad)
Koreanska (ko) 8.28% CER 5.59% CER Whisper
Engelska (en) 14.71% WER 9.39% WER Whisper (anvand Parakeet)

* CommonVoice-benchmark, CER = Character Error Rate, WER = Word Error Rate. Lagre ar battre. Kalla: FunAudioLLM-artikeln (2024). SenseVoice-Small inferenslatens: 70ms per 10s ljud (A800 GPU), mer an 15x snabbare an Whisper-Large-V3.

SenseVoice vs Whisper noggrannhetsjaмforrelseяа CommonVoice-benchmark over kinesiska, kantonesiska, engelska, japanska, koreanska och 25 andra sprak - WER/CER stapeldiagram

CommonVoice-benchmark: SenseVoice-Small (gul) vs Whisper-Small (bla) vs Whisper-Large-V3 (orange). Lagre ar battre. Kalla: FunAudioLLM-artikeln

Siffrorna beratter en arlig historia. SenseVoice slar Whisper pa kinesisk och kantonesisk noggrannhet med en betydande marginal, medan Whisper ar mer exakt for japanska, koreanska och engelska. Men SenseVoice ar mer an 15x snabbare an Whisper-Large-V3. For de flesta verkliga anvandningsfall spelar hastighetsskillnaden storre roll an nagra procentenheters noggrannhet.

Kantonesiska-resultatet ar vart att belysa separat. Whisper-Small far 38,97% CER pa kantonesiska -- nast intill oanvandbart. Aven Whisper-Large-V3 nar bara 10,41%. SenseVoice uppnar 7,09%. Fore SenseVoice fanns det inget bra satt att transkribera kantonesiska lokalt pa en Mac. Om du talar kantonesiska existerar denna modell for dig.

SenseVoice koreansk transkriptionsresultat i Whisper Notes for Mac som visar korrekt koreansk text fran en video

Koreansk transkription med SenseVoice: videoimport med tidsstamplade undertexter

Verkligt test: 27-minuters kinesisk podcast

Vi transkriberade ett 27-minuters avsnitt av Thirteen Invitations (十三邀), en kinesisk intervjupodcast, med bade SenseVoice och Whisper Large V3 Turbo pa samma M4 Pro. ElevenLabs Scribe (moln) anvandes som referens. Bada lokala modellerna gor ungefar lika manga fel, men av olika slag:

SenseVoice Whisper Large V3
Tid 13.83s 2 min 4s
Fel (5 min urval) ~15--20 ~12--15
Varsta felet 时差→食堂 (tidszon→matsal) 西昌→西藏 (staden Xichang→Tibet, 4 000 km fel)
Felmonster Homofonbyten Geografiska/faktafel

* Manuell jamforelse mot ElevenLabs Scribe (molnreferens, ocksa imperfekt). Bada lokala modellerna skrev korrekt "根深蒂固" dar Scribe hade fel.

Jamforbar noggrannhet. 9x snabbare. For kinesisk transkription i verkligheten ger SenseVoice dig ett anvandbart transkript innan Whisper har laddat klart.

Nar du ska anvanda vilken modell

Whisper Notes for Mac levereras nu med fyra talmodeller. Var och en ar optimerad for olika scenarier:

Du behover... Anvand denna modell Varfor
Engelska eller europeiska sprak, maximal hastighet Parakeet V3 103x realtid, lagst felfrekvens. Standard.
Kinesiska, japanska, koreanska eller kantonesiska SenseVoice Small 52--118x realtid. Enda modellen med kantonesiskastod.
Nagot av 99+ sprak (arabiska, thailandska, ryska, etc.) Whisper Large V3 Turbo Bredast sprakstod. Langsammare men universell.
Lagre minnesanvandning (aldre Mac-datorer) Whisper Small 487 MB minne. Bra for 8 GB Mac-datorer som kor andra appar.
Whisper Notes Mac-modellvaljare som visar Parakeet V3, SenseVoice Small, Whisper Small och Whisper Large V3 Turbo med nedladdningsstorlekar och sprakstod

Installningar → Transkriptionsmodell: valj ratt motor for ditt sprak

Modellvaljaren i Installningar visar alla fyra alternativ med nedladdningsstorlekar, antal sprak och minneskrav. SenseVoice laddas ner vid forsta anvandningen (~827 MB) och stannar pa din enhet.

Kompromisserna

SenseVoice ar inte en universell modell. Har ar vad den inte kan gora:

* Bara 5 sprak. Om du behover thailandska, ryska, arabiska, hindi eller nagot av de andra 90+ spraken som Whisper stoder, hall dig till Whisper.

* Bara Mac. SenseVoice kor via Apple MLX, som kraver macOS. Den finns inte pa iPhone. iOS-anvandare har Parakeet (for europeiska sprak) och Whisper.

* Tyst ljud-egenhet. Under mycket korta eller mycket tysta segment kan SenseVoice ibland falla tillbaka till kinesisk utdata oavsett valt sprak. Att stalla in spraket manuellt (istallet for "Auto") minskar detta.

* Ingen streaming. Till skillnad fran Whispers streaming-lage bearbetar SenseVoice hela ljudet efter inspelning. For langa filer segmenterar den automatiskt vid tystnadspunkter och visar resultat progressivt.

Detta ar arkitekturella begransningar, inte buggar. En modell tranad pa 5 sprak gor dessa 5 sprak extremt bra. Whispers stod for 99+ sprak kommer med langsammare hastighet och hogre felfrekvens pa varje enskilt sprak.

Prova det

SenseVoice finns tillganglig i Whisper Notes for Mac v1.4.8 och senare. Ladda ner den fran Installningar → Transkriptionsmodell → SenseVoice Small (~827 MB). Det kraver en Apple Silicon Mac (M1 eller senare).

Om du anvander Parakeet V3 och huvudsakligen dikterar pa engelska finns det inget behov av att byta. SenseVoice ar for nar du behover kinesiska, japanska, koreanska eller kantonesiska -- och du vill ha det snabbt.

Ladda ner for Mac

Fullstandig andringslogg: whispernotes.app/changelog

Fragor eller feedback: mac@whispernotes.app