SenseVoice: 52× snellere transcriptie voor Chinees, Japans en Koreaans op Mac

SAMENVATTING — Drie Mac-modellen vergeleken

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 min Engels	2,91s (103×)	5,8s (52×)	20,92s (14,3×)
27 min Chinees	10,10s (161×)	13,83s (118×)	2 min 4s (13,1×)
Talen	25 (Europees)	5 (zh, en, ja, ko, yue)	99+
Download	465 MB	827 MB	1,5 GB
Geheugen	~800 MB	~700 MB	~1,6 GB
Ideaal voor	Engels & Europees	Chinees, Japans, Koreaans, Kantonees	Al het andere (99+ talen)

* Snelheidsbenchmarks op Apple M4 Pro, 32 GB. 5 minuten Engelse podcast en 27 minuten Chinese podcast. Realtimefactor = audioduur ÷ verwerkingstijd (hoger = sneller). SenseVoice is alleen beschikbaar voor macOS. iOS gebruikt Parakeet (via ANE) en Whisper.

Vanaf versie 1.4.8 bevat Whisper Notes voor Mac SenseVoice Small als speciale engine voor de transcriptie van Chinees, Japans, Koreaans en Kantonees. Het vervangt Qwen3-ASR en draait op Apple's GPU via MLX in plaats van de CPU — een 27 minuten Chinese podcast wordt verwerkt in 13,83 seconden in plaats van 3 minuten en 44 seconden.

Waarom we Qwen3-ASR hebben vervangen

Qwen3-ASR was een solide model. Het ondersteunde 30 talen plus 22 Chinese dialecten, en de Chinese nauwkeurigheid was bijna state-of-the-art. Maar het had een probleem dat erger werd naarmate de audio langer duurde: snelheid.

Qwen3 gebruikte een autoregressieve architectuur — dezelfde aanpak als Whisper, waarbij audio frame voor frame wordt verwerkt, zonder ooit vooruit te springen. Bij een 27 minuten Chinese podcast duurde het 73 seconden. Bruikbaar, maar niet de ervaring van een direct resultaat die Parakeet V3 biedt voor Engels.

Het diepere probleem was onze infrastructuur. Onze Qwen3-integratie gebruikte sherpa-onnx, een C-bibliotheek met een Swift-wrapper van 2.249 regels die alles via CPU-kernen routeerde. De GPU bleef onbenut terwijl de CPU van je Mac al het werk deed.

SenseVoice loste beide problemen op. Niet-autoregressieve architectuur voor snelheid. Apple MLX voor GPU-versnelling. Het resultaat: een 16,2× snelheidsverbetering op dezelfde hardware, met een codebase teruggebracht van 2.249 naar 288 regels.

De benchmark

Alle drie de modellen draaien op dezelfde Apple M4 Pro, dezelfde audiobestanden, dezelfde omstandigheden. Geen cloud. Geen internet. Alleen silicium.

Model	5 min Engels	27 min Chinees	Snelheid (RTFx)
Parakeet V3	2,91s	10,10s	103–161×
SenseVoice Small	5,8s	13,83s	52–118×
Whisper Large V3 Turbo	20,92s	2 min 4s	13–14×
Qwen3-ASR (verwijderd)	—	73s	4,7×

SenseVoice is ongeveer half zo snel als Parakeet V3 — maar nog steeds buitengewoon snel. Een 27 minuten podcast is in minder dan 14 seconden klaar. Je drukt op transcriberen, wacht een ademtocht, en de tekst is er.

Vergelijk dat met Whisper met 2 minuten en 4 seconden, of het oude Qwen3 met 73 seconden. De architectuur is belangrijker dan het aantal parameters.

Officiële vergelijkingstabel inferentiesnelheid uit het FunAudioLLM-paper: SenseVoice-Small (70ms per 10s audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - toont modelarchitectuur, parameters, ondersteunde talen, RTF en latentie

Officiële inferentiebenchmark uit het FunAudioLLM-paper: SenseVoice-Small verwerkt 10s audio in 70ms (A800 GPU). Whisper-Large-V3 heeft 1.281ms nodig. Dat is een 18× verschil in pure inferentielatentie.

Model	Laadtijd	Geheugen	Downloadgrootte
Parakeet V3	0,77s	~800 MB	465 MB
SenseVoice Small	0,81s	~700 MB	827 MB
Whisper Small	1,03s	~487 MB	600 MB
Whisper Large V3 Turbo	3,18s	~1,6 GB	3 GB

* Laadtijd en geheugen gemeten op Apple M4 Pro, 32 GB.

SenseVoice laadt in minder dan een seconde en gebruikt minder geheugen dan Parakeet. Op een 8 GB Mac draait het comfortabel naast je andere applicaties.

Waarom SenseVoice sneller is: architectuur + runtime

Het snelheidsverschil tussen Qwen3-ASR en SenseVoice komt door twee onafhankelijke factoren.

Factor 1: Modelarchitectuur. Qwen3-ASR is autoregressief — het genereert tekst token voor token, waarbij elk token afhankelijk is van het vorige. SenseVoice gebruikt een niet-autoregressieve (NAR) encoder die de volledige audio parallel verwerkt. Dit architectuurverschil alleen al maakt SenseVoice fundamenteel sneller, ongeacht de hardware.

Factor 2: Runtime. Onze Qwen3-ASR-integratie gebruikte sherpa-onnx, dat op de CPU draaide. SenseVoice draait via Apple MLX, dat berekeningen naar de GPU stuurt. Zou Qwen3 ook op MLX kunnen draaien? Ja — maar het zou nog steeds langzamer zijn dan SenseVoice omdat het autoregressieve knelpunt in de architectuur zit, niet in de runtime.

	Qwen3-ASR (oud)	SenseVoice (nieuw)
Architectuur	Autoregressief (token voor token)	Niet-autoregressief (parallel)
Runtime	sherpa-onnx (CPU)	Apple MLX (GPU)
27 min Chinees	224 seconden	13,83 seconden
Gecombineerde versnelling	basislijn	16,2× sneller
Codebase	168 MB C-framework + 2.249 regels Swift	288 regels Swift Actor

* Dezelfde 27 minuten Chinese podcast, Apple M4 Pro. De 16,2× versnelling combineert zowel architectonische (NAR vs AR) als runtime (GPU vs CPU) verbeteringen.

De code werd ook eenvoudiger. De nieuwe SenseVoice-implementatie is een enkele Swift Actor van 288 regels die direct met MLX communiceert, ter vervanging van een 168 MB C-framework. Minder code, minder bugs, kleinere app.

Vijf talen, goed gedaan

SenseVoice probeert niet alles te doen. Het ondersteunt vijf talen:

Taal	SenseVoice-Small	Whisper-Large-V3	Winnaar
Chinees (zh-CN)	10,78% CER	12,55% CER	SenseVoice (-14%)
Kantonees (yue)	7,09% CER	10,41% CER	SenseVoice (-32%)
Japans (ja)	11,96% CER	10,34% CER	Whisper (licht)
Koreaans (ko)	8,28% CER	5,59% CER	Whisper
Engels (en)	14,71% WER	9,39% WER	Whisper (gebruik Parakeet)

* CommonVoice-benchmark, CER = tekenfoutenpercentage, WER = woordfoutenpercentage. Lager is beter. Bron: FunAudioLLM-paper (2024). SenseVoice-Small inferentielatentie: 70ms per 10s audio (A800 GPU), meer dan 15× sneller dan Whisper-Large-V3.

SenseVoice vs Whisper nauwkeurigheidsvergelijking op CommonVoice-benchmark voor Chinees, Kantonees, Engels, Japans, Koreaans en 25 andere talen - WER/CER staafdiagram

CommonVoice-benchmark: SenseVoice-Small (geel) vs Whisper-Small (blauw) vs Whisper-Large-V3 (oranje). Lager is beter. Bron: FunAudioLLM-paper

De cijfers vertellen een eerlijk verhaal. SenseVoice verslaat Whisper in nauwkeurigheid voor Chinees en Kantonees met een aanzienlijke marge, terwijl Whisper nauwkeuriger is voor Japans, Koreaans en Engels. Maar SenseVoice is meer dan 15× sneller dan Whisper-Large-V3. Voor de meeste toepassingen in de praktijk is het snelheidsverschil belangrijker dan een paar procentpunten nauwkeurigheid.

Het Kantonese resultaat verdient apart aandacht. Whisper-Small scoort 38,97% CER op Kantonees — vrijwel onbruikbaar. Zelfs Whisper-Large-V3 haalt slechts 10,41%. SenseVoice haalt 7,09%. Vóór SenseVoice was er geen goede manier om Kantonees lokaal op een Mac te transcriberen. Als je Kantonees spreekt, is dit model voor jou gemaakt.

SenseVoice Koreaans transcriptieresultaat in Whisper Notes voor Mac met nauwkeurige Koreaanse tekst uit een video

Koreaanse transcriptie met SenseVoice: video-import met getimede ondertitels

Test in de praktijk: 27 minuten Chinese podcast

We transcribeerden een aflevering van 27 minuten van Thirteen Invitations (十三邀), een Chinese interviewpodcast, met zowel SenseVoice als Whisper Large V3 Turbo op dezelfde M4 Pro. ElevenLabs Scribe (cloud) diende als referentie. Beide on-device modellen maken ongeveer evenveel fouten, maar van verschillende soorten:

	SenseVoice	Whisper Large V3
Tijd	13,83s	2 min 4s
Fouten (5 min steekproef)	~15–20	~12–15
Ergste fout	时差→食堂 (tijdzone→kantine)	西昌→西藏 (stad Xichang→Tibet, 4.000 km ernaast)
Foutenpatroon	Homofoonverwisselingen	Geografische/feitelijke fouten

* Handmatige vergelijking met ElevenLabs Scribe (cloud-referentie, ook niet perfect). Beide on-device modellen schreven correct «根深蒂固» waar Scribe een fout maakte.

Vergelijkbare nauwkeurigheid. 9× sneller. Voor Chinese transcriptie in de praktijk levert SenseVoice je een bruikbare transcriptie voordat Whisper klaar is met laden.

Wanneer welk model gebruiken

Whisper Notes voor Mac wordt nu geleverd met vier spraakmodellen. Elk is geoptimaliseerd voor verschillende scenario's:

Je hebt nodig...	Gebruik dit model	Waarom
Engels of Europese talen, maximale snelheid	Parakeet V3	103× realtime, laagste foutenpercentage. De standaard.
Chinees, Japans, Koreaans of Kantonees	SenseVoice Small	52–118× realtime. Enige model met Kantonese ondersteuning.
Eén van 99+ talen (Arabisch, Thai, Russisch, etc.)	Whisper Large V3 Turbo	Breedste taalondersteuning. Langzamer maar universeel.
Lager geheugengebruik (oudere Macs)	Whisper Small	487 MB geheugen. Goed voor 8 GB Macs met andere apps open.

Whisper Notes Mac modelselector met Parakeet V3, SenseVoice Small, Whisper Small en Whisper Large V3 Turbo met downloadgroottes en taalondersteuning

Instellingen → Transcriptiemodel: kies de juiste engine voor jouw taal

De modelselector in Instellingen toont alle vier opties met downloadgroottes, aantal talen en geheugensvereisten. SenseVoice wordt bij het eerste gebruik gedownload (~827 MB) en blijft op je apparaat.

De beperkingen

SenseVoice is geen universeel model. Dit kan het niet:

• Slechts 5 talen. Als je Thai, Russisch, Arabisch, Hindi of een van de andere 90+ talen nodig hebt die Whisper ondersteunt, blijf dan bij Whisper.

• Alleen Mac. SenseVoice draait via Apple MLX, dat macOS vereist. Het is niet beschikbaar op iPhone. iOS-gebruikers hebben Parakeet (voor Europese talen) en Whisper.

• Eigenaardigheid bij stil geluid. Tijdens zeer korte of zeer stille segmenten kan SenseVoice soms terugvallen op Chinese output, ongeacht de geselecteerde taal. De taal handmatig instellen (in plaats van «Auto») vermindert dit.

• Geen streaming. In tegenstelling tot Whispers streamingmodus verwerkt SenseVoice de volledige audio na de opname. Voor lange bestanden segmenteert het automatisch op stilte-punten en toont resultaten geleidelijk.

Dit zijn architecturale beperkingen, geen bugs. Een model getraind op 5 talen beheerst die 5 talen uitzonderlijk goed. Whispers ondersteuning voor 99+ talen gaat gepaard met lagere snelheid en hogere foutenpercentages voor elke individuele taal.

Probeer het

SenseVoice is beschikbaar in Whisper Notes voor Mac v1.4.8 en later. Download het via Instellingen → Transcriptiemodel → SenseVoice Small (~827 MB). Het vereist een Apple Silicon Mac (M1 of later).

Als je Parakeet V3 gebruikt en voornamelijk in het Engels dicteert, hoef je niet te wisselen. SenseVoice is voor wanneer je Chinees, Japans, Koreaans of Kantonees nodig hebt — en je het snel wilt.

Download voor Mac

Volledige changelog: whispernotes.app/changelog

Vragen of feedback: mac@whispernotes.app