SAMENVATTING — Drie Mac-modellen vergeleken
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 min Engels | 2,91s (103×) | 5,8s (52×) | 20,92s (14,3×) |
| 27 min Chinees | 10,10s (161×) | 13,83s (118×) | 2 min 4s (13,1×) |
| Talen | 25 (Europees) | 5 (zh, en, ja, ko, yue) | 99+ |
| Download | 465 MB | 827 MB | 1,5 GB |
| Geheugen | ~800 MB | ~700 MB | ~1,6 GB |
| Ideaal voor | Engels & Europees | Chinees, Japans, Koreaans, Kantonees | Al het andere (99+ talen) |
* Snelheidsbenchmarks op Apple M4 Pro, 32 GB. 5 minuten Engelse podcast en 27 minuten Chinese podcast. Realtimefactor = audioduur ÷ verwerkingstijd (hoger = sneller). SenseVoice is alleen beschikbaar voor macOS. iOS gebruikt Parakeet (via ANE) en Whisper.
Vanaf versie 1.4.8 bevat Whisper Notes voor Mac SenseVoice Small als speciale engine voor de transcriptie van Chinees, Japans, Koreaans en Kantonees. Het vervangt Qwen3-ASR en draait op Apple's GPU via MLX in plaats van de CPU — een 27 minuten Chinese podcast wordt verwerkt in 13,83 seconden in plaats van 3 minuten en 44 seconden.
Waarom we Qwen3-ASR hebben vervangen
Qwen3-ASR was een solide model. Het ondersteunde 30 talen plus 22 Chinese dialecten, en de Chinese nauwkeurigheid was bijna state-of-the-art. Maar het had een probleem dat erger werd naarmate de audio langer duurde: snelheid.
Qwen3 gebruikte een autoregressieve architectuur — dezelfde aanpak als Whisper, waarbij audio frame voor frame wordt verwerkt, zonder ooit vooruit te springen. Bij een 27 minuten Chinese podcast duurde het 73 seconden. Bruikbaar, maar niet de ervaring van een direct resultaat die Parakeet V3 biedt voor Engels.
Het diepere probleem was onze infrastructuur. Onze Qwen3-integratie gebruikte sherpa-onnx, een C-bibliotheek met een Swift-wrapper van 2.249 regels die alles via CPU-kernen routeerde. De GPU bleef onbenut terwijl de CPU van je Mac al het werk deed.
SenseVoice loste beide problemen op. Niet-autoregressieve architectuur voor snelheid. Apple MLX voor GPU-versnelling. Het resultaat: een 16,2× snelheidsverbetering op dezelfde hardware, met een codebase teruggebracht van 2.249 naar 288 regels.
De benchmark
Alle drie de modellen draaien op dezelfde Apple M4 Pro, dezelfde audiobestanden, dezelfde omstandigheden. Geen cloud. Geen internet. Alleen silicium.
| Model | 5 min Engels | 27 min Chinees | Snelheid (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2,91s | 10,10s | 103–161× |
| SenseVoice Small | 5,8s | 13,83s | 52–118× |
| Whisper Large V3 Turbo | 20,92s | 2 min 4s | 13–14× |
| Qwen3-ASR (verwijderd) | — | 73s | 4,7× |
SenseVoice is ongeveer half zo snel als Parakeet V3 — maar nog steeds buitengewoon snel. Een 27 minuten podcast is in minder dan 14 seconden klaar. Je drukt op transcriberen, wacht een ademtocht, en de tekst is er.
Vergelijk dat met Whisper met 2 minuten en 4 seconden, of het oude Qwen3 met 73 seconden. De architectuur is belangrijker dan het aantal parameters.
Officiële inferentiebenchmark uit het FunAudioLLM-paper: SenseVoice-Small verwerkt 10s audio in 70ms (A800 GPU). Whisper-Large-V3 heeft 1.281ms nodig. Dat is een 18× verschil in pure inferentielatentie.
| Model | Laadtijd | Geheugen | Downloadgrootte |
|---|---|---|---|
| Parakeet V3 | 0,77s | ~800 MB | 465 MB |
| SenseVoice Small | 0,81s | ~700 MB | 827 MB |
| Whisper Small | 1,03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3,18s | ~1,6 GB | 3 GB |
* Laadtijd en geheugen gemeten op Apple M4 Pro, 32 GB.
SenseVoice laadt in minder dan een seconde en gebruikt minder geheugen dan Parakeet. Op een 8 GB Mac draait het comfortabel naast je andere applicaties.
Waarom SenseVoice sneller is: architectuur + runtime
Het snelheidsverschil tussen Qwen3-ASR en SenseVoice komt door twee onafhankelijke factoren.
Factor 1: Modelarchitectuur. Qwen3-ASR is autoregressief — het genereert tekst token voor token, waarbij elk token afhankelijk is van het vorige. SenseVoice gebruikt een niet-autoregressieve (NAR) encoder die de volledige audio parallel verwerkt. Dit architectuurverschil alleen al maakt SenseVoice fundamenteel sneller, ongeacht de hardware.
Factor 2: Runtime. Onze Qwen3-ASR-integratie gebruikte sherpa-onnx, dat op de CPU draaide. SenseVoice draait via Apple MLX, dat berekeningen naar de GPU stuurt. Zou Qwen3 ook op MLX kunnen draaien? Ja — maar het zou nog steeds langzamer zijn dan SenseVoice omdat het autoregressieve knelpunt in de architectuur zit, niet in de runtime.
| Qwen3-ASR (oud) | SenseVoice (nieuw) | |
|---|---|---|
| Architectuur | Autoregressief (token voor token) | Niet-autoregressief (parallel) |
| Runtime | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 min Chinees | 224 seconden | 13,83 seconden |
| Gecombineerde versnelling | basislijn | 16,2× sneller |
| Codebase | 168 MB C-framework + 2.249 regels Swift | 288 regels Swift Actor |
* Dezelfde 27 minuten Chinese podcast, Apple M4 Pro. De 16,2× versnelling combineert zowel architectonische (NAR vs AR) als runtime (GPU vs CPU) verbeteringen.
De code werd ook eenvoudiger. De nieuwe SenseVoice-implementatie is een enkele Swift Actor van 288 regels die direct met MLX communiceert, ter vervanging van een 168 MB C-framework. Minder code, minder bugs, kleinere app.
Vijf talen, goed gedaan
SenseVoice probeert niet alles te doen. Het ondersteunt vijf talen:
| Taal | SenseVoice-Small | Whisper-Large-V3 | Winnaar |
|---|---|---|---|
| Chinees (zh-CN) | 10,78% CER | 12,55% CER | SenseVoice (-14%) |
| Kantonees (yue) | 7,09% CER | 10,41% CER | SenseVoice (-32%) |
| Japans (ja) | 11,96% CER | 10,34% CER | Whisper (licht) |
| Koreaans (ko) | 8,28% CER | 5,59% CER | Whisper |
| Engels (en) | 14,71% WER | 9,39% WER | Whisper (gebruik Parakeet) |
* CommonVoice-benchmark, CER = tekenfoutenpercentage, WER = woordfoutenpercentage. Lager is beter. Bron: FunAudioLLM-paper (2024). SenseVoice-Small inferentielatentie: 70ms per 10s audio (A800 GPU), meer dan 15× sneller dan Whisper-Large-V3.
CommonVoice-benchmark: SenseVoice-Small (geel) vs Whisper-Small (blauw) vs Whisper-Large-V3 (oranje). Lager is beter. Bron: FunAudioLLM-paper
De cijfers vertellen een eerlijk verhaal. SenseVoice verslaat Whisper in nauwkeurigheid voor Chinees en Kantonees met een aanzienlijke marge, terwijl Whisper nauwkeuriger is voor Japans, Koreaans en Engels. Maar SenseVoice is meer dan 15× sneller dan Whisper-Large-V3. Voor de meeste toepassingen in de praktijk is het snelheidsverschil belangrijker dan een paar procentpunten nauwkeurigheid.
Het Kantonese resultaat verdient apart aandacht. Whisper-Small scoort 38,97% CER op Kantonees — vrijwel onbruikbaar. Zelfs Whisper-Large-V3 haalt slechts 10,41%. SenseVoice haalt 7,09%. Vóór SenseVoice was er geen goede manier om Kantonees lokaal op een Mac te transcriberen. Als je Kantonees spreekt, is dit model voor jou gemaakt.
Koreaanse transcriptie met SenseVoice: video-import met getimede ondertitels
Test in de praktijk: 27 minuten Chinese podcast
We transcribeerden een aflevering van 27 minuten van Thirteen Invitations (十三邀), een Chinese interviewpodcast, met zowel SenseVoice als Whisper Large V3 Turbo op dezelfde M4 Pro. ElevenLabs Scribe (cloud) diende als referentie. Beide on-device modellen maken ongeveer evenveel fouten, maar van verschillende soorten:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Tijd | 13,83s | 2 min 4s |
| Fouten (5 min steekproef) | ~15–20 | ~12–15 |
| Ergste fout | 时差→食堂 (tijdzone→kantine) | 西昌→西藏 (stad Xichang→Tibet, 4.000 km ernaast) |
| Foutenpatroon | Homofoonverwisselingen | Geografische/feitelijke fouten |
* Handmatige vergelijking met ElevenLabs Scribe (cloud-referentie, ook niet perfect). Beide on-device modellen schreven correct «根深蒂固» waar Scribe een fout maakte.
Vergelijkbare nauwkeurigheid. 9× sneller. Voor Chinese transcriptie in de praktijk levert SenseVoice je een bruikbare transcriptie voordat Whisper klaar is met laden.
Wanneer welk model gebruiken
Whisper Notes voor Mac wordt nu geleverd met vier spraakmodellen. Elk is geoptimaliseerd voor verschillende scenario's:
| Je hebt nodig... | Gebruik dit model | Waarom |
|---|---|---|
| Engels of Europese talen, maximale snelheid | Parakeet V3 | 103× realtime, laagste foutenpercentage. De standaard. |
| Chinees, Japans, Koreaans of Kantonees | SenseVoice Small | 52–118× realtime. Enige model met Kantonese ondersteuning. |
| Eén van 99+ talen (Arabisch, Thai, Russisch, etc.) | Whisper Large V3 Turbo | Breedste taalondersteuning. Langzamer maar universeel. |
| Lager geheugengebruik (oudere Macs) | Whisper Small | 487 MB geheugen. Goed voor 8 GB Macs met andere apps open. |
Instellingen → Transcriptiemodel: kies de juiste engine voor jouw taal
De modelselector in Instellingen toont alle vier opties met downloadgroottes, aantal talen en geheugensvereisten. SenseVoice wordt bij het eerste gebruik gedownload (~827 MB) en blijft op je apparaat.
De beperkingen
SenseVoice is geen universeel model. Dit kan het niet:
• Slechts 5 talen. Als je Thai, Russisch, Arabisch, Hindi of een van de andere 90+ talen nodig hebt die Whisper ondersteunt, blijf dan bij Whisper.
• Alleen Mac. SenseVoice draait via Apple MLX, dat macOS vereist. Het is niet beschikbaar op iPhone. iOS-gebruikers hebben Parakeet (voor Europese talen) en Whisper.
• Eigenaardigheid bij stil geluid. Tijdens zeer korte of zeer stille segmenten kan SenseVoice soms terugvallen op Chinese output, ongeacht de geselecteerde taal. De taal handmatig instellen (in plaats van «Auto») vermindert dit.
• Geen streaming. In tegenstelling tot Whispers streamingmodus verwerkt SenseVoice de volledige audio na de opname. Voor lange bestanden segmenteert het automatisch op stilte-punten en toont resultaten geleidelijk.
Dit zijn architecturale beperkingen, geen bugs. Een model getraind op 5 talen beheerst die 5 talen uitzonderlijk goed. Whispers ondersteuning voor 99+ talen gaat gepaard met lagere snelheid en hogere foutenpercentages voor elke individuele taal.
Probeer het
SenseVoice is beschikbaar in Whisper Notes voor Mac v1.4.8 en later. Download het via Instellingen → Transcriptiemodel → SenseVoice Small (~827 MB). Het vereist een Apple Silicon Mac (M1 of later).
Als je Parakeet V3 gebruikt en voornamelijk in het Engels dicteert, hoef je niet te wisselen. SenseVoice is voor wanneer je Chinees, Japans, Koreaans of Kantonees nodig hebt — en je het snel wilt.
Volledige changelog: whispernotes.app/changelog
Vragen of feedback: mac@whispernotes.app