SenseVoice: 52× schnellere Transkription für Chinesisch, Japanisch und Koreanisch auf Mac

KURZFASSUNG — Drei Mac-Modelle im Vergleich

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 Min. Englisch	2,91s (103×)	5,8s (52×)	20,92s (14,3×)
27 Min. Chinesisch	10,10s (161×)	13,83s (118×)	2 Min. 4s (13,1×)
Sprachen	25 (Europäisch)	5 (zh, en, ja, ko, yue)	99+
Download	465 MB	827 MB	1,5 GB
Arbeitsspeicher	~800 MB	~700 MB	~1,6 GB
Ideal für	Englisch & Europäisch	Chinesisch, Japanisch, Koreanisch, Kantonesisch	Alles andere (99+ Sprachen)

* Geschwindigkeitsbenchmarks auf Apple M4 Pro, 32 GB. 5-minütiger englischer Podcast und 27-minütiger chinesischer Podcast. Echtzeitfaktor = Audiodauer ÷ Verarbeitungszeit (höher = schneller). SenseVoice ist nur für macOS verfügbar. iOS verwendet Parakeet (via ANE) und Whisper.

Ab Version 1.4.8 liefert Whisper Notes für Mac SenseVoice Small als dedizierte Engine für die Transkription von Chinesisch, Japanisch, Koreanisch und Kantonesisch. Es ersetzt Qwen3-ASR und läuft über Apples GPU via MLX anstelle der CPU — ein 27-minütiger chinesischer Podcast wird in 13,83 Sekunden statt in 3 Minuten und 44 Sekunden verarbeitet.

Warum wir Qwen3-ASR ersetzt haben

Qwen3-ASR war ein solides Modell. Es unterstützte 30 Sprachen plus 22 chinesische Dialekte, und die chinesische Genauigkeit war nahezu auf dem neuesten Stand der Technik. Aber es hatte ein Problem, das mit zunehmender Audiolänge schlimmer wurde: Geschwindigkeit.

Qwen3 verwendete eine autoregressive Architektur — denselben Ansatz wie Whisper, bei dem Audio Frame für Frame verarbeitet wird, ohne jemals vorzuspringen. Bei einem 27-minütigen chinesischen Podcast dauerte es 73 Sekunden. Brauchbar, aber nicht das sofortige Ergebnis, das Parakeet V3 für Englisch liefert.

Das tiefere Problem war unsere Infrastruktur. Unsere Qwen3-Integration nutzte sherpa-onnx, eine C-Bibliothek mit einem 2.249 Zeilen umfassenden Swift-Wrapper, der alles über CPU-Kerne leitete. Die GPU war untätig, während die CPU Ihres Macs die gesamte Arbeit erledigte.

SenseVoice löste beide Probleme. Nicht-autoregressive Architektur für Geschwindigkeit. Apple MLX für GPU-Beschleunigung. Das Ergebnis: eine 16,2-fache Geschwindigkeitssteigerung auf derselben Hardware, mit einer Codebasis, die von 2.249 auf 288 Zeilen reduziert wurde.

Der Benchmark

Alle drei Modelle laufen auf demselben Apple M4 Pro, mit denselben Audiodateien, unter denselben Bedingungen. Keine Cloud. Kein Internet. Nur Silizium.

Modell	5 Min. Englisch	27 Min. Chinesisch	Geschwindigkeit (RTFx)
Parakeet V3	2,91s	10,10s	103–161×
SenseVoice Small	5,8s	13,83s	52–118×
Whisper Large V3 Turbo	20,92s	2 Min. 4s	13–14×
Qwen3-ASR (entfernt)	—	73s	4,7×

SenseVoice ist etwa halb so schnell wie Parakeet V3 — dennoch außergewöhnlich schnell. Ein 27-minütiger Podcast ist in unter 14 Sekunden fertig. Sie drücken auf Transkribieren, warten einen Atemzug, und der Text ist da.

Vergleichen Sie das mit Whisper bei 2 Minuten und 4 Sekunden oder dem alten Qwen3 bei 73 Sekunden. Die Architektur zählt mehr als die Parameteranzahl.

Offizielle Inferenzgeschwindigkeits-Vergleichstabelle aus dem FunAudioLLM-Paper: SenseVoice-Small (70ms pro 10s Audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - zeigt Modellarchitektur, Parameter, unterstützte Sprachen, RTF und Latenz

Offizieller Inferenz-Benchmark aus dem FunAudioLLM-Paper: SenseVoice-Small verarbeitet 10s Audio in 70ms (A800 GPU). Whisper-Large-V3 benötigt 1.281ms. Das ist ein 18-facher Unterschied in der reinen Inferenzlatenz.

Modell	Ladezeit	Arbeitsspeicher	Downloadgröße
Parakeet V3	0,77s	~800 MB	465 MB
SenseVoice Small	0,81s	~700 MB	827 MB
Whisper Small	1,03s	~487 MB	600 MB
Whisper Large V3 Turbo	3,18s	~1,6 GB	3 GB

* Ladezeit und Arbeitsspeicher gemessen auf Apple M4 Pro, 32 GB.

SenseVoice lädt in unter einer Sekunde und verbraucht weniger Arbeitsspeicher als Parakeet. Auf einem 8-GB-Mac läuft es komfortabel neben Ihren anderen Anwendungen.

Warum SenseVoice schneller ist: Architektur + Laufzeitumgebung

Der Geschwindigkeitsunterschied zwischen Qwen3-ASR und SenseVoice ergibt sich aus zwei unabhängigen Faktoren.

Faktor 1: Modellarchitektur. Qwen3-ASR ist autoregressiv — es generiert Text Token für Token, wobei jedes vom vorherigen abhängt. SenseVoice verwendet einen nicht-autoregressiven (NAR) Encoder, der das gesamte Audio parallel verarbeitet. Allein dieser architektonische Unterschied macht SenseVoice grundsätzlich schneller, unabhängig von der verwendeten Hardware.

Faktor 2: Laufzeitumgebung. Unsere Qwen3-ASR-Integration nutzte sherpa-onnx, das auf der CPU lief. SenseVoice läuft über Apple MLX und leitet die Berechnungen an die GPU weiter. Könnte Qwen3 auch auf MLX laufen? Ja — aber es wäre immer noch langsamer als SenseVoice, da der autoregressive Engpass in der Architektur liegt, nicht in der Laufzeitumgebung.

	Qwen3-ASR (alt)	SenseVoice (neu)
Architektur	Autoregressiv (Token für Token)	Nicht-autoregressiv (parallel)
Laufzeitumgebung	sherpa-onnx (CPU)	Apple MLX (GPU)
27 Min. Chinesisch	224 Sekunden	13,83 Sekunden
Gesamtbeschleunigung	Ausgangswert	16,2× schneller
Codebasis	168 MB C-Framework + 2.249 Zeilen Swift	288 Zeilen Swift Actor

* Derselbe 27-minütige chinesische Podcast, Apple M4 Pro. Die 16,2-fache Beschleunigung kombiniert sowohl architektonische (NAR vs. AR) als auch laufzeitbezogene (GPU vs. CPU) Verbesserungen.

Auch der Code wurde einfacher. Die neue SenseVoice-Implementierung ist ein einzelner 288-Zeilen Swift Actor, der direkt mit MLX kommuniziert und ein 168-MB-C-Framework ersetzt. Weniger Code, weniger Fehler, kleinere App.

Fünf Sprachen, gut gemacht

SenseVoice versucht nicht, alles zu können. Es unterstützt fünf Sprachen:

Sprache	SenseVoice-Small	Whisper-Large-V3	Gewinner
Chinesisch (zh-CN)	10,78% CER	12,55% CER	SenseVoice (-14%)
Kantonesisch (yue)	7,09% CER	10,41% CER	SenseVoice (-32%)
Japanisch (ja)	11,96% CER	10,34% CER	Whisper (knapp)
Koreanisch (ko)	8,28% CER	5,59% CER	Whisper
Englisch (en)	14,71% WER	9,39% WER	Whisper (Parakeet nutzen)

* CommonVoice-Benchmark, CER = Zeichenfehlerrate, WER = Wortfehlerrate. Niedriger ist besser. Quelle: FunAudioLLM-Paper (2024). SenseVoice-Small Inferenzlatenz: 70ms pro 10s Audio (A800 GPU), mehr als 15× schneller als Whisper-Large-V3.

SenseVoice vs Whisper Genauigkeitsvergleich auf CommonVoice-Benchmark über Chinesisch, Kantonesisch, Englisch, Japanisch, Koreanisch und 25 weitere Sprachen - WER/CER Balkendiagramm

CommonVoice-Benchmark: SenseVoice-Small (gelb) vs Whisper-Small (blau) vs Whisper-Large-V3 (orange). Niedriger ist besser. Quelle: FunAudioLLM-Paper

Die Zahlen erzählen eine ehrliche Geschichte. SenseVoice schlägt Whisper bei der Genauigkeit für Chinesisch und Kantonesisch mit deutlichem Vorsprung, während Whisper bei Japanisch, Koreanisch und Englisch genauer ist. Aber SenseVoice ist mehr als 15× schneller als Whisper-Large-V3. Für die meisten realen Anwendungsfälle zählt der Geschwindigkeitsunterschied mehr als ein paar Prozentpunkte Genauigkeit.

Das Kantonesisch-Ergebnis verdient besondere Hervorhebung. Whisper-Small erreicht 38,97% CER bei Kantonesisch — nahezu unbrauchbar. Selbst Whisper-Large-V3 schafft nur 10,41%. SenseVoice erreicht 7,09%. Vor SenseVoice gab es keine gute Möglichkeit, Kantonesisch lokal auf einem Mac zu transkribieren. Wenn Sie Kantonesisch sprechen, wurde dieses Modell für Sie entwickelt.

SenseVoice koreanisches Transkriptionsergebnis in Whisper Notes für Mac mit genauem koreanischen Text aus einem Video

Koreanische Transkription mit SenseVoice: Video-Import mit zeitgestempelten Untertiteln

Praxistest: 27-minütiger chinesischer Podcast

Wir haben eine 27-minütige Episode von Thirteen Invitations (十三邀), einem chinesischen Interview-Podcast, mit SenseVoice und Whisper Large V3 Turbo auf demselben M4 Pro transkribiert. ElevenLabs Scribe (Cloud) diente als Referenz. Beide On-Device-Modelle machen ungefähr die gleiche Anzahl an Fehlern, aber unterschiedlicher Art:

	SenseVoice	Whisper Large V3
Zeit	13,83s	2 Min. 4s
Fehler (5-Min.-Stichprobe)	~15–20	~12–15
Schlimmster Fehler	时差→食堂 (Zeitzone→Kantine)	西昌→西藏 (Stadt Xichang→Tibet, 4.000 km daneben)
Fehlermuster	Homophon-Verwechslungen	Geographische/faktische Fehler

* Manueller Vergleich mit ElevenLabs Scribe (Cloud-Referenz, ebenfalls nicht perfekt). Beide On-Device-Modelle schrieben korrekt „根深蒂固", wo Scribe einen Fehler machte.

Vergleichbare Genauigkeit. 9× schneller. Für chinesische Transkription in der Praxis erhalten Sie mit SenseVoice ein nutzbares Transkript, bevor Whisper fertig geladen hat.

Wann welches Modell verwenden

Whisper Notes für Mac wird jetzt mit vier Sprachmodellen ausgeliefert. Jedes ist für unterschiedliche Szenarien optimiert:

Sie benötigen...	Verwenden Sie dieses Modell	Warum
Englisch oder europäische Sprachen, maximale Geschwindigkeit	Parakeet V3	103× Echtzeit, niedrigste Fehlerrate. Der Standard.
Chinesisch, Japanisch, Koreanisch oder Kantonesisch	SenseVoice Small	52–118× Echtzeit. Einziges Modell mit Kantonesisch-Unterstützung.
Eine von 99+ Sprachen (Arabisch, Thai, Russisch usw.)	Whisper Large V3 Turbo	Breiteste Sprachunterstützung. Langsamer, aber universell.
Geringerer Speicherverbrauch (ältere Macs)	Whisper Small	487 MB Arbeitsspeicher. Gut für 8-GB-Macs mit anderen laufenden Apps.

Whisper Notes Mac Modellauswahl zeigt Parakeet V3, SenseVoice Small, Whisper Small und Whisper Large V3 Turbo mit Downloadgrößen und Sprachunterstützung

Einstellungen → Transkriptionsmodell: Wählen Sie die richtige Engine für Ihre Sprache

Die Modellauswahl in den Einstellungen zeigt alle vier Optionen mit Downloadgrößen, Sprachanzahl und Arbeitsspeicheranforderungen. SenseVoice wird bei der ersten Verwendung heruntergeladen (~827 MB) und bleibt auf Ihrem Gerät.

Die Kompromisse

SenseVoice ist kein universelles Modell. Folgendes kann es nicht:

• Nur 5 Sprachen. Wenn Sie Thai, Russisch, Arabisch, Hindi oder eine der über 90 anderen von Whisper unterstützten Sprachen benötigen, bleiben Sie bei Whisper.

• Nur Mac. SenseVoice läuft über Apple MLX, das macOS erfordert. Es ist nicht auf dem iPhone verfügbar. iOS-Benutzer haben Parakeet (für europäische Sprachen) und Whisper.

• Eigenart bei leisen Aufnahmen. Bei sehr kurzen oder sehr leisen Segmenten kann SenseVoice manchmal auf chinesische Ausgabe zurückfallen, unabhängig von der gewählten Sprache. Die manuelle Spracheinstellung (anstelle von „Auto") reduziert dies.

• Kein Streaming. Anders als Whispers Streaming-Modus verarbeitet SenseVoice das gesamte Audio nach der Aufnahme. Bei langen Dateien segmentiert es automatisch an Stille-Punkten und zeigt Ergebnisse progressiv an.

Dies sind architektonische Einschränkungen, keine Fehler. Ein Modell, das auf 5 Sprachen trainiert wurde, beherrscht diese 5 Sprachen außergewöhnlich gut. Whispers Unterstützung für 99+ Sprachen geht mit geringerer Geschwindigkeit und höheren Fehlerraten bei jeder einzelnen Sprache einher.

Jetzt ausprobieren

SenseVoice ist in Whisper Notes für Mac ab Version 1.4.8 verfügbar. Laden Sie es über Einstellungen → Transkriptionsmodell → SenseVoice Small (~827 MB) herunter. Es erfordert einen Apple Silicon Mac (M1 oder neuer).

Wenn Sie Parakeet V3 verwenden und hauptsächlich auf Englisch diktieren, müssen Sie nicht wechseln. SenseVoice ist für den Fall, dass Sie Chinesisch, Japanisch, Koreanisch oder Kantonesisch benötigen — und es schnell gehen soll.

Für Mac herunterladen

Vollständiges Änderungsprotokoll: whispernotes.app/changelog

Fragen oder Feedback: mac@whispernotes.app