SenseVoice: 52× schnellere Transkription für Chinesisch, Japanisch und Koreanisch auf Mac

TL;DR -- Drei Mac-Modelle im Vergleich

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 Min Englisch	2,91s (103×)	5,8s (52×)	20,92s (14,3×)
27 Min Chinesisch	10,10s (161×)	13,83s (118×)	2 Min 4s (13,1×)
Sprachen	25 (europaeisch)	5 (zh, en, ja, ko, yue)	99+
Download	465 MB	827 MB	1,5 GB
Speicher	~800 MB	~700 MB	~1,6 GB
Am besten fuer	Englisch & europaeisch	Chinesisch, Japanisch, Koreanisch, Kantonesisch	Alles andere (99+ Sprachen)

* Geschwindigkeitsbenchmarks auf Apple M4 Pro, 32 GB. 5-Minuten-Podcast auf Englisch und 27-Minuten-Podcast auf Chinesisch. Echtzeitfaktor = Audiodauer / Verarbeitungszeit (hoeher = schneller). SenseVoice ist nur fuer macOS. iOS verwendet Parakeet (ueber ANE) und Whisper.

Ab Version 1.4.8 liefert Whisper Notes fuer Mac SenseVoice Small als dedizierte Engine fuer chinesische, japanische, koreanische und kantonesische Transkription. Es ersetzt Qwen3-ASR und laeuft auf Apples GPU ueber MLX statt auf der CPU -- ein 27-minuetiger chinesischer Podcast wird in 13,83 Sekunden verarbeitet statt in 3 Minuten und 44 Sekunden.

Warum wir Qwen3-ASR ersetzt haben

Qwen3-ASR war ein solides Modell. Es unterstuetzte 30 Sprachen plus 22 chinesische Dialekte, und seine chinesische Genauigkeit war nahe am State-of-the-Art. Aber es hatte ein Problem, das mit der Audiodauer schlimmer wurde: die Geschwindigkeit.

Qwen3 verwendete eine autoregressive Architektur -- derselbe Ansatz wie Whisper, Audio Frame fuer Frame verarbeitend, ohne jemals vorauszuspringen. Bei einem 27-minuetigen chinesischen Podcast dauerte es 73 Sekunden. Brauchbar, aber nicht das Sofort-Ergebnis-Erlebnis, das Parakeet V3 fuer Englisch liefert.

Das tiefere Problem war unsere Infrastruktur. Unsere Qwen3-Integration verwendete sherpa-onnx, eine C-Bibliothek mit einem 2.249-Zeilen-Swift-Wrapper, der alles ueber CPU-Kerne leitete. Die GPU sass untaetig herum, waehrend die CPU Ihres Macs die ganze Arbeit machte.

SenseVoice hat beide Probleme geloest. Nicht-autoregressive Architektur fuer Geschwindigkeit. Apple MLX fuer GPU-Beschleunigung. Das Ergebnis: eine 16,2-fache Geschwindigkeitsverbesserung auf derselben Hardware, mit einer Codebasis, die von 2.249 Zeilen auf 288 reduziert wurde.

Der Benchmark

Alle drei Modelle laufen auf demselben Apple M4 Pro, dieselben Audiodateien, dieselben Bedingungen. Keine Cloud. Kein Internet. Nur Silizium.

Modell	5 Min Englisch	27 Min Chinesisch	Geschwindigkeit (RTFx)
Parakeet V3	2,91s	10,10s	103--161×
SenseVoice Small	5,8s	13,83s	52--118×
Whisper Large V3 Turbo	20,92s	2 Min 4s	13--14×
Qwen3-ASR (entfernt)	--	73s	4,7×

SenseVoice ist etwa halb so schnell wie Parakeet V3 -- immer noch ausserordentlich schnell. Ein 27-minuetiger Podcast ist in unter 14 Sekunden fertig. Sie druecken Transkribieren, warten einen Atemzug, und der Text ist da.

Vergleichen Sie das mit Whisper bei 2 Minuten und 4 Sekunden oder dem alten Qwen3 bei 73 Sekunden. Die Architektur zaehlt mehr als die Parameterzahl.

Offizielle Inferenzgeschwindigkeits-Vergleichstabelle aus dem FunAudioLLM-Paper: SenseVoice-Small (70ms pro 10s Audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - Modellarchitektur, Parameter, unterstuetzte Sprachen, RTF und Latenz

Offizieller Inferenz-Benchmark aus dem FunAudioLLM-Paper: SenseVoice-Small verarbeitet 10s Audio in 70ms (A800 GPU). Whisper-Large-V3 braucht 1.281ms. Das ist ein 18-facher Unterschied in der rohen Inferenzlatenz.

Modell	Ladezeit	Speicher	Downloadgroesse
Parakeet V3	0,77s	~800 MB	465 MB
SenseVoice Small	0,81s	~700 MB	827 MB
Whisper Small	1,03s	~487 MB	600 MB
Whisper Large V3 Turbo	3,18s	~1,6 GB	3 GB

* Ladezeit und Speicher gemessen auf Apple M4 Pro, 32 GB.

SenseVoice laed in unter einer Sekunde und verbraucht weniger Speicher als Parakeet. Auf einem 8-GB-Mac laeuft es komfortabel neben Ihren anderen Anwendungen.

Warum SenseVoice schneller ist: Architektur + Laufzeit

Der Geschwindigkeitsunterschied zwischen Qwen3-ASR und SenseVoice kommt von zwei unabhaengigen Faktoren.

Faktor 1: Modellarchitektur. Qwen3-ASR ist autoregressiv -- es erzeugt Text Token fuer Token, wobei jedes vom vorherigen abhaengt. SenseVoice verwendet einen nicht-autoregressiven (NAR) Encoder, der das gesamte Audio parallel verarbeitet. Dieser architektonische Unterschied allein macht SenseVoice grundsaetzlich schneller, unabhaengig von der Hardware.

Faktor 2: Laufzeit. Unsere Qwen3-ASR-Integration verwendete sherpa-onnx, das auf der CPU lief. SenseVoice laeuft ueber Apple MLX und leitet die Berechnung an die GPU. Koennte Qwen3 auch auf MLX laufen? Ja -- aber es waere immer noch langsamer als SenseVoice, weil der autoregressive Flaschenhals in der Architektur liegt, nicht in der Laufzeit.

	Qwen3-ASR (alt)	SenseVoice (neu)
Architektur	Autoregressiv (Token fuer Token)	Nicht-autoregressiv (parallel)
Laufzeit	sherpa-onnx (CPU)	Apple MLX (GPU)
27 Min Chinesisch	224 Sekunden	13,83 Sekunden
Kombinierte Beschleunigung	Basislinie	16,2× schneller
Codebasis	168 MB C-Framework + 2.249 Zeilen Swift	288 Zeilen Swift Actor

* Derselbe 27-minuetige chinesische Podcast, Apple M4 Pro. Die 16,2-fache Beschleunigung kombiniert sowohl architektonische (NAR vs AR) als auch Laufzeit-Verbesserungen (GPU vs CPU).

Der Code wurde auch einfacher. Die neue SenseVoice-Implementierung ist ein einzelner 288-Zeilen Swift Actor, der direkt mit MLX kommuniziert und ein 168 MB C-Framework ersetzt. Weniger Code, weniger Bugs, kleinere App.

Fuenf Sprachen, gut gemacht

SenseVoice versucht nicht, alles zu koennen. Es beherrscht fuenf Sprachen:

Sprache	SenseVoice-Small	Whisper-Large-V3	Gewinner
Chinesisch (zh-CN)	10,78% CER	12,55% CER	SenseVoice (-14%)
Kantonesisch (yue)	7,09% CER	10,41% CER	SenseVoice (-32%)
Japanisch (ja)	11,96% CER	10,34% CER	Whisper (knapp)
Koreanisch (ko)	8,28% CER	5,59% CER	Whisper
Englisch (en)	14,71% WER	9,39% WER	Whisper (Parakeet verwenden)

* CommonVoice-Benchmark, CER = Character Error Rate, WER = Word Error Rate. Niedriger ist besser. Quelle: FunAudioLLM-Paper (2024). SenseVoice-Small Inferenzlatenz: 70ms pro 10s Audio (A800 GPU), mehr als 15× schneller als Whisper-Large-V3.

Genauigkeitsvergleich SenseVoice vs Whisper im CommonVoice-Benchmark fuer Chinesisch, Kantonesisch, Englisch, Japanisch, Koreanisch und 25 weitere Sprachen - WER/CER-Balkendiagramm

CommonVoice-Benchmark: SenseVoice-Small (gelb) vs Whisper-Small (blau) vs Whisper-Large-V3 (orange). Niedriger ist besser. Quelle: FunAudioLLM-Paper

Die Zahlen erzaehlen eine ehrliche Geschichte. SenseVoice schlaegt Whisper bei der Genauigkeit fuer Chinesisch und Kantonesisch mit deutlichem Vorsprung, waehrend Whisper bei Japanisch, Koreanisch und Englisch genauer ist. Aber SenseVoice ist mehr als 15× schneller als Whisper-Large-V3. Fuer die meisten realen Anwendungen zaehlt der Geschwindigkeitsunterschied mehr als ein paar Prozentpunkte Genauigkeit.

Das Kantonesisch-Ergebnis verdient besondere Hervorhebung. Whisper-Small erreicht 38,97% CER bei Kantonesisch -- nahezu unbrauchbar. Selbst Whisper-Large-V3 schafft nur 10,41%. SenseVoice erreicht 7,09%. Vor SenseVoice gab es keine gute Moeglichkeit, Kantonesisch lokal auf einem Mac zu transkribieren. Wenn Sie Kantonesisch sprechen, existiert dieses Modell fuer Sie.

SenseVoice koreanisches Transkriptionsergebnis in Whisper Notes fuer Mac mit praezisem koreanischem Text aus einem Video

Koreanische Transkription mit SenseVoice: Videoimport mit Zeitstempel-Untertiteln

Praxistest: 27-minuetiger chinesischer Podcast

Wir haben eine 27-minuetige Folge von Thirteen Invitations (十三邀), einem chinesischen Interview-Podcast, mit SenseVoice und Whisper Large V3 Turbo auf demselben M4 Pro transkribiert. ElevenLabs Scribe (Cloud) diente als Referenz. Beide lokalen Modelle machen etwa gleich viele Fehler, aber unterschiedlicher Art:

	SenseVoice	Whisper Large V3
Zeit	13,83s	2 Min 4s
Fehler (5 Min Stichprobe)	~15--20	~12--15
Schlimmster Fehler	时差→食堂 (Zeitzone→Kantine)	西昌→西藏 (Stadt Xichang→Tibet, 4.000 km daneben)
Fehlermuster	Homophon-Verwechslungen	Geografische/faktische Fehler

* Manueller Vergleich gegen ElevenLabs Scribe (Cloud-Referenz, ebenfalls nicht perfekt). Beide lokalen Modelle schrieben "根深蒂固" korrekt, wo Scribe falsch lag.

Vergleichbare Genauigkeit. 9× schneller. Fuer chinesische Transkription in der Praxis liefert SenseVoice ein brauchbares Transkript, bevor Whisper fertig geladen hat.

Wann welches Modell verwenden

Whisper Notes fuer Mac liefert jetzt vier Sprachmodelle. Jedes ist fuer unterschiedliche Szenarien optimiert:

Sie brauchen...	Verwenden Sie dieses Modell	Warum
Englisch oder europaeische Sprachen, maximale Geschwindigkeit	Parakeet V3	103× Echtzeit, niedrigste Fehlerrate. Standard.
Chinesisch, Japanisch, Koreanisch oder Kantonesisch	SenseVoice Small	52--118× Echtzeit. Einziges Modell mit Kantonesisch-Unterstuetzung.
Eine der 99+ Sprachen (Arabisch, Thailaendisch, Russisch usw.)	Whisper Large V3 Turbo	Breiteste Sprachunterstuetzung. Langsamer, aber universell.
Geringerer Speicherverbrauch (aeltere Macs)	Whisper Small	487 MB Speicher. Gut fuer 8-GB-Macs mit anderen Apps.

Whisper Notes Mac Modellauswahl mit Parakeet V3, SenseVoice Small, Whisper Small und Whisper Large V3 Turbo mit Downloadgroessen und Sprachunterstuetzung

Einstellungen → Transkriptionsmodell: Waehlen Sie die richtige Engine fuer Ihre Sprache

Die Modellauswahl in den Einstellungen zeigt alle vier Optionen mit Downloadgroessen, Sprachanzahl und Speicheranforderungen. SenseVoice wird bei der ersten Verwendung heruntergeladen (~827 MB) und bleibt auf Ihrem Geraet.

Die Kompromisse

SenseVoice ist kein universelles Modell. Das kann es nicht:

* Nur 5 Sprachen. Wenn Sie Thailaendisch, Russisch, Arabisch, Hindi oder eine der anderen 90+ Sprachen brauchen, die Whisper unterstuetzt, bleiben Sie bei Whisper.

* Nur Mac. SenseVoice laeuft ueber Apple MLX, das macOS erfordert. Es ist nicht auf dem iPhone verfuegbar. iOS-Nutzer haben Parakeet (fuer europaeische Sprachen) und Whisper.

* Eigenart bei leisem Audio. Bei sehr kurzen oder sehr leisen Segmenten kann SenseVoice manchmal auf chinesische Ausgabe zurueckfallen, unabhaengig von der gewaehlten Sprache. Die Sprache manuell einzustellen (statt "Auto") reduziert dies.

* Kein Streaming. Anders als Whispers Streaming-Modus verarbeitet SenseVoice das gesamte Audio nach der Aufnahme. Bei langen Dateien segmentiert es automatisch an Stille-Punkten und zeigt Ergebnisse progressiv an.

Das sind architektonische Einschraenkungen, keine Bugs. Ein Modell, das auf 5 Sprachen trainiert wurde, beherrscht diese 5 Sprachen ausserordentlich gut. Whispers Unterstuetzung fuer 99+ Sprachen geht mit langsamerer Geschwindigkeit und hoeheren Fehlerraten bei jeder einzelnen Sprache einher.

Ausprobieren

SenseVoice ist in Whisper Notes fuer Mac v1.4.8 und spaeter verfuegbar. Laden Sie es herunter unter Einstellungen → Transkriptionsmodell → SenseVoice Small (~827 MB). Es erfordert einen Apple-Silicon-Mac (M1 oder neuer).

Wenn Sie Parakeet V3 verwenden und hauptsaechlich auf Englisch diktieren, muessen Sie nicht wechseln. SenseVoice ist fuer den Fall, dass Sie Chinesisch, Japanisch, Koreanisch oder Kantonesisch brauchen -- und es schnell haben wollen.

Fuer Mac herunterladen

Vollstaendiges Changelog: whispernotes.app/changelog

Fragen oder Feedback: mac@whispernotes.app