KURZFASSUNG — Drei Mac-Modelle im Vergleich
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 Min. Englisch | 2,91s (103×) | 5,8s (52×) | 20,92s (14,3×) |
| 27 Min. Chinesisch | 10,10s (161×) | 13,83s (118×) | 2 Min. 4s (13,1×) |
| Sprachen | 25 (Europäisch) | 5 (zh, en, ja, ko, yue) | 99+ |
| Download | 465 MB | 827 MB | 1,5 GB |
| Arbeitsspeicher | ~800 MB | ~700 MB | ~1,6 GB |
| Ideal für | Englisch & Europäisch | Chinesisch, Japanisch, Koreanisch, Kantonesisch | Alles andere (99+ Sprachen) |
* Geschwindigkeitsbenchmarks auf Apple M4 Pro, 32 GB. 5-minütiger englischer Podcast und 27-minütiger chinesischer Podcast. Echtzeitfaktor = Audiodauer ÷ Verarbeitungszeit (höher = schneller). SenseVoice ist nur für macOS verfügbar. iOS verwendet Parakeet (via ANE) und Whisper.
Ab Version 1.4.8 liefert Whisper Notes für Mac SenseVoice Small als dedizierte Engine für die Transkription von Chinesisch, Japanisch, Koreanisch und Kantonesisch. Es ersetzt Qwen3-ASR und läuft über Apples GPU via MLX anstelle der CPU — ein 27-minütiger chinesischer Podcast wird in 13,83 Sekunden statt in 3 Minuten und 44 Sekunden verarbeitet.
Warum wir Qwen3-ASR ersetzt haben
Qwen3-ASR war ein solides Modell. Es unterstützte 30 Sprachen plus 22 chinesische Dialekte, und die chinesische Genauigkeit war nahezu auf dem neuesten Stand der Technik. Aber es hatte ein Problem, das mit zunehmender Audiolänge schlimmer wurde: Geschwindigkeit.
Qwen3 verwendete eine autoregressive Architektur — denselben Ansatz wie Whisper, bei dem Audio Frame für Frame verarbeitet wird, ohne jemals vorzuspringen. Bei einem 27-minütigen chinesischen Podcast dauerte es 73 Sekunden. Brauchbar, aber nicht das sofortige Ergebnis, das Parakeet V3 für Englisch liefert.
Das tiefere Problem war unsere Infrastruktur. Unsere Qwen3-Integration nutzte sherpa-onnx, eine C-Bibliothek mit einem 2.249 Zeilen umfassenden Swift-Wrapper, der alles über CPU-Kerne leitete. Die GPU war untätig, während die CPU Ihres Macs die gesamte Arbeit erledigte.
SenseVoice löste beide Probleme. Nicht-autoregressive Architektur für Geschwindigkeit. Apple MLX für GPU-Beschleunigung. Das Ergebnis: eine 16,2-fache Geschwindigkeitssteigerung auf derselben Hardware, mit einer Codebasis, die von 2.249 auf 288 Zeilen reduziert wurde.
Der Benchmark
Alle drei Modelle laufen auf demselben Apple M4 Pro, mit denselben Audiodateien, unter denselben Bedingungen. Keine Cloud. Kein Internet. Nur Silizium.
| Modell | 5 Min. Englisch | 27 Min. Chinesisch | Geschwindigkeit (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2,91s | 10,10s | 103–161× |
| SenseVoice Small | 5,8s | 13,83s | 52–118× |
| Whisper Large V3 Turbo | 20,92s | 2 Min. 4s | 13–14× |
| Qwen3-ASR (entfernt) | — | 73s | 4,7× |
SenseVoice ist etwa halb so schnell wie Parakeet V3 — dennoch außergewöhnlich schnell. Ein 27-minütiger Podcast ist in unter 14 Sekunden fertig. Sie drücken auf Transkribieren, warten einen Atemzug, und der Text ist da.
Vergleichen Sie das mit Whisper bei 2 Minuten und 4 Sekunden oder dem alten Qwen3 bei 73 Sekunden. Die Architektur zählt mehr als die Parameteranzahl.
Offizieller Inferenz-Benchmark aus dem FunAudioLLM-Paper: SenseVoice-Small verarbeitet 10s Audio in 70ms (A800 GPU). Whisper-Large-V3 benötigt 1.281ms. Das ist ein 18-facher Unterschied in der reinen Inferenzlatenz.
| Modell | Ladezeit | Arbeitsspeicher | Downloadgröße |
|---|---|---|---|
| Parakeet V3 | 0,77s | ~800 MB | 465 MB |
| SenseVoice Small | 0,81s | ~700 MB | 827 MB |
| Whisper Small | 1,03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3,18s | ~1,6 GB | 3 GB |
* Ladezeit und Arbeitsspeicher gemessen auf Apple M4 Pro, 32 GB.
SenseVoice lädt in unter einer Sekunde und verbraucht weniger Arbeitsspeicher als Parakeet. Auf einem 8-GB-Mac läuft es komfortabel neben Ihren anderen Anwendungen.
Warum SenseVoice schneller ist: Architektur + Laufzeitumgebung
Der Geschwindigkeitsunterschied zwischen Qwen3-ASR und SenseVoice ergibt sich aus zwei unabhängigen Faktoren.
Faktor 1: Modellarchitektur. Qwen3-ASR ist autoregressiv — es generiert Text Token für Token, wobei jedes vom vorherigen abhängt. SenseVoice verwendet einen nicht-autoregressiven (NAR) Encoder, der das gesamte Audio parallel verarbeitet. Allein dieser architektonische Unterschied macht SenseVoice grundsätzlich schneller, unabhängig von der verwendeten Hardware.
Faktor 2: Laufzeitumgebung. Unsere Qwen3-ASR-Integration nutzte sherpa-onnx, das auf der CPU lief. SenseVoice läuft über Apple MLX und leitet die Berechnungen an die GPU weiter. Könnte Qwen3 auch auf MLX laufen? Ja — aber es wäre immer noch langsamer als SenseVoice, da der autoregressive Engpass in der Architektur liegt, nicht in der Laufzeitumgebung.
| Qwen3-ASR (alt) | SenseVoice (neu) | |
|---|---|---|
| Architektur | Autoregressiv (Token für Token) | Nicht-autoregressiv (parallel) |
| Laufzeitumgebung | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 Min. Chinesisch | 224 Sekunden | 13,83 Sekunden |
| Gesamtbeschleunigung | Ausgangswert | 16,2× schneller |
| Codebasis | 168 MB C-Framework + 2.249 Zeilen Swift | 288 Zeilen Swift Actor |
* Derselbe 27-minütige chinesische Podcast, Apple M4 Pro. Die 16,2-fache Beschleunigung kombiniert sowohl architektonische (NAR vs. AR) als auch laufzeitbezogene (GPU vs. CPU) Verbesserungen.
Auch der Code wurde einfacher. Die neue SenseVoice-Implementierung ist ein einzelner 288-Zeilen Swift Actor, der direkt mit MLX kommuniziert und ein 168-MB-C-Framework ersetzt. Weniger Code, weniger Fehler, kleinere App.
Fünf Sprachen, gut gemacht
SenseVoice versucht nicht, alles zu können. Es unterstützt fünf Sprachen:
| Sprache | SenseVoice-Small | Whisper-Large-V3 | Gewinner |
|---|---|---|---|
| Chinesisch (zh-CN) | 10,78% CER | 12,55% CER | SenseVoice (-14%) |
| Kantonesisch (yue) | 7,09% CER | 10,41% CER | SenseVoice (-32%) |
| Japanisch (ja) | 11,96% CER | 10,34% CER | Whisper (knapp) |
| Koreanisch (ko) | 8,28% CER | 5,59% CER | Whisper |
| Englisch (en) | 14,71% WER | 9,39% WER | Whisper (Parakeet nutzen) |
* CommonVoice-Benchmark, CER = Zeichenfehlerrate, WER = Wortfehlerrate. Niedriger ist besser. Quelle: FunAudioLLM-Paper (2024). SenseVoice-Small Inferenzlatenz: 70ms pro 10s Audio (A800 GPU), mehr als 15× schneller als Whisper-Large-V3.
CommonVoice-Benchmark: SenseVoice-Small (gelb) vs Whisper-Small (blau) vs Whisper-Large-V3 (orange). Niedriger ist besser. Quelle: FunAudioLLM-Paper
Die Zahlen erzählen eine ehrliche Geschichte. SenseVoice schlägt Whisper bei der Genauigkeit für Chinesisch und Kantonesisch mit deutlichem Vorsprung, während Whisper bei Japanisch, Koreanisch und Englisch genauer ist. Aber SenseVoice ist mehr als 15× schneller als Whisper-Large-V3. Für die meisten realen Anwendungsfälle zählt der Geschwindigkeitsunterschied mehr als ein paar Prozentpunkte Genauigkeit.
Das Kantonesisch-Ergebnis verdient besondere Hervorhebung. Whisper-Small erreicht 38,97% CER bei Kantonesisch — nahezu unbrauchbar. Selbst Whisper-Large-V3 schafft nur 10,41%. SenseVoice erreicht 7,09%. Vor SenseVoice gab es keine gute Möglichkeit, Kantonesisch lokal auf einem Mac zu transkribieren. Wenn Sie Kantonesisch sprechen, wurde dieses Modell für Sie entwickelt.
Koreanische Transkription mit SenseVoice: Video-Import mit zeitgestempelten Untertiteln
Praxistest: 27-minütiger chinesischer Podcast
Wir haben eine 27-minütige Episode von Thirteen Invitations (十三邀), einem chinesischen Interview-Podcast, mit SenseVoice und Whisper Large V3 Turbo auf demselben M4 Pro transkribiert. ElevenLabs Scribe (Cloud) diente als Referenz. Beide On-Device-Modelle machen ungefähr die gleiche Anzahl an Fehlern, aber unterschiedlicher Art:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Zeit | 13,83s | 2 Min. 4s |
| Fehler (5-Min.-Stichprobe) | ~15–20 | ~12–15 |
| Schlimmster Fehler | 时差→食堂 (Zeitzone→Kantine) | 西昌→西藏 (Stadt Xichang→Tibet, 4.000 km daneben) |
| Fehlermuster | Homophon-Verwechslungen | Geographische/faktische Fehler |
* Manueller Vergleich mit ElevenLabs Scribe (Cloud-Referenz, ebenfalls nicht perfekt). Beide On-Device-Modelle schrieben korrekt „根深蒂固", wo Scribe einen Fehler machte.
Vergleichbare Genauigkeit. 9× schneller. Für chinesische Transkription in der Praxis erhalten Sie mit SenseVoice ein nutzbares Transkript, bevor Whisper fertig geladen hat.
Wann welches Modell verwenden
Whisper Notes für Mac wird jetzt mit vier Sprachmodellen ausgeliefert. Jedes ist für unterschiedliche Szenarien optimiert:
| Sie benötigen... | Verwenden Sie dieses Modell | Warum |
|---|---|---|
| Englisch oder europäische Sprachen, maximale Geschwindigkeit | Parakeet V3 | 103× Echtzeit, niedrigste Fehlerrate. Der Standard. |
| Chinesisch, Japanisch, Koreanisch oder Kantonesisch | SenseVoice Small | 52–118× Echtzeit. Einziges Modell mit Kantonesisch-Unterstützung. |
| Eine von 99+ Sprachen (Arabisch, Thai, Russisch usw.) | Whisper Large V3 Turbo | Breiteste Sprachunterstützung. Langsamer, aber universell. |
| Geringerer Speicherverbrauch (ältere Macs) | Whisper Small | 487 MB Arbeitsspeicher. Gut für 8-GB-Macs mit anderen laufenden Apps. |
Einstellungen → Transkriptionsmodell: Wählen Sie die richtige Engine für Ihre Sprache
Die Modellauswahl in den Einstellungen zeigt alle vier Optionen mit Downloadgrößen, Sprachanzahl und Arbeitsspeicheranforderungen. SenseVoice wird bei der ersten Verwendung heruntergeladen (~827 MB) und bleibt auf Ihrem Gerät.
Die Kompromisse
SenseVoice ist kein universelles Modell. Folgendes kann es nicht:
• Nur 5 Sprachen. Wenn Sie Thai, Russisch, Arabisch, Hindi oder eine der über 90 anderen von Whisper unterstützten Sprachen benötigen, bleiben Sie bei Whisper.
• Nur Mac. SenseVoice läuft über Apple MLX, das macOS erfordert. Es ist nicht auf dem iPhone verfügbar. iOS-Benutzer haben Parakeet (für europäische Sprachen) und Whisper.
• Eigenart bei leisen Aufnahmen. Bei sehr kurzen oder sehr leisen Segmenten kann SenseVoice manchmal auf chinesische Ausgabe zurückfallen, unabhängig von der gewählten Sprache. Die manuelle Spracheinstellung (anstelle von „Auto") reduziert dies.
• Kein Streaming. Anders als Whispers Streaming-Modus verarbeitet SenseVoice das gesamte Audio nach der Aufnahme. Bei langen Dateien segmentiert es automatisch an Stille-Punkten und zeigt Ergebnisse progressiv an.
Dies sind architektonische Einschränkungen, keine Fehler. Ein Modell, das auf 5 Sprachen trainiert wurde, beherrscht diese 5 Sprachen außergewöhnlich gut. Whispers Unterstützung für 99+ Sprachen geht mit geringerer Geschwindigkeit und höheren Fehlerraten bei jeder einzelnen Sprache einher.
Jetzt ausprobieren
SenseVoice ist in Whisper Notes für Mac ab Version 1.4.8 verfügbar. Laden Sie es über Einstellungen → Transkriptionsmodell → SenseVoice Small (~827 MB) herunter. Es erfordert einen Apple Silicon Mac (M1 oder neuer).
Wenn Sie Parakeet V3 verwenden und hauptsächlich auf Englisch diktieren, müssen Sie nicht wechseln. SenseVoice ist für den Fall, dass Sie Chinesisch, Japanisch, Koreanisch oder Kantonesisch benötigen — und es schnell gehen soll.
Vollständiges Änderungsprotokoll: whispernotes.app/changelog
Fragen oder Feedback: mac@whispernotes.app