Parakeet V3 ist jetzt die Standard-Engine auf Mac — 10x schneller als Whisper

7. März 2026
·
6 min read
·Whisper Notes Team

Ab Version 1.3.2 wird Whisper Notes für Mac mit NVIDIA Parakeet TDT 0.6B als Standard-Sprachmodell ausgeliefert. Es ist 10x schneller als Whisper Large V3 Turbo für Englisch — und gleichzeitig genauer. Whisper-Modelle sind weiterhin verfügbar, wenn du andere Sprachen brauchst.

Warum wir das Standardmodell gewechselt haben

Whisper ist großartig, aber es wurde als Allzweck-Modell konzipiert. Es beherrscht über 100 Sprachen, übersetzt, erzeugt Zeitstempel — ein echtes Schweizer Taschenmesser. Der Nachteil: Geschwindigkeit. Für englische Diktate, bei denen du einfach nur schnell Wörter auf dem Bildschirm haben willst, ist das Overkill.

Was mich echt gestört hat: Wenn ich die systemweite Fn-Tasten-Diktierfunktion mit Whisper benutzt habe, musste ich nach einer ~1-minütigen Aufnahme 3–5 Sekunden warten, bis der Text erschien. Diese Pause unterbricht den Flow. Du hörst auf zu reden, wartest, starrst auf den Cursor — das zerstört die Magie des Diktierens.

Parakeet hat das komplett verändert. Die Geschwindigkeit ist so hoch, dass der Text erscheint, sobald du aufhörst zu sprechen. Du redest, und die Wörter sind einfach da. Wenn du dieses Gefühl einmal erlebt hast — dieser nahtlose, wartefreie Flow — dann ist es wirklich schwer, wieder zu Whisper zurückzugehen.

Wie schnell ist Parakeet V3?

Zahlen sagen mehr als Worte. Hier ein realer Vergleich mit einer 35-minütigen Audiodatei auf dem gleichen Mac:

Modell 35 Min. Audio
Whisper Large V3 Turbo 3 Minuten
Parakeet TDT 0.6B v3 18 Sekunden

Das ist 10x schneller. Und weil das Modell kleiner ist (600M vs. 800M Parameter), verbraucht es auch weniger Arbeitsspeicher und weniger Akku.

Was Parakeet v3 so schnell macht

Whisper hört sich Audio so an, wie du ein Buch laut vorlesen würdest — Wort für Wort, Frame für Frame, ohne jemals vorzuspringen. Selbst bei Stille verarbeitet es weiter und rät, was als Nächstes kommt. Gründlich, aber langsam.

Parakeet geht grundlegend anders vor. Es komprimiert das Audiosignal 8x, bevor es verarbeitet wird — das Modell sieht nur das Wesentliche. Dann, statt sich durch jeden einzelnen Frame zu arbeiten, sagt es nicht nur vorher, welches Wort du gesagt hast, sondern auch wie lange dieses Wort dauert — und springt weiter. Stille? Wird komplett übersprungen. Ein langer Vokal? Eine Vorhersage statt Dutzender.

Das Ergebnis ist ein Modell, das Sprache so verarbeitet, wie dein Gehirn es tut — es konzentriert sich auf die Wörter und ignoriert die Lücken. Deshalb ist es 10x schneller, mit weniger Parametern und höherer Genauigkeit.

Benchmarks: Parakeet v3 vs. Whisper

Vergleich der Wortfehlerrate: Parakeet TDT 0.6B v3 vs. Whisper Large V3 vs. Seamless M4T über mehrere Benchmark-Datensätze

Parakeet v3 erreicht oder übertrifft Modelle, die 2-4x so groß sind, über FLEURS-, CoVoST- und MLS-Benchmarks

Auf dem Hugging Face Open ASR Leaderboard steht Parakeet v3 mit nur 600M Parametern ganz oben — weniger als die Hälfte von Whisper Large V3 mit 1,55B:

Modell Parameter Durchschn. WER Geschwindigkeit (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

Niedrigerer WER = weniger Fehler. Höherer RTFx = schneller. Parakeet gewinnt bei beidem. Mit 600M Parametern ist es auch das kleinste Modell in der Liste — was bedeutet, dass es auf Apple Silicon wunderbar läuft, mit minimalem Speicher- und Akkuverbrauch.

Keine Halluzinationen mehr

Wenn du Whisper zum Diktieren benutzt hast, hast du wahrscheinlich schon erlebt, dass es bei Stille halluziniert — Phrasen wiederholt, Wörter erfindet oder plötzlich „Subtitles by Amara.org" ausgibt. Das passiert, weil Whispers autoregressiver Decoder immer erwartet, Text zu produzieren, selbst wenn es nichts zu transkribieren gibt.

NVIDIA hat Parakeet mit 36.000 Stunden reinem Nicht-Sprach-Audio trainiert (Hintergrundgeräusche, Husten, Stille) — gepaart mit leeren Zielstrings. Das Modell hat gelernt, wie Stille klingt, und bleibt ruhig. Für die systemweite Diktierfunktion im Dauerbetrieb ist das ein Gamechanger — kein Mülltext mehr, wenn du mal kurz nachdenkst.

Welche Sprachen Parakeet unterstützt

Parakeet v3 unterstützt 25 Sprachen: Bulgarisch, Dänisch, Deutsch, Englisch, Estnisch, Finnisch, Französisch, Griechisch, Italienisch, Kroatisch, Lettisch, Litauisch, Maltesisch, Niederländisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Schwedisch, Slowakisch, Slowenisch, Spanisch, Tschechisch, Ukrainisch und Ungarisch.

Das deckt den Großteil Europas ab, unterstützt aber kein Chinesisch, Japanisch, Koreanisch, Arabisch oder Hindi. Deshalb sind die Whisper-Modelle weiterhin zum Download verfügbar. Wenn du auf Japanisch oder Mandarin diktierst, wähle Whisper Large V3 Turbo in der Modellauswahl. Für Englisch und europäische Sprachen ist Parakeet v3 schlicht die bessere Engine.

Whisper Notes Mac Modellauswahl mit Parakeet V3 als Standard, sowie Whisper Small und Whisper Large V3 Turbo als herunterladbare Optionen

Modellauswahl: Parakeet V3 (Standard), Whisper Small und Whisper Large V3 Turbo — alle laufen lokal

Modellauswahl in Whisper Notes

Öffne die Einstellungen, um zwischen den Modellen zu wechseln:

  • Parakeet V3 (Standard) — Am schnellsten, ideal für Englisch und europäische Sprachen
  • Whisper Small — Leichtgewichtig, über 100 Sprachen
  • Whisper Large V3 Turbo — Das genaueste mehrsprachige Modell

Alle Modelle laufen zu 100% lokal auf deinem Mac. Kein Internet, keine Cloud, keine Daten verlassen dein Gerät.

Probier es aus

Parakeet v3 ist ab sofort in der Mac-Version verfügbar — einfach das neueste DMG herunterladen. Wenn das Feedback positiv ausfällt, bringen wir Parakeet in einem zukünftigen Update auch auf die iOS-Version.

Fragen oder Feedback? Schreib uns an support@whispernotes.app.