Whisper Transkription: Modelle, Tempo & Offline-Nutzung am Mac & iPhone (Guide 2026)

Whisper Transkription bedeutet: Sprache mit OpenAIs Whisper in Text umwandeln — einem Open-Source-KI-Modell, das in der Cloud, auf einem Server oder komplett am eigenen Gerät laufen kann. Dieser Guide erklärt, wie Whisper funktioniert, welche Modellgröße Sie wählen sollten, wie genau die Transkription wirklich ist — und den schnellsten Weg, Whisper offline am Mac oder iPhone zu nutzen.

Was ist Whisper eigentlich?

Whisper ist ein Modell für automatische Spracherkennung (ASR), das OpenAI im September 2022 unter MIT-Lizenz veröffentlicht hat. Es ist ein Encoder-Decoder-Transformer, trainiert auf über 680.000 Stunden mehrsprachigem Audio, und beherrscht Transkription in rund 100 Sprachen plus Übersetzung ins Englische.

Der entscheidende Punkt für Sie: die Modellgewichte sind offen. Anders als die Sprach-APIs von Google oder Amazon muss Whisper nicht auf einem fremden Server laufen. Ein ganzes Ökosystem existiert, um es lokal auszuführen — whisper.cpp, faster-whisper und native Apps wie Whisper Notes. Genau das macht wirklich offline, private Whisper Transkription möglich — ein Punkt, der in Österreich (Stichwort DSGVO) besonders zählt.

Whisper-Modellgrößen: Welches Modell nehmen?

Whisper gibt es in sechs Hauptgrößen. Größer heißt genauer und langsamer:

Modell	Parameter	Geschwindigkeit	Am besten für
tiny	39M	Am schnellsten	Schnelle Entwürfe, schwache Hardware
base	74M	Sehr schnell	Einfaches, sauberes Audio
small	244M	Schnell	Gute Balance aus Tempo und Genauigkeit auf Mobilgeräten
medium	769M	Mittel	Heute selten die richtige Wahl
large-v3	1,55B	Am langsamsten	Maximale Genauigkeit, schwieriges Audio
large-v3-turbo	809M	~5x schneller als large-v3	Die Standardwahl 2026

Für fast alle lautet die Antwort large-v3-turbo: Es behält den Encoder von large-v3, reduziert aber die Decoder-Schichten von 32 auf 4 — nahezu identische Genauigkeit bei einem Bruchteil des Rechenaufwands. Den ausführlichen Benchmark finden Sie in Whisper Large V3 Turbo vs. V3.

Wie genau ist die Whisper Transkription?

Bei sauberem englischem Audio erreichen die großen Modelle eine Wortfehlerrate (WER) von etwa 5-8 % — für die meisten praktischen Zwecke vergleichbar mit professioneller menschlicher Transkription. Die Genauigkeit sinkt bei Hintergrundgeräuschen, starken Akzenten, durcheinander redenden Sprechern und Sprachen mit wenig Trainingsdaten.

Whispers berühmteste Schwäche: Halluzinationen bei Stille. Der autoregressive Decoder erfindet manchmal wiederholte Phrasen oder Untertitel-Credits, wenn gerade niemand spricht. Neuere Modelle beheben das — NVIDIAs Parakeet V3 wurde gezielt auf Nicht-Sprach-Audio trainiert und produziert in unseren Tests null Halluzinationen (kompletter Parakeet V3 vs. Whisper Benchmark).

Für Chinesisch, Japanisch, Koreanisch und Kantonesisch schlägt ein spezialisiertes Modell Whisper bei Tempo und Zeichensetzung: siehe SenseVoice vs. Whisper für CJK-Sprachen.

5 Wege, Whisper Transkription zu nutzen

Methode	Kosten	Datenschutz	Einrichtung
OpenAI API	Bezahlung pro Audiominute	Audio wird hochgeladen	API-Key + Code
openai-whisper (Referenz-Python)	Kostenlos	100 % lokal	Python-Umgebung, GPU empfohlen
whisper.cpp / faster-whisper	Kostenlos	100 % lokal	Kommandozeile
Native App (Whisper Notes)	Einmalig $6.99, kostenlos testen am Mac	100 % am Gerät	Keine
Web-Demo-Tools	Kostenlose Kontingente	Audio wird hochgeladen	Keine

Als Faustregel: Wer im Terminal zuhause ist, fährt mit faster-whisper hervorragend. Wer ein Produkt baut, nimmt die API ($0.006/Min. — für Entwickler gedacht). Wer einfach nur seine Aufnahmen privat transkribiert haben will, ohne Python anzugreifen, nimmt eine native App — genau dafür gibt es Whisper-Apps für den Mac.

Sie vergleichen Offline-Tools grundsätzlicher — inklusive Windows- und Android-Optionen? Lesen Sie unseren kompletten Guide zu Offline-Spracherkennung.

Whisper vs. neuere lokale Modelle (2026)

Whisper hat die Ära der lokalen Transkription eingeläutet, ist aber nicht mehr allein. Die Geschwindigkeiten unten wurden auf einem M4 Pro Mac gemessen:

Modell	Sprachen	Geschwindigkeit	Besonderheit
Whisper Large V3 Turbo	100+	~12x Echtzeit	Größte Sprachabdeckung
Parakeet V3	25 (europäisch, inkl. Deutsch)	~100x Echtzeit	6,32 % WER, keine Stille-Halluzinationen
SenseVoice Small	zh, ja, ko, yue, en	~52x Echtzeit	Am besten für Chinesisch, Japanisch, Koreanisch

Alle drei laufen lokal in Whisper Notes, und Sie können pro Aufnahme wechseln. Benchmarks im direkten Vergleich finden Sie auf unserer Vergleichsseite der Whisper-Modelle.

Whisper Transkription offline am Mac & iPhone nutzen

Keine Kommandozeile, kein Python, keine Cloud:

Laden Sie Whisper Notes für Mac (kostenlos testen) oder für iPhone (einmalig $6.99) herunter.
Wählen Sie ein Modell: Parakeet V3 für Deutsch und 24 weitere europäische Sprachen (Standard), Whisper Large V3 Turbo für breite Sprachabdeckung, SenseVoice für CJK. Einmal heruntergeladen, funktioniert es für immer offline.
Nehmen Sie direkt auf, diktieren Sie systemweit per gedrückter Fn-Taste, oder ziehen Sie Audio- und Videodateien hinein (MP3, WAV, M4A, MP4).
Der Text erscheint fortlaufend während der Verarbeitung. Export als TXT oder SRT.

Skeptisch bei "offline"? Schalten Sie zuerst den Flugmodus ein. Die Transkription läuft mit voller Geschwindigkeit — nichts wird hochgeladen, niemals.

Wie genau ist Whisper Transkription auf Deutsch? Welches Modell wählen?

Sehr genau — wenn Sie das richtige Modell wählen. Für deutschsprachiges Audio, auch mit österreichischer Färbung, ist Parakeet V3 die klare Empfehlung: das Standardmodell in Whisper Notes, das 25 europäische Sprachen inklusive Deutsch abdeckt, in der 6,32-%-WER-Klasse transkribiert und dabei rund 10x schneller läuft als Whisper. Enthält Ihre Aufnahme Sprachen, die Parakeet nicht abdeckt, wechseln Sie einfach zu Whisper Large V3 Turbo (100+ Sprachen, ~1,5 GB) — pro Aufnahme umschaltbar, alles komplett am Gerät.

Häufig gestellte Fragen

Ist Whisper Transkription kostenlos?

Das Modell selbst ist kostenlos und Open Source (MIT-Lizenz). Es über Kommandozeilen-Tools wie whisper.cpp zu betreiben kostet nichts, erfordert aber Einrichtung. OpenAIs API berechnet $0.006 pro Audiominute. Native Apps verpacken die Modelle für einen kleinen Einmalbetrag — Whisper Notes kostet einmalig $6.99, am Mac mit kostenloser Testphase (10.000 Wörter).

Funktioniert Whisper Transkription offline?

Ja — genau das ist der Sinn offener Modellgewichte. Sobald die Modelldatei am Gerät ist, braucht es kein Internet mehr. Whisper Notes führt Whisper Large V3 Turbo auf Apple Silicon via CoreML/Metal aus, vollständig offline. Überprüfen können Sie das im Flugmodus.

Welches Whisper-Modell ist am genauesten?

large-v3 hat die beste Rohgenauigkeit. large-v3-turbo liegt bei der WER nur einen Bruchteil eines Prozents dahinter und läuft dabei rund 5x schneller — deshalb ist es heute in den meisten Tools der Standard. Für Deutsch erreicht Parakeet V3 die 6,32-%-WER-Klasse bei nochmals ~10x höherem Tempo.

Unterstützt Whisper Transkription Deutsch?

Ja, Deutsch gehört zu Whispers stärksten Sprachen (neben Englisch, Spanisch, Französisch usw.). Insgesamt deckt Whisper rund 100 Sprachen ab. Für Chinesisch, Japanisch, Koreanisch und Kantonesisch liefert SenseVoice bessere Zeichensetzung und deutlich mehr Tempo auf Apple Silicon.

Gibt es eine App für Whisper Transkription am iPhone?

Ja. Whisper Notes führt Whisper-Modelle optimiert für die Neural Engine des iPhones aus (iPhone 12 und neuer) — aufnehmen, aus Sprachmemos oder Dateien importieren und komplett am Gerät transkribieren, für einmalig $6.99, ohne Abo.

Für iOS laden

Kostenlos am Mac testen