Whisper Transkription: Kompletter Guide — API, Apps & offline (2026)

Whisper Transkription bedeutet: Sprache mit OpenAIs Whisper in Text umwandeln — einem Open-Source-KI-Modell, das in der Cloud, auf einem Server oder komplett auf Ihrem eigenen Gerät laufen kann. Dieser Guide erklärt, wie Whisper funktioniert, welche Modellgröße Sie wählen sollten, wie genau die Transkription wirklich ist — und den schnellsten Weg, Whisper offline auf Mac oder iPhone zu nutzen.

Was ist Whisper eigentlich?

Whisper ist ein Modell für automatische Spracherkennung (ASR), das OpenAI im September 2022 unter MIT-Lizenz veröffentlicht hat. Es ist ein Encoder-Decoder-Transformer, trainiert auf über 680.000 Stunden mehrsprachigem Audio, und beherrscht Transkription in rund 100 Sprachen plus Übersetzung ins Englische.

Der entscheidende Punkt für Sie: die Modellgewichte sind offen. Anders als die Sprach-APIs von Google oder Amazon muss Whisper nicht auf einem fremden Server laufen. Ein ganzes Ökosystem existiert, um es lokal auszuführen — whisper.cpp, faster-whisper und native Apps wie Whisper Notes. Genau das macht wirklich offline, private Whisper Transkription möglich — ein Punkt, der in Deutschland (Stichwort DSGVO) besonders zählt.

Whisper-Modellgrößen: Welches Modell nehmen?

Whisper gibt es in sechs Hauptgrößen. Größer heißt genauer und langsamer:

Modell	Parameter	Geschwindigkeit	Am besten für
tiny	39M	Am schnellsten	Schnelle Entwürfe, schwache Hardware
base	74M	Sehr schnell	Einfaches, sauberes Audio
small	244M	Schnell	Gute Balance aus Tempo und Genauigkeit auf Mobilgeräten
medium	769M	Mittel	Heute selten die richtige Wahl
large-v3	1,55B	Am langsamsten	Maximale Genauigkeit, schwieriges Audio
large-v3-turbo	809M	~5x schneller als large-v3	Die Standardwahl 2026

Für fast alle lautet die Antwort large-v3-turbo: Es behält den Encoder von large-v3, reduziert aber die Decoder-Schichten von 32 auf 4 — nahezu identische Genauigkeit bei einem Bruchteil des Rechenaufwands. Den ausführlichen Benchmark finden Sie in Whisper Large V3 Turbo vs. V3.

Wie genau ist die Whisper Transkription?

Bei sauberem englischem Audio erreichen die großen Modelle eine Wortfehlerrate (WER) von etwa 5-8 % — für die meisten praktischen Zwecke vergleichbar mit professioneller menschlicher Transkription. Die Genauigkeit sinkt bei Hintergrundgeräuschen, starken Akzenten, durcheinander redenden Sprechern und Sprachen mit wenig Trainingsdaten.

Whispers berühmteste Schwäche: Halluzinationen bei Stille. Der autoregressive Decoder erfindet manchmal wiederholte Phrasen oder Untertitel-Credits, wenn gerade niemand spricht. Neuere Modelle beheben das — NVIDIAs Parakeet V3 wurde gezielt auf Nicht-Sprach-Audio trainiert und produziert in unseren Tests null Halluzinationen (kompletter Parakeet V3 vs. Whisper Benchmark).

Für Chinesisch, Japanisch, Koreanisch und Kantonesisch schlägt ein spezialisiertes Modell Whisper bei Tempo und Zeichensetzung: siehe SenseVoice vs. Whisper für CJK-Sprachen.

5 Wege, Whisper Transkription zu nutzen

Methode	Kosten	Datenschutz	Einrichtung
OpenAI API	$0.006 pro Audiominute	Audio wird hochgeladen	API-Key + Code
openai-whisper (Referenz-Python)	Kostenlos	100 % lokal	Python-Umgebung, GPU empfohlen
whisper.cpp / faster-whisper	Kostenlos	100 % lokal	Kommandozeile
Native App (Whisper Notes)	Einmalig $6.99, kostenlos testen auf dem Mac	100 % auf dem Gerät	Keine
Web-Demo-Tools	Kostenlose Kontingente	Audio wird hochgeladen	Keine

Als Faustregel: Wer im Terminal zuhause ist, fährt mit faster-whisper hervorragend. Wer ein Produkt baut, nimmt die API ($0.006/Min. — für Entwickler gedacht). Wer einfach nur seine Aufnahmen privat transkribiert haben will, ohne Python anzufassen, nimmt eine native App — genau dafür gibt es Whisper-Apps für den Mac.

Sie vergleichen Offline-Tools grundsätzlicher — inklusive Windows- und Android-Optionen? Lesen Sie unseren kompletten Guide zu Offline-Spracherkennung.

Whisper vs. neuere lokale Modelle (2026)

Whisper hat die Ära der lokalen Transkription eingeläutet, ist aber nicht mehr allein. Die Geschwindigkeiten unten wurden auf einem M4 Pro Mac gemessen:

Modell	Sprachen	Geschwindigkeit	Besonderheit
Whisper Large V3 Turbo	100+	~12x Echtzeit	Größte Sprachabdeckung
Parakeet V3	25 (europäisch, inkl. Deutsch)	~100x Echtzeit	6,32 % WER, keine Stille-Halluzinationen
SenseVoice Small	zh, ja, ko, yue, en	~52x Echtzeit	Am besten für Chinesisch, Japanisch, Koreanisch

Alle drei laufen lokal in Whisper Notes, und Sie können pro Aufnahme wechseln. Benchmarks im direkten Vergleich finden Sie auf unserer Vergleichsseite der Whisper-Modelle.

Whisper Transkription offline auf Mac & iPhone nutzen

Keine Kommandozeile, kein Python, keine Cloud:

Laden Sie Whisper Notes für Mac (kostenlos testen) oder für iPhone (einmalig $6.99) herunter.
Wählen Sie ein Modell: Parakeet V3 für Deutsch und 24 weitere europäische Sprachen (Standard), Whisper Large V3 Turbo für breite Sprachabdeckung, SenseVoice für CJK. Einmal heruntergeladen, funktioniert es für immer offline.
Nehmen Sie direkt auf, diktieren Sie systemweit per gedrückter Fn-Taste, oder ziehen Sie Audio- und Videodateien hinein (MP3, WAV, M4A, MP4).
Der Text erscheint fortlaufend während der Verarbeitung. Export als TXT oder SRT.

Skeptisch bei "offline"? Schalten Sie zuerst den Flugmodus ein. Die Transkription läuft mit voller Geschwindigkeit — nichts wird hochgeladen, niemals.

Wie genau ist Whisper Transkription auf Deutsch? Welches Modell wählen?

Kurze Antwort: Für deutsches Audio nehmen Sie Parakeet V3 — das Standardmodell in Whisper Notes auf Mac und iPhone. Es deckt 25 europäische Sprachen ab, Deutsch eingeschlossen, transkribiert in der 6,32-%-WER-Klasse und läuft dabei rund 10x schneller als Whisper. Ein einstündiges Meeting auf Deutsch ist damit in wenigen Minuten Text — komplett auf Ihrem Gerät, ohne dass eine Sekunde Audio Ihr MacBook oder iPhone verlässt.

Whisper Large V3 Turbo (~1,5 GB) bleibt die richtige Wahl, wenn Ihre Aufnahmen Sprachen enthalten, die Parakeet nicht abdeckt — es beherrscht über 100. Sie können jederzeit pro Aufnahme zwischen beiden wechseln.

Ihr Audio	Empfohlenes Modell	Warum
Deutsch (oder eine von 25 europäischen Sprachen)	Parakeet V3 (Standard)	6,32 % WER, 10x schneller als Whisper
Andere Sprachen / gemischte Aufnahmen	Whisper Large V3 Turbo	100+ Sprachen, ~1,5 GB

Häufig gestellte Fragen

Ist Whisper Transkription kostenlos?

Das Modell selbst ist kostenlos und Open Source (MIT-Lizenz). Es über Kommandozeilen-Tools wie whisper.cpp zu betreiben kostet nichts, erfordert aber Einrichtung. OpenAIs API berechnet $0.006 pro Audiominute. Native Apps verpacken die Modelle für einen kleinen Einmalbetrag — Whisper Notes kostet einmalig $6.99, auf dem Mac mit kostenloser Testphase (10.000 Wörter).

Funktioniert Whisper Transkription offline?

Ja — genau das ist der Sinn offener Modellgewichte. Sobald die Modelldatei auf Ihrem Gerät ist, braucht es kein Internet mehr. Whisper Notes führt Whisper Large V3 Turbo auf Apple Silicon via CoreML/Metal aus, vollständig offline. Überprüfen können Sie das im Flugmodus.

Welches Whisper-Modell ist am genauesten?

large-v3 hat die beste Rohgenauigkeit. large-v3-turbo liegt bei der WER nur einen Bruchteil eines Prozents dahinter und läuft dabei rund 5x schneller — deshalb ist es heute in den meisten Tools der Standard. Für Deutsch erreicht Parakeet V3 die 6,32-%-WER-Klasse bei nochmals ~10x höherem Tempo.

Unterstützt Whisper Transkription Deutsch?

Ja, Deutsch gehört zu Whispers stärksten Sprachen (neben Englisch, Spanisch, Französisch usw.). Insgesamt deckt Whisper rund 100 Sprachen ab. Für Chinesisch, Japanisch, Koreanisch und Kantonesisch liefert SenseVoice bessere Zeichensetzung und deutlich mehr Tempo auf Apple Silicon.

Gibt es eine App für Whisper Transkription auf dem iPhone?

Ja. Whisper Notes führt Whisper-Modelle optimiert für die Neural Engine des iPhones aus (iPhone 12 und neuer) — aufnehmen, aus Sprachmemos oder Dateien importieren und komplett auf dem Gerät transkribieren, für einmalig $6.99, ohne Abo.

Für iOS laden

Kostenlos auf dem Mac testen