Whisper Transkription: Kompletter Guide — API, Apps & offline (2026)

2. Juli 2026
·
9 min read
·Whisper Notes Team

Whisper Transkription bedeutet: Sprache mit OpenAIs Whisper in Text umwandeln — einem Open-Source-KI-Modell, das in der Cloud, auf einem Server oder komplett auf Ihrem eigenen Gerät laufen kann. Dieser Guide erklärt, wie Whisper funktioniert, welche Modellgröße Sie wählen sollten, wie genau die Transkription wirklich ist — und den schnellsten Weg, Whisper offline auf Mac oder iPhone zu nutzen.

Was ist Whisper eigentlich?

Whisper ist ein Modell für automatische Spracherkennung (ASR), das OpenAI im September 2022 unter MIT-Lizenz veröffentlicht hat. Es ist ein Encoder-Decoder-Transformer, trainiert auf über 680.000 Stunden mehrsprachigem Audio, und beherrscht Transkription in rund 100 Sprachen plus Übersetzung ins Englische.

Der entscheidende Punkt für Sie: die Modellgewichte sind offen. Anders als die Sprach-APIs von Google oder Amazon muss Whisper nicht auf einem fremden Server laufen. Ein ganzes Ökosystem existiert, um es lokal auszuführen — whisper.cpp, faster-whisper und native Apps wie Whisper Notes. Genau das macht wirklich offline, private Whisper Transkription möglich — ein Punkt, der in Deutschland (Stichwort DSGVO) besonders zählt.

Whisper-Modellgrößen: Welches Modell nehmen?

Whisper gibt es in sechs Hauptgrößen. Größer heißt genauer und langsamer:

Modell Parameter Geschwindigkeit Am besten für
tiny 39M Am schnellsten Schnelle Entwürfe, schwache Hardware
base 74M Sehr schnell Einfaches, sauberes Audio
small 244M Schnell Gute Balance aus Tempo und Genauigkeit auf Mobilgeräten
medium 769M Mittel Heute selten die richtige Wahl
large-v3 1,55B Am langsamsten Maximale Genauigkeit, schwieriges Audio
large-v3-turbo 809M ~5x schneller als large-v3 Die Standardwahl 2026

Für fast alle lautet die Antwort large-v3-turbo: Es behält den Encoder von large-v3, reduziert aber die Decoder-Schichten von 32 auf 4 — nahezu identische Genauigkeit bei einem Bruchteil des Rechenaufwands. Den ausführlichen Benchmark finden Sie in Whisper Large V3 Turbo vs. V3.

Wie genau ist die Whisper Transkription?

Bei sauberem englischem Audio erreichen die großen Modelle eine Wortfehlerrate (WER) von etwa 5-8 % — für die meisten praktischen Zwecke vergleichbar mit professioneller menschlicher Transkription. Die Genauigkeit sinkt bei Hintergrundgeräuschen, starken Akzenten, durcheinander redenden Sprechern und Sprachen mit wenig Trainingsdaten.

Whispers berühmteste Schwäche: Halluzinationen bei Stille. Der autoregressive Decoder erfindet manchmal wiederholte Phrasen oder Untertitel-Credits, wenn gerade niemand spricht. Neuere Modelle beheben das — NVIDIAs Parakeet V3 wurde gezielt auf Nicht-Sprach-Audio trainiert und produziert in unseren Tests null Halluzinationen (kompletter Parakeet V3 vs. Whisper Benchmark).

Für Chinesisch, Japanisch, Koreanisch und Kantonesisch schlägt ein spezialisiertes Modell Whisper bei Tempo und Zeichensetzung: siehe SenseVoice vs. Whisper für CJK-Sprachen.

5 Wege, Whisper Transkription zu nutzen

Methode Kosten Datenschutz Einrichtung
OpenAI API $0.006 pro Audiominute Audio wird hochgeladen API-Key + Code
openai-whisper (Referenz-Python) Kostenlos 100 % lokal Python-Umgebung, GPU empfohlen
whisper.cpp / faster-whisper Kostenlos 100 % lokal Kommandozeile
Native App (Whisper Notes) Einmalig $6.99, kostenlos testen auf dem Mac 100 % auf dem Gerät Keine
Web-Demo-Tools Kostenlose Kontingente Audio wird hochgeladen Keine

Als Faustregel: Wer im Terminal zuhause ist, fährt mit faster-whisper hervorragend. Wer ein Produkt baut, nimmt die API ($0.006/Min. — für Entwickler gedacht). Wer einfach nur seine Aufnahmen privat transkribiert haben will, ohne Python anzufassen, nimmt eine native App — genau dafür gibt es Whisper-Apps für den Mac.

Sie vergleichen Offline-Tools grundsätzlicher — inklusive Windows- und Android-Optionen? Lesen Sie unseren kompletten Guide zu Offline-Spracherkennung.

Whisper vs. neuere lokale Modelle (2026)

Whisper hat die Ära der lokalen Transkription eingeläutet, ist aber nicht mehr allein. Die Geschwindigkeiten unten wurden auf einem M4 Pro Mac gemessen:

Modell Sprachen Geschwindigkeit Besonderheit
Whisper Large V3 Turbo 100+ ~12x Echtzeit Größte Sprachabdeckung
Parakeet V3 25 (europäisch, inkl. Deutsch) ~100x Echtzeit 6,32 % WER, keine Stille-Halluzinationen
SenseVoice Small zh, ja, ko, yue, en ~52x Echtzeit Am besten für Chinesisch, Japanisch, Koreanisch

Alle drei laufen lokal in Whisper Notes, und Sie können pro Aufnahme wechseln. Benchmarks im direkten Vergleich finden Sie auf unserer Vergleichsseite der Whisper-Modelle.

Whisper Transkription offline auf Mac & iPhone nutzen

Keine Kommandozeile, kein Python, keine Cloud:

  1. Laden Sie Whisper Notes für Mac (kostenlos testen) oder für iPhone (einmalig $6.99) herunter.
  2. Wählen Sie ein Modell: Parakeet V3 für Deutsch und 24 weitere europäische Sprachen (Standard), Whisper Large V3 Turbo für breite Sprachabdeckung, SenseVoice für CJK. Einmal heruntergeladen, funktioniert es für immer offline.
  3. Nehmen Sie direkt auf, diktieren Sie systemweit per gedrückter Fn-Taste, oder ziehen Sie Audio- und Videodateien hinein (MP3, WAV, M4A, MP4).
  4. Der Text erscheint fortlaufend während der Verarbeitung. Export als TXT oder SRT.

Skeptisch bei "offline"? Schalten Sie zuerst den Flugmodus ein. Die Transkription läuft mit voller Geschwindigkeit — nichts wird hochgeladen, niemals.

Wie genau ist Whisper Transkription auf Deutsch? Welches Modell wählen?

Kurze Antwort: Für deutsches Audio nehmen Sie Parakeet V3 — das Standardmodell in Whisper Notes auf Mac und iPhone. Es deckt 25 europäische Sprachen ab, Deutsch eingeschlossen, transkribiert in der 6,32-%-WER-Klasse und läuft dabei rund 10x schneller als Whisper. Ein einstündiges Meeting auf Deutsch ist damit in wenigen Minuten Text — komplett auf Ihrem Gerät, ohne dass eine Sekunde Audio Ihr MacBook oder iPhone verlässt.

Whisper Large V3 Turbo (~1,5 GB) bleibt die richtige Wahl, wenn Ihre Aufnahmen Sprachen enthalten, die Parakeet nicht abdeckt — es beherrscht über 100. Sie können jederzeit pro Aufnahme zwischen beiden wechseln.

Ihr Audio Empfohlenes Modell Warum
Deutsch (oder eine von 25 europäischen Sprachen) Parakeet V3 (Standard) 6,32 % WER, 10x schneller als Whisper
Andere Sprachen / gemischte Aufnahmen Whisper Large V3 Turbo 100+ Sprachen, ~1,5 GB

Häufig gestellte Fragen

Ist Whisper Transkription kostenlos?

Das Modell selbst ist kostenlos und Open Source (MIT-Lizenz). Es über Kommandozeilen-Tools wie whisper.cpp zu betreiben kostet nichts, erfordert aber Einrichtung. OpenAIs API berechnet $0.006 pro Audiominute. Native Apps verpacken die Modelle für einen kleinen Einmalbetrag — Whisper Notes kostet einmalig $6.99, auf dem Mac mit kostenloser Testphase (10.000 Wörter).

Funktioniert Whisper Transkription offline?

Ja — genau das ist der Sinn offener Modellgewichte. Sobald die Modelldatei auf Ihrem Gerät ist, braucht es kein Internet mehr. Whisper Notes führt Whisper Large V3 Turbo auf Apple Silicon via CoreML/Metal aus, vollständig offline. Überprüfen können Sie das im Flugmodus.

Welches Whisper-Modell ist am genauesten?

large-v3 hat die beste Rohgenauigkeit. large-v3-turbo liegt bei der WER nur einen Bruchteil eines Prozents dahinter und läuft dabei rund 5x schneller — deshalb ist es heute in den meisten Tools der Standard. Für Deutsch erreicht Parakeet V3 die 6,32-%-WER-Klasse bei nochmals ~10x höherem Tempo.

Unterstützt Whisper Transkription Deutsch?

Ja, Deutsch gehört zu Whispers stärksten Sprachen (neben Englisch, Spanisch, Französisch usw.). Insgesamt deckt Whisper rund 100 Sprachen ab. Für Chinesisch, Japanisch, Koreanisch und Kantonesisch liefert SenseVoice bessere Zeichensetzung und deutlich mehr Tempo auf Apple Silicon.

Gibt es eine App für Whisper Transkription auf dem iPhone?

Ja. Whisper Notes führt Whisper-Modelle optimiert für die Neural Engine des iPhones aus (iPhone 12 und neuer) — aufnehmen, aus Sprachmemos oder Dateien importieren und komplett auf dem Gerät transkribieren, für einmalig $6.99, ohne Abo.