Whisper Transkription: Modelle, Tempo & Offline-Nutzung am Mac & iPhone (Guide 2026)

2. Juli 2026
·
9 min read
·Whisper Notes Team

Whisper Transkription bedeutet: Sprache mit OpenAIs Whisper in Text umwandeln — einem Open-Source-KI-Modell, das in der Cloud, auf einem Server oder komplett am eigenen Gerät laufen kann. Dieser Guide erklärt, wie Whisper funktioniert, welche Modellgröße Sie wählen sollten, wie genau die Transkription wirklich ist — und den schnellsten Weg, Whisper offline am Mac oder iPhone zu nutzen.

Was ist Whisper eigentlich?

Whisper ist ein Modell für automatische Spracherkennung (ASR), das OpenAI im September 2022 unter MIT-Lizenz veröffentlicht hat. Es ist ein Encoder-Decoder-Transformer, trainiert auf über 680.000 Stunden mehrsprachigem Audio, und beherrscht Transkription in rund 100 Sprachen plus Übersetzung ins Englische.

Der entscheidende Punkt für Sie: die Modellgewichte sind offen. Anders als die Sprach-APIs von Google oder Amazon muss Whisper nicht auf einem fremden Server laufen. Ein ganzes Ökosystem existiert, um es lokal auszuführen — whisper.cpp, faster-whisper und native Apps wie Whisper Notes. Genau das macht wirklich offline, private Whisper Transkription möglich — ein Punkt, der in Österreich (Stichwort DSGVO) besonders zählt.

Whisper-Modellgrößen: Welches Modell nehmen?

Whisper gibt es in sechs Hauptgrößen. Größer heißt genauer und langsamer:

Modell Parameter Geschwindigkeit Am besten für
tiny 39M Am schnellsten Schnelle Entwürfe, schwache Hardware
base 74M Sehr schnell Einfaches, sauberes Audio
small 244M Schnell Gute Balance aus Tempo und Genauigkeit auf Mobilgeräten
medium 769M Mittel Heute selten die richtige Wahl
large-v3 1,55B Am langsamsten Maximale Genauigkeit, schwieriges Audio
large-v3-turbo 809M ~5x schneller als large-v3 Die Standardwahl 2026

Für fast alle lautet die Antwort large-v3-turbo: Es behält den Encoder von large-v3, reduziert aber die Decoder-Schichten von 32 auf 4 — nahezu identische Genauigkeit bei einem Bruchteil des Rechenaufwands. Den ausführlichen Benchmark finden Sie in Whisper Large V3 Turbo vs. V3.

Wie genau ist die Whisper Transkription?

Bei sauberem englischem Audio erreichen die großen Modelle eine Wortfehlerrate (WER) von etwa 5-8 % — für die meisten praktischen Zwecke vergleichbar mit professioneller menschlicher Transkription. Die Genauigkeit sinkt bei Hintergrundgeräuschen, starken Akzenten, durcheinander redenden Sprechern und Sprachen mit wenig Trainingsdaten.

Whispers berühmteste Schwäche: Halluzinationen bei Stille. Der autoregressive Decoder erfindet manchmal wiederholte Phrasen oder Untertitel-Credits, wenn gerade niemand spricht. Neuere Modelle beheben das — NVIDIAs Parakeet V3 wurde gezielt auf Nicht-Sprach-Audio trainiert und produziert in unseren Tests null Halluzinationen (kompletter Parakeet V3 vs. Whisper Benchmark).

Für Chinesisch, Japanisch, Koreanisch und Kantonesisch schlägt ein spezialisiertes Modell Whisper bei Tempo und Zeichensetzung: siehe SenseVoice vs. Whisper für CJK-Sprachen.

5 Wege, Whisper Transkription zu nutzen

Methode Kosten Datenschutz Einrichtung
OpenAI API Bezahlung pro Audiominute Audio wird hochgeladen API-Key + Code
openai-whisper (Referenz-Python) Kostenlos 100 % lokal Python-Umgebung, GPU empfohlen
whisper.cpp / faster-whisper Kostenlos 100 % lokal Kommandozeile
Native App (Whisper Notes) Einmalig $6.99, kostenlos testen am Mac 100 % am Gerät Keine
Web-Demo-Tools Kostenlose Kontingente Audio wird hochgeladen Keine

Als Faustregel: Wer im Terminal zuhause ist, fährt mit faster-whisper hervorragend. Wer ein Produkt baut, nimmt die API ($0.006/Min. — für Entwickler gedacht). Wer einfach nur seine Aufnahmen privat transkribiert haben will, ohne Python anzugreifen, nimmt eine native App — genau dafür gibt es Whisper-Apps für den Mac.

Sie vergleichen Offline-Tools grundsätzlicher — inklusive Windows- und Android-Optionen? Lesen Sie unseren kompletten Guide zu Offline-Spracherkennung.

Whisper vs. neuere lokale Modelle (2026)

Whisper hat die Ära der lokalen Transkription eingeläutet, ist aber nicht mehr allein. Die Geschwindigkeiten unten wurden auf einem M4 Pro Mac gemessen:

Modell Sprachen Geschwindigkeit Besonderheit
Whisper Large V3 Turbo 100+ ~12x Echtzeit Größte Sprachabdeckung
Parakeet V3 25 (europäisch, inkl. Deutsch) ~100x Echtzeit 6,32 % WER, keine Stille-Halluzinationen
SenseVoice Small zh, ja, ko, yue, en ~52x Echtzeit Am besten für Chinesisch, Japanisch, Koreanisch

Alle drei laufen lokal in Whisper Notes, und Sie können pro Aufnahme wechseln. Benchmarks im direkten Vergleich finden Sie auf unserer Vergleichsseite der Whisper-Modelle.

Whisper Transkription offline am Mac & iPhone nutzen

Keine Kommandozeile, kein Python, keine Cloud:

  1. Laden Sie Whisper Notes für Mac (kostenlos testen) oder für iPhone (einmalig $6.99) herunter.
  2. Wählen Sie ein Modell: Parakeet V3 für Deutsch und 24 weitere europäische Sprachen (Standard), Whisper Large V3 Turbo für breite Sprachabdeckung, SenseVoice für CJK. Einmal heruntergeladen, funktioniert es für immer offline.
  3. Nehmen Sie direkt auf, diktieren Sie systemweit per gedrückter Fn-Taste, oder ziehen Sie Audio- und Videodateien hinein (MP3, WAV, M4A, MP4).
  4. Der Text erscheint fortlaufend während der Verarbeitung. Export als TXT oder SRT.

Skeptisch bei "offline"? Schalten Sie zuerst den Flugmodus ein. Die Transkription läuft mit voller Geschwindigkeit — nichts wird hochgeladen, niemals.

Wie genau ist Whisper Transkription auf Deutsch? Welches Modell wählen?

Sehr genau — wenn Sie das richtige Modell wählen. Für deutschsprachiges Audio, auch mit österreichischer Färbung, ist Parakeet V3 die klare Empfehlung: das Standardmodell in Whisper Notes, das 25 europäische Sprachen inklusive Deutsch abdeckt, in der 6,32-%-WER-Klasse transkribiert und dabei rund 10x schneller läuft als Whisper. Enthält Ihre Aufnahme Sprachen, die Parakeet nicht abdeckt, wechseln Sie einfach zu Whisper Large V3 Turbo (100+ Sprachen, ~1,5 GB) — pro Aufnahme umschaltbar, alles komplett am Gerät.

Häufig gestellte Fragen

Ist Whisper Transkription kostenlos?

Das Modell selbst ist kostenlos und Open Source (MIT-Lizenz). Es über Kommandozeilen-Tools wie whisper.cpp zu betreiben kostet nichts, erfordert aber Einrichtung. OpenAIs API berechnet $0.006 pro Audiominute. Native Apps verpacken die Modelle für einen kleinen Einmalbetrag — Whisper Notes kostet einmalig $6.99, am Mac mit kostenloser Testphase (10.000 Wörter).

Funktioniert Whisper Transkription offline?

Ja — genau das ist der Sinn offener Modellgewichte. Sobald die Modelldatei am Gerät ist, braucht es kein Internet mehr. Whisper Notes führt Whisper Large V3 Turbo auf Apple Silicon via CoreML/Metal aus, vollständig offline. Überprüfen können Sie das im Flugmodus.

Welches Whisper-Modell ist am genauesten?

large-v3 hat die beste Rohgenauigkeit. large-v3-turbo liegt bei der WER nur einen Bruchteil eines Prozents dahinter und läuft dabei rund 5x schneller — deshalb ist es heute in den meisten Tools der Standard. Für Deutsch erreicht Parakeet V3 die 6,32-%-WER-Klasse bei nochmals ~10x höherem Tempo.

Unterstützt Whisper Transkription Deutsch?

Ja, Deutsch gehört zu Whispers stärksten Sprachen (neben Englisch, Spanisch, Französisch usw.). Insgesamt deckt Whisper rund 100 Sprachen ab. Für Chinesisch, Japanisch, Koreanisch und Kantonesisch liefert SenseVoice bessere Zeichensetzung und deutlich mehr Tempo auf Apple Silicon.

Gibt es eine App für Whisper Transkription am iPhone?

Ja. Whisper Notes führt Whisper-Modelle optimiert für die Neural Engine des iPhones aus (iPhone 12 und neuer) — aufnehmen, aus Sprachmemos oder Dateien importieren und komplett am Gerät transkribieren, für einmalig $6.99, ohne Abo.