Diktiergerät-Aufnahmen transkribieren – 100 % offline am iPhone & Mac

3. Juli 2026
·
7 min read
·Whisper Notes Team

Sie haben eine Diktiergerät-Aufnahme — einen diktierten Schriftsatz, ein Interview, Befundnotizen — und brauchen sie als Text. So transkribieren Sie Diktiergerät-Aufnahmen, ohne eine einzige Sekunde Audio hochzuladen: Exportieren Sie die Datei von Ihrem Rekorder, ziehen Sie sie in Whisper Notes, und Parakeet V3 transkribiert sie vollständig am iPhone oder Mac. Keine Cloud, kein Konto, keine Minutenpreise. Einmalig $6.99.

Wer heute noch mit dem Diktiergerät arbeitet — und warum das wichtig ist

Das Diktiergerät ist nie verschwunden. Es hat sich nur in Berufe zurückgezogen, in denen Sprechen schneller ist als Tippen — und in denen der Inhalt zu sensibel ist, um verloren zu gehen oder durchzusickern.

  • Rechtsanwälte diktieren Schriftsätze, Aktenvermerke und Briefe zwischen zwei Terminen. Ein solches Diktat enthält Mandantennamen, Prozessstrategie und vertrauliche Details, die niemals auf einen fremden Server gehören.
  • Ärzte diktieren nach jedem Patienten Befunde und Arztbriefe. Diese Audioaufnahmen sind medizinische Daten in ihrer rohesten Form.
  • Journalisten nehmen Interviews mit Voicerecorder oder Smartphone auf. Quellenschutz beginnt damit, die Stimme einer Quelle nicht in eine fremde Cloud hochzuladen.
  • Forschende sammeln stundenlange Feldinterviews und Beobachtungen — oft unter Ethikauflagen, die ausdrücklich vorschreiben, wo Aufnahmen verarbeitet werden dürfen.

Für alle vier Gruppen ist der Engpass derselbe: Stunden an Diktat müssen zu Text werden. Früher hieß das Schreibkraft, Schreibbüro oder Clouddienst — jedes Mal ein Mensch oder ein Server, der alles hört, was Sie gesagt haben. Offline-Transkription macht diesen Mittelsmann komplett überflüssig.

Von der Aufnahme zum Text in drei Schritten

1. Exportieren Sie die Datei von Ihrem Diktiergerät

Schließen Sie Ihren Voicerecorder per USB an (oder nutzen Sie dessen Begleit-App) und kopieren Sie die Aufnahme auf Ihren Mac oder Ihr iPhone. Die meisten digitalen Diktiergeräte — Olympus, Philips, Sony, Zoom oder die Sprachmemos-App am Handy — speichern Aufnahmen als MP3, WAV oder M4A. Alle funktionieren direkt; eine Konvertierung ist nicht nötig.

2. In Whisper Notes importieren

Ziehen Sie die Datei am Mac in Whisper Notes, oder teilen Sie sie am iPhone mit der App. Es gibt kein Längenlimit — ein Zwei-Minuten-Memo und ein dreistündiges Interview sind beide kein Problem. Auch Videodateien funktionieren: Importieren Sie eine MP4- oder MOV-Datei, und die App transkribiert die Tonspur.

Format Typ Unterstützt
MP3 Audio — die meisten digitalen Diktiergeräte Ja, jede Länge
WAV Audio — unkomprimierte Rekorder Ja, jede Länge
M4A Audio — Sprachmemos am iPhone Ja, jede Länge
MP4 Video — Tonspur wird transkribiert Ja, jede Länge
MOV Video — Tonspur wird transkribiert Ja, jede Länge

3. Lokal transkribieren, überallhin exportieren

Starten Sie die Transkription. Parakeet V3 — das Standardmodell, mit vollwertiger Unterstützung für Deutsch — verarbeitet das Audio am Chip Ihres eigenen Geräts, rund 10× schneller als Whisper, mit 6,32 % Wortfehlerrate bei klarer Sprache. Das Ergebnis ist ein Transkript in Absätzen mit Zeitstempeln: Ein Klick auf einen Absatz springt genau zu dieser Stelle in der Aufnahme — ein Zitat oder eine Dosierungsangabe zu prüfen dauert so Sekunden statt Minuten.

Whisper Notes am Mac mit dem Transkript einer importierten Diktiergerät-Aufnahme, mit Zeitstempeln, Inline-Bearbeitung und Audio-Wellenform

Eine importierte Aufnahme, transkribiert mit Zeitstempeln — klicken Sie auf ein Segment, um das Original-Audio zu hören

Am Ende exportieren Sie als TXT für ein Dokument, oder als SRT/VTT mit Zeitstempeln, wenn die Aufnahme aus einem Video stammt. Auf Wunsch bearbeiten Sie das Transkript vorher direkt inline — Korrekturen bleiben mit dem Audio synchronisiert.

Warum Offline beim Diktieren die Cloud schlägt

Cloud-Transkriptionsdienste funktionieren so: Ihr Audio wird auf deren Server hochgeladen, dort verarbeitet und nach deren Aufbewahrungsrichtlinien gespeichert. Für eine Podcast-Folge ist das in Ordnung. Für einen diktierten Mandantenschriftsatz oder eine Patientennotiz ist es ein Vertraulichkeitsproblem, das Sie sich schlicht nicht einhandeln müssen.

Bei der Transkription direkt am Gerät gibt es nichts abzusichern, weil nichts das Gerät verlässt. Kein Upload, kein Konto, keine Serverlogs, kein Auftragsverarbeitungsvertrag, der verhandelt werden müsste. Für österreichische und europäische Berufsträger ist das DSGVO-freundlich durch Architektur: Sie übermitteln keine personenbezogenen Daten an einen Auftragsverarbeiter, weil es keinen Auftragsverarbeiter gibt.

Offline-App (Whisper Notes) Cloud-Transkriptionsdienste
Wo das Audio verarbeitet wird Auf Ihrem eigenen Gerät Auf den Servern des Anbieters
Vertraulichkeit Audio verlässt das Gerät nie Abhängig von den Richtlinien des Anbieters
DSGVO Freundlich durch Architektur — keine Datenübermittlung Auftragsverarbeitungsverträge erforderlich
Kosten Einmalig $6.99 Monatsabo oder Minutenpreise
Funktioniert ohne Internet Ja — Gerichtssaal, Ordination, Flugzeug, Feldforschung Nein
Konto erforderlich Nein Ja

Auch wirtschaftlich lohnt es sich für Vieldiktierer. Wer täglich eine Stunde diktiert, sieht Minutenpreise schnell in die Höhe schießen — und ein Abo läuft weiter, ob Sie diktieren oder nicht. Ein Einmalkauf kostet dasselbe, egal ob Sie zehn Minuten im Monat oder zehn Stunden pro Woche transkribieren.

So wird das Transkript so genau wie möglich

Zwei Einstellungen machen beim professionellen Diktieren den größten Unterschied:

Eigenes Vokabular. Sprachmodelle sind auf Allgemeinsprache trainiert und stolpern deshalb genau über die Wörter, die in Ihrem Fach am wichtigsten sind — Mandantennamen, Medikamentennamen, Paragrafenzitate, Fachjargon. In Whisper Notes fügen Sie diese Begriffe einem eigenen Vokabular hinzu, und das Modell nutzt sie, um mehrdeutiges Audio richtig aufzulösen. Tragen Sie Ihre zehn meistdiktierten Eigennamen ein, und die meisten wiederkehrenden Fehler verschwinden.

Das passende Modell für Ihre Sprache. Wählen Sie das Modell, das zu Ihrer Diktiersprache passt:

Deutsch / europäische Sprachen Parakeet V3 — 25 europäische Sprachen, darunter Deutsch, Französisch und Niederländisch, 6,32 % WER, 10× schneller als Whisper, nur 465MB
Chinesisch / Japanisch / Koreanisch SenseVoice — am schnellsten für CJK und Kantonesisch, 52× Echtzeit
Andere Sprachen Whisper Large V3 Turbo — 100+ Sprachen, ~1,5GB, langsamer, aber mit der breitesten Abdeckung

Und eine Gewohnheit aus der analogen Diktierzeit zahlt sich nach wie vor aus: Halten Sie das Gerät nah am Mund, sprechen Sie in gleichmäßigem Tempo und diktieren Sie in vollständigen Sätzen. Sauberes Audio hinein, sauberer Text heraus.

Häufig gestellte Fragen

Kann ich alte Diktiergerät-Aufnahmen transkribieren?

Ja. Kopieren Sie die Dateien von Ihrem Rekorder und importieren Sie sie in Whisper Notes — MP3, WAV und M4A funktionieren alle, in jeder Länge. Eine Aufnahme von vor zehn Jahren wird genauso transkribiert wie eine von heute Früh; die Genauigkeit hängt von der Audioqualität ab, nicht vom Alter der Datei.

Welche App ist die beste, um Diktiergerät-Aufnahmen zu transkribieren?

Beurteilen Sie jede App nach vier Kriterien: wo das Audio verarbeitet wird, welche Dateiformate akzeptiert werden, ob Fachjargon zuverlässig erkannt wird und was ein Jahr Nutzung kostet. Ist Ihr Diktat vertraulich — juristisch, medizinisch, journalistisch — dann ist Verarbeitung am Gerät aus unserer Sicht nicht verhandelbar. Genau dafür haben wir Whisper Notes gebaut: lokale Transkription, Import von MP3/WAV/M4A/MP4/MOV in jeder Länge, eigenes Vokabular, einmalig $6.99.

Funktioniert Diktiergerät-Transkription ohne Internet?

Mit Whisper Notes ja — vollständig offline. Die Sprachmodelle werden einmal heruntergeladen und laufen danach am Chip Ihres iPhones oder Macs. Sie können also im Keller des Gerichts, im Flugzeug oder an einem Feldstandort ohne Empfang transkribieren. Für die Transkription ist nie eine Verbindung nötig.

Wie genau ist Offline-Transkription von Diktiergerät-Aufnahmen?

Parakeet V3 erreicht bei klarem Audio eine Wortfehlerrate von 6,32 % — konkurrenzfähig mit Clouddiensten. Die verbleibenden Fehler häufen sich bei Eigennamen und Fachjargon, und genau dafür gibt es das eigene Vokabular: Fügen Sie Ihre wiederkehrenden Namen und Begriffe hinzu, und die Genauigkeit steigt genau bei diesen Wörtern deutlich.