Privatsphäre bei Sprachaufnahmen: Warum wir uns für lokale Verarbeitung entschieden haben
Man muss sich nicht zwischen Komfort und Kontrolle entscheiden.
Sprachnotizen sind etwas Besonderes
Sprachnotizen sind oft ungeordnet, ungefiltert und persönlich. Sie fangen Gedanken in der Entstehung ein – Ideen bevor sie ausgefeilt sind, Frustrationen bevor sie verarbeitet sind, Beobachtungen bevor sie strukturiert sind. Genau diese Rohheit macht sie wertvoll.
Sie fühlen sich anders an als ein poliertes Dokument. Dieses Gefühl ist wichtig.
Wenn du eine Sprachnotiz aufnimmst, sprichst du oft mit dir selbst. Die Intimität dieses Moments – die halbfertigen Sätze, die Abschweifungen, die ungeschützte Ehrlichkeit – verdient einen gewissen Respekt in der technischen Handhabung.
Eine Frage der digitalen Hygiene
Deine Stimme ist ein einzigartiges biometrisches Merkmal. Anders als ein Passwort kannst du sie nicht zurücksetzen. Anders als eine Kreditkartennummer kannst du keine neue beantragen. Das soll keine Angst machen – es ist einfach eine Eigenschaft von Sprachdaten, die man kennen sollte.
Für die meisten Alltagsaufnahmen ist Cloud-Verarbeitung völlig in Ordnung. Aber für sensible Inhalte – persönliche Reflexionen, berufliche Notizen, Kundengespräche – ist es einfach gute digitale Hygiene, Rohdaten von der Cloud fernzuhalten. Das gleiche Prinzip wie bei Passwörtern, die man nicht im Klartext speichert: nicht weil eine Katastrophe bevorsteht, sondern weil durchdachte Architektur Probleme verhindert, bevor sie entstehen.
Whisper Notes haben wir nach diesem Prinzip gebaut. Deine Audiodaten bleiben auf deinem Gerät – nicht weil wir Cloud-Dienste für gefährlich halten, sondern weil du die Wahl haben solltest.
Die Architektur
Whisper Notes führt OpenAIs Whisper-Spracherkennungsmodell direkt auf deiner Hardware aus. Es gibt keine Server-Komponente. Deine Aufnahmen werden lokal verarbeitet und niemals irgendwohin übertragen.
Die Implementierung unterscheidet sich zwischen den Plattformen, um die Fähigkeiten jedes Geräts optimal zu nutzen:
Mac: Whisper Large-v3 Turbo
Auf dem Mac läuft Whisper Large-v3 Turbo – ein 1,5-Milliarden-Parameter-Modell, optimiert für Apple Silicon. Das liefert Genauigkeit vergleichbar mit Cloud-Transkriptionsdiensten, mit korrekter Zeichensetzung und intelligenter Absatzformatierung.
Die Verarbeitungsgeschwindigkeit skaliert mit deinem Chip: M4-Rechner erreichen etwa 12-fache Echtzeit, während M1-Chips bei etwa 8-facher Echtzeit liegen.
iPhone: Mobil-optimiertes Whisper-Modell
Mobile Geräte haben andere Einschränkungen – thermische Grenzen, Akkulaufzeit, Speicherbandbreite. Wir setzen ein mobil-optimiertes Whisper-Modell ein, das für die Neural Engine in A- und M-Chips angepasst ist.
Obwohl kleiner als das Mac-Modell, liefert es strukturierten, interpunktierten Text, der Standard-Diktat durchgängig übertrifft. Der Trade-off ist ehrlich: Für maximale Genauigkeit bei langen Aufnahmen auf dem Mac verarbeiten. Für schnelles Erfassen funktioniert das mobile Modell gut.
Auf Geschwindigkeit ausgelegt
Gute Ideen warten nicht. Sie kommen beim Autofahren, Spazierengehen oder kurz vor dem Einschlafen. Das Sperrbildschirm-Widget minimiert die Reibung zwischen Gedanke und Aufnahme.
Sperrbildschirm-Widget mit Live Activity
- • Ein-Tipp-Aktivierung: Direkt vom Sperrbildschirm aufnehmen
- • Live Activity: Visuelle Bestätigung der Aufnahmedauer in der Dynamic Island
- • Nahtlose Face ID: Das Widget arbeitet reibungslos mit der Face ID-Authentifizierung
- • Freisprechfähig: Funktioniert mit Handschuhen, nassen Händen oder AirPods-Tippgesten
Der Aufnahme-Überprüfungs-Workflow
Der effektivste Sprachnotiz-Workflow trennt Aufnahme und Überprüfung. Mobile Geräte eignen sich hervorragend für schnelle Aufnahmen; Desktop-Umgebungen für tiefgehende Bearbeitung.
iPhone: Aufnehmen
Nutze das iPhone, um Gedanken im Moment zu erfassen. Das Sperrbildschirm-Widget reduziert die Reibung auf einen einzigen Tipp. Das mobile Modell transkribiert sofort und liefert nutzbaren Text auf der Stelle.
Mac: Überprüfen
Auf dem Mac bietet Whisper Notes Werkzeuge für vertiefte Arbeit:
- • Large-v3 Turbo Verarbeitung: Aufnahmen mit maximaler Genauigkeit neu transkribieren
- • Absätze mit Zeitstempeln: Klick auf einen Absatz springt zu dieser Stelle im Audio
- • Synchronisierte Wiedergabe: Text wird beim Abspielen hervorgehoben
- • Flexible Exportoptionen: Klartext, Zeitstempel-Format oder SRT-Untertitel
- • Systemweites Diktat: Fn gedrückt halten, um direkt in jeder App zu diktieren
Transkript mit Zeitstempeln und synchronisierter Audio-Wiedergabe
Der psychologische Vorteil
Der echte Vorteil ist nicht nur technische Sicherheit – er ist psychologisch.
Zu wissen, dass deine Audiodaten dein Gerät niemals verlassen, gibt dir die Freiheit, völlig frei zu sprechen, ohne Selbstzensur. Du kannst halbfertige Gedanken aufnehmen, Frust ablassen, wilde Ideen brainstormen oder sensible berufliche Angelegenheiten dokumentieren – alles ohne dich zu fragen, wer eventuell Zugang zu diesem Audio bekommen könnte.
Das ist der gleiche Grund, warum manche Menschen lieber in ein physisches Notizbuch schreiben: nicht weil digitale Notizen unsicher wären, sondern weil das Gefühl von Privatsphäre verändert, wie frei man denkt.
Das Wirtschaftsmodell
Da alle Verarbeitung auf deinem Gerät stattfindet, gibt es keine Serverkosten, die mit der Nutzung skalieren. Das ermöglicht ein Einmalkauf-Modell: 4,99 € für iPhone und Mac, dauerhaft.
Keine Abos. Keine Minutenpreise. Keine Nutzungslimits.
Die ehrlichen Trade-offs
Lokale Verarbeitung bringt echte Trade-offs mit sich, die man verstehen sollte:
Überlegungen
- • Verarbeitungsgeschwindigkeit: On-Device-Inferenz ist langsamer als Cloud-APIs. Eine 10-Minuten-Aufnahme braucht 1-2 Minuten auf dem iPhone 15. Cloud-Dienste antworten in Sekunden.
- • Genauigkeitsgrenze: Whisper erreicht 95%+ Genauigkeit bei klarer Sprache. Starke Akzente oder laute Hintergrundgeräusche erfordern eventuell etwas Nachbearbeitung.
- • Plattform: Nur Apple Silicon – Mac M1 oder neuer, iPhone mit iOS 18+. Kein Android oder Windows.
- • Transkription nach der Aufnahme: Whisper Notes transkribiert nach der Aufnahme, nicht währenddessen. Das liefert genauere Ergebnisse.
Wann dieser Ansatz passt
Whisper Notes funktioniert gut für:
- • Datenschutzbewusste Profis: Recht, Medizin, Journalismus, Therapie
- • Persönliche Reflexion: Tagebuch, Ideensammlung, Gedanken verarbeiten
- • Offline-Umgebungen: Flugzeuge, Sicherheitseinrichtungen, unzuverlässige Verbindung
- • Abo-müde Nutzer: Einmal zahlen, dauerhafter Zugang
Wann Alternativen in Frage kommen
Cloud-Dienste könnten besser sein, wenn du brauchst:
- • Echtzeit-Transkription mit Team-Sharing
- • Sofortige Verarbeitung sehr langer Aufnahmen
- • Android- oder Windows-Unterstützung
Zusammenfassung
Whisper Notes basiert auf einer einfachen Prämisse: Sprachnotizen sind persönlich, und du solltest kontrollieren können, wo dieses Audio existiert. Wir haben eine Local-First-Architektur gewählt, nicht weil Cloud-Dienste schlecht sind, sondern weil manche Inhalte auf deinem Gerät bleiben sollten.
Whisper Large-v3 Turbo auf dem Mac für Genauigkeit. Ein mobil-optimiertes Modell auf dem iPhone für schnelles Erfassen. Beide Plattformen verarbeiten komplett offline.
4,99 € einmalig. iPhone und Mac. Deine Audiodaten bleiben bei dir.