Superwhisper vs Whisper Notes: Ein technischer Vergleich
Preise, Sprachmodelle, Berechtigungen und Architektur — ein detaillierter Vergleich zweier Offline-Transkriptions-Apps für Mac.

Superwhisper war ein Pionier. Es zeigte der Mac-Community, was möglich ist: OpenAIs Whisper-Modell lokal auf Apple Silicon ausführen, Sprache transkribieren ohne Audio in die Cloud zu senden.
Eine Zeit lang war es genau das, was viele von uns wollten—ein einfaches, schnelles, lokales Transkriptionswerkzeug.
Dann hat es sich verändert.
Die jüngste Richtung geht hin zum "KI-Assistenten"—Kontextbewusstsein, Cloud-Sync, agentische Modi, die Ihre Worte interpretieren, anstatt sie bloß zu transkribieren.
Mit dieser Wende kamen drei strukturelle Änderungen:
• Das Abo: Monatliche Miete für Modelle zahlen, die auf Ihrer eigenen Hardware laufen.
• Die Berechtigung: Input Monitoring, das alle Ihre Tastatureingaben beobachten kann.
• Das Konto: Pflichtanmeldung für Software, die vollständig offline funktioniert.
Diese Seite handelt nicht von Fehlern oder vorübergehenden Problemen. Es geht um Architekturphilosophie.
Whisper Notes existiert als Alternative für alle, die das bevorzugten, was Superwhisper einmal war: ein zuverlässiges, Offline-Werkzeug, das eine Sache gut macht.Schnellvergleich: Whisper Notes vs Superwhisper
| Funktion | Whisper Notes | Superwhisper |
|---|---|---|
| Preis | €6,99 einmalig | €8,49/Monat oder €250 lebenslang |
| macOS-Berechtigung | Nur Bedienungshilfen | Input Monitoring |
| Konto erforderlich | Nein | Ja |
| iOS-App | $6.99 (separater Kauf) | Separates Abo |
| Sprachmodelle | Whisper + Parakeet V3 + Qwen3-ASR | Whisper (+ Distil-Varianten) |
| 100% Offline | Ja | Optional (Hybrid) |
| Lokale KI-Bearbeitung | Ja (Gemma 4, auf dem Gerät) | Ja (Cloud-abhängig) |
| KI-Kontext-Funktionen | Nein | Ja |
Sprachmodelle: Drei Engines gegen eine
Das ist der technische Unterschied, der für den täglichen Gebrauch am meisten zählt.
Superwhisper bietet Whisper und seine destillierten Varianten. Whisper Notes liefert drei unabhängige Sprach-Engines, jede für verschiedene Szenarien optimiert:
Sprachmodell-Vergleich
| Modell | Geschwindigkeit | WER | Am besten für |
|---|---|---|---|
| Whisper Large V3 Turbo | 10–15× realtime | 7.44% | 100+ Sprachen, allgemein |
| Parakeet V3 | ~35× realtime | 6.32% | Englisch — schnellste, niedrigste Fehlerrate |
| Qwen3-ASR | Streaming | — | Chinesisch, Japanisch, Koreanisch + 27 Sprachen |
Parakeet V3 (von NVIDIA) transkribiert Englisch 3× schneller als Whisper mit niedrigerer Fehlerrate — 6.32% vs 7.44% WER auf dem FLEURS-Benchmark. Ein 35-Minuten-Meeting, das mit Whisper 3 Minuten dauert, wird mit Parakeet V3 in unter 20 Sekunden fertig.
Qwen3-ASR ist speziell für CJK-Sprachen (Chinesisch, Japanisch, Koreanisch) gebaut und liefert Streaming-Transkription — Text erscheint während Sie sprechen, nicht erst danach.
Das sind keine Cloud-Modelle hinter einer Paywall. Sie laufen vollständig auf der Neural Engine Ihres Macs, im Kaufpreis von $6.99 enthalten.
Superwhisper bietet nur Whisper-Varianten. Für englischlastige oder CJK-Workflows ist der Unterschied in der Modellauswahl erheblich.
Die Input Monitoring Frage
Das ist die Berechtigung, die datenschutzbewusste Nutzer innehalten lässt.
Superwhisper fordert Input Monitoring-Zugriff auf macOS an. Diese Berechtigung erlaubt einer Anwendung, alle Tastatur- und Mausereignisse systemweit zu empfangen—unabhängig davon, welche App im Fokus ist.
Es ist dieselbe Berechtigungskategorie, die von Barrierefreiheitstools, Automatisierungssoftware und, ja, Keyloggern verwendet wird.
Warum braucht Superwhisper das?Um "intelligent" zu sein. Ihre KI-Kontext-Funktionen lesen Ihren Bildschirminhalt, verstehen, welche Anwendung Sie verwenden, und passen ihr Verhalten entsprechend an. Um Ihre Umgebung zu beobachten, benötigen sie Beobachtungsberechtigungen.
Der architektonische Kompromiss:Sie bekommen kontextbewusste Transkription. Sie bekommen die technische Fähigkeit, alles zu sehen, was Sie tippen, einschließlich Passwörter, private Nachrichten und vertrauliche Dokumente.
Wir unterstellen keine böswillige Absicht—aber die Berechtigung selbst ist architektonisch zur Überwachung fähig.
Berechtigungs-Architektur
Input Monitoring (Superwhisper):
Kann alle Tastaturereignisse aus allen Anwendungen empfangen. Erforderlich für 'Kontextbewusstsein'.
Bedienungshilfen (Whisper Notes):
Kann Text an der Cursorposition einfügen. Kann Ihre Tastatureingaben nicht lesen oder andere Apps beobachten. Nur Ausgabe.
Whisper Notes verwendet ausschließlich die Bedienungshilfen-Berechtigung. Wir können Text dort einfügen, wo Ihr Cursor ist—das ist Ausgabe. Wir können nicht lesen, was Sie tippen oder was auf Ihrem Bildschirm ist.
Unsere Position: Wir haben uns entschieden, nicht "intelligent" zu sein, weil intelligent Beobachtung erfordert. Ein Transkriptionstool muss nicht wissen, dass Ihre Passwörter existieren. Es muss nur tippen, was Sie gesagt haben.Das Hardware-Miete-Problem
Das ist die Preisentscheidung, die Fortgeschrittene frustriert.
Superwhisper hat lokale KI-Modelle—einschließlich Nvidia Parakeet und Whisper-Varianten—hinter eine Abo-Bezahlschranke gestellt. Nutzer zahlen jetzt monatliche Gebühren, um Verarbeitung freizuschalten, die vollständig auf ihren eigenen Geräten läuft.
Seien wir präzise, was hier passiert:• Ihr M3 oder M4 MacBook hat eine Neural Engine.
• Apple hat diesen Chip speziell für On-Device Machine Learning entwickelt.
• Die Whisper-Modellgewichte sind Open Source, veröffentlicht von OpenAI.
• Der Strom kommt aus Ihrer Steckdose.
Wofür genau bezahlt das Abo?
| Zeitraum | Whisper Notes | Superwhisper (Monatlich) | Superwhisper (Lifetime) |
|---|---|---|---|
| Jahr 1 | $6.99 | $101.88 | $250 |
| Jahr 3 | $6.99 | $305.64 | $250 |
| Lokale KI-Bearbeitung | Ja (Gemma 4, auf dem Gerät) | Ja (Cloud-abhängig) | |
| Jahr 5 | $6.99 | $509.40 | $250 |
Wenn Superwhispers Cloud-Funktionen—Sync, KI-Assistenten, externe APIs—für Sie Wert bieten, ist Abo-Preisgestaltung vertretbar. Sie bezahlen für deren Infrastruktur.
Aber lokale Modelle hinter dieselbe Bezahlschranke zu setzen? Das ist Miete für Berechnungen zu verlangen, die auf Hardware stattfinden, die Sie bereits besitzen.
Nutzerbewertungen spiegeln diese Frustration wider: "Ihr habt wirklich lokale Modelle hinter eine Bezahlschranke gestellt? Das ergibt keinen Sinn."
Unsere Preisphilosophie: Whisper Notes kostet einmalig $6.99, weil wir keine Cloud-Infrastruktur betreiben. Ihre Neural Engine erledigt die Arbeit. Wir stellen die Oberfläche bereit. Das ist eine einmalige Transaktion, keine fortlaufende Beziehung.
Komplexität und Ihre Folgen
Dieser Abschnitt handelt nicht von einem bestimmten Fehler. Es geht um architektonische Kompromisse.
Wenn Software versucht, viele Dinge zu tun—Cloud-Sync, Kontextbewusstsein, agentische Interpretation, hybride Lokal/Cloud-Verarbeitung—wird sie zwangsläufig komplex.
Komplexe Systeme haben mehr Fehlermodi als einfache. Das ist keine Kritik; das ist Physik.Superwhisper-Nutzer haben ein Fehlermuster gemeldet:
• Aufnahmen, die keine Transkripte erzeugen
• Audio, das zu verschwinden scheint
• "Keine Stimme gefunden"-Fehler nach langen Sitzungen
Wir können ihre Codebasis nicht diagnostizieren, aber wir können das Muster beobachten: je mehr Funktionen eine App verwaltet, desto mehr Arten kann sie versagen.
Das Zustandsmaschinen-Problem:Kontextbewusste Apps müssen viele Variablen verfolgen. Was ist auf dem Bildschirm? Ist das Netzwerk schnell genug für Cloud-Verarbeitung? Soll diese Aufnahme synchronisiert werden? Welches KI-Modell soll diesen Kontext verarbeiten?
Jeder Entscheidungspunkt ist eine potenzielle Diskrepanz zwischen erwartetem und tatsächlichem Zustand.
Whisper Notes ist bewusst einfach:Audio aufnehmen → Kontinuierlich auf Festplatte schreiben → Mit Whisper verarbeiten → Text anzeigen
Linearer Datenfluss. Kein Cloud-Sync, der versagen kann. Kein Kontextbewusstsein, das fehlzünden kann. Keine hybriden Routing-Entscheidungen.
Wir verwenden progressive Persistenz—Audio alle paar Sekunden während der Aufnahme auf die Festplatte schreiben. Wenn die App abstürzt oder Ihr Akku leer ist, verlieren Sie höchstens die letzten paar Sekunden. Die vorherigen 20 Minuten sind bereits sicher auf Ihrem Laufwerk.
Das ist keine Funktion, die wir bewerben; es ist einfach, wie zuverlässige Aufnahmesoftware funktionieren sollte.
Der Kompromiss ist real: Wir können nicht tun, was Superwhisper tut. Wir verstehen Ihren Bildschirmkontext nicht. Wir synchronisieren nicht zwischen Geräten. Wir haben keine KI-Modi, die Ihre Sprache umformatieren.Wir transkribieren einfach nur. Präzise, zuverlässig, lokal. Das ist das gesamte Produkt.
Die Konto-Anforderung
Superwhisper erfordert die Kontoerstellung, um die Software zu nutzen—selbst für lokale Transkription auf Ihrem eigenen Gerät.
Das dient ihrem Geschäftsmodell: Abo-Verwaltung, Cloud-Sync und Nutzungsanalysen erfordern Benutzeridentität.
Aber für diejenigen, die einfach lokale Sprache-zu-Text-Funktion wollen, ist es Reibung ohne Nutzen.
Whisper Notes hat kein Kontosystem:• Sie möchten drei Sprachmodelle — Whisper, Parakeet V3 (schnellstes Englisch) und Qwen3-ASR (am besten für Chinesisch/Japanisch/Koreanisch)
• Sie möchten lokale KI-Bearbeitung mit Gemma 4 — Interpunktionskorrektur, Entfernung von Füllwörtern, automatisch generierte Titel, alles auf dem Gerät
• Laden Sie die App herunter
• Beginnen Sie zu sprechen
Keine E-Mail. Kein Passwort. Keine Identitätsüberprüfung.
Das ist nicht nur Bequemlichkeit. Es geht um Datenminimierung:
• Jedes Konto ist ein weiteres Passwort zu verwalten
• Jeder Datenbankeintrag ist ein weiteres Einbruchsziel
• Jede Benutzeridentität ist ein weiterer Datenpunkt zu schützen
Für Software, die vollständig auf Ihrem Gerät läuft, sehen wir keine Rechtfertigung dafür zu wissen, wer Sie sind. Das Whisper-Modell braucht Ihre E-Mail nicht, um Sprache in Text umzuwandeln.
Wann Superwhisper Richtig für Sie ist
Wir behaupten nicht, dass Whisper Notes universell besser ist. Superwhisper hat architektonische Entscheidungen getroffen, die bestimmte Anwendungsfälle gut bedienen.
Wählen Sie Superwhisper, wenn:• Sie KI-Kontext-Modi wollen, die Ihren Bildschirm verstehen und die Ausgabe anpassen
• Sie Cloud-Sync zwischen mehreren Macs brauchen
• Sie das "Assistenten"-Erlebnis mehr schätzen als reine Transkription
• Das Abo oder der Lifetime-Preis von $250 zum Wert Ihres Workflows passt
• Die Input Monitoring-Berechtigung Sie nicht beunruhigt
• Sie minimale Systemberechtigungen wollen (nur Bedienungshilfen)
• Sie wortgetreue Transkription ohne KI-Interpretation bevorzugen
• Sie einmal zahlen ($6.99) und die Software besitzen wollen
• Sie kein Konto erstellen wollen
• Datenschutzarchitektur wichtiger ist als Komfortfunktionen
• Sie auch iPhone nutzen ($6.99 im App Store, separater Kauf von der Mac-Version)
Superwhisper baut an einer Zukunft, in der KI Ihren gesamten Computerkontext versteht. Das ist ambitioniert und manche Nutzer wollen das.
Whisper Notes baut das Gegenteil: ein Werkzeug, das genau eine Sache tut, nichts über Ihren Computer außer dem Mikrofon-Eingang weiß und jedes Mal gleich funktioniert.
Langweilige Software für Leute, die Vorhersehbarkeit schätzen.
Für Langweilige Software
"Langweilig" ist in der Softwaretechnik nicht abwertend. Langweilig bedeutet vorhersehbar. Langweilig bedeutet weniger Überraschungen.
Langweilige Software:
• Braucht kein Konto
• Erfordert keine Netzwerkverbindung für Kernfunktionen
• Fordert keine Berechtigungen über das strikt Notwendige hinaus
• Entwickelt sich nicht zu etwas, das Sie nicht wollten
Superwhisper begann als langweilige Software. Ein lokales Transkriptionswerkzeug. Einfach, schnell, zuverlässig.
Dann wuchsen die Ambitionen. Es wollte ein KI-Assistent sein, Kontext verstehen, über Clouds synchronisieren, Ihre Worte interpretieren.
Manche Nutzer folgten dieser Entwicklung gerne. Andere vermissen, was es war.
Whisper Notes ist absichtlich langweilig. Wir machen eine Sache: Sprache mit der Neural Engine Ihres Geräts in Text umwandeln. Wir beobachten nicht Ihren Bildschirm. Wir synchronisieren nicht Ihre Daten. Wir interpretieren nicht Ihre Absicht. Wir transkribieren einfach.
$6.99 pro Plattform. Kein Konto. Kein Input Monitoring. Keine Abos. Keine Ambitionen jenseits von Zuverlässigkeit.
Für alle, die die ursprüngliche Vision davon bevorzugten, was lokale Transkriptionstools sein könnten—Whisper Notes ist hier.
Häufig Gestellte Fragen
Warum erfordert Superwhisper Input Monitoring-Berechtigung?
Superwhisper verwendet Input Monitoring für 'Kontextbewusstsein'—zu verstehen, was auf Ihrem Bildschirm ist, um das KI-Verhalten anzupassen. Diese Berechtigung erlaubt das Lesen aller Tastatureingaben in allen Anwendungen. Whisper Notes verwendet nur die Bedienungshilfen-Berechtigung, die Text einfügen kann, aber Ihre Eingaben oder andere Apps nicht beobachten kann.
Warum ist Superwhisper auf Abo-Preise umgestiegen?
Superwhisper betreibt Cloud-Infrastruktur für Sync, Konten und einige KI-Funktionen. Abos finanzieren diese Infrastruktur. Allerdings haben sie auch lokale Modelle (die auf Ihrer Hardware laufen) hinter dieselbe Bezahlschranke gestellt—was die Preisentscheidung ist, die Nutzer am meisten hinterfragen.
Ist Whisper Notes so genau wie Superwhisper?
Whisper Notes bietet drei Sprachmodelle. Parakeet V3 hat eine niedrigere Wortfehlerrate (6.32%) als Whisper (7.44%) auf dem FLEURS-Englisch-Benchmark und läuft 3× schneller. Für Chinesisch, Japanisch und Koreanisch ist Qwen3-ASR speziell für diese Sprachen gebaut. Superwhisper bietet nur Whisper-Varianten.
Welche Sprachmodelle unterstützt Whisper Notes?
Drei Modelle: Whisper Large V3 Turbo (100+ Sprachen, allgemein), Parakeet V3 von NVIDIA (schnellstes Englisch, niedrigste Fehlerrate) und Qwen3-ASR von Alibaba (optimiert für Chinesisch, Japanisch, Koreanisch und 27 weitere Sprachen mit Streaming-Ausgabe). Alle laufen lokal auf Ihrem Gerät.
Wie viel kostet Whisper Notes im Vergleich zu Superwhisper?
Whisper Notes kostet $6.99 pro Plattform (iOS und Mac werden separat verkauft). Superwhisper kostet $8.49/Monat oder $250 lebenslang, wobei die iOS-App ein separates Abo erfordert. Über 3 Jahre: Whisper Notes kostet $6.99 pro Plattform, Superwhisper monatlich kostet $305.64.
Kann Whisper Notes zwischen Geräten synchronisieren?
Nein, absichtlich. Wir betreiben keine Cloud-Server, also gibt es nichts, worüber synchronisiert werden könnte. Ihre Aufnahmen bleiben auf dem Gerät, auf dem Sie sie erstellt haben. Das eliminiert Sync-Fehler und stellt sicher, dass Ihre Sprachdaten nie Ihre Hardware verlassen. Verwenden Sie bei Bedarf AirDrop oder manuellen Export.
Warum erfordert Whisper Notes kein Konto?
Lokale Transkription hat keinen technischen Grund, Identitätsüberprüfung zu erfordern. Wir glauben an Datenminimierung—wenn wir Ihre E-Mail nicht brauchen, damit die Software funktioniert, sollten wir nicht danach fragen. Kein Konto bedeutet kein Passwort zu verwalten, kein Datenbankeintrag zum Einbrechen.
Was ist der Unterschied zwischen Input Monitoring und Bedienungshilfen-Berechtigungen?
Input Monitoring kann alle Tastatur-/Mausereignisse systemweit empfangen (Beobachtung). Bedienungshilfen können Text einfügen und UI-Automatisierung durchführen (Aktion). Whisper Notes verwendet Bedienungshilfen, um transkribierten Text an Ihrem Cursor einzugeben—nur Ausgabe, keine Beobachtung dessen, was Sie tippen.
Drei Sprachmodelle. $6.99 einmalig.
Whisper + Parakeet V3 + Qwen3-ASR. Lokale KI-Bearbeitung. Kein Input Monitoring. Keine Abonnements. Keine Konten.