Superwhisper vs Whisper Notes : une comparaison technique
Prix, modèles vocaux, permissions et architecture — une comparaison détaillée de deux applications de transcription hors ligne pour Mac

Superwhisper était un pionnier. Il a montré à la communauté Mac ce qui était possible : faire tourner le modèle Whisper d'OpenAI localement sur Apple Silicon, transcrire la parole sans envoyer l'audio dans le cloud.
Pendant un temps, c'était exactement ce que beaucoup d'entre nous voulions—un utilitaire de transcription simple, rapide et local.
Puis il a changé.
L'orientation récente va vers un « Assistant IA »—conscience du contexte, synchronisation cloud, modes agentiques qui interprètent vos mots au lieu de simplement les transcrire.
Avec ce pivot sont venus trois changements structurels :
• L'abonnement : Payer un loyer mensuel pour des modèles qui tournent sur votre propre matériel.
• La permission : Input Monitoring qui peut observer toutes vos frappes clavier.
• Le compte : Connexion obligatoire pour un logiciel qui fonctionne entièrement hors ligne.
Cette page ne parle pas de bugs ou de problèmes temporaires. Elle parle de philosophie architecturale.
Whisper Notes existe comme alternative pour ceux qui préféraient ce que Superwhisper était autrefois : un utilitaire hors ligne fiable qui fait bien une seule chose.Comparaison rapide : Whisper Notes vs Superwhisper
| Fonctionnalité | Whisper Notes | Superwhisper |
|---|---|---|
| Prix | 6,99 € une fois | 8,49 €/mois ou 250 € à vie |
| Permission macOS | Accessibilité uniquement | Input Monitoring |
| Compte requis | Non | Oui |
| App iOS | 6,99 $ (achat séparé) | Abonnement séparé |
| Modèles vocaux | Whisper + Parakeet V3 + Qwen3-ASR | Whisper (+ variantes distil) |
| 100% Hors ligne | Oui | Optionnel (hybride) |
| Édition IA locale | Oui (Gemma 4, sur l'appareil) | Oui (dépend du cloud) |
| Fonctions Contexte IA | Non | Oui |
Modèles vocaux : trois moteurs contre un
C'est la différence technique qui compte le plus au quotidien.
Superwhisper propose Whisper et ses variantes distillées. Whisper Notes embarque trois moteurs de reconnaissance vocale indépendants, chacun optimisé pour différents scénarios :
Comparaison des modèles vocaux
| Modèle | Vitesse | WER | Idéal pour |
|---|---|---|---|
| Whisper Large V3 Turbo | 10–15× temps réel | 7.44% | 100+ langues, usage général |
| Parakeet V3 | ~35× temps réel | 6.32% | Anglais — le plus rapide, taux d'erreur le plus bas |
| Qwen3-ASR | Streaming | — | Chinois, japonais, coréen + 27 langues |
Parakeet V3 (par NVIDIA) transcrit l'anglais 3× plus vite que Whisper avec un taux d'erreur inférieur — 6.32% contre 7.44% WER sur le benchmark FLEURS. Une réunion de 35 minutes qui prend 3 minutes avec Whisper se termine en moins de 20 secondes avec Parakeet V3.
Qwen3-ASR est conçu spécifiquement pour les langues CJK (chinois, japonais, coréen) et offre la transcription en streaming — le texte apparaît pendant que vous parlez, pas après.
Ce ne sont pas des modèles cloud derrière un paywall. Ils fonctionnent entièrement sur le Neural Engine de votre Mac, inclus dans l'achat à $6.99.
Superwhisper ne propose que des variantes de Whisper. Pour les flux de travail axés sur l'anglais ou les langues CJK, l'écart de sélection de modèles est significatif.
La question de l'Input Monitoring
C'est la permission qui fait réfléchir les utilisateurs soucieux de leur vie privée.
Superwhisper demande l'accès Input Monitoring sur macOS. Cette permission permet à une application de recevoir tous les événements clavier et souris à l'échelle du système—quelle que soit l'application au premier plan.
C'est la même catégorie de permission utilisée par les outils d'accessibilité, les logiciels d'automatisation et, oui, les keyloggers.
Pourquoi Superwhisper en a-t-il besoin ?Pour être « intelligent ». Ses fonctionnalités de Contexte IA lisent le contenu de votre écran, comprennent quelle application vous utilisez et adaptent leur comportement en conséquence. Pour observer votre environnement, ils ont besoin de permissions d'observation.
Le compromis architectural :Vous obtenez une transcription contextuelle. Ils obtiennent la capacité technique de voir tout ce que vous tapez, y compris les mots de passe, les messages privés et les documents confidentiels.
Nous ne suggérons pas d'intention malveillante—mais la permission elle-même est architecturalement capable de surveillance.
Architecture des permissions
Input Monitoring (Superwhisper) :
Peut recevoir tous les événements clavier de toutes les applications. Requis pour la « conscience du contexte ».
Accessibilité (Whisper Notes) :
Peut insérer du texte à la position du curseur. Ne peut pas lire vos frappes ni observer d'autres apps. Sortie uniquement.
Whisper Notes utilise exclusivement la permission Accessibilité. Nous pouvons insérer du texte là où se trouve votre curseur—c'est de la sortie. Nous ne pouvons pas lire ce que vous tapez ni ce qui est sur votre écran.
Notre position : Nous avons choisi de ne pas être « intelligents » parce qu'être intelligent nécessite d'observer. Un outil de transcription n'a pas besoin de savoir que vos mots de passe existent. Il doit juste taper ce que vous avez dit.Le problème de la location de matériel
C'est la décision tarifaire qui frustre les utilisateurs avancés.
Superwhisper a placé des modèles IA locaux—dont Nvidia Parakeet et des variantes de Whisper—derrière un paywall d'abonnement. Les utilisateurs paient maintenant des frais mensuels pour débloquer un traitement qui s'exécute entièrement sur leurs propres appareils.
Soyons précis sur ce qui se passe :• Votre MacBook M3 ou M4 a un Neural Engine.
• Apple a conçu cette puce spécifiquement pour l'apprentissage automatique sur l'appareil.
• Les poids du modèle Whisper sont open-source, publiés par OpenAI.
• L'électricité vient de votre prise murale.
Que paie exactement l'abonnement ?
| Période | Whisper Notes | Superwhisper (Mensuel) | Superwhisper (À vie) |
|---|---|---|---|
| Année 1 | 6,99 € | 101,88 € | 250 € |
| Année 3 | 6,99 € | 305,64 € | 250 € |
| Année 5 | 6,99 € | 509,40 € | 250 € |
Si les fonctionnalités cloud de Superwhisper—synchronisation, assistants IA, APIs externes—vous apportent de la valeur, la tarification par abonnement est défendable. Vous payez pour leur infrastructure.
Mais mettre des modèles locaux derrière le même paywall ? C'est facturer un loyer pour du calcul qui se fait sur du matériel qui vous appartient déjà.
Les avis utilisateurs reflètent cette frustration : « Vous avez vraiment mis les modèles locaux derrière un paywall ? Ça n'a aucun sens. »
Notre philosophie tarifaire : Whisper Notes coûte 6,99 € une fois parce que nous n'exploitons pas d'infrastructure cloud. Votre Neural Engine fait le travail. Nous fournissons l'interface. C'est une transaction unique, pas une relation continue.
La complexité et ses conséquences
Cette section ne parle pas d'un bug spécifique. Elle parle de compromis architecturaux.
Quand un logiciel essaie de faire beaucoup de choses—synchronisation cloud, conscience du contexte, interprétation agentique, traitement hybride local/cloud—il devient nécessairement complexe.
Les systèmes complexes ont plus de modes de défaillance que les simples. Ce n'est pas une critique ; c'est de la physique.Les utilisateurs de Superwhisper ont signalé un schéma de défaillance :
• Des enregistrements qui ne produisent pas de transcriptions
• De l'audio qui semble disparaître
• Des erreurs « Aucune voix détectée » après de longues sessions
Nous ne pouvons pas diagnostiquer leur base de code, mais nous pouvons observer le schéma : plus une application gère de fonctionnalités, plus elle peut échouer de façons différentes.
Le problème de la machine à états :Les applications contextuelles doivent suivre de nombreuses variables. Qu'y a-t-il à l'écran ? Le réseau est-il assez rapide pour le traitement cloud ? Cet enregistrement doit-il être synchronisé ? Quel modèle IA doit traiter ce contexte ?
Chaque point de décision est un décalage potentiel entre l'état attendu et l'état réel.
Whisper Notes est délibérément simple :Enregistrer l'audio → Écrire sur disque en continu → Traiter avec Whisper → Afficher le texte
Flux de données linéaire. Pas de synchronisation cloud qui peut échouer. Pas de conscience du contexte qui peut mal fonctionner. Pas de décisions de routage hybride.
Nous utilisons la persistance progressive—écrivant l'audio sur disque toutes les quelques secondes pendant l'enregistrement. Si l'application plante ou si votre batterie meurt, vous perdez au plus les dernières secondes. Les 20 minutes précédentes sont déjà en sécurité sur votre disque.
Ce n'est pas une fonctionnalité que nous promouvons ; c'est simplement comment un logiciel d'enregistrement fiable devrait fonctionner.
Le compromis est réel : Nous ne pouvons pas faire ce que fait Superwhisper. Nous ne comprenons pas le contexte de votre écran. Nous ne synchronisons pas entre appareils. Nous n'avons pas de modes IA qui reformatent votre discours.Nous transcrivons simplement. Avec précision, fiabilité, localement. C'est tout le produit.
L'exigence de compte
Superwhisper exige la création d'un compte pour utiliser le logiciel—même pour la transcription locale sur votre propre appareil.
Cela sert leur modèle commercial : la gestion des abonnements, la synchronisation cloud et les analyses d'utilisation nécessitent l'identité de l'utilisateur.
Mais pour ceux qui veulent simplement de la reconnaissance vocale locale, c'est de la friction sans bénéfice.
Whisper Notes n'a pas de système de compte :• Téléchargez l'application
• Accordez la permission Accessibilité
• Commencez à parler
Pas d'email. Pas de mot de passe. Pas de vérification d'identité.
Il ne s'agit pas seulement de commodité. Il s'agit de minimisation des données :
• Chaque compte est un mot de passe de plus à gérer
• Chaque entrée en base de données est une cible de plus pour les violations
• Chaque identité utilisateur est un point de données de plus à protéger
Pour un logiciel qui s'exécute entièrement sur votre appareil, nous ne voyons aucune justification à savoir qui vous êtes. Le modèle Whisper n'a pas besoin de votre email pour convertir la parole en texte.
Quand Superwhisper est le bon choix pour vous
Nous ne prétendons pas que Whisper Notes est universellement meilleur. Superwhisper a fait des choix architecturaux qui servent bien certains cas d'usage.
Choisissez Superwhisper si :• Vous voulez des modes Contexte IA qui comprennent votre écran et adaptent la sortie
• Vous avez besoin de synchronisation cloud entre plusieurs Macs
• Vous valorisez l'expérience « assistant » plutôt que la transcription brute
• L'abonnement ou le prix à vie de 250 € correspond à la valeur de votre workflow
• La permission Input Monitoring ne vous préoccupe pas
• Vous voulez trois modèles vocaux — Whisper, Parakeet V3 (anglais le plus rapide) et Qwen3-ASR (idéal pour chinois/japonais/coréen)
• Vous voulez l'édition IA locale avec Gemma 4 — correction de la ponctuation, suppression des mots de remplissage, génération automatique de titres, tout sur l'appareil
• Vous voulez des permissions système minimales (Accessibilité uniquement)
• Vous voulez payer une fois ($6.99) et posséder le logiciel
• Vous ne voulez pas créer de compte
• Vous utilisez aussi un iPhone (6,99 $ sur l'App Store, achat séparé de la version Mac)
Superwhisper construit vers un futur où l'IA comprend l'intégralité de votre contexte informatique. C'est ambitieux et certains utilisateurs le veulent.
Whisper Notes construit l'opposé : un utilitaire qui fait exactement une chose, ne sait rien de votre ordinateur au-delà de l'entrée microphone, et fonctionne de la même manière à chaque fois.
Un logiciel ennuyeux pour les gens qui valorisent la prévisibilité.

Le plaidoyer pour les logiciels ennuyeux
« Ennuyeux » n'est pas péjoratif en ingénierie logicielle. Ennuyeux signifie prévisible. Ennuyeux signifie moins de surprises.
Les logiciels ennuyeux :
• N'ont pas besoin de compte
• N'ont pas besoin de connexion réseau pour les fonctions principales
• Ne demandent pas de permissions au-delà du strict nécessaire
• N'évoluent pas vers quelque chose que vous n'avez pas demandé
Superwhisper a commencé comme un logiciel ennuyeux. Un utilitaire de transcription local. Simple, rapide, fiable.
Puis il a développé des ambitions. Il voulait être un assistant IA, comprendre le contexte, synchroniser via les clouds, interpréter vos mots.
Certains utilisateurs ont suivi cette évolution avec bonheur. D'autres regrettent ce qu'il était.
Whisper Notes est intentionnellement ennuyeux. Nous faisons une chose : convertir la parole en texte en utilisant le Neural Engine de votre appareil. Nous n'observons pas votre écran. Nous ne synchronisons pas vos données. Nous n'interprétons pas votre intention. Nous transcrivons simplement.
6,99 $ par plateforme. Pas de compte. Pas d'Input Monitoring. Pas d'abonnements. Pas d'ambitions au-delà de la fiabilité.
Pour ceux qui préféraient la vision originale de ce que les outils de transcription locale pouvaient être—Whisper Notes est là.
Questions fréquentes
Pourquoi Superwhisper nécessite-t-il la permission Input Monitoring ?
Superwhisper utilise l'Input Monitoring pour la « conscience du contexte »—comprendre ce qui est sur votre écran pour adapter le comportement de l'IA. Cette permission permet de lire toutes les frappes clavier de toutes les applications. Whisper Notes n'utilise que la permission Accessibilité, qui peut insérer du texte mais ne peut pas observer vos entrées ou d'autres applications.
Pourquoi Superwhisper est-il passé à la tarification par abonnement ?
Superwhisper exploite une infrastructure cloud pour la synchronisation, les comptes et certaines fonctionnalités IA. Les abonnements financent cette infrastructure. Cependant, ils ont aussi placé les modèles locaux (qui tournent sur votre matériel) derrière le même paywall—et c'est la décision tarifaire que les utilisateurs questionnent le plus.
Whisper Notes est-il aussi précis que Superwhisper ?
Whisper Notes propose trois modèles vocaux. Parakeet V3 a un taux d'erreur de mots plus bas (6.32%) que Whisper (7.44%) sur le benchmark FLEURS en anglais, et fonctionne 3× plus vite. Pour le chinois, le japonais et le coréen, Qwen3-ASR est spécialement conçu pour ces langues. Superwhisper ne propose que des variantes de Whisper.
Quels modèles vocaux Whisper Notes prend-il en charge ?
Trois modèles : Whisper Large V3 Turbo (100+ langues, usage général), Parakeet V3 par NVIDIA (anglais le plus rapide, taux d'erreur le plus bas) et Qwen3-ASR par Alibaba (optimisé pour le chinois, japonais, coréen et 27 autres langues avec sortie en streaming). Tous fonctionnent localement sur votre appareil.
Combien coûte Whisper Notes par rapport à Superwhisper ?
Whisper Notes coûte 6,99 $ par plateforme (iOS et Mac vendus séparément). Superwhisper est à $8.49/mois ou $250 à vie, l'app iOS nécessitant un abonnement séparé. Sur 3 ans : Whisper Notes coûte 6,99 $ par plateforme, Superwhisper en mensuel coûte $305.64.
Whisper Notes peut-il synchroniser entre les appareils ?
Non, par conception. Nous n'exploitons pas de serveurs cloud, donc il n'y a rien à synchroniser. Vos enregistrements restent sur l'appareil où vous les avez créés. Cela élimine les échecs de synchronisation et garantit que vos données vocales ne quittent jamais votre matériel. Utilisez AirDrop ou l'export manuel si nécessaire.
Pourquoi Whisper Notes ne nécessite-t-il pas de compte ?
La transcription locale n'a aucune raison technique de nécessiter une vérification d'identité. Nous croyons en la minimisation des données—si nous n'avons pas besoin de votre email pour faire fonctionner le logiciel, nous ne devrions pas le demander. Pas de compte signifie pas de mot de passe à gérer, pas d'entrée en base de données à violer.
Quelle est la différence entre les permissions Input Monitoring et Accessibilité ?
L'Input Monitoring peut recevoir tous les événements clavier/souris à l'échelle du système (observation). L'Accessibilité peut insérer du texte et effectuer de l'automatisation UI (action). Whisper Notes utilise l'Accessibilité pour taper le texte transcrit à la position de votre curseur—sortie uniquement, pas d'observation de ce que vous tapez.
Trois modèles vocaux. $6.99 une fois.
Whisper + Parakeet V3 + Qwen3-ASR. Édition IA locale. Pas d'Input Monitoring. Pas d'abonnements. Pas de comptes.