La confidentialité de la voix : pourquoi nous avons choisi une architecture locale
Pas besoin de choisir entre commodité et contrôle.
Les mémos vocaux sont différents
Les mémos vocaux sont souvent désordonnés, non filtrés et personnels. Ils capturent des pensées en formation – des idées avant d'être polies, des frustrations avant d'être digérées, des observations avant d'être structurées. Cette authenticité brute est précisément ce qui les rend précieux.
Ils ont une sensation différente d'un document soigné. Cette sensation compte.
Quand vous enregistrez un mémo vocal, vous vous parlez souvent à vous-même. L'intimité de ce moment – les phrases inachevées, les digressions, l'honnêteté sans filtre – mérite un certain respect dans la façon dont c'est traité techniquement.
Une question d'hygiène numérique
Votre voix est un identifiant biométrique unique. Contrairement à un mot de passe, vous ne pouvez pas la réinitialiser. Contrairement à un numéro de carte bancaire, vous ne pouvez pas en demander une nouvelle. Ce n'est pas pour alarmer – c'est simplement une caractéristique des données vocales qu'il vaut la peine de reconnaître.
Pour la plupart des enregistrements du quotidien, le traitement cloud est parfaitement acceptable. Mais pour les contenus sensibles – réflexions personnelles, notes professionnelles, conversations avec des clients – garder les fichiers audio bruts hors du cloud est simplement une bonne hygiène numérique. C'est le même principe que de ne pas stocker les mots de passe en clair : pas parce qu'une catastrophe est imminente, mais parce qu'une architecture réfléchie prévient les problèmes avant qu'ils n'apparaissent.
Nous avons construit Whisper Notes autour de ce principe. Votre audio reste sur votre appareil – pas parce que nous pensons que les services cloud sont dangereux, mais parce que vous devriez avoir le choix.
L'architecture
Whisper Notes exécute le modèle de reconnaissance vocale Whisper d'OpenAI directement sur votre matériel. Il n'y a pas de composant serveur. Vos enregistrements sont traités localement et ne sont jamais transmis nulle part.
L'implémentation diffère entre les plateformes pour optimiser les capacités de chaque appareil :
Mac : Whisper Large-v3 Turbo
Sur Mac, nous exécutons Whisper Large-v3 Turbo – un modèle de 1,5 milliard de paramètres optimisé pour Apple Silicon. Cela offre une précision comparable aux services de transcription cloud, avec une ponctuation correcte et un formatage intelligent des paragraphes.
La vitesse de traitement varie selon votre puce : les machines M4 atteignent environ 12x le temps réel, tandis que les puces M1 tournent à environ 8x le temps réel.
iPhone : modèle Whisper optimisé mobile
Les appareils mobiles ont des contraintes différentes – limites thermiques, autonomie, bande passante mémoire. Nous déployons un modèle Whisper optimisé pour le Neural Engine des puces A et M.
Bien que plus petit que le modèle Mac, il produit du texte structuré et ponctué qui surpasse systématiquement la dictée standard. Le compromis est honnête : pour une précision maximale sur les longs enregistrements, traitez-les sur Mac. Pour les captures rapides, le modèle mobile fonctionne bien.
Conçu pour la rapidité
Les bonnes idées n'attendent pas. Elles arrivent en conduisant, en marchant ou juste avant de s'endormir. Le widget d'écran verrouillé est conçu pour minimiser la friction entre la pensée et l'enregistrement.
Widget d'écran verrouillé avec Live Activity
- • Activation en un tap : Commencez à enregistrer directement depuis l'écran verrouillé
- • Live Activity : Confirmation visuelle de la durée d'enregistrement sur la Dynamic Island
- • Face ID fluide : Le widget fonctionne parfaitement avec l'authentification Face ID
- • Compatible mains libres : Fonctionne avec des gants, des mains mouillées ou les gestes de tap AirPods
Le flux de travail capture-révision
Le flux de travail le plus efficace pour les mémos vocaux sépare la capture de la révision. Les appareils mobiles excellent pour l'enregistrement rapide ; les environnements desktop pour l'édition approfondie.
iPhone : Capture
Utilisez l'iPhone pour capturer les pensées quand elles surviennent. Le widget d'écran verrouillé réduit la friction à un seul tap. Le modèle mobile transcrit immédiatement, vous donnant du texte utilisable sur-le-champ.
Mac : Révision
Sur Mac, Whisper Notes offre des outils pour le travail en profondeur :
- • Traitement Large-v3 Turbo : Re-transcrire les enregistrements avec une précision maximale
- • Paragraphes horodatés : Cliquez sur n'importe quel paragraphe pour sauter à ce moment dans l'audio
- • Lecture synchronisée : Le texte se surligne pendant la lecture audio
- • Export flexible : Texte brut, format horodaté ou sous-titres SRT
- • Dictée système : Maintenez Fn pour dicter directement dans n'importe quelle app
Transcription horodatée avec lecture audio synchronisée
La tranquillité d'esprit
Le vrai bénéfice n'est pas seulement la sécurité technique – il est psychologique.
Savoir que votre audio ne quitte jamais votre appareil vous donne la liberté de parler complètement librement, sans auto-censure. Vous pouvez enregistrer des pensées à moitié formées, évacuer des frustrations, brainstormer des idées folles ou documenter des sujets professionnels sensibles – le tout sans vous demander qui pourrait avoir accès à cet audio.
C'est la même raison pour laquelle certaines personnes préfèrent écrire dans un carnet papier : pas parce que les notes numériques sont dangereuses, mais parce que le sentiment de confidentialité change la liberté avec laquelle on pense.
Le modèle économique
Puisque tout le traitement se fait sur votre appareil, il n'y a pas de coûts serveur qui augmentent avec l'usage. Cela permet un modèle d'achat unique : 4,99 € pour iPhone et Mac, définitivement.
Pas d'abonnement. Pas de facturation à la minute. Pas de limites d'utilisation.
Les compromis honnêtes
Le traitement local implique de vrais compromis qu'il vaut la peine de comprendre :
Considérations
- • Vitesse de traitement : L'inférence sur appareil est plus lente que les API cloud. Un enregistrement de 10 minutes prend 1-2 minutes sur iPhone 15. Les services cloud répondent en secondes.
- • Plafond de précision : Whisper atteint 95%+ de précision sur une voix claire. Les accents forts ou les bruits de fond importants peuvent nécessiter quelques corrections.
- • Plateforme : Apple Silicon uniquement – Mac M1 ou plus récent, iPhone iOS 18+. Pas d'Android ni Windows.
- • Transcription post-enregistrement : Whisper Notes transcrit après l'enregistrement, pas pendant. Cela produit des résultats plus précis.
Quand cette approche convient
Whisper Notes fonctionne bien pour :
- • Professionnels soucieux de la vie privée : Juridique, médical, journalisme, thérapie
- • Réflexion personnelle : Journal, capture d'idées, traitement des pensées
- • Environnements hors ligne : Avions, installations sécurisées, connexion peu fiable
- • Utilisateurs fatigués des abonnements : Un paiement, accès permanent
Quand envisager des alternatives
Les services cloud peuvent être mieux adaptés si vous avez besoin de :
- • Transcription en temps réel partagée avec une équipe
- • Traitement instantané pour de très longs enregistrements
- • Support Android ou Windows
Résumé
Whisper Notes repose sur une prémisse simple : les mémos vocaux sont personnels, et vous devriez contrôler où cet audio réside. Nous avons choisi une architecture local-first non pas parce que les services cloud sont mauvais, mais parce que certains contenus méritent de rester sur votre appareil.
Whisper Large-v3 Turbo sur Mac pour la précision. Un modèle optimisé mobile sur iPhone pour la capture rapide. Les deux plateformes traitent entièrement hors ligne.
4,99 € une fois. iPhone et Mac. Votre audio vous appartient.