La transcription cloud est morte. Elle ne le sait juste pas encore.
Au cours de l'année écoulée, nous avons observé un changement structurel dans les outils de transcription vocale. Autrefois, les solutions cloud dominaient le marché parce qu'elles pouvaient exécuter des modèles plus grands. Cet avantage a disparu. Désormais, votre MacBook peut exécuter Whisper Large-v3 Turbo avec 800 millions de paramètres, traitant 10 minutes d'audio en 63 secondes. L'iPhone peut exécuter des variantes optimisées pour les SoC mobiles, entièrement hors ligne.
Dans cet article, nous expliquons pourquoi la transcription vocale Whisper hors ligne est devenue le meilleur choix — basé sur l'ingénierie, pas sur des convictions.
Whisper Notes : transcription hors ligne de qualité professionnelle
L'équation de la latence a changé
La transcription cloud a un plancher de latence fixe : téléchargement audio + file d'attente serveur + inférence du modèle + téléchargement des résultats. Même dans des conditions réseau idéales, cela signifie plusieurs secondes d'aller-retour. Avec un réseau instable, cela peut atteindre des dizaines de secondes.
L'inférence locale élimine ces variables. Whisper Large-v3 Turbo sur Apple Silicon peut réaliser une transcription en streaming quasi temps réel pendant que vous parlez. Pas d'attente de téléchargement, pas de gigue réseau, pas de file d'attente serveur.
Nos mesures : Sur un MacBook Air M1, Large-v3 Turbo traite l'audio à 9-10 fois la vitesse de lecture. Un enregistrement de 10 minutes est transcrit en environ 63 secondes. Ce n'est pas une performance de pointe, c'est un débit soutenu et reproductible.
Architecture adaptative au matériel
Tous les appareils ne peuvent pas exécuter le même modèle. Ce n'est pas une limitation, c'est une conception d'ingénierie intentionnelle.
Mac (Large-v3 Turbo, 809 millions de paramètres) : Les MacBook et Mac disposent d'une alimentation continue, d'un refroidissement actif et d'une mémoire suffisante. Cela permet d'exécuter le Large-v3 Turbo complet — ce modèle maintient la précision du Large-v3 tout en améliorant la vitesse d'inférence de 4 à 5 fois. Vous obtenez une précision niveau cloud avec une vitesse locale.
iPhone (variantes Whisper optimisées) : Les puces mobiles fonctionnent sous des contraintes de puissance et thermiques. Nous déployons des variantes Whisper optimisées pour le Neural Engine, maintenant une excellente précision dans le budget énergétique. Le compromis est clair : taille de modèle plus petite par rapport au Large-v3 Turbo, mais sans latence réseau et fonctionnant de manière cohérente et précise sur votre téléphone.
Entièrement hors ligne : importez l'audio et transcrivez directement
La confidentialité est une architecture, pas une fonctionnalité
La plupart des services de transcription cloud ont des politiques de confidentialité promettant de protéger vos données. Mais l'architecture rend les politiques de confidentialité non pertinentes.
Dès que l'audio traverse le réseau, vous en perdez le contrôle. Il peut être journalisé, mis en cache, utilisé pour l'entraînement, faire l'objet d'une assignation. Même avec les meilleures intentions politiques, l'existence de données sur un serveur est une surface d'attaque.
Le traitement local élimine cette surface d'attaque. Les enregistrements ne quittent jamais votre appareil. Pas de journaux de transfert, pas de stockage côté serveur, pas de possibilité d'accès tiers. Il ne s'agit pas de nous faire confiance, mais d'éliminer le besoin de confiance.
Quand le cloud a encore du sens
Notre position en faveur du local-first est basée sur l'ingénierie, pas sur le dogme. Il existe des scénarios où les solutions cloud ont encore du sens :
- Collaboration temps réel multi-personnes : Si 10 personnes doivent voir la transcription en temps réel simultanément, un serveur partagé est un choix d'architecture raisonnable.
- Anciens appareils avec stockage limité : Si votre appareil ne peut pas héberger les fichiers de modèle, le cloud est une alternative viable.
- Modèles de langues spécialisées : Des langues ou dialectes extrêmement niches peuvent avoir des modèles cloud uniquement.
La vérité sur la précision
Idée reçue courante : des modèles cloud plus grands signifient une meilleure précision. C'était vrai en 2022. Plus maintenant.
Whisper Large-v3 Turbo est un modèle distillé — il a appris du Large-v3 complet, maintenant la précision tout en réduisant les exigences de calcul. Sur les benchmarks standards, il atteint des taux d'erreur de mots équivalents au modèle complet tout en étant 4-5 fois plus rapide en inférence.
Considérations sur le modèle économique
La transcription cloud par abonnement a des coûts continus — facturation à la minute ou frais mensuels. Cela semble bon marché pour les utilisateurs occasionnels mais s'accumule rapidement pour les utilisateurs intensifs.
L'économie du traitement local est différente : achat unique, puis coût marginal quasi nul. Le coût supplémentaire d'un enregistrement de 10 minutes par rapport à un de 10 heures est le même : zéro.
Comparaison des Coûts
| Service | Modèle tarifaire | Coût 1 an (1h/semaine) |
|---|---|---|
| Otter.ai | 16,99 €/mois | 203,88 € |
| Rev.com | 0,25 €/minute | 780 € |
| Whisper Notes | 4,99 € une fois | 4,99 € |
Fonctionnalités pratiques : Pourquoi elles existent
Chaque fonctionnalité que nous construisons est une réponse à un problème observé :
Widget d'écran de verrouillage
Nous avons observé que les enregistrements les plus précieux sont souvent nécessaires soudainement — une idée, une conversation spontanée, un appel important inattendu. Déverrouiller le téléphone, trouver l'application, appuyer sur enregistrer — chaque étape est une occasion de perdre ce moment. L'enregistrement en un toucher depuis l'écran de verrouillage élimine cette barrière.
Enregistrez directement depuis l'écran de verrouillage, ne manquez jamais l'inspiration
Prompts initiaux (vocabulaire personnalisé)
Whisper excelle sur le contenu général, mais chaque domaine a des termes qu'il ne reconnaît pas. Terminologie médicale, jargon juridique, noms internes, abréviations techniques. Les prompts initiaux vous permettent de dire au modèle à l'avance « ces mots vont apparaître, reconnaissez-les correctement ».
Configurez la terminologie spécialisée pour améliorer la précision de reconnaissance
Paragraphes horodatés
La valeur des longs enregistrements réside souvent dans des segments spécifiques. Sans horodatages, vous devez écouter l'enregistrement entier pour trouver cette phrase. Avec des horodatages cliquables, vous pouvez sauter directement à la partie pertinente.
Localisez précisément avec les horodatages, sautez rapidement
Export en masse
Les chercheurs, journalistes et avocats traitent souvent des dizaines d'enregistrements à la fois. Exporter un par un est un flux de travail inacceptable. Les opérations en masse rendent cela pratique.
Sélection en masse, export en une fois
Multilingue : Performance réelle pour plus de 80 langues
Les données d'entraînement de Whisper couvrent 99 langues, mais la profondeur de couverture varie. Les langues majeures comme l'anglais, le chinois, l'espagnol, l'allemand et le japonais ont d'énormes quantités de données d'entraînement, et la précision est très élevée. Les langues mineures peuvent avoir des performances légèrement inférieures, mais restent généralement utilisables.
Limitation honnête : L'alternance de codes (mélanger plusieurs langues dans un enregistrement) reste un défi. Si vous passez de l'anglais au français dans une même phrase, le modèle peut faire des erreurs aux points de transition. C'est une limitation générale de la technologie de reconnaissance vocale actuelle, pas seulement la nôtre.
Conclusion : Un choix d'ingénierie, pas une déclaration de foi
Nous avons construit Whisper Notes parce que l'inférence IA locale est supérieure pour la transcription vocale — en latence, confidentialité, fiabilité et coût. Il ne s'agit pas d'être « contre le cloud » ou de « croire au local-first ». C'est reconnaître que les conditions technologiques ont changé et construire des outils en conséquence.
Si cette approche architecturale correspond à vos besoins, vous pouvez l'essayer ci-dessous.