Transcription Whisper : guide complet — API, apps & hors ligne (2026)

2 juillet 2026
·
9 min read
·Whisper Notes Team

La transcription Whisper, c'est convertir la parole en texte avec Whisper d'OpenAI — un modèle d'IA open source que l'on peut exécuter dans le cloud, sur un serveur, ou entièrement sur son propre appareil. Ce guide explique comment fonctionne Whisper, quelle taille de modèle choisir, quelle est sa précision réelle, et le moyen le plus rapide de l'utiliser hors ligne sur Mac ou iPhone.

Whisper, c'est quoi exactement ?

Whisper est un modèle de reconnaissance vocale automatique (ASR) publié par OpenAI en septembre 2022 sous licence MIT. C'est un transformer encodeur-décodeur entraîné sur plus de 680 000 heures d'audio multilingue, capable de transcrire environ 100 langues et de traduire vers l'anglais.

Ce qui compte pour vous : les poids du modèle sont ouverts. Contrairement aux API vocales de Google ou d'Amazon, Whisper n'a pas besoin de tourner sur le serveur de quelqu'un d'autre. Tout un écosystème existe pour l'exécuter localement — whisper.cpp, faster-whisper, et des applications natives comme Whisper Notes. C'est ce qui rend possible une transcription réellement hors ligne et privée.

Tailles de modèles Whisper : lequel utiliser pour votre transcription

Whisper existe en six tailles principales. Plus grand signifie plus précis, mais plus lent :

Modèle Paramètres Vitesse Idéal pour
tiny 39M Le plus rapide Brouillons rapides, matériel modeste
base 74M Très rapide Audio simple et propre
small 244M Rapide Bon équilibre vitesse/précision sur mobile
medium 769M Modérée Rarement le bon choix aujourd'hui
large-v3 1,55B Le plus lent Précision maximale, audio difficile
large-v3-turbo 809M ~5x plus rapide que large-v3 Le choix par défaut en 2026

Pour presque tout le monde, large-v3-turbo est la réponse : il conserve l'encodeur de large-v3 mais réduit les couches du décodeur de 32 à 4, offrant une précision quasi identique pour une fraction du calcul. Nous l'avons benchmarké en détail dans Whisper Large V3 Turbo vs V3.

Quelle est la précision de la transcription Whisper ?

Sur de l'audio anglais propre, les grands modèles atteignent un taux d'erreur de mots (WER) d'environ 5 à 8 % — comparable à une transcription humaine professionnelle pour la plupart des usages. La précision baisse avec le bruit de fond, les accents marqués, les voix qui se chevauchent et les langues peu dotées.

Le défaut le plus connu de Whisper : les hallucinations pendant les silences. Son décodeur autorégressif invente parfois des phrases répétées ou des crédits de sous-titres quand personne ne parle. Les modèles plus récents corrigent ce problème — Parakeet V3 de NVIDIA a été explicitement entraîné sur de l'audio sans parole et ne produit aucune hallucination dans nos tests (benchmark complet Parakeet V3 vs Whisper).

Pour le chinois, le japonais, le coréen et le cantonais, un modèle spécialisé surpasse Whisper en vitesse comme en ponctuation : voir SenseVoice vs Whisper pour les langues CJK.

5 façons de faire de la transcription Whisper

Méthode Coût Confidentialité Installation
API OpenAI Facturation à la minute d'audio Audio envoyé sur serveur Clé API + code
openai-whisper (Python de référence) Gratuit 100 % local Environnement Python, GPU recommandé
whisper.cpp / faster-whisper Gratuit 100 % local Ligne de commande
App native (Whisper Notes) $6.99 une fois, essai gratuit sur Mac 100 % sur l'appareil Aucune
Outils de démo en ligne Offres gratuites limitées Audio envoyé sur serveur Aucune

La règle de base : si vous vivez dans un terminal, faster-whisper est excellent. Si vous construisez un produit, l'API est logique. Si vous voulez simplement transcrire vos enregistrements en toute confidentialité sans toucher à Python, utilisez une app native — c'est toute la raison d'être des apps Whisper pour Mac.

Vous comparez plus largement les outils hors ligne — y compris pour Windows et Android ? Consultez notre guide complet de la reconnaissance vocale hors ligne.

Whisper face aux nouveaux modèles locaux (2026)

Whisper a lancé l'ère de la transcription locale, mais il n'est plus seul. Vitesses mesurées ci-dessous sur un Mac M4 Pro :

Modèle Langues Vitesse Point fort
Whisper Large V3 Turbo 100+ ~12x temps réel Couverture linguistique la plus large
Parakeet V3 25 (européennes) ~100x temps réel 6,32 % de WER, aucune hallucination sur les silences
SenseVoice Small zh, ja, ko, yue, en ~52x temps réel Le meilleur pour le chinois, le japonais, le coréen

Les trois tournent en local dans Whisper Notes, et vous pouvez changer de modèle à chaque enregistrement. Les benchmarks côte à côte sont sur notre page de comparaison des modèles Whisper.

Comment faire de la transcription Whisper hors ligne sur Mac et iPhone

Pas de ligne de commande, pas de Python, pas de cloud :

  1. Téléchargez Whisper Notes pour Mac (essai gratuit) ou pour iPhone ($6.99 une seule fois).
  2. Choisissez un modèle : Whisper Large V3 Turbo pour la couverture linguistique la plus large, Parakeet V3 pour la vitesse en français et dans les langues européennes, SenseVoice pour les langues CJK. Le modèle se télécharge une fois, puis fonctionne pour toujours hors ligne.
  3. Enregistrez directement, dictez dans n'importe quelle app en maintenant Fn, ou glissez des fichiers audio et vidéo (MP3, WAV, M4A, MP4).
  4. Le texte apparaît au fil du traitement. Exportez en TXT ou SRT.

Sceptique sur le « hors ligne » ? Activez d'abord le mode avion. La transcription tourne à pleine vitesse — rien n'est envoyé, jamais.

Quelle précision pour la transcription Whisper en français ? Quel modèle choisir ?

Bonne nouvelle pour les francophones : le français est l'une des langues les mieux dotées de Whisper, et vous avez même mieux que Whisper aujourd'hui. Parakeet V3, le modèle par défaut de Whisper Notes, couvre 25 langues européennes — dont le français — avec un WER de 6,32 % et une vitesse environ 10x supérieure à celle de Whisper. Concrètement : une réunion d'une heure en français est transcrite en quelques dizaines de secondes sur un Mac Apple Silicon, sans hallucinations pendant les silences.

Gardez Whisper Large V3 Turbo (~1,5 Go) si vous alternez avec des langues hors d'Europe parmi ses 100+ langues. Les développeurs qui préfèrent le cloud peuvent utiliser l'API Whisper d'OpenAI à $0.006 la minute. Les deux modèles locaux sont inclus dans Whisper Notes : $6.99 en achat unique sur iPhone, et sur Mac un essai gratuit de 10 000 mots puis $6.99 une seule fois (achats séparés).

Votre cas Modèle recommandé Pourquoi
Français au quotidien Parakeet V3 6,32 % de WER, ~10x plus rapide que Whisper
Langues hors d'Europe Whisper Large V3 Turbo 100+ langues, ~1,5 Go

Questions fréquentes

La transcription Whisper est-elle gratuite ?

Le modèle lui-même est gratuit et open source (licence MIT). L'exécuter via des outils en ligne de commande comme whisper.cpp ne coûte rien mais demande une installation. L'API d'OpenAI facture à la minute d'audio. Les apps natives packagent les modèles pour un petit prix — Whisper Notes coûte $6.99 une seule fois, avec un essai gratuit sur Mac.

La transcription Whisper fonctionne-t-elle hors ligne, sans internet ?

Oui — c'est tout l'intérêt des poids ouverts. Une fois le fichier du modèle sur votre appareil, aucune connexion n'est nécessaire. Whisper Notes exécute Whisper Large V3 Turbo sur Apple Silicon via CoreML/Metal, entièrement hors ligne. Vous pouvez le vérifier avec le mode avion.

Quel modèle Whisper est le plus précis ?

large-v3 a la meilleure précision brute. large-v3-turbo l'égale à une fraction de pour cent de WER près, tout en étant environ 5x plus rapide — c'est pourquoi il est le choix par défaut de la plupart des outils aujourd'hui.

Whisper prend-il en charge le français et les autres langues ?

Whisper couvre environ 100 langues, avec les meilleurs résultats sur les langues bien dotées (anglais, espagnol, allemand, français, etc.). Pour le français, Parakeet V3 est encore plus rapide et précis. Pour le chinois, le japonais, le coréen et le cantonais, SenseVoice offre une meilleure ponctuation et une vitesse bien supérieure sur Apple Silicon.

Existe-t-il une application de transcription Whisper pour iPhone ?

Oui. Whisper Notes exécute des modèles Whisper optimisés pour le Neural Engine de l'iPhone (iPhone 12 et plus récents) — enregistrez, importez depuis Dictaphone ou Fichiers, et transcrivez entièrement sur l'appareil pour $6.99, sans abonnement.