Parakeet V3 est maintenant le moteur par défaut sur Mac — 10x plus rapide que Whisper

7 mars 2026
·
6 min read
·Whisper Notes Team

Depuis la version 1.3.2, Whisper Notes pour Mac est livré avec NVIDIA Parakeet TDT 0.6B comme moteur de reconnaissance vocale par défaut. Il est 10 fois plus rapide que Whisper Large V3 Turbo pour l'anglais, et plus précis. Les modèles Whisper restent disponibles si vous avez besoin d'autres langues.

Pourquoi on a changé le modèle par défaut

Whisper est super, mais c'est un modèle généraliste. Il gère plus de 100 langues, traduit, génère des horodatages — un vrai couteau suisse. Le revers de la médaille, c'est la vitesse. Pour la dictée en anglais, quand on veut juste voir les mots s'afficher rapidement, c'est trop lourd.

Un truc me gênait vraiment : en utilisant la dictée système avec la touche Fn avec Whisper, terminer une phrase d'environ 1 minute voulait dire attendre 3 à 5 secondes avant que la transcription n'apparaisse. Cette pause casse le rythme. On arrête de parler, on attend, on fixe le curseur — ça tue la magie de l'écriture vocale.

Parakeet a tout changé. La vitesse est telle que la transcription apparaît à l'instant même où vous arrêtez de parler. Vous parlez, et les mots sont tout simplement . Une fois qu'on a goûté à cette fluidité — ce flux continu, sans aucune attente — c'est vraiment difficile de revenir à Whisper.

Parakeet V3, à quelle vitesse exactement ?

Les chiffres parlent d'eux-mêmes. Voici une comparaison concrète avec un fichier audio de 35 minutes sur le même Mac :

Modèle Audio de 35 min
Whisper Large V3 Turbo 3 minutes
Parakeet TDT 0.6B v3 18 secondes

10 fois plus rapide. Et comme le modèle est plus petit (600M contre 800M de paramètres), il consomme moins de mémoire et moins de batterie.

Ce qui rend Parakeet v3 si rapide

Whisper écoute l'audio comme on lirait un livre à voix haute — mot par mot, image par image, sans jamais sauter de passage. Même pendant les silences, il continue de traiter, de deviner ce qui vient après. C'est minutieux, mais lent.

Parakeet adopte une approche fondamentalement différente. Il compresse le signal audio 8 fois avant de le traiter, de sorte que le modèle ne voit que l'essentiel. Ensuite, au lieu de passer en revue chaque image une par une, il prédit non seulement quel mot vous avez dit, mais aussi combien de temps ce mot dure — et saute en avant. Du silence ? Ignoré. Une voyelle longue ? Une seule prédiction au lieu de dizaines.

Le résultat est un modèle qui traite la parole comme votre cerveau — en se concentrant sur les mots et en ignorant les blancs. C'est pour ça qu'il est 10 fois plus rapide avec moins de paramètres et une meilleure précision.

Benchmarks : Parakeet v3 vs Whisper

Comparaison du taux d'erreur par mot : Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T sur plusieurs jeux de données de référence

Parakeet v3 égale ou dépasse des modèles 2 à 4 fois plus gros sur les benchmarks FLEURS, CoVoST et MLS

Sur le classement Open ASR de Hugging Face, Parakeet v3 arrive en tête avec seulement 600M de paramètres — moins de la moitié des 1,55 milliard de Whisper Large V3 :

Modèle Paramètres WER moyen Vitesse (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER plus bas = moins d'erreurs. RTFx plus élevé = plus rapide. Parakeet gagne sur les deux tableaux. Avec 600M de paramètres, c'est aussi le modèle le plus petit de la liste — ce qui veut dire qu'il tourne parfaitement sur Apple Silicon avec une consommation minimale de mémoire et de batterie.

Fini les hallucinations

Si vous avez déjà utilisé Whisper pour la dictée, vous l'avez sûrement vu halluciner pendant les silences — répéter des phrases, inventer des mots ou sortir un "Subtitles by Amara.org" de nulle part. Ça arrive parce que le décodeur autorégressif de Whisper s'attend toujours à produire du texte, même quand il n'y a rien à transcrire.

NVIDIA a entraîné Parakeet sur 36 000 heures d'audio purement non verbal (bruit de fond, toux, silence) associé à des chaînes vides. Le modèle a appris à quoi ressemble le silence et il se tait. Pour la dictée système en mode permanent, c'est une avancée majeure — plus de texte parasite quand vous faites une pause pour réfléchir.

Langues prises en charge par Parakeet

Parakeet v3 prend en charge 25 langues : bulgare, croate, tchèque, danois, néerlandais, anglais, estonien, finnois, français, allemand, grec, hongrois, italien, letton, lituanien, maltais, polonais, portugais, roumain, russe, slovaque, slovène, espagnol, suédois et ukrainien.

Ça couvre la majeure partie de l'Europe, mais le chinois, le japonais, le coréen, l'arabe et l'hindi ne sont pas pris en charge. C'est pour ça qu'on a gardé les modèles Whisper en téléchargement. Si vous dictez en japonais ou en mandarin, choisissez Whisper Large V3 Turbo dans le sélecteur de modèles. Pour l'anglais et les langues européennes, Parakeet v3 est tout simplement le meilleur moteur.

Sélecteur de modèles de Whisper Notes pour Mac montrant Parakeet V3 par défaut, avec Whisper Small et Whisper Large V3 Turbo en options téléchargeables

Sélecteur de modèles : Parakeet V3 (par défaut), Whisper Small et Whisper Large V3 Turbo — tous en local

Sélecteur de modèles dans Whisper Notes

Ouvrez les Réglages pour changer de modèle :

  • Parakeet V3 (par défaut) — Le plus rapide, idéal pour l'anglais et les langues européennes
  • Whisper Small — Léger, plus de 100 langues
  • Whisper Large V3 Turbo — Le modèle multilingue le plus précis

Tous les modèles tournent à 100% en local sur votre Mac. Pas d'internet, pas de cloud, aucune donnée ne quitte votre appareil.

Essayez-le

Parakeet v3 est disponible dès maintenant dans la version Mac — il suffit de télécharger le dernier DMG. Si les retours sont positifs, on intégrera Parakeet à la version iOS dans une prochaine mise à jour.

Des questions ou des suggestions ? Écrivez-nous à support@whispernotes.app.