Depuis la version 1.3.2, Whisper Notes pour Mac est livré avec NVIDIA Parakeet TDT 0.6B comme moteur de reconnaissance vocale par défaut. Il est 10 fois plus rapide que Whisper Large V3 Turbo pour l'anglais, et plus précis. Les modèles Whisper restent disponibles si vous avez besoin d'autres langues.
Pourquoi on a changé le modèle par défaut
Whisper est super, mais c'est un modèle généraliste. Il gère plus de 100 langues, traduit, génère des horodatages — un vrai couteau suisse. Le revers de la médaille, c'est la vitesse. Pour la dictée en anglais, quand on veut juste voir les mots s'afficher rapidement, c'est trop lourd.
Un truc me gênait vraiment : en utilisant la dictée système avec la touche Fn avec Whisper, terminer une phrase d'environ 1 minute voulait dire attendre 3 à 5 secondes avant que la transcription n'apparaisse. Cette pause casse le rythme. On arrête de parler, on attend, on fixe le curseur — ça tue la magie de l'écriture vocale.
Parakeet a tout changé. La vitesse est telle que la transcription apparaît à l'instant même où vous arrêtez de parler. Vous parlez, et les mots sont tout simplement là. Une fois qu'on a goûté à cette fluidité — ce flux continu, sans aucune attente — c'est vraiment difficile de revenir à Whisper.
Parakeet V3, à quelle vitesse exactement ?
Les chiffres parlent d'eux-mêmes. Voici une comparaison concrète avec un fichier audio de 35 minutes sur le même Mac :
| Modèle | Audio de 35 min |
|---|---|
| Whisper Large V3 Turbo | 3 minutes |
| Parakeet TDT 0.6B v3 | 18 secondes |
10 fois plus rapide. Et comme le modèle est plus petit (600M contre 800M de paramètres), il consomme moins de mémoire et moins de batterie.
Ce qui rend Parakeet v3 si rapide
Whisper écoute l'audio comme on lirait un livre à voix haute — mot par mot, image par image, sans jamais sauter de passage. Même pendant les silences, il continue de traiter, de deviner ce qui vient après. C'est minutieux, mais lent.
Parakeet adopte une approche fondamentalement différente. Il compresse le signal audio 8 fois avant de le traiter, de sorte que le modèle ne voit que l'essentiel. Ensuite, au lieu de passer en revue chaque image une par une, il prédit non seulement quel mot vous avez dit, mais aussi combien de temps ce mot dure — et saute en avant. Du silence ? Ignoré. Une voyelle longue ? Une seule prédiction au lieu de dizaines.
Le résultat est un modèle qui traite la parole comme votre cerveau — en se concentrant sur les mots et en ignorant les blancs. C'est pour ça qu'il est 10 fois plus rapide avec moins de paramètres et une meilleure précision.
Benchmarks : Parakeet v3 vs Whisper
Parakeet v3 égale ou dépasse des modèles 2 à 4 fois plus gros sur les benchmarks FLEURS, CoVoST et MLS
Sur le classement Open ASR de Hugging Face, Parakeet v3 arrive en tête avec seulement 600M de paramètres — moins de la moitié des 1,55 milliard de Whisper Large V3 :
| Modèle | Paramètres | WER moyen | Vitesse (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
WER plus bas = moins d'erreurs. RTFx plus élevé = plus rapide. Parakeet gagne sur les deux tableaux. Avec 600M de paramètres, c'est aussi le modèle le plus petit de la liste — ce qui veut dire qu'il tourne parfaitement sur Apple Silicon avec une consommation minimale de mémoire et de batterie.
Fini les hallucinations
Si vous avez déjà utilisé Whisper pour la dictée, vous l'avez sûrement vu halluciner pendant les silences — répéter des phrases, inventer des mots ou sortir un "Subtitles by Amara.org" de nulle part. Ça arrive parce que le décodeur autorégressif de Whisper s'attend toujours à produire du texte, même quand il n'y a rien à transcrire.
NVIDIA a entraîné Parakeet sur 36 000 heures d'audio purement non verbal (bruit de fond, toux, silence) associé à des chaînes vides. Le modèle a appris à quoi ressemble le silence et il se tait. Pour la dictée système en mode permanent, c'est une avancée majeure — plus de texte parasite quand vous faites une pause pour réfléchir.
Langues prises en charge par Parakeet
Parakeet v3 prend en charge 25 langues : bulgare, croate, tchèque, danois, néerlandais, anglais, estonien, finnois, français, allemand, grec, hongrois, italien, letton, lituanien, maltais, polonais, portugais, roumain, russe, slovaque, slovène, espagnol, suédois et ukrainien.
Ça couvre la majeure partie de l'Europe, mais le chinois, le japonais, le coréen, l'arabe et l'hindi ne sont pas pris en charge. C'est pour ça qu'on a gardé les modèles Whisper en téléchargement. Si vous dictez en japonais ou en mandarin, choisissez Whisper Large V3 Turbo dans le sélecteur de modèles. Pour l'anglais et les langues européennes, Parakeet v3 est tout simplement le meilleur moteur.
Sélecteur de modèles : Parakeet V3 (par défaut), Whisper Small et Whisper Large V3 Turbo — tous en local
Sélecteur de modèles dans Whisper Notes
Ouvrez les Réglages pour changer de modèle :
- Parakeet V3 (par défaut) — Le plus rapide, idéal pour l'anglais et les langues européennes
- Whisper Small — Léger, plus de 100 langues
- Whisper Large V3 Turbo — Le modèle multilingue le plus précis
Tous les modèles tournent à 100% en local sur votre Mac. Pas d'internet, pas de cloud, aucune donnée ne quitte votre appareil.
Essayez-le
Parakeet v3 est disponible dès maintenant dans la version Mac — il suffit de télécharger le dernier DMG. Si les retours sont positifs, on intégrera Parakeet à la version iOS dans une prochaine mise à jour.
Des questions ou des suggestions ? Écrivez-nous à support@whispernotes.app.