SenseVoice : Transcription chinois, japonais et coréen 52× plus rapide sur Mac

12 mai 2026
·
7 min read
·Whisper Notes Team

EN BREF — Trois modèles Mac comparés

Parakeet V3 SenseVoice Small Whisper Large V3 Turbo
5 min anglais 2,91s (103×) 5,8s (52×) 20,92s (14,3×)
27 min chinois 10,10s (161×) 13,83s (118×) 2 min 4s (13,1×)
Langues 25 (européennes) 5 (zh, en, ja, ko, yue) 99+
Téléchargement 465 Mo 827 Mo 1,5 Go
Mémoire ~800 Mo ~700 Mo ~1,6 Go
Idéal pour Anglais & européen Chinois, japonais, coréen, cantonais Tout le reste (99+ langues)

* Benchmarks de vitesse sur Apple M4 Pro, 32 Go. Podcast anglais de 5 minutes et podcast chinois de 27 minutes. Facteur temps réel = durée audio ÷ temps de traitement (plus élevé = plus rapide). SenseVoice est disponible uniquement sur macOS. iOS utilise Parakeet (via ANE) et Whisper.

À partir de la version 1.4.8, Whisper Notes pour Mac intègre SenseVoice Small comme moteur dédié à la transcription du chinois, du japonais, du coréen et du cantonais. Il remplace Qwen3-ASR et fonctionne sur le GPU d'Apple via MLX au lieu du CPU — traitant un podcast chinois de 27 minutes en 13,83 secondes au lieu de 3 minutes et 44 secondes.

Pourquoi nous avons remplacé Qwen3-ASR

Qwen3-ASR était un modèle solide. Il prenait en charge 30 langues plus 22 dialectes chinois, et sa précision pour le chinois était proche de l'état de l'art. Mais il avait un problème qui s'aggravait avec la durée de l'audio : la vitesse.

Qwen3 utilisait une architecture autorégressive — la même approche que Whisper, traitant l'audio image par image, sans jamais sauter en avant. Sur un podcast chinois de 27 minutes, cela prenait 73 secondes. Utilisable, mais loin de l'expérience de résultat instantané que Parakeet V3 offre pour l'anglais.

Le problème plus profond était notre infrastructure. Notre intégration Qwen3 utilisait sherpa-onnx, une bibliothèque C avec un wrapper Swift de 2 249 lignes qui acheminait tout via les cœurs CPU. Le GPU restait inactif pendant que le CPU de votre Mac faisait tout le travail.

SenseVoice a résolu les deux problèmes. Architecture non-autorégressive pour la vitesse. Apple MLX pour l'accélération GPU. Le résultat : une amélioration de vitesse de 16,2× sur le même matériel, avec une base de code réduite de 2 249 à 288 lignes.

Le benchmark

Les trois modèles fonctionnent sur le même Apple M4 Pro, mêmes fichiers audio, mêmes conditions. Pas de cloud. Pas d'internet. Juste du silicium.

Modèle 5 min anglais 27 min chinois Vitesse (RTFx)
Parakeet V3 2,91s 10,10s 103–161×
SenseVoice Small 5,8s 13,83s 52–118×
Whisper Large V3 Turbo 20,92s 2 min 4s 13–14×
Qwen3-ASR (supprimé) 73s 4,7×

SenseVoice est environ deux fois moins rapide que Parakeet V3 — mais reste extraordinairement rapide. Un podcast de 27 minutes est terminé en moins de 14 secondes. Vous appuyez sur transcrire, vous attendez un souffle, et le texte est là.

Comparez cela à Whisper avec 2 minutes et 4 secondes, ou à l'ancien Qwen3 avec 73 secondes. L'architecture compte plus que le nombre de paramètres.

Tableau officiel de comparaison de vitesse d'inférence du paper FunAudioLLM : SenseVoice-Small (70ms pour 10s d'audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - montrant l'architecture du modèle, les paramètres, les langues supportées, le RTF et la latence

Benchmark officiel d'inférence du paper FunAudioLLM : SenseVoice-Small traite 10s d'audio en 70ms (GPU A800). Whisper-Large-V3 prend 1 281ms. C'est une différence de 18× en latence d'inférence brute.

Modèle Temps de chargement Mémoire Taille du téléchargement
Parakeet V3 0,77s ~800 Mo 465 Mo
SenseVoice Small 0,81s ~700 Mo 827 Mo
Whisper Small 1,03s ~487 Mo 600 Mo
Whisper Large V3 Turbo 3,18s ~1,6 Go 3 Go

* Temps de chargement et mémoire mesurés sur Apple M4 Pro, 32 Go.

SenseVoice se charge en moins d'une seconde et utilise moins de mémoire que Parakeet. Sur un Mac 8 Go, il fonctionne confortablement aux côtés de vos autres applications.

Pourquoi SenseVoice est plus rapide : architecture + environnement d'exécution

L'écart de vitesse entre Qwen3-ASR et SenseVoice provient de deux facteurs indépendants.

Facteur 1 : Architecture du modèle. Qwen3-ASR est autorégressif — il génère du texte token par token, chacun dépendant du précédent. SenseVoice utilise un encodeur non-autorégressif (NAR) qui traite l'audio entier en parallèle. Cette différence architecturale seule rend SenseVoice fondamentalement plus rapide, quel que soit le matériel utilisé.

Facteur 2 : Environnement d'exécution. Notre intégration Qwen3-ASR utilisait sherpa-onnx, qui fonctionnait sur CPU. SenseVoice fonctionne via Apple MLX, acheminant les calculs vers le GPU. Qwen3 pourrait-il aussi fonctionner sur MLX ? Oui — mais il serait toujours plus lent que SenseVoice car le goulot d'étranglement autorégressif se situe dans l'architecture, pas dans l'environnement d'exécution.

Qwen3-ASR (ancien) SenseVoice (nouveau)
Architecture Autorégressive (token par token) Non-autorégressive (parallèle)
Environnement d'exécution sherpa-onnx (CPU) Apple MLX (GPU)
27 min chinois 224 secondes 13,83 secondes
Accélération combinée référence 16,2× plus rapide
Base de code Framework C de 168 Mo + 2 249 lignes Swift 288 lignes Swift Actor

* Même podcast chinois de 27 minutes, Apple M4 Pro. L'accélération de 16,2× combine les améliorations architecturales (NAR vs AR) et d'exécution (GPU vs CPU).

Le code est aussi devenu plus simple. La nouvelle implémentation SenseVoice est un seul Swift Actor de 288 lignes qui communique directement avec MLX, remplaçant un framework C de 168 Mo. Moins de code, moins de bugs, application plus légère.

Cinq langues, bien maîtrisées

SenseVoice ne cherche pas à tout faire. Il prend en charge cinq langues :

Langue SenseVoice-Small Whisper-Large-V3 Gagnant
Chinois (zh-CN) 10,78% CER 12,55% CER SenseVoice (-14%)
Cantonais (yue) 7,09% CER 10,41% CER SenseVoice (-32%)
Japonais (ja) 11,96% CER 10,34% CER Whisper (légèrement)
Coréen (ko) 8,28% CER 5,59% CER Whisper
Anglais (en) 14,71% WER 9,39% WER Whisper (utilisez Parakeet)

* Benchmark CommonVoice, CER = taux d'erreur par caractère, WER = taux d'erreur par mot. Plus bas est mieux. Source : paper FunAudioLLM (2024). Latence d'inférence SenseVoice-Small : 70ms pour 10s d'audio (GPU A800), plus de 15× plus rapide que Whisper-Large-V3.

Comparaison de précision SenseVoice vs Whisper sur le benchmark CommonVoice pour le chinois, cantonais, anglais, japonais, coréen et 25 autres langues - graphique en barres WER/CER

Benchmark CommonVoice : SenseVoice-Small (jaune) vs Whisper-Small (bleu) vs Whisper-Large-V3 (orange). Plus bas est mieux. Source : paper FunAudioLLM

Les chiffres racontent une histoire honnête. SenseVoice bat Whisper en précision sur le chinois et le cantonais avec une marge significative, tandis que Whisper est plus précis pour le japonais, le coréen et l'anglais. Mais SenseVoice est plus de 15× plus rapide que Whisper-Large-V3. Pour la plupart des usages réels, la différence de vitesse compte plus que quelques points de pourcentage de précision.

Le résultat pour le cantonais mérite d'être souligné séparément. Whisper-Small obtient 38,97% de CER sur le cantonais — quasiment inutilisable. Même Whisper-Large-V3 n'atteint que 10,41%. SenseVoice atteint 7,09%. Avant SenseVoice, il n'existait pas de bonne solution pour transcrire le cantonais localement sur un Mac. Si vous parlez cantonais, ce modèle a été créé pour vous.

Résultat de transcription coréenne avec SenseVoice dans Whisper Notes pour Mac montrant un texte coréen précis à partir d'une vidéo

Transcription coréenne avec SenseVoice : import vidéo avec sous-titres horodatés

Test en conditions réelles : podcast chinois de 27 minutes

Nous avons transcrit un épisode de 27 minutes de Thirteen Invitations (十三邀), un podcast d'interviews chinois, avec SenseVoice et Whisper Large V3 Turbo sur le même M4 Pro. ElevenLabs Scribe (cloud) a servi de référence. Les deux modèles embarqués font à peu près le même nombre d'erreurs, mais de types différents :

SenseVoice Whisper Large V3
Temps 13,83s 2 min 4s
Erreurs (échantillon de 5 min) ~15–20 ~12–15
Pire erreur 时差→食堂 (décalage horaire→cantine) 西昌→西藏 (ville de Xichang→Tibet, 4 000 km d'écart)
Type d'erreur Confusions d'homophones Erreurs géographiques/factuelles

* Comparaison manuelle avec ElevenLabs Scribe (référence cloud, également imparfaite). Les deux modèles embarqués ont correctement écrit « 根深蒂固 » là où Scribe s'est trompé.

Précision comparable. 9× plus rapide. Pour la transcription chinoise en conditions réelles, SenseVoice vous fournit un transcript utilisable avant même que Whisper ait fini de charger.

Quel modèle utiliser et quand

Whisper Notes pour Mac est désormais livré avec quatre modèles vocaux. Chacun est optimisé pour des scénarios différents :

Vous avez besoin de... Utilisez ce modèle Pourquoi
Anglais ou langues européennes, vitesse maximale Parakeet V3 103× temps réel, taux d'erreur le plus bas. Le choix par défaut.
Chinois, japonais, coréen ou cantonais SenseVoice Small 52–118× temps réel. Seul modèle avec support du cantonais.
L'une des 99+ langues (arabe, thaï, russe, etc.) Whisper Large V3 Turbo Support linguistique le plus large. Plus lent mais universel.
Consommation mémoire réduite (anciens Mac) Whisper Small 487 Mo de mémoire. Idéal pour les Mac 8 Go avec d'autres apps ouvertes.
Sélecteur de modèles Whisper Notes Mac montrant Parakeet V3, SenseVoice Small, Whisper Small et Whisper Large V3 Turbo avec tailles de téléchargement et support linguistique

Réglages → Modèle de transcription : choisissez le bon moteur pour votre langue

Le sélecteur de modèles dans les Réglages affiche les quatre options avec les tailles de téléchargement, le nombre de langues et les exigences en mémoire. SenseVoice se télécharge à la première utilisation (~827 Mo) et reste sur votre appareil.

Les compromis

SenseVoice n'est pas un modèle universel. Voici ce qu'il ne peut pas faire :

Seulement 5 langues. Si vous avez besoin du thaï, du russe, de l'arabe, de l'hindi ou de l'une des 90+ autres langues supportées par Whisper, restez sur Whisper.

Mac uniquement. SenseVoice fonctionne via Apple MLX, qui nécessite macOS. Il n'est pas disponible sur iPhone. Les utilisateurs iOS disposent de Parakeet (pour les langues européennes) et de Whisper.

Particularité avec l'audio silencieux. Lors de segments très courts ou très silencieux, SenseVoice peut parfois basculer en sortie chinoise quelle que soit la langue sélectionnée. Régler la langue manuellement (au lieu de « Auto ») réduit ce phénomène.

Pas de streaming. Contrairement au mode streaming de Whisper, SenseVoice traite l'audio complet après l'enregistrement. Pour les fichiers longs, il segmente automatiquement aux points de silence et affiche les résultats progressivement.

Ce sont des contraintes architecturales, pas des bugs. Un modèle entraîné sur 5 langues maîtrise ces 5 langues extrêmement bien. Le support de 99+ langues de Whisper s'accompagne d'une vitesse réduite et de taux d'erreur plus élevés pour chaque langue individuelle.

Essayez-le

SenseVoice est disponible dans Whisper Notes pour Mac v1.4.8 et versions ultérieures. Téléchargez-le depuis Réglages → Modèle de transcription → SenseVoice Small (~827 Mo). Il nécessite un Mac Apple Silicon (M1 ou ultérieur).

Si vous utilisez Parakeet V3 et dictez principalement en anglais, il n'est pas nécessaire de changer. SenseVoice est fait pour quand vous avez besoin du chinois, du japonais, du coréen ou du cantonais — et que vous le voulez rapidement.

Télécharger pour Mac

Journal des modifications complet : whispernotes.app/changelog

Questions ou commentaires : mac@whispernotes.app