SenseVoice : Transcription chinois, japonais et coréen 52× plus rapide sur Mac

EN BREF — Trois modèles Mac comparés

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 min anglais	2,91s (103×)	5,8s (52×)	20,92s (14,3×)
27 min chinois	10,10s (161×)	13,83s (118×)	2 min 4s (13,1×)
Langues	25 (européennes)	5 (zh, en, ja, ko, yue)	99+
Téléchargement	465 Mo	827 Mo	1,5 Go
Mémoire	~800 Mo	~700 Mo	~1,6 Go
Idéal pour	Anglais & européen	Chinois, japonais, coréen, cantonais	Tout le reste (99+ langues)

* Benchmarks de vitesse sur Apple M4 Pro, 32 Go. Podcast anglais de 5 minutes et podcast chinois de 27 minutes. Facteur temps réel = durée audio ÷ temps de traitement (plus élevé = plus rapide). SenseVoice est disponible uniquement sur macOS. iOS utilise Parakeet (via ANE) et Whisper.

À partir de la version 1.4.8, Whisper Notes pour Mac intègre SenseVoice Small comme moteur dédié à la transcription du chinois, du japonais, du coréen et du cantonais. Il remplace Qwen3-ASR et fonctionne sur le GPU d'Apple via MLX au lieu du CPU — traitant un podcast chinois de 27 minutes en 13,83 secondes au lieu de 3 minutes et 44 secondes.

Pourquoi nous avons remplacé Qwen3-ASR

Qwen3-ASR était un modèle solide. Il prenait en charge 30 langues plus 22 dialectes chinois, et sa précision pour le chinois était proche de l'état de l'art. Mais il avait un problème qui s'aggravait avec la durée de l'audio : la vitesse.

Qwen3 utilisait une architecture autorégressive — la même approche que Whisper, traitant l'audio image par image, sans jamais sauter en avant. Sur un podcast chinois de 27 minutes, cela prenait 73 secondes. Utilisable, mais loin de l'expérience de résultat instantané que Parakeet V3 offre pour l'anglais.

Le problème plus profond était notre infrastructure. Notre intégration Qwen3 utilisait sherpa-onnx, une bibliothèque C avec un wrapper Swift de 2 249 lignes qui acheminait tout via les cœurs CPU. Le GPU restait inactif pendant que le CPU de votre Mac faisait tout le travail.

SenseVoice a résolu les deux problèmes. Architecture non-autorégressive pour la vitesse. Apple MLX pour l'accélération GPU. Le résultat : une amélioration de vitesse de 16,2× sur le même matériel, avec une base de code réduite de 2 249 à 288 lignes.

Le benchmark

Les trois modèles fonctionnent sur le même Apple M4 Pro, mêmes fichiers audio, mêmes conditions. Pas de cloud. Pas d'internet. Juste du silicium.

Modèle	5 min anglais	27 min chinois	Vitesse (RTFx)
Parakeet V3	2,91s	10,10s	103–161×
SenseVoice Small	5,8s	13,83s	52–118×
Whisper Large V3 Turbo	20,92s	2 min 4s	13–14×
Qwen3-ASR (supprimé)	—	73s	4,7×

SenseVoice est environ deux fois moins rapide que Parakeet V3 — mais reste extraordinairement rapide. Un podcast de 27 minutes est terminé en moins de 14 secondes. Vous appuyez sur transcrire, vous attendez un souffle, et le texte est là.

Comparez cela à Whisper avec 2 minutes et 4 secondes, ou à l'ancien Qwen3 avec 73 secondes. L'architecture compte plus que le nombre de paramètres.

Tableau officiel de comparaison de vitesse d'inférence du paper FunAudioLLM : SenseVoice-Small (70ms pour 10s d'audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - montrant l'architecture du modèle, les paramètres, les langues supportées, le RTF et la latence

Benchmark officiel d'inférence du paper FunAudioLLM : SenseVoice-Small traite 10s d'audio en 70ms (GPU A800). Whisper-Large-V3 prend 1 281ms. C'est une différence de 18× en latence d'inférence brute.

Modèle	Temps de chargement	Mémoire	Taille du téléchargement
Parakeet V3	0,77s	~800 Mo	465 Mo
SenseVoice Small	0,81s	~700 Mo	827 Mo
Whisper Small	1,03s	~487 Mo	600 Mo
Whisper Large V3 Turbo	3,18s	~1,6 Go	3 Go

* Temps de chargement et mémoire mesurés sur Apple M4 Pro, 32 Go.

SenseVoice se charge en moins d'une seconde et utilise moins de mémoire que Parakeet. Sur un Mac 8 Go, il fonctionne confortablement aux côtés de vos autres applications.

Pourquoi SenseVoice est plus rapide : architecture + environnement d'exécution

L'écart de vitesse entre Qwen3-ASR et SenseVoice provient de deux facteurs indépendants.

Facteur 1 : Architecture du modèle. Qwen3-ASR est autorégressif — il génère du texte token par token, chacun dépendant du précédent. SenseVoice utilise un encodeur non-autorégressif (NAR) qui traite l'audio entier en parallèle. Cette différence architecturale seule rend SenseVoice fondamentalement plus rapide, quel que soit le matériel utilisé.

Facteur 2 : Environnement d'exécution. Notre intégration Qwen3-ASR utilisait sherpa-onnx, qui fonctionnait sur CPU. SenseVoice fonctionne via Apple MLX, acheminant les calculs vers le GPU. Qwen3 pourrait-il aussi fonctionner sur MLX ? Oui — mais il serait toujours plus lent que SenseVoice car le goulot d'étranglement autorégressif se situe dans l'architecture, pas dans l'environnement d'exécution.

	Qwen3-ASR (ancien)	SenseVoice (nouveau)
Architecture	Autorégressive (token par token)	Non-autorégressive (parallèle)
Environnement d'exécution	sherpa-onnx (CPU)	Apple MLX (GPU)
27 min chinois	224 secondes	13,83 secondes
Accélération combinée	référence	16,2× plus rapide
Base de code	Framework C de 168 Mo + 2 249 lignes Swift	288 lignes Swift Actor

* Même podcast chinois de 27 minutes, Apple M4 Pro. L'accélération de 16,2× combine les améliorations architecturales (NAR vs AR) et d'exécution (GPU vs CPU).

Le code est aussi devenu plus simple. La nouvelle implémentation SenseVoice est un seul Swift Actor de 288 lignes qui communique directement avec MLX, remplaçant un framework C de 168 Mo. Moins de code, moins de bugs, application plus légère.

Cinq langues, bien maîtrisées

SenseVoice ne cherche pas à tout faire. Il prend en charge cinq langues :

Langue	SenseVoice-Small	Whisper-Large-V3	Gagnant
Chinois (zh-CN)	10,78% CER	12,55% CER	SenseVoice (-14%)
Cantonais (yue)	7,09% CER	10,41% CER	SenseVoice (-32%)
Japonais (ja)	11,96% CER	10,34% CER	Whisper (légèrement)
Coréen (ko)	8,28% CER	5,59% CER	Whisper
Anglais (en)	14,71% WER	9,39% WER	Whisper (utilisez Parakeet)

* Benchmark CommonVoice, CER = taux d'erreur par caractère, WER = taux d'erreur par mot. Plus bas est mieux. Source : paper FunAudioLLM (2024). Latence d'inférence SenseVoice-Small : 70ms pour 10s d'audio (GPU A800), plus de 15× plus rapide que Whisper-Large-V3.

Comparaison de précision SenseVoice vs Whisper sur le benchmark CommonVoice pour le chinois, cantonais, anglais, japonais, coréen et 25 autres langues - graphique en barres WER/CER

Benchmark CommonVoice : SenseVoice-Small (jaune) vs Whisper-Small (bleu) vs Whisper-Large-V3 (orange). Plus bas est mieux. Source : paper FunAudioLLM

Les chiffres racontent une histoire honnête. SenseVoice bat Whisper en précision sur le chinois et le cantonais avec une marge significative, tandis que Whisper est plus précis pour le japonais, le coréen et l'anglais. Mais SenseVoice est plus de 15× plus rapide que Whisper-Large-V3. Pour la plupart des usages réels, la différence de vitesse compte plus que quelques points de pourcentage de précision.

Le résultat pour le cantonais mérite d'être souligné séparément. Whisper-Small obtient 38,97% de CER sur le cantonais — quasiment inutilisable. Même Whisper-Large-V3 n'atteint que 10,41%. SenseVoice atteint 7,09%. Avant SenseVoice, il n'existait pas de bonne solution pour transcrire le cantonais localement sur un Mac. Si vous parlez cantonais, ce modèle a été créé pour vous.

Résultat de transcription coréenne avec SenseVoice dans Whisper Notes pour Mac montrant un texte coréen précis à partir d'une vidéo

Transcription coréenne avec SenseVoice : import vidéo avec sous-titres horodatés

Test en conditions réelles : podcast chinois de 27 minutes

Nous avons transcrit un épisode de 27 minutes de Thirteen Invitations (十三邀), un podcast d'interviews chinois, avec SenseVoice et Whisper Large V3 Turbo sur le même M4 Pro. ElevenLabs Scribe (cloud) a servi de référence. Les deux modèles embarqués font à peu près le même nombre d'erreurs, mais de types différents :

	SenseVoice	Whisper Large V3
Temps	13,83s	2 min 4s
Erreurs (échantillon de 5 min)	~15–20	~12–15
Pire erreur	时差→食堂 (décalage horaire→cantine)	西昌→西藏 (ville de Xichang→Tibet, 4 000 km d'écart)
Type d'erreur	Confusions d'homophones	Erreurs géographiques/factuelles

* Comparaison manuelle avec ElevenLabs Scribe (référence cloud, également imparfaite). Les deux modèles embarqués ont correctement écrit « 根深蒂固 » là où Scribe s'est trompé.

Précision comparable. 9× plus rapide. Pour la transcription chinoise en conditions réelles, SenseVoice vous fournit un transcript utilisable avant même que Whisper ait fini de charger.

Quel modèle utiliser et quand

Whisper Notes pour Mac est désormais livré avec quatre modèles vocaux. Chacun est optimisé pour des scénarios différents :

Vous avez besoin de...	Utilisez ce modèle	Pourquoi
Anglais ou langues européennes, vitesse maximale	Parakeet V3	103× temps réel, taux d'erreur le plus bas. Le choix par défaut.
Chinois, japonais, coréen ou cantonais	SenseVoice Small	52–118× temps réel. Seul modèle avec support du cantonais.
L'une des 99+ langues (arabe, thaï, russe, etc.)	Whisper Large V3 Turbo	Support linguistique le plus large. Plus lent mais universel.
Consommation mémoire réduite (anciens Mac)	Whisper Small	487 Mo de mémoire. Idéal pour les Mac 8 Go avec d'autres apps ouvertes.

Sélecteur de modèles Whisper Notes Mac montrant Parakeet V3, SenseVoice Small, Whisper Small et Whisper Large V3 Turbo avec tailles de téléchargement et support linguistique

Réglages → Modèle de transcription : choisissez le bon moteur pour votre langue

Le sélecteur de modèles dans les Réglages affiche les quatre options avec les tailles de téléchargement, le nombre de langues et les exigences en mémoire. SenseVoice se télécharge à la première utilisation (~827 Mo) et reste sur votre appareil.

Les compromis

SenseVoice n'est pas un modèle universel. Voici ce qu'il ne peut pas faire :

• Seulement 5 langues. Si vous avez besoin du thaï, du russe, de l'arabe, de l'hindi ou de l'une des 90+ autres langues supportées par Whisper, restez sur Whisper.

• Mac uniquement. SenseVoice fonctionne via Apple MLX, qui nécessite macOS. Il n'est pas disponible sur iPhone. Les utilisateurs iOS disposent de Parakeet (pour les langues européennes) et de Whisper.

• Particularité avec l'audio silencieux. Lors de segments très courts ou très silencieux, SenseVoice peut parfois basculer en sortie chinoise quelle que soit la langue sélectionnée. Régler la langue manuellement (au lieu de « Auto ») réduit ce phénomène.

• Pas de streaming. Contrairement au mode streaming de Whisper, SenseVoice traite l'audio complet après l'enregistrement. Pour les fichiers longs, il segmente automatiquement aux points de silence et affiche les résultats progressivement.

Ce sont des contraintes architecturales, pas des bugs. Un modèle entraîné sur 5 langues maîtrise ces 5 langues extrêmement bien. Le support de 99+ langues de Whisper s'accompagne d'une vitesse réduite et de taux d'erreur plus élevés pour chaque langue individuelle.

Essayez-le

SenseVoice est disponible dans Whisper Notes pour Mac v1.4.8 et versions ultérieures. Téléchargez-le depuis Réglages → Modèle de transcription → SenseVoice Small (~827 Mo). Il nécessite un Mac Apple Silicon (M1 ou ultérieur).

Si vous utilisez Parakeet V3 et dictez principalement en anglais, il n'est pas nécessaire de changer. SenseVoice est fait pour quand vous avez besoin du chinois, du japonais, du coréen ou du cantonais — et que vous le voulez rapidement.

Télécharger pour Mac

Journal des modifications complet : whispernotes.app/changelog

Questions ou commentaires : mac@whispernotes.app