Whisper Large V3 Turbo vs V3 : 5× Plus Rapide sur Mac (Benchmark)

6 novembre 2024
·
6 min read
·Whisper Notes Team

Le Whisper Large-v3 Turbo d'OpenAI reduit le decoder de 32 couches a 4, faisant passer les parametres de 1,55B a 809M. Le resultat : une transcription 2 a 5 fois plus rapide avec une precision quasi identique. Whisper Notes l'integre sur Mac avec Apple Silicon.

Comparaison d'architecture Whisper Large V3 Turbo vs V3

V3 Turbo vs V3 : ce qui a change

Turbo n'est pas une nouvelle architecture. C'est exactement le meme modele Whisper Large-v3 avec le decoder elague de 32 couches a 4, puis affine (fine-tuned) pour recuperer la precision. L'encoder reste inchange.

Large-v3 Turbo Large-v3
Parametres 809M 1,550M
Couches du decoder 4 32
Langues 99 99
Tache de traduction Non supportee Supportee
Licence MIT Apache 2.0

La tache de traduction a ete explicitement exclue des donnees d'entrainement de Turbo. Le modele complet Large-v3 la supporte, mais Whisper Notes n'integre que Turbo — la traduction est geree separement via Apple Intelligence.

Benchmark de vitesse : Whisper Notes sur Apple Silicon

Dans Whisper Notes pour Mac, Turbo fonctionne via CoreML sur le Neural Engine. Traitement de 10 minutes d'audio :

Appareil Whisper V3 V3 Turbo Acceleration
iPhone 15 Pro 425 s 82 s 5,2×
iPad Pro M2 380 s 71 s 5,4×
MacBook Pro M2 316 s 63 s 5,0×

L'acceleration de 5× est specifique a Whisper Notes sur Apple Silicon, ou le decoder plus petit beneficie de l'optimisation du Neural Engine. Sur GPU avec des frameworks comme faster-whisper, l'ecart se reduit a ~2,7× (voir les benchmarks communautaires ci-dessous).

Precision : comparaison du WER

Le Hugging Face Open ASR Leaderboard teste les deux modeles sur les memes datasets en anglais. Le taux d'erreur par mot (WER) de Turbo reste a moins d'un demi-point de V3 sur chaque benchmark :

Dataset V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
WER moyen 7.83% 7.44%

V3 est legerement plus precis sur chaque dataset, mais l'ecart est faible — 0,39 point de pourcentage en moyenne. Pour la plupart des transcriptions reelles, vous ne remarquerez pas la difference.

Sur l'evaluation longue duree YouTube-commons (l'un des plus grands benchmarks ASR open source), Turbo obtient 13,40% de WER contre 13,20% pour V3 — tout en fonctionnant a un facteur temps reel de 129,5× contre 55,3×. C'est 2,3× plus rapide avec une precision quasi identique sur de l'audio reel.

Benchmarks communautaires : GPU et CPU

Des benchmarks independants des communautes faster-whisper et whisper.cpp montrent des resultats coherents sur differents materiels. Transcription de 13 minutes d'audio avec faster-whisper sur GPU :

Modele Precision Temps Memoire GPU WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Source : benchmark faster-whisper sur GPU NVIDIA, split de validation propre de LibriSpeech. Turbo int8 n'utilise que 1,5 Go de VRAM — il tient dans un GPU de 2 Go.

L'inference par lots sur une RTX 3060 Laptop (6 Go VRAM, precision int8) amplifie encore l'avantage :

Modele Sequentiel Par lots (10) WER par lots
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Source : benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 Go, audio en francais, precision int8.

Avec le traitement par lots, Turbo obtient le meilleur WER de tous les modeles testes (7,7%) tout en etant le plus rapide. C'est le choix optimal incontestable pour une utilisation en production.

Limitations connues (et comment Whisper Notes les gere)

Pas de traduction integree

Turbo a ete entraine sans donnees de traduction. Il ne transcrit que dans la langue source — contrairement a Large-v3, qui supporte la traduction audio vers anglais.

Whisper Notes — Apple Intelligence traduit automatiquement les transcriptions dans la langue de votre choix, vous offrant une sortie bilingue quel que soit le modele utilise.

Plus d'hallucinations sur l'audio bruite

Les retours de la communaute indiquent que Turbo hallucine davantage sur les clips tres courts ou les enregistrements bruites par rapport a V3. Previsible vu le decoder reduit (4 couches vs 32).

Whisper Notes — execute Pyannote VAD avant la transcription, detectant les segments de parole et eliminant le silence/bruit pour que le modele ne traite que de la voix reelle.

Quel modele devriez-vous utiliser ?

Anglais / Europeen Parakeet V3 — 10× plus rapide que Whisper, meilleure precision
Chinois / Japonais / Coreen SenseVoice — concu pour le CJK, vitesse 52×
Autres langues Whisper Large V3 Turbo — 99 langues, haute precision, plus lent