Whisper Large V3 Turbo vs V3: 5× Més Ràpid a Mac (Benchmark)

6 de novembre del 2024
·
6 min read
·Whisper Notes Team

El Whisper Large-v3 Turbo d'OpenAI retalla el descodificador de 32 capes a 4, reduint els paràmetres de 1.550M a 809M. El resultat: transcripció 2–5× més ràpida amb una precisió gairebé idèntica. Whisper Notes l'incorpora al Mac amb Apple Silicon.

Comparació d'arquitectura entre Whisper Large V3 Turbo i V3

V3 Turbo vs V3: Què ha canviat

Turbo no és una arquitectura nova. És exactament el mateix model Whisper Large-v3 amb el descodificador podat de 32 capes a 4, i després afinat per recuperar la precisió. El codificador no es toca.

Large-v3 Turbo Large-v3
Paràmetres 809M 1,550M
Capes del descodificador 4 32
Idiomes 99 99
Tasca de traducció No compatible Compatible
Llicència MIT Apache 2.0

La tasca de traducció va ser exclosa explícitament de les dades d'entrenament de Turbo. El model complet Large-v3 la suporta, però Whisper Notes només incorpora Turbo — la traducció es gestiona per separat via Apple Intelligence.

Benchmark de velocitat: Whisper Notes a Apple Silicon

A Whisper Notes per a Mac, Turbo s'executa via CoreML al Neural Engine. Processant 10 minuts d'àudio:

Dispositiu Whisper V3 V3 Turbo Acceleració
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

L'acceleració de 5× és específica de Whisper Notes a Apple Silicon, on el descodificador més petit es beneficia de l'optimització del Neural Engine. A GPU amb frameworks com faster-whisper, la diferència es redueix a ~2,7× (vegeu els benchmarks de la comunitat a continuació).

Precisió: comparació de WER

El Hugging Face Open ASR Leaderboard prova ambdós models amb els mateixos conjunts de dades en anglès. La taxa d'error de paraula de Turbo és a menys de mig punt de V3 en cada benchmark:

Conjunt de dades V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
WER mitjà 7.83% 7.44%

V3 és lleugerament més precís en cada conjunt de dades, però la diferència és petita — 0,39 punts percentuals de mitjana. Per a la majoria de transcripcions reals, no notareu la diferència.

A l'avaluació de format llarg de YouTube-commons (un dels benchmarks ASR de codi obert més grans), Turbo obté un WER del 13,40% vs el 13,20% de V3 — tot executant-se a un factor de temps real de 129,5× vs 55,3×. És 2,3× més ràpid amb una precisió gairebé idèntica en àudio real.

Benchmarks de la comunitat: GPU i CPU

Benchmarks independents de les comunitats de faster-whisper i whisper.cpp mostren resultats consistents en diferent maquinari. Transcripció de 13 minuts d'àudio amb faster-whisper a GPU:

Model Precisió Temps Memòria GPU WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Font: benchmark de faster-whisper a GPU NVIDIA, split de validació clean de LibriSpeech. Turbo int8 utilitza només 1,5 GB de VRAM — funciona en una GPU de 2 GB.

La inferència per lots en un RTX 3060 Laptop (6 GB de VRAM, precisió int8) augmenta encara més l'avantatge:

Model Seqüencial Per lots (10) WER per lots
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Font: benchmark de NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, àudio en francès, precisió int8.

Amb processament per lots, Turbo aconsegueix el millor WER de tots els models provats (7,7%) sent alhora el més ràpid. És el punt òptim per a ús en producció.

Limitacions conegudes (i com Whisper Notes les gestiona)

Sense traducció integrada

Turbo es va entrenar sense dades de traducció. Només transcriu en l'idioma original — a diferència de Large-v3, que suporta traducció d'àudio→anglès.

Whisper Notes — Apple Intelligence tradueix automàticament les transcripcions a l'idioma que trieu, donant-vos una sortida bilingüe independentment del model que feu servir.

Més al·lucinacions amb àudio sorollós

Els informes de la comunitat indiquen que Turbo al·lucina més en clips molt curts o enregistraments sorollosos vs V3. Esperable donada la reducció del descodificador (4 capes vs 32).

Whisper Notes — executa Pyannote VAD abans de la transcripció, detectant segments de veu i eliminant silenci/soroll perquè el model només processi veu real.

Quin model hauries d'utilitzar?

Anglès / Europeu Parakeet V3 — 10× més ràpid que Whisper, millor precisió
Xinès / Japonès / Coreà SenseVoice — dissenyat per a CJK, velocitat 52×
Altres idiomes Whisper Large V3 Turbo — 99 idiomes, alta precisió, més lent