El Whisper Large-v3 Turbo d'OpenAI retalla el descodificador de 32 capes a 4, reduint els paràmetres de 1.550M a 809M. El resultat: transcripció 2–5× més ràpida amb una precisió gairebé idèntica. Whisper Notes l'incorpora al Mac amb Apple Silicon.
V3 Turbo vs V3: Què ha canviat
Turbo no és una arquitectura nova. És exactament el mateix model Whisper Large-v3 amb el descodificador podat de 32 capes a 4, i després afinat per recuperar la precisió. El codificador no es toca.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Paràmetres | 809M | 1,550M |
| Capes del descodificador | 4 | 32 |
| Idiomes | 99 | 99 |
| Tasca de traducció | No compatible | Compatible |
| Llicència | MIT | Apache 2.0 |
La tasca de traducció va ser exclosa explícitament de les dades d'entrenament de Turbo. El model complet Large-v3 la suporta, però Whisper Notes només incorpora Turbo — la traducció es gestiona per separat via Apple Intelligence.
Benchmark de velocitat: Whisper Notes a Apple Silicon
A Whisper Notes per a Mac, Turbo s'executa via CoreML al Neural Engine. Processant 10 minuts d'àudio:
| Dispositiu | Whisper V3 | V3 Turbo | Acceleració |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
L'acceleració de 5× és específica de Whisper Notes a Apple Silicon, on el descodificador més petit es beneficia de l'optimització del Neural Engine. A GPU amb frameworks com faster-whisper, la diferència es redueix a ~2,7× (vegeu els benchmarks de la comunitat a continuació).
Precisió: comparació de WER
El Hugging Face Open ASR Leaderboard prova ambdós models amb els mateixos conjunts de dades en anglès. La taxa d'error de paraula de Turbo és a menys de mig punt de V3 en cada benchmark:
| Conjunt de dades | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| WER mitjà | 7.83% | 7.44% |
V3 és lleugerament més precís en cada conjunt de dades, però la diferència és petita — 0,39 punts percentuals de mitjana. Per a la majoria de transcripcions reals, no notareu la diferència.
A l'avaluació de format llarg de YouTube-commons (un dels benchmarks ASR de codi obert més grans), Turbo obté un WER del 13,40% vs el 13,20% de V3 — tot executant-se a un factor de temps real de 129,5× vs 55,3×. És 2,3× més ràpid amb una precisió gairebé idèntica en àudio real.
Benchmarks de la comunitat: GPU i CPU
Benchmarks independents de les comunitats de faster-whisper i whisper.cpp mostren resultats consistents en diferent maquinari. Transcripció de 13 minuts d'àudio amb faster-whisper a GPU:
| Model | Precisió | Temps | Memòria GPU | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
Font: benchmark de faster-whisper a GPU NVIDIA, split de validació clean de LibriSpeech. Turbo int8 utilitza només 1,5 GB de VRAM — funciona en una GPU de 2 GB.
La inferència per lots en un RTX 3060 Laptop (6 GB de VRAM, precisió int8) augmenta encara més l'avantatge:
| Model | Seqüencial | Per lots (10) | WER per lots |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Font: benchmark de NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, àudio en francès, precisió int8.
Amb processament per lots, Turbo aconsegueix el millor WER de tots els models provats (7,7%) sent alhora el més ràpid. És el punt òptim per a ús en producció.
Limitacions conegudes (i com Whisper Notes les gestiona)
Sense traducció integrada
Turbo es va entrenar sense dades de traducció. Només transcriu en l'idioma original — a diferència de Large-v3, que suporta traducció d'àudio→anglès.
Whisper Notes — Apple Intelligence tradueix automàticament les transcripcions a l'idioma que trieu, donant-vos una sortida bilingüe independentment del model que feu servir.
Més al·lucinacions amb àudio sorollós
Els informes de la comunitat indiquen que Turbo al·lucina més en clips molt curts o enregistraments sorollosos vs V3. Esperable donada la reducció del descodificador (4 capes vs 32).
Whisper Notes — executa Pyannote VAD abans de la transcripció, detectant segments de veu i eliminant silenci/soroll perquè el model només processi veu real.
Quin model hauries d'utilitzar?
| Anglès / Europeu | Parakeet V3 — 10× més ràpid que Whisper, millor precisió |
| Xinès / Japonès / Coreà | SenseVoice — dissenyat per a CJK, velocitat 52× |
| Altres idiomes | Whisper Large V3 Turbo — 99 idiomes, alta precisió, més lent |