Whisper Large V3 Turbo vs V3: 5× Més Ràpid a Mac (Benchmark)

El Whisper Large-v3 Turbo d'OpenAI retalla el descodificador de 32 capes a 4, i fa baixar els paràmetres de 1.550M a 809M. En les nostres proves amb Apple Silicon, va transcriure el mateix àudio unes 5 vegades més ràpid amb una precisió gairebé idèntica. Whisper Notes l'inclou al Mac i a l'iPhone.

Comparació d'arquitectura entre Whisper Large V3 Turbo i V3

V3 Turbo vs V3: què ha canviat

Turbo no és una arquitectura nova. És exactament el mateix model Whisper Large-v3 amb el descodificador podat de 32 capes a 4, i després afinat per recuperar la precisió. El codificador no es toca.

	Large-v3 Turbo	Large-v3
Paràmetres	809M	1.550M
Capes del descodificador	4	32
Llengües	100+	100+
Tasca de traducció	No compatible	Compatible
Llicència	MIT	Apache 2.0

Mètode: es va transcriure el mateix fitxer d'àudio de 10 minuts amb la mateixa build de Whisper Notes a cada dispositiu indicat. Els temps són segons reals des de l'inici de la transcripció fins al text final; entre V3 i Turbo només canviava el model.

La tasca de traducció es va excloure explícitament de les dades d'entrenament de Turbo. El model complet Large-v3 la suporta, però Whisper Notes només inclou Turbo — la traducció es gestiona per separat mitjançant Apple Intelligence.

El model base: què és Whisper Large-v3?

Whisper Large-v3 és el model de reconeixement de veu de codi obert insígnia d'OpenAI, publicat el novembre de 2023. Té 1.550 milions de paràmetres, fa servir un espectrograma d'entrada de 128 bandes mel, es va entrenar amb 5 milions d'hores d'àudio (1 milió amb etiquetes febles + 4 milions amb pseudoetiquetes) i suporta més de 100 llengües, inclòs el cantonès. A l'Open ASR Leaderboard de Hugging Face registra una taxa d'error de paraula mitjana d'un 7,4% aproximadament — el sostre de precisió amb què es compara Turbo al llarg d'aquest article. Per veure com es posiciona Large-v3 respecte de tots els altres models on-device, consulteu la nostra comparativa de models Whisper.

Benchmark de velocitat: Whisper Notes a Apple Silicon

A Whisper Notes per a Mac, Turbo s'executa via CoreML al Neural Engine. Processant 10 minuts d'àudio:

Dispositiu	Whisper V3	V3 Turbo	Acceleració
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

L'acceleració de 5× és específica de Whisper Notes a Apple Silicon, on el descodificador més petit es beneficia de l'optimització del Neural Engine. A GPU amb frameworks com faster-whisper, la diferència es redueix a ~2,7× (vegeu els benchmarks de la comunitat més avall).

Precisió: comparació de WER

L'Open ASR Leaderboard de Hugging Face prova ambdós models amb els mateixos conjunts de dades en anglès. La taxa d'error de paraula de Turbo és a menys de mig punt de V3 en cada benchmark:

Conjunt de dades	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
WER mitjà	7.83%	7.44%

V3 és lleugerament més precís en cada conjunt de dades, però la diferència és petita — 0,39 punts percentuals de mitjana. Per a la majoria de transcripcions reals, no notareu la diferència.

A l'avaluació de format llarg de YouTube-commons (un dels benchmarks ASR de codi obert més grans), Turbo obté un WER del 13,40% vs el 13,20% de V3 — tot executant-se a un factor de temps real de 129,5× vs 55,3×. És 2,3× més ràpid amb una precisió gairebé idèntica en àudio real.

Quina precisió té Turbo en coreà, rus i altres llengües?

Els benchmarks anteriors són en anglès. Segons la model card d'OpenAI, el descodificador podat de 4 capes de Turbo costa una mica més de precisió en les llengües diferents de l'anglès que en anglès, amb la degradació més gran en llengües amb pocs recursos. Per al rus i la majoria de llengües europees, Turbo es manté a prop del Large-v3 complet — i si feu servir Whisper Notes, Parakeet V3 cobreix el rus i 24 llengües europees més a 10 vegades la velocitat de Whisper.

Per al coreà, el japonès, el xinès i el cantonès, un model fet a mida és alhora més ràpid i puntua millor: SenseVoice transcriu les llengües CJK a 52× en temps real. Whisper Notes inclou SenseVoice al costat de Turbo tant al Mac com a iOS, de manera que podeu triar el model adequat per a cada llengua en lloc de fer-ho passar tot per un de sol.

Benchmarks de la comunitat: GPU i CPU

Benchmarks independents de les comunitats de faster-whisper i whisper.cpp mostren resultats consistents en maquinari divers. Transcripció de 13 minuts d'àudio amb faster-whisper a GPU:

Model	Precisió	Temps	Memòria GPU	WER
Large-v3 Turbo	fp16	19.2 s	2.537 MB	1.92%
Large-v3	fp16	52.0 s	4.521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1.545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2.409 MB	2.39%

Font: benchmark de faster-whisper en una GPU NVIDIA, split de validació clean de LibriSpeech. Turbo int8 utilitza només 1,5 GB de VRAM — cap en una GPU de 2 GB.

La inferència per lots en un RTX 3060 Laptop (6 GB de VRAM, precisió int8) augmenta encara més l'avantatge:

Model	Seqüencial	Per lots (10)	WER per lots
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Font: benchmark de NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, àudio en francès, precisió int8.

Amb processament per lots, Turbo aconsegueix el millor WER de tots els models provats (7,7%) sent alhora el més ràpid. És clarament el punt òptim per a l'ús en producció.

Turbo vs Medium vs totes les mides de models Whisper

Abans de Turbo, Medium era el compromís habitual: precisió acceptable a una velocitat tolerable. Turbo deixa aquest compromís obsolet — amb 809 milions de paràmetres és amb prou feines més gran que Medium (769M), però ofereix una precisió de classe large a una velocitat diverses vegades superior. Aquí teniu tota la família de models, costat per costat:

Model	Paràmetres	Mida al disc	Velocitat relativa	Nivell de precisió
tiny	39M	~75 MB	~10×	El més baix
base	74M	~142 MB	~7×	Baix
small	244M	~466 MB	~4×	Moderat
medium	769M	~1,5 GB	~2×	Alt
large-v3	1.550M	~2,9 GB	1× (referència)	El més alt
large-v3-turbo	809M	~1,6 GB	~5× a Apple Silicon	Gairebé el més alt

Publicat el 30 de setembre de 2024, Turbo té 809 milions de paràmetres. Si triàveu Medium per estalviar espai de disc o guanyar velocitat, ara Turbo el supera tant en precisió com en velocitat amb una petjada pràcticament idèntica.

Limitacions conegudes (i com Whisper Notes les gestiona)

Sense traducció integrada

Turbo es va entrenar sense dades de traducció. Només transcriu en la llengua original — a diferència de Large-v3, que suporta la traducció d'àudio→anglès.

Whisper Notes — Apple Intelligence tradueix automàticament les transcripcions a la llengua que trieu, donant-vos una sortida bilingüe independentment del model que feu servir.

Més al·lucinacions amb àudio sorollós

Els informes de la comunitat indiquen que Turbo al·lucina més en clips molt curts o enregistraments sorollosos vs V3. Esperable donada la reducció del descodificador (4 capes vs 32).

Whisper Notes — executa Pyannote VAD abans de la transcripció, detectant segments de veu i eliminant silenci/soroll perquè el model només processi veu real.

Quin model hauríeu d'utilitzar?

Anglès / llengües europees	Parakeet V3 — 10 vegades més ràpid que Whisper, millor precisió
Xinès / Japonès / Coreà	SenseVoice — dissenyat específicament per a CJK, velocitat 52×
Altres llengües	Whisper Large V3 Turbo — més de 100 llengües, alta precisió, més lent

Preguntes freqüents sobre Whisper Large-v3 Turbo

Quina és la diferència entre Whisper Large-v3 i Large-v3 Turbo?

Large-v3 Turbo conserva el codificador de Large-v3 però redueix el descodificador de 32 capes a 4. Per això és molt més ràpid mentre es manté a prop de la precisió de Large-v3 en transcripció. La contrapartida és que Turbo no suporta la tasca de traducció integrada de Whisper.

faster-whisper suporta Large-v3 Turbo?

Sí. faster-whisper suporta Large-v3 Turbo mitjançant conversions de CTranslate2, i els benchmarks de la comunitat mostren que Turbo és una gran opció quan la VRAM és limitada. Al benchmark anterior, Turbo int8 va utilitzar al voltant d'1,5 GB de VRAM.

whisper.cpp suporta Large-v3 Turbo?

Sí. whisper.cpp pot executar versions GGML/GGUF convertides de Whisper Large-v3 Turbo. Si esteu construint el vostre propi pipeline de transcripció local, sovint és més fàcil encabir Turbo en maquinari de consum que el Large-v3 complet.

On puc descarregar openai/whisper-large-v3-turbo?

Els pesos oficials del model estan disponibles a Hugging Face, publicats per OpenAI. Els usuaris de Whisper Notes no els han de descarregar manualment: l'app per a Mac gestiona la configuració del model local des de la mateixa interfície de l'aplicació.

Esteu comparant totes les opcions locals? Tots els models de veu a text on-device — les variants de Whisper, Parakeet V3, SenseVoice i Voxtral — es comparen costat per costat a la nostra pàgina de comparativa de models Whisper. Whisper és nou per a vosaltres? Comenceu per la guia de transcripció amb Whisper — què és el model, totes les maneres d'executar-lo i quant costa.

Descarregar per a iOS

Descarregar per a macOS