Whisper Large V3 Turbo vs V3: 5× Más Rápido en Mac (Benchmark) | Blog de Whisper Notes: Últimas actualizaciones

El Whisper Large-v3 Turbo de OpenAI reduce el decoder de 32 capas a 4, bajando los parametros de 1.55B a 809M. El resultado: transcripcion 2-5× mas rapida con precision casi identica. Whisper Notes lo incluye en Mac con Apple Silicon.

Comparacion de arquitectura Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: que cambio

Turbo no es una arquitectura nueva. Es exactamente el mismo modelo Whisper Large-v3 con el decoder podado de 32 capas a 4, y luego ajustado (fine-tuned) para recuperar la precision. El encoder no se toca.

	Large-v3 Turbo	Large-v3
Parametros	809M	1,550M
Capas del decoder	4	32
Idiomas	99	99
Tarea de traduccion	No soportada	Soportada
Licencia	MIT	Apache 2.0

La tarea de traduccion fue excluida explicitamente de los datos de entrenamiento de Turbo. El modelo completo Large-v3 la soporta, pero Whisper Notes solo incluye Turbo — la traduccion se maneja por separado via Apple Intelligence.

Benchmark de velocidad: Whisper Notes en Apple Silicon

En Whisper Notes para Mac, Turbo funciona via CoreML en el Neural Engine. Procesando 10 minutos de audio:

Dispositivo	Whisper V3	V3 Turbo	Aceleracion
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

La aceleracion de 5× es especifica de Whisper Notes en Apple Silicon, donde el decoder mas pequeno se beneficia de la optimizacion del Neural Engine. En GPU con frameworks como faster-whisper, la diferencia se reduce a ~2.7× (ver benchmarks de la comunidad abajo).

Precision: comparacion de WER

El Hugging Face Open ASR Leaderboard prueba ambos modelos en los mismos datasets en ingles. La tasa de error por palabra (WER) de Turbo esta dentro de medio punto de V3 en cada benchmark:

Dataset	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
WER promedio	7.83%	7.44%

V3 es ligeramente mas preciso en cada dataset, pero la diferencia es pequena — 0.39 puntos porcentuales en promedio. Para la mayoria de transcripciones reales, no vas a notar la diferencia.

En la evaluacion de formato largo YouTube-commons (uno de los benchmarks ASR de codigo abierto mas grandes), Turbo obtiene 13.40% WER vs 13.20% de V3 — mientras funciona a un factor de tiempo real de 129.5× vs 55.3×. Eso es 2.3× mas rapido con precision casi identica en audio del mundo real.

Benchmarks de la comunidad: GPU y CPU

Benchmarks independientes de las comunidades de faster-whisper y whisper.cpp muestran resultados consistentes en distintos hardware. Transcribiendo 13 minutos de audio con faster-whisper en GPU:

Modelo	Precision	Tiempo	Memoria GPU	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

Fuente: benchmark de faster-whisper en GPU NVIDIA, split de validacion limpio de LibriSpeech. Turbo int8 usa solo 1.5 GB de VRAM — cabe en una GPU de 2 GB.

La inferencia por lotes en una RTX 3060 Laptop (6 GB VRAM, precision int8) amplifica aun mas la ventaja:

Modelo	Secuencial	Por lotes (10)	WER por lotes
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Fuente: benchmark de NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio en frances, precision int8.

Con procesamiento por lotes, Turbo logra el mejor WER de todos los modelos probados (7.7%) siendo al mismo tiempo el mas rapido. Es el punto optimo indiscutible para uso en produccion.

Limitaciones conocidas (y como Whisper Notes las maneja)

Sin traduccion integrada

Turbo fue entrenado sin datos de traduccion. Solo transcribe en el idioma original — a diferencia de Large-v3, que soporta traduccion audio-a-ingles.

Whisper Notes — Apple Intelligence traduce automaticamente las transcripciones a tu idioma elegido, dandote salida bilingue sin importar que modelo uses.

Mas alucinaciones en audio ruidoso

Reportes de la comunidad indican que Turbo alucina mas en clips muy cortos o grabaciones ruidosas comparado con V3. Esperable dado el decoder reducido (4 capas vs 32).

Whisper Notes — ejecuta Pyannote VAD antes de la transcripcion, detectando segmentos de voz y eliminando silencio/ruido para que el modelo solo procese voz real.

Que modelo deberias usar?

Ingles / Europeos	Parakeet V3 — 10× mas rapido que Whisper, mejor precision
Chino / Japones / Coreano	SenseVoice — disenado para CJK, velocidad 52×
Otros idiomas	Whisper Large V3 Turbo — 99 idiomas, alta precision, mas lento

Descargar para iOS

Descargar para macOS