Whisper Large V3 Turbo vs V3: 5× Más Rápido en Mac (Benchmark)

6 de noviembre de 2024
·
6 min read
·Whisper Notes Team

El Whisper Large-v3 Turbo de OpenAI reduce el decoder de 32 capas a 4, bajando los parametros de 1.55B a 809M. El resultado: transcripcion 2-5× mas rapida con precision casi identica. Whisper Notes lo incluye en Mac con Apple Silicon.

Comparacion de arquitectura Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: que cambio

Turbo no es una arquitectura nueva. Es exactamente el mismo modelo Whisper Large-v3 con el decoder podado de 32 capas a 4, y luego ajustado (fine-tuned) para recuperar la precision. El encoder no se toca.

Large-v3 Turbo Large-v3
Parametros 809M 1,550M
Capas del decoder 4 32
Idiomas 99 99
Tarea de traduccion No soportada Soportada
Licencia MIT Apache 2.0

La tarea de traduccion fue excluida explicitamente de los datos de entrenamiento de Turbo. El modelo completo Large-v3 la soporta, pero Whisper Notes solo incluye Turbo — la traduccion se maneja por separado via Apple Intelligence.

Benchmark de velocidad: Whisper Notes en Apple Silicon

En Whisper Notes para Mac, Turbo funciona via CoreML en el Neural Engine. Procesando 10 minutos de audio:

Dispositivo Whisper V3 V3 Turbo Aceleracion
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

La aceleracion de 5× es especifica de Whisper Notes en Apple Silicon, donde el decoder mas pequeno se beneficia de la optimizacion del Neural Engine. En GPU con frameworks como faster-whisper, la diferencia se reduce a ~2.7× (ver benchmarks de la comunidad abajo).

Precision: comparacion de WER

El Hugging Face Open ASR Leaderboard prueba ambos modelos en los mismos datasets en ingles. La tasa de error por palabra (WER) de Turbo esta dentro de medio punto de V3 en cada benchmark:

Dataset V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
WER promedio 7.83% 7.44%

V3 es ligeramente mas preciso en cada dataset, pero la diferencia es pequena — 0.39 puntos porcentuales en promedio. Para la mayoria de transcripciones reales, no vas a notar la diferencia.

En la evaluacion de formato largo YouTube-commons (uno de los benchmarks ASR de codigo abierto mas grandes), Turbo obtiene 13.40% WER vs 13.20% de V3 — mientras funciona a un factor de tiempo real de 129.5× vs 55.3×. Eso es 2.3× mas rapido con precision casi identica en audio del mundo real.

Benchmarks de la comunidad: GPU y CPU

Benchmarks independientes de las comunidades de faster-whisper y whisper.cpp muestran resultados consistentes en distintos hardware. Transcribiendo 13 minutos de audio con faster-whisper en GPU:

Modelo Precision Tiempo Memoria GPU WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Fuente: benchmark de faster-whisper en GPU NVIDIA, split de validacion limpio de LibriSpeech. Turbo int8 usa solo 1.5 GB de VRAM — cabe en una GPU de 2 GB.

La inferencia por lotes en una RTX 3060 Laptop (6 GB VRAM, precision int8) amplifica aun mas la ventaja:

Modelo Secuencial Por lotes (10) WER por lotes
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Fuente: benchmark de NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio en frances, precision int8.

Con procesamiento por lotes, Turbo logra el mejor WER de todos los modelos probados (7.7%) siendo al mismo tiempo el mas rapido. Es el punto optimo indiscutible para uso en produccion.

Limitaciones conocidas (y como Whisper Notes las maneja)

Sin traduccion integrada

Turbo fue entrenado sin datos de traduccion. Solo transcribe en el idioma original — a diferencia de Large-v3, que soporta traduccion audio-a-ingles.

Whisper Notes — Apple Intelligence traduce automaticamente las transcripciones a tu idioma elegido, dandote salida bilingue sin importar que modelo uses.

Mas alucinaciones en audio ruidoso

Reportes de la comunidad indican que Turbo alucina mas en clips muy cortos o grabaciones ruidosas comparado con V3. Esperable dado el decoder reducido (4 capas vs 32).

Whisper Notes — ejecuta Pyannote VAD antes de la transcripcion, detectando segmentos de voz y eliminando silencio/ruido para que el modelo solo procese voz real.

Que modelo deberias usar?

Ingles / Europeos Parakeet V3 — 10× mas rapido que Whisper, mejor precision
Chino / Japones / Coreano SenseVoice — disenado para CJK, velocidad 52×
Otros idiomas Whisper Large V3 Turbo — 99 idiomas, alta precision, mas lento