Whisper Large V3 Turbo vs V3: 5× Mais Rápido no Mac (Benchmark)

6 de novembro de 2024
·
6 min read
·Whisper Notes Team

O Whisper Large-v3 Turbo da OpenAI reduz o decoder de 32 camadas para 4, diminuindo os parametros de 1.55B para 809M. O resultado: transcricao 2-5× mais rapida com precisao quase identica. Whisper Notes o inclui no Mac com Apple Silicon.

Comparacao de arquitetura Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: o que mudou

Turbo nao e uma arquitetura nova. E exatamente o mesmo modelo Whisper Large-v3 com o decoder podado de 32 camadas para 4, e depois ajustado (fine-tuned) para recuperar a precisao. O encoder permanece inalterado.

Large-v3 Turbo Large-v3
Parametros 809M 1,550M
Camadas do decoder 4 32
Idiomas 99 99
Tarefa de traducao Nao suportada Suportada
Licenca MIT Apache 2.0

A tarefa de traducao foi explicitamente excluida dos dados de treinamento do Turbo. O modelo completo Large-v3 a suporta, mas Whisper Notes inclui apenas o Turbo — a traducao e gerida separadamente via Apple Intelligence.

Benchmark de velocidade: Whisper Notes no Apple Silicon

No Whisper Notes para Mac, Turbo funciona via CoreML no Neural Engine. Processando 10 minutos de audio:

Dispositivo Whisper V3 V3 Turbo Aceleracao
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

A aceleracao de 5× e especifica do Whisper Notes no Apple Silicon, onde o decoder menor se beneficia da otimizacao do Neural Engine. Em GPU com frameworks como faster-whisper, a diferenca se reduz para ~2.7× (veja benchmarks da comunidade abaixo).

Precisao: comparacao de WER

O Hugging Face Open ASR Leaderboard testa ambos os modelos nos mesmos datasets em ingles. A taxa de erro por palavra (WER) do Turbo esta dentro de meio ponto do V3 em cada benchmark:

Dataset V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
WER medio 7.83% 7.44%

V3 e ligeiramente mais preciso em cada dataset, mas a diferenca e pequena — 0.39 pontos percentuais em media. Para a maioria das transcricoes reais, voce nao vai notar a diferenca.

Na avaliacao de formato longo YouTube-commons (um dos maiores benchmarks ASR de codigo aberto), Turbo obtem 13.40% de WER vs 13.20% do V3 — enquanto funciona a um fator de tempo real de 129.5× vs 55.3×. Isso e 2.3× mais rapido com precisao quase identica em audio do mundo real.

Benchmarks da comunidade: GPU e CPU

Benchmarks independentes das comunidades de faster-whisper e whisper.cpp mostram resultados consistentes em diferentes hardwares. Transcrevendo 13 minutos de audio com faster-whisper em GPU:

Modelo Precisao Tempo Memoria GPU WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Fonte: benchmark de faster-whisper em GPU NVIDIA, split de validacao limpo do LibriSpeech. Turbo int8 usa apenas 1.5 GB de VRAM — cabe em uma GPU de 2 GB.

A inferencia em lote em uma RTX 3060 Laptop (6 GB VRAM, precisao int8) amplifica ainda mais a vantagem:

Modelo Sequencial Em lote (10) WER em lote
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Fonte: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio em frances, precisao int8.

Com processamento em lote, Turbo alcanca o melhor WER de todos os modelos testados (7.7%) sendo ao mesmo tempo o mais rapido. E o ponto ideal indiscutivel para uso em producao.

Limitacoes conhecidas (e como Whisper Notes as resolve)

Sem traducao integrada

Turbo foi treinado sem dados de traducao. Ele so transcreve no idioma de origem — ao contrario do Large-v3, que suporta traducao audio-para-ingles.

Whisper Notes — Apple Intelligence traduz automaticamente as transcricoes para o idioma escolhido, oferecendo saida bilingue independentemente do modelo usado.

Mais alucinacoes em audio ruidoso

Relatos da comunidade indicam que Turbo alucina mais em clips muito curtos ou gravacoes ruidosas comparado com V3. Esperavel dado o decoder reduzido (4 camadas vs 32).

Whisper Notes — executa Pyannote VAD antes da transcricao, detectando segmentos de fala e eliminando silencio/ruido para que o modelo so processe voz real.

Qual modelo voce deve usar?

Ingles / Europeus Parakeet V3 — 10× mais rapido que Whisper, melhor precisao
Chines / Japones / Coreano SenseVoice — projetado para CJK, velocidade 52×
Outros idiomas Whisper Large V3 Turbo — 99 idiomas, alta precisao, mais lento