Whisper Large V3 Turbo vs V3: 5× Mais Rápido no Mac (Benchmark)

O Whisper Large-v3 Turbo da OpenAI reduz o decoder de 32 camadas para 4, diminuindo os parametros de 1.55B para 809M. O resultado: transcricao 2-5× mais rapida com precisao quase identica. Whisper Notes o inclui no Mac com Apple Silicon.

Comparacao de arquitetura Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: o que mudou

Turbo nao e uma arquitetura nova. E exatamente o mesmo modelo Whisper Large-v3 com o decoder podado de 32 camadas para 4, e depois ajustado (fine-tuned) para recuperar a precisao. O encoder permanece inalterado.

	Large-v3 Turbo	Large-v3
Parametros	809M	1,550M
Camadas do decoder	4	32
Idiomas	99	99
Tarefa de traducao	Nao suportada	Suportada
Licenca	MIT	Apache 2.0

A tarefa de traducao foi explicitamente excluida dos dados de treinamento do Turbo. O modelo completo Large-v3 a suporta, mas Whisper Notes inclui apenas o Turbo — a traducao e gerida separadamente via Apple Intelligence.

Benchmark de velocidade: Whisper Notes no Apple Silicon

No Whisper Notes para Mac, Turbo funciona via CoreML no Neural Engine. Processando 10 minutos de audio:

Dispositivo	Whisper V3	V3 Turbo	Aceleracao
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

A aceleracao de 5× e especifica do Whisper Notes no Apple Silicon, onde o decoder menor se beneficia da otimizacao do Neural Engine. Em GPU com frameworks como faster-whisper, a diferenca se reduz para ~2.7× (veja benchmarks da comunidade abaixo).

Precisao: comparacao de WER

O Hugging Face Open ASR Leaderboard testa ambos os modelos nos mesmos datasets em ingles. A taxa de erro por palavra (WER) do Turbo esta dentro de meio ponto do V3 em cada benchmark:

Dataset	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
WER medio	7.83%	7.44%

V3 e ligeiramente mais preciso em cada dataset, mas a diferenca e pequena — 0.39 pontos percentuais em media. Para a maioria das transcricoes reais, voce nao vai notar a diferenca.

Na avaliacao de formato longo YouTube-commons (um dos maiores benchmarks ASR de codigo aberto), Turbo obtem 13.40% de WER vs 13.20% do V3 — enquanto funciona a um fator de tempo real de 129.5× vs 55.3×. Isso e 2.3× mais rapido com precisao quase identica em audio do mundo real.

Benchmarks da comunidade: GPU e CPU

Benchmarks independentes das comunidades de faster-whisper e whisper.cpp mostram resultados consistentes em diferentes hardwares. Transcrevendo 13 minutos de audio com faster-whisper em GPU:

Modelo	Precisao	Tempo	Memoria GPU	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

Fonte: benchmark de faster-whisper em GPU NVIDIA, split de validacao limpo do LibriSpeech. Turbo int8 usa apenas 1.5 GB de VRAM — cabe em uma GPU de 2 GB.

A inferencia em lote em uma RTX 3060 Laptop (6 GB VRAM, precisao int8) amplifica ainda mais a vantagem:

Modelo	Sequencial	Em lote (10)	WER em lote
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Fonte: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio em frances, precisao int8.

Com processamento em lote, Turbo alcanca o melhor WER de todos os modelos testados (7.7%) sendo ao mesmo tempo o mais rapido. E o ponto ideal indiscutivel para uso em producao.

Limitacoes conhecidas (e como Whisper Notes as resolve)

Sem traducao integrada

Turbo foi treinado sem dados de traducao. Ele so transcreve no idioma de origem — ao contrario do Large-v3, que suporta traducao audio-para-ingles.

Whisper Notes — Apple Intelligence traduz automaticamente as transcricoes para o idioma escolhido, oferecendo saida bilingue independentemente do modelo usado.

Mais alucinacoes em audio ruidoso

Relatos da comunidade indicam que Turbo alucina mais em clips muito curtos ou gravacoes ruidosas comparado com V3. Esperavel dado o decoder reduzido (4 camadas vs 32).

Whisper Notes — executa Pyannote VAD antes da transcricao, detectando segmentos de fala e eliminando silencio/ruido para que o modelo so processe voz real.

Qual modelo voce deve usar?

Ingles / Europeus	Parakeet V3 — 10× mais rapido que Whisper, melhor precisao
Chines / Japones / Coreano	SenseVoice — projetado para CJK, velocidade 52×
Outros idiomas	Whisper Large V3 Turbo — 99 idiomas, alta precisao, mais lento

Baixar para iOS

Baixar para macOS