O Whisper Large-v3 Turbo da OpenAI reduz o decoder de 32 camadas para 4, diminuindo os parametros de 1.55B para 809M. O resultado: transcricao 2-5× mais rapida com precisao quase identica. Whisper Notes o inclui no Mac com Apple Silicon.
V3 Turbo vs V3: o que mudou
Turbo nao e uma arquitetura nova. E exatamente o mesmo modelo Whisper Large-v3 com o decoder podado de 32 camadas para 4, e depois ajustado (fine-tuned) para recuperar a precisao. O encoder permanece inalterado.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Parametros | 809M | 1,550M |
| Camadas do decoder | 4 | 32 |
| Idiomas | 99 | 99 |
| Tarefa de traducao | Nao suportada | Suportada |
| Licenca | MIT | Apache 2.0 |
A tarefa de traducao foi explicitamente excluida dos dados de treinamento do Turbo. O modelo completo Large-v3 a suporta, mas Whisper Notes inclui apenas o Turbo — a traducao e gerida separadamente via Apple Intelligence.
Benchmark de velocidade: Whisper Notes no Apple Silicon
No Whisper Notes para Mac, Turbo funciona via CoreML no Neural Engine. Processando 10 minutos de audio:
| Dispositivo | Whisper V3 | V3 Turbo | Aceleracao |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
A aceleracao de 5× e especifica do Whisper Notes no Apple Silicon, onde o decoder menor se beneficia da otimizacao do Neural Engine. Em GPU com frameworks como faster-whisper, a diferenca se reduz para ~2.7× (veja benchmarks da comunidade abaixo).
Precisao: comparacao de WER
O Hugging Face Open ASR Leaderboard testa ambos os modelos nos mesmos datasets em ingles. A taxa de erro por palavra (WER) do Turbo esta dentro de meio ponto do V3 em cada benchmark:
| Dataset | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| WER medio | 7.83% | 7.44% |
V3 e ligeiramente mais preciso em cada dataset, mas a diferenca e pequena — 0.39 pontos percentuais em media. Para a maioria das transcricoes reais, voce nao vai notar a diferenca.
Na avaliacao de formato longo YouTube-commons (um dos maiores benchmarks ASR de codigo aberto), Turbo obtem 13.40% de WER vs 13.20% do V3 — enquanto funciona a um fator de tempo real de 129.5× vs 55.3×. Isso e 2.3× mais rapido com precisao quase identica em audio do mundo real.
Benchmarks da comunidade: GPU e CPU
Benchmarks independentes das comunidades de faster-whisper e whisper.cpp mostram resultados consistentes em diferentes hardwares. Transcrevendo 13 minutos de audio com faster-whisper em GPU:
| Modelo | Precisao | Tempo | Memoria GPU | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
Fonte: benchmark de faster-whisper em GPU NVIDIA, split de validacao limpo do LibriSpeech. Turbo int8 usa apenas 1.5 GB de VRAM — cabe em uma GPU de 2 GB.
A inferencia em lote em uma RTX 3060 Laptop (6 GB VRAM, precisao int8) amplifica ainda mais a vantagem:
| Modelo | Sequencial | Em lote (10) | WER em lote |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Fonte: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio em frances, precisao int8.
Com processamento em lote, Turbo alcanca o melhor WER de todos os modelos testados (7.7%) sendo ao mesmo tempo o mais rapido. E o ponto ideal indiscutivel para uso em producao.
Limitacoes conhecidas (e como Whisper Notes as resolve)
Sem traducao integrada
Turbo foi treinado sem dados de traducao. Ele so transcreve no idioma de origem — ao contrario do Large-v3, que suporta traducao audio-para-ingles.
Whisper Notes — Apple Intelligence traduz automaticamente as transcricoes para o idioma escolhido, oferecendo saida bilingue independentemente do modelo usado.
Mais alucinacoes em audio ruidoso
Relatos da comunidade indicam que Turbo alucina mais em clips muito curtos ou gravacoes ruidosas comparado com V3. Esperavel dado o decoder reduzido (4 camadas vs 32).
Whisper Notes — executa Pyannote VAD antes da transcricao, detectando segmentos de fala e eliminando silencio/ruido para que o modelo so processe voz real.
Qual modelo voce deve usar?
| Ingles / Europeus | Parakeet V3 — 10× mais rapido que Whisper, melhor precisao |
| Chines / Japones / Coreano | SenseVoice — projetado para CJK, velocidade 52× |
| Outros idiomas | Whisper Large V3 Turbo — 99 idiomas, alta precisao, mais lento |