O Whisper Large-v3 Turbo da OpenAI reduz o decoder de 32 camadas para 4, diminuindo os parâmetros de 1,55B para 809M. O resultado: transcrição 2-5× mais rápida com precisão praticamente idêntica. O Whisper Notes o disponibiliza no Mac com Apple Silicon.
V3 Turbo vs V3: O Que Mudou
O Turbo não é uma nova arquitetura. É exatamente o mesmo modelo Whisper Large-v3 com o decoder podado de 32 camadas para 4, e depois ajustado (fine-tuned) para recuperar a precisão. O encoder permanece intacto.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Parâmetros | 809M | 1,550M |
| Camadas do decoder | 4 | 32 |
| Idiomas | 99 | 99 |
| Tarefa de tradução | Não suportada | Suportada |
| Licença | MIT | Apache 2.0 |
A tarefa de tradução foi explicitamente excluída dos dados de treinamento do Turbo. O modelo completo Large-v3 a suporta, mas o Whisper Notes utiliza apenas o Turbo — a tradução é tratada separadamente via Apple Intelligence.
Benchmark de Velocidade: Whisper Notes no Apple Silicon
No Whisper Notes para Mac, o Turbo roda via CoreML no Neural Engine. Processando 10 minutos de áudio:
| Dispositivo | Whisper V3 | V3 Turbo | Ganho |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
O ganho de 5× é específico do Whisper Notes no Apple Silicon, onde o decoder menor se beneficia da otimização do Neural Engine. Em GPU com frameworks como faster-whisper, a diferença diminui para ~2,7× (veja os benchmarks da comunidade abaixo).
Precisão: Comparação de WER
O Hugging Face Open ASR Leaderboard testa ambos os modelos nos mesmos datasets em inglês. A taxa de erro de palavras (WER) do Turbo fica a menos de meio ponto do V3 em todos os benchmarks:
| Dataset | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| WER Médio | 7.83% | 7.44% |
O V3 é ligeiramente mais preciso em todos os datasets, mas a diferença é pequena — 0,39 pontos percentuais em média. Para a maioria das transcrições do mundo real, você não perceberá a diferença.
Na avaliação de longa duração do YouTube-commons (um dos maiores benchmarks ASR de código aberto), o Turbo alcança 13.40% WER contra 13.20% do V3 — enquanto opera a 129.5× fator de tempo real contra 55.3×. Isso é 2,3× mais rápido com precisão praticamente idêntica em áudio real.
Benchmarks da Comunidade: GPU e CPU
Benchmarks independentes das comunidades faster-whisper e whisper.cpp mostram resultados consistentes em diferentes hardwares. Transcrevendo 13 minutos de áudio com faster-whisper em GPU:
| Modelo | Precisão | Tempo | Memória GPU | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
Fonte: benchmark faster-whisper em GPU NVIDIA, split de validação limpa do LibriSpeech. O Turbo int8 usa apenas 1,5 GB de VRAM — cabe em uma GPU de 2 GB.
Inferência em lote em uma RTX 3060 Laptop (6 GB VRAM, precisão int8) amplia ainda mais a vantagem:
| Modelo | Sequencial | Em lote (10) | WER em lote |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Fonte: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, áudio em francês, precisão int8.
Com processamento em lote, o Turbo alcança o melhor WER entre todos os modelos testados (7,7%) e ao mesmo tempo é o mais rápido. É claramente o ponto ideal para uso em produção.
Limitações Conhecidas (e Como o Whisper Notes as Resolve)
Sem tradução integrada
O Turbo foi treinado sem dados de tradução. Ele transcreve apenas no idioma de origem — ao contrário do Large-v3, que suporta tradução de áudio→inglês.
Whisper Notes — o Apple Intelligence traduz automaticamente as transcrições para o idioma escolhido, proporcionando saída bilíngue independentemente do modelo utilizado.
Mais alucinação em áudio ruidoso
Relatos da comunidade indicam que o Turbo alucina mais em clipes muito curtos ou gravações ruidosas em comparação ao V3. Esperado dado o decoder reduzido (4 camadas vs 32).
Whisper Notes — executa Pyannote VAD antes da transcrição, detectando segmentos de fala e removendo silêncio/ruído para que o modelo processe apenas voz real.
Qual Modelo Você Deve Usar?
| Inglês / Europeu | Parakeet V3 — 10× mais rápido que o Whisper, melhor precisão |
| Chinês / Japonês / Coreano | SenseVoice — feito para CJK, velocidade 52× |
| Outros idiomas | Whisper Large V3 Turbo — 99 idiomas, alta precisão, mais lento |