Whisper Large V3 Turbo vs V3: 5× Mais Rápido no Mac (Benchmark)

6 de novembro de 2024
·
6 min read
·Whisper Notes Team

O Whisper Large-v3 Turbo da OpenAI reduz o decoder de 32 camadas para 4, diminuindo os parâmetros de 1,55B para 809M. O resultado: transcrição 2-5× mais rápida com precisão praticamente idêntica. O Whisper Notes o disponibiliza no Mac com Apple Silicon.

Comparação de arquitetura entre Whisper Large V3 Turbo e V3

V3 Turbo vs V3: O Que Mudou

O Turbo não é uma nova arquitetura. É exatamente o mesmo modelo Whisper Large-v3 com o decoder podado de 32 camadas para 4, e depois ajustado (fine-tuned) para recuperar a precisão. O encoder permanece intacto.

Large-v3 Turbo Large-v3
Parâmetros 809M 1,550M
Camadas do decoder 4 32
Idiomas 99 99
Tarefa de tradução Não suportada Suportada
Licença MIT Apache 2.0

A tarefa de tradução foi explicitamente excluída dos dados de treinamento do Turbo. O modelo completo Large-v3 a suporta, mas o Whisper Notes utiliza apenas o Turbo — a tradução é tratada separadamente via Apple Intelligence.

Benchmark de Velocidade: Whisper Notes no Apple Silicon

No Whisper Notes para Mac, o Turbo roda via CoreML no Neural Engine. Processando 10 minutos de áudio:

Dispositivo Whisper V3 V3 Turbo Ganho
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

O ganho de 5× é específico do Whisper Notes no Apple Silicon, onde o decoder menor se beneficia da otimização do Neural Engine. Em GPU com frameworks como faster-whisper, a diferença diminui para ~2,7× (veja os benchmarks da comunidade abaixo).

Precisão: Comparação de WER

O Hugging Face Open ASR Leaderboard testa ambos os modelos nos mesmos datasets em inglês. A taxa de erro de palavras (WER) do Turbo fica a menos de meio ponto do V3 em todos os benchmarks:

Dataset V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
WER Médio 7.83% 7.44%

O V3 é ligeiramente mais preciso em todos os datasets, mas a diferença é pequena — 0,39 pontos percentuais em média. Para a maioria das transcrições do mundo real, você não perceberá a diferença.

Na avaliação de longa duração do YouTube-commons (um dos maiores benchmarks ASR de código aberto), o Turbo alcança 13.40% WER contra 13.20% do V3 — enquanto opera a 129.5× fator de tempo real contra 55.3×. Isso é 2,3× mais rápido com precisão praticamente idêntica em áudio real.

Benchmarks da Comunidade: GPU e CPU

Benchmarks independentes das comunidades faster-whisper e whisper.cpp mostram resultados consistentes em diferentes hardwares. Transcrevendo 13 minutos de áudio com faster-whisper em GPU:

Modelo Precisão Tempo Memória GPU WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Fonte: benchmark faster-whisper em GPU NVIDIA, split de validação limpa do LibriSpeech. O Turbo int8 usa apenas 1,5 GB de VRAM — cabe em uma GPU de 2 GB.

Inferência em lote em uma RTX 3060 Laptop (6 GB VRAM, precisão int8) amplia ainda mais a vantagem:

Modelo Sequencial Em lote (10) WER em lote
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Fonte: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, áudio em francês, precisão int8.

Com processamento em lote, o Turbo alcança o melhor WER entre todos os modelos testados (7,7%) e ao mesmo tempo é o mais rápido. É claramente o ponto ideal para uso em produção.

Limitações Conhecidas (e Como o Whisper Notes as Resolve)

Sem tradução integrada

O Turbo foi treinado sem dados de tradução. Ele transcreve apenas no idioma de origem — ao contrário do Large-v3, que suporta tradução de áudio→inglês.

Whisper Notes — o Apple Intelligence traduz automaticamente as transcrições para o idioma escolhido, proporcionando saída bilíngue independentemente do modelo utilizado.

Mais alucinação em áudio ruidoso

Relatos da comunidade indicam que o Turbo alucina mais em clipes muito curtos ou gravações ruidosas em comparação ao V3. Esperado dado o decoder reduzido (4 camadas vs 32).

Whisper Notes — executa Pyannote VAD antes da transcrição, detectando segmentos de fala e removendo silêncio/ruído para que o modelo processe apenas voz real.

Qual Modelo Você Deve Usar?

Inglês / Europeu Parakeet V3 — 10× mais rápido que o Whisper, melhor precisão
Chinês / Japonês / Coreano SenseVoice — feito para CJK, velocidade 52×
Outros idiomas Whisper Large V3 Turbo — 99 idiomas, alta precisão, mais lento