Whisper Large V3 Turbo vs V3: 5× Mais Rápido no Mac (Benchmark)

O Whisper Large-v3 Turbo da OpenAI reduz o decoder de 32 camadas para 4, diminuindo os parâmetros de 1,55 bilhão para 809M. Em nossos testes no Apple Silicon, ele transcreveu o mesmo áudio cerca de 5× mais rápido com precisão praticamente idêntica. O Whisper Notes traz o modelo no Mac e no iPhone.

Comparação de arquitetura entre Whisper Large V3 Turbo e V3

V3 Turbo vs V3: O Que Mudou

O Turbo não é uma nova arquitetura. É exatamente o mesmo modelo Whisper Large-v3 com o decoder podado de 32 camadas para 4, e depois ajustado (fine-tuned) para recuperar a precisão. O encoder permanece intacto.

	Large-v3 Turbo	Large-v3
Parâmetros	809M	1,550M
Camadas do decoder	4	32
Idiomas	100+	100+
Tarefa de tradução	Não suportada	Suportada
Licença	MIT	Apache 2.0

Método: o mesmo arquivo de áudio de 10 minutos foi transcrito no mesmo build do Whisper Notes em cada dispositivo listado. Os tempos são segundos de relógio do início da transcrição até o texto final; entre o V3 e o Turbo, apenas o modelo mudou.

A tarefa de tradução foi explicitamente excluída dos dados de treinamento do Turbo. O modelo completo Large-v3 a suporta, mas o Whisper Notes utiliza apenas o Turbo — a tradução é tratada separadamente via Apple Intelligence.

O Modelo Base: O Que É o Whisper Large-v3?

O Whisper Large-v3 é o principal modelo open-source de reconhecimento de fala da OpenAI, lançado em novembro de 2023. Ele tem 1,55 bilhão de parâmetros, usa uma entrada de espectrograma de 128 mel-bins, foi treinado com 5 milhões de horas de áudio (1 milhão com rótulos fracos + 4 milhões com pseudo-rótulos) e suporta mais de 100 idiomas, incluindo cantonês. No Open ASR Leaderboard da Hugging Face, ele registra uma taxa média de erro de palavras de ~7,4% — o teto de precisão usado como referência para o Turbo ao longo deste artigo. Para ver como o Large-v3 se compara a todos os outros modelos locais, confira nossa comparação de modelos Whisper.

Benchmark de Velocidade: Whisper Notes no Apple Silicon

No Whisper Notes para Mac, o Turbo roda via CoreML no Neural Engine. Processando 10 minutos de áudio:

Dispositivo	Whisper V3	V3 Turbo	Ganho
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

O ganho de 5× é específico do Whisper Notes no Apple Silicon, onde o decoder menor se beneficia da otimização do Neural Engine. Em GPU com frameworks como faster-whisper, a diferença diminui para ~2,7× (veja os benchmarks da comunidade abaixo).

Precisão: Comparação de WER

O Hugging Face Open ASR Leaderboard testa ambos os modelos nos mesmos datasets em inglês. A taxa de erro de palavras (WER) do Turbo fica a menos de meio ponto do V3 em todos os benchmarks:

Dataset	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
WER Médio	7.83%	7.44%

O V3 é ligeiramente mais preciso em todos os datasets, mas a diferença é pequena — 0,39 pontos percentuais em média. Para a maioria das transcrições do mundo real, você não perceberá a diferença.

Na avaliação de longa duração do YouTube-commons (um dos maiores benchmarks ASR de código aberto), o Turbo alcança 13,40% de WER contra 13,20% do V3 — enquanto opera a um fator de tempo real de 129,5× contra 55,3×. Isso é 2,3× mais rápido com precisão praticamente idêntica em áudio real.

Quão Preciso É o Turbo em Coreano, Russo e Outros Idiomas?

Os benchmarks acima são em inglês. De acordo com o model card da OpenAI, o decoder podado de 4 camadas do Turbo perde um pouco mais de precisão fora do inglês, com a maior degradação em idiomas com poucos recursos. Para russo e a maioria dos idiomas europeus, o Turbo fica perto do Large-v3 completo — e, se você usa o Whisper Notes, o Parakeet V3 cobre russo e outros 24 idiomas europeus a 10× a velocidade do Whisper.

Para coreano, japonês, chinês e cantonês, um modelo especializado é ao mesmo tempo mais rápido e pontua melhor o texto: o SenseVoice transcreve CJK a 52× o tempo real. O Whisper Notes traz o SenseVoice junto com o Turbo tanto no Mac quanto no iOS, então você pode escolher o modelo certo para cada idioma em vez de forçar tudo em um só.

Benchmarks da Comunidade: GPU e CPU

Benchmarks independentes das comunidades faster-whisper e whisper.cpp mostram resultados consistentes em diferentes hardwares. Transcrevendo 13 minutos de áudio com faster-whisper em GPU:

Modelo	Precisão	Tempo	Memória GPU	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

Fonte: benchmark faster-whisper em GPU NVIDIA, split de validação limpa do LibriSpeech. O Turbo int8 usa apenas 1,5 GB de VRAM — cabe em uma GPU de 2 GB.

Inferência em lote em uma RTX 3060 Laptop (6 GB VRAM, precisão int8) amplia ainda mais a vantagem:

Modelo	Sequencial	Em lote (10)	WER em lote
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Fonte: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, áudio em francês, precisão int8.

Com processamento em lote, o Turbo alcança o melhor WER entre todos os modelos testados (7,7%) e ao mesmo tempo é o mais rápido. É claramente o ponto ideal para uso em produção.

Turbo vs Medium vs Todos os Tamanhos do Whisper

Antes do Turbo, o Medium era o meio-termo de sempre: precisão aceitável em velocidade tolerável. O Turbo torna essa troca obsoleta — com 809M de parâmetros, ele é pouco maior que o Medium (769M), mas entrega precisão de classe large com várias vezes a velocidade. Veja a família completa de modelos lado a lado:

Modelo	Parâmetros	Tamanho em disco	Velocidade relativa	Nível de precisão
tiny	39M	~75 MB	~10×	O mais baixo
base	74M	~142 MB	~7×	Baixo
small	244M	~466 MB	~4×	Moderado
medium	769M	~1,5 GB	~2×	Alto
large-v3	1,550M	~2,9 GB	1× (linha de base)	O mais alto
large-v3-turbo	809M	~1,6 GB	~5× no Apple Silicon	Quase o mais alto

Lançado em 30 de setembro de 2024, o Turbo tem 809M de parâmetros. Se você escolhia o Medium para economizar espaço em disco ou ganhar velocidade, o Turbo agora o supera em precisão e em velocidade com praticamente o mesmo tamanho.

Limitações Conhecidas (e Como o Whisper Notes as Resolve)

Sem tradução integrada

O Turbo foi treinado sem dados de tradução. Ele transcreve apenas no idioma de origem — ao contrário do Large-v3, que suporta tradução de áudio→inglês.

Whisper Notes — o Apple Intelligence traduz automaticamente as transcrições para o idioma escolhido, proporcionando saída bilíngue independentemente do modelo utilizado.

Mais alucinação em áudio ruidoso

Relatos da comunidade indicam que o Turbo alucina mais em clipes muito curtos ou gravações ruidosas em comparação ao V3. Esperado dado o decoder reduzido (4 camadas vs 32).

Whisper Notes — executa Pyannote VAD antes da transcrição, detectando segmentos de fala e removendo silêncio/ruído para que o modelo processe apenas voz real.

Qual Modelo Você Deve Usar?

Inglês / idiomas europeus	Parakeet V3 — 10× mais rápido que o Whisper, melhor precisão
Chinês / Japonês / Coreano	SenseVoice — feito para CJK, velocidade 52×
Outros idiomas	Whisper Large V3 Turbo — mais de 100 idiomas, alta precisão, mais lento

Perguntas Frequentes sobre o Whisper Large-v3 Turbo

Qual é a diferença entre o Whisper Large-v3 e o Large-v3 Turbo?

O Large-v3 Turbo mantém o encoder do Large-v3, mas reduz o decoder de 32 camadas para 4. Por isso ele é muito mais rápido, ficando perto da precisão do Large-v3 na transcrição. O preço é que o Turbo não suporta a tarefa de tradução embutida do Whisper.

O faster-whisper suporta o Large-v3 Turbo?

Sim. O faster-whisper suporta o Large-v3 Turbo por meio de conversões CTranslate2, e os benchmarks da comunidade mostram que o Turbo é uma ótima escolha quando a VRAM é limitada. No benchmark acima, o Turbo em int8 usou cerca de 1,5 GB de VRAM.

O whisper.cpp suporta o Large-v3 Turbo?

Sim. O whisper.cpp pode rodar versões convertidas para GGML/GGUF do Whisper Large-v3 Turbo. Se você está montando seu próprio pipeline de transcrição local, o Turbo geralmente cabe em hardware de consumo com mais facilidade que o Large-v3 completo.

Onde posso baixar o openai/whisper-large-v3-turbo?

Os pesos oficiais do modelo estão disponíveis no Hugging Face, publicados pela OpenAI. Usuários do Whisper Notes não precisam baixá-los manualmente: o aplicativo para Mac cuida da configuração do modelo local pela própria interface.

Comparando todas as opções locais? Todos os modelos de fala para texto no dispositivo — as variantes do Whisper, Parakeet V3, SenseVoice e Voxtral — estão comparados lado a lado em nossa página de comparação de modelos Whisper. Novo no Whisper? Comece pelo Guia de Transcrição com Whisper — o que é o modelo, todas as formas de rodá-lo e quanto custa.

Baixar para iOS

Baixar para macOS