Transcrição Whisper: Modelos, Velocidade e Como Usar Offline (Guia 2026)

2 de julho de 2026
·
9 min read
·Whisper Notes Team

Transcrição Whisper significa converter voz em texto com o Whisper da OpenAI — um modelo de IA de código aberto que pode correr na nuvem, num servidor ou inteiramente no seu próprio dispositivo. Este guia explica como o Whisper funciona, que tamanho de modelo escolher, quão preciso é realmente e a forma mais rápida de o executar offline num Mac ou iPhone.

O que é o Whisper, exatamente?

O Whisper é um modelo de reconhecimento automático de fala (ASR) que a OpenAI lançou em setembro de 2022 sob a licença MIT. É um transformer encoder-decoder treinado com mais de 680.000 horas de áudio multilingue, capaz de transcrever em cerca de 100 idiomas e ainda traduzir para inglês.

A parte que lhe interessa: os pesos do modelo são abertos. Ao contrário das APIs de voz da Google ou da Amazon, o Whisper não tem de correr no servidor de outra pessoa. Existe todo um ecossistema para o executar localmente — whisper.cpp, faster-whisper e aplicações nativas como o Whisper Notes. É isso que torna possível uma transcrição verdadeiramente offline e privada.

Tamanhos do modelo Whisper: qual escolher

O Whisper existe em seis tamanhos principais. Maior significa mais preciso e mais lento:

Modelo Parâmetros Velocidade Ideal para
tiny 39M O mais rápido Rascunhos rápidos, hardware fraco
base 74M Muito rápido Áudio simples e limpo
small 244M Rápido Bom equilíbrio velocidade/precisão em dispositivos móveis
medium 769M Moderado Raramente a escolha certa hoje em dia
large-v3 1.55B O mais lento Precisão máxima, áudio difícil
large-v3-turbo 809M ~5x mais rápido que o large-v3 A escolha padrão em 2026

Para quase toda a gente, a resposta é large-v3-turbo: mantém o encoder do large-v3 mas reduz as camadas do decoder de 32 para 4, oferecendo uma precisão quase idêntica com uma fração da computação. Fizemos benchmarks detalhados em Whisper Large V3 Turbo vs V3.

Quão precisa é a transcrição Whisper?

Com áudio limpo em inglês, os modelos grandes atingem uma taxa de erro de palavras (WER) de cerca de 5-8% — comparável à transcrição humana profissional para a maioria dos fins práticos. A precisão diminui com ruído de fundo, sotaques fortes, vozes sobrepostas e idiomas com poucos recursos.

O modo de falha mais famoso do Whisper: alucinações durante o silêncio. O seu decoder autorregressivo por vezes inventa frases repetidas ou créditos de legendas quando ninguém está a falar. Os modelos mais recentes corrigem isto — o Parakeet V3 da NVIDIA foi explicitamente treinado com áudio sem fala e não produz nenhuma alucinação nos nossos testes (benchmark completo Parakeet V3 vs Whisper).

Para chinês, japonês, coreano e cantonês, um modelo especializado supera o Whisper tanto em velocidade como em pontuação: veja SenseVoice vs Whisper para idiomas CJK.

5 formas de executar a transcrição Whisper

Método Custo Privacidade Configuração
API da OpenAI Pago por minuto de áudio Áudio enviado Chave de API + código
openai-whisper (Python de referência) Grátis 100% local Ambiente Python, GPU recomendada
whisper.cpp / faster-whisper Grátis 100% local Linha de comandos
Aplicação nativa (Whisper Notes) $6.99 uma única vez, teste grátis no Mac 100% no dispositivo Nenhuma
Ferramentas de demonstração na web Planos gratuitos Áudio enviado Nenhuma

A regra prática: se vive no terminal, o faster-whisper é excelente. Se está a construir um produto, a API faz sentido. Se só quer as suas gravações transcritas em privado sem tocar em Python, use uma aplicação nativa — é exatamente por isso que as aplicações Whisper para Mac existem.

Quer comparar ferramentas offline de forma mais ampla — incluindo opções para Windows e Android? Veja o nosso guia completo de conversão de voz em texto offline.

Whisper vs modelos locais mais recentes (2026)

O Whisper deu início à era da transcrição local, mas já não está sozinho. Velocidades abaixo medidas num Mac M4 Pro:

Modelo Idiomas Velocidade Destaque
Whisper Large V3 Turbo 100+ ~12x tempo real A maior cobertura de idiomas
Parakeet V3 25 (europeus) ~100x tempo real 6,32% de WER, sem alucinações no silêncio
SenseVoice Small zh, ja, ko, yue, en ~52x tempo real O melhor para chinês, japonês, coreano

Os três correm localmente no Whisper Notes, e pode alternar entre eles em cada gravação. Os benchmarks lado a lado estão na nossa página de comparação de modelos Whisper.

Como executar a transcrição Whisper offline no Mac e no iPhone

Sem linha de comandos, sem Python, sem nuvem:

  1. Transfira o Whisper Notes para Mac (teste grátis) ou para iPhone ($6.99, pagamento único).
  2. Escolha um modelo: Whisper Large V3 Turbo para ampla cobertura de idiomas, Parakeet V3 para velocidade em inglês, SenseVoice para CJK. O download é feito uma vez e depois funciona para sempre offline.
  3. Grave diretamente, dite em qualquer aplicação mantendo premida a tecla Fn, ou arraste ficheiros de áudio e vídeo (MP3, WAV, M4A, MP4).
  4. O texto vai aparecendo à medida que é processado. Exporte como TXT ou SRT.

Cético quanto ao "offline"? Ative primeiro o modo de avião. A transcrição corre à velocidade máxima — nada é enviado, nunca.

Quão precisa é a transcrição Whisper em português? Que modelo escolher?

Para áudio em português, a resposta curta é Parakeet V3 — o modelo padrão do Whisper Notes no Mac e no iPhone. Cobre 25 idiomas europeus, incluindo o português, transcreve na classe dos 6,32% de WER e é cerca de 10x mais rápido que o Whisper. Se as suas gravações misturarem idiomas que o Parakeet não cobre, mude para o Whisper Large V3 Turbo (~1,5 GB, mais de 100 idiomas) — pode alternar entre modelos em cada gravação, tudo 100% no dispositivo.

Perguntas frequentes

A transcrição Whisper é gratuita?

O modelo em si é gratuito e de código aberto (licença MIT). Executá-lo com ferramentas de linha de comandos como o whisper.cpp não custa nada, mas exige configuração. A API da OpenAI cobra por minuto de áudio. As aplicações nativas empacotam os modelos por um valor pequeno — o Whisper Notes custa $6.99 uma única vez, com teste grátis no Mac.

A transcrição Whisper funciona offline?

Sim — é essa a vantagem dos pesos abertos. Assim que o ficheiro do modelo está no seu dispositivo, não é precisa internet. O Whisper Notes executa o Whisper Large V3 Turbo em Apple Silicon via CoreML/Metal, totalmente offline. Pode confirmar com o modo de avião.

Qual é o modelo Whisper mais preciso?

O large-v3 tem a melhor precisão bruta. O large-v3-turbo iguala-o com uma diferença de WER de frações de ponto percentual, sendo cerca de 5x mais rápido — é por isso que é hoje o padrão na maioria das ferramentas.

O Whisper suporta o meu idioma?

O Whisper cobre cerca de 100 idiomas, com melhor desempenho nos de muitos recursos (inglês, espanhol, alemão, francês, etc.). Para chinês, japonês, coreano e cantonês, o SenseVoice oferece melhor pontuação e muito mais velocidade em Apple Silicon.

Existe uma aplicação de transcrição Whisper para iPhone?

Sim. O Whisper Notes executa modelos Whisper otimizados para o Neural Engine do iPhone (iPhone 12 e mais recentes) — grave, importe do Voice Memos ou da aplicação Ficheiros e transcreva inteiramente no dispositivo por $6.99, sem subscrição.