Transcrição Whisper significa converter voz em texto com o Whisper da OpenAI — um modelo de IA de código aberto que pode correr na nuvem, num servidor ou inteiramente no seu próprio dispositivo. Este guia explica como o Whisper funciona, que tamanho de modelo escolher, quão preciso é realmente e a forma mais rápida de o executar offline num Mac ou iPhone.
O que é o Whisper, exatamente?
O Whisper é um modelo de reconhecimento automático de fala (ASR) que a OpenAI lançou em setembro de 2022 sob a licença MIT. É um transformer encoder-decoder treinado com mais de 680.000 horas de áudio multilingue, capaz de transcrever em cerca de 100 idiomas e ainda traduzir para inglês.
A parte que lhe interessa: os pesos do modelo são abertos. Ao contrário das APIs de voz da Google ou da Amazon, o Whisper não tem de correr no servidor de outra pessoa. Existe todo um ecossistema para o executar localmente — whisper.cpp, faster-whisper e aplicações nativas como o Whisper Notes. É isso que torna possível uma transcrição verdadeiramente offline e privada.
Tamanhos do modelo Whisper: qual escolher
O Whisper existe em seis tamanhos principais. Maior significa mais preciso e mais lento:
| Modelo | Parâmetros | Velocidade | Ideal para |
|---|---|---|---|
| tiny | 39M | O mais rápido | Rascunhos rápidos, hardware fraco |
| base | 74M | Muito rápido | Áudio simples e limpo |
| small | 244M | Rápido | Bom equilíbrio velocidade/precisão em dispositivos móveis |
| medium | 769M | Moderado | Raramente a escolha certa hoje em dia |
| large-v3 | 1.55B | O mais lento | Precisão máxima, áudio difícil |
| large-v3-turbo | 809M | ~5x mais rápido que o large-v3 | A escolha padrão em 2026 |
Para quase toda a gente, a resposta é large-v3-turbo: mantém o encoder do large-v3 mas reduz as camadas do decoder de 32 para 4, oferecendo uma precisão quase idêntica com uma fração da computação. Fizemos benchmarks detalhados em Whisper Large V3 Turbo vs V3.
Quão precisa é a transcrição Whisper?
Com áudio limpo em inglês, os modelos grandes atingem uma taxa de erro de palavras (WER) de cerca de 5-8% — comparável à transcrição humana profissional para a maioria dos fins práticos. A precisão diminui com ruído de fundo, sotaques fortes, vozes sobrepostas e idiomas com poucos recursos.
O modo de falha mais famoso do Whisper: alucinações durante o silêncio. O seu decoder autorregressivo por vezes inventa frases repetidas ou créditos de legendas quando ninguém está a falar. Os modelos mais recentes corrigem isto — o Parakeet V3 da NVIDIA foi explicitamente treinado com áudio sem fala e não produz nenhuma alucinação nos nossos testes (benchmark completo Parakeet V3 vs Whisper).
Para chinês, japonês, coreano e cantonês, um modelo especializado supera o Whisper tanto em velocidade como em pontuação: veja SenseVoice vs Whisper para idiomas CJK.
5 formas de executar a transcrição Whisper
| Método | Custo | Privacidade | Configuração |
|---|---|---|---|
| API da OpenAI | Pago por minuto de áudio | Áudio enviado | Chave de API + código |
| openai-whisper (Python de referência) | Grátis | 100% local | Ambiente Python, GPU recomendada |
| whisper.cpp / faster-whisper | Grátis | 100% local | Linha de comandos |
| Aplicação nativa (Whisper Notes) | $6.99 uma única vez, teste grátis no Mac | 100% no dispositivo | Nenhuma |
| Ferramentas de demonstração na web | Planos gratuitos | Áudio enviado | Nenhuma |
A regra prática: se vive no terminal, o faster-whisper é excelente. Se está a construir um produto, a API faz sentido. Se só quer as suas gravações transcritas em privado sem tocar em Python, use uma aplicação nativa — é exatamente por isso que as aplicações Whisper para Mac existem.
Quer comparar ferramentas offline de forma mais ampla — incluindo opções para Windows e Android? Veja o nosso guia completo de conversão de voz em texto offline.
Whisper vs modelos locais mais recentes (2026)
O Whisper deu início à era da transcrição local, mas já não está sozinho. Velocidades abaixo medidas num Mac M4 Pro:
| Modelo | Idiomas | Velocidade | Destaque |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x tempo real | A maior cobertura de idiomas |
| Parakeet V3 | 25 (europeus) | ~100x tempo real | 6,32% de WER, sem alucinações no silêncio |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x tempo real | O melhor para chinês, japonês, coreano |
Os três correm localmente no Whisper Notes, e pode alternar entre eles em cada gravação. Os benchmarks lado a lado estão na nossa página de comparação de modelos Whisper.
Como executar a transcrição Whisper offline no Mac e no iPhone
Sem linha de comandos, sem Python, sem nuvem:
- Transfira o Whisper Notes para Mac (teste grátis) ou para iPhone ($6.99, pagamento único).
- Escolha um modelo: Whisper Large V3 Turbo para ampla cobertura de idiomas, Parakeet V3 para velocidade em inglês, SenseVoice para CJK. O download é feito uma vez e depois funciona para sempre offline.
- Grave diretamente, dite em qualquer aplicação mantendo premida a tecla Fn, ou arraste ficheiros de áudio e vídeo (MP3, WAV, M4A, MP4).
- O texto vai aparecendo à medida que é processado. Exporte como TXT ou SRT.
Cético quanto ao "offline"? Ative primeiro o modo de avião. A transcrição corre à velocidade máxima — nada é enviado, nunca.
Quão precisa é a transcrição Whisper em português? Que modelo escolher?
Para áudio em português, a resposta curta é Parakeet V3 — o modelo padrão do Whisper Notes no Mac e no iPhone. Cobre 25 idiomas europeus, incluindo o português, transcreve na classe dos 6,32% de WER e é cerca de 10x mais rápido que o Whisper. Se as suas gravações misturarem idiomas que o Parakeet não cobre, mude para o Whisper Large V3 Turbo (~1,5 GB, mais de 100 idiomas) — pode alternar entre modelos em cada gravação, tudo 100% no dispositivo.
Perguntas frequentes
A transcrição Whisper é gratuita?
O modelo em si é gratuito e de código aberto (licença MIT). Executá-lo com ferramentas de linha de comandos como o whisper.cpp não custa nada, mas exige configuração. A API da OpenAI cobra por minuto de áudio. As aplicações nativas empacotam os modelos por um valor pequeno — o Whisper Notes custa $6.99 uma única vez, com teste grátis no Mac.
A transcrição Whisper funciona offline?
Sim — é essa a vantagem dos pesos abertos. Assim que o ficheiro do modelo está no seu dispositivo, não é precisa internet. O Whisper Notes executa o Whisper Large V3 Turbo em Apple Silicon via CoreML/Metal, totalmente offline. Pode confirmar com o modo de avião.
Qual é o modelo Whisper mais preciso?
O large-v3 tem a melhor precisão bruta. O large-v3-turbo iguala-o com uma diferença de WER de frações de ponto percentual, sendo cerca de 5x mais rápido — é por isso que é hoje o padrão na maioria das ferramentas.
O Whisper suporta o meu idioma?
O Whisper cobre cerca de 100 idiomas, com melhor desempenho nos de muitos recursos (inglês, espanhol, alemão, francês, etc.). Para chinês, japonês, coreano e cantonês, o SenseVoice oferece melhor pontuação e muito mais velocidade em Apple Silicon.
Existe uma aplicação de transcrição Whisper para iPhone?
Sim. O Whisper Notes executa modelos Whisper otimizados para o Neural Engine do iPhone (iPhone 12 e mais recentes) — grave, importe do Voice Memos ou da aplicação Ficheiros e transcreva inteiramente no dispositivo por $6.99, sem subscrição.