Transcrição Whisper significa converter fala em texto com o Whisper da OpenAI — um modelo de IA de código aberto que você pode rodar na nuvem, em um servidor ou inteiramente no seu próprio dispositivo. Este guia explica como o Whisper funciona, qual tamanho de modelo escolher, quão preciso ele é de verdade e o jeito mais rápido de rodá-lo offline no Mac ou iPhone.
O que é o Whisper, exatamente?
O Whisper é um modelo de reconhecimento automático de fala (ASR) que a OpenAI lançou em setembro de 2022 sob a licença MIT. É um transformer encoder-decoder treinado com mais de 680.000 horas de áudio multilíngue, capaz de transcrever em cerca de 100 idiomas e ainda traduzir para o inglês.
A parte que importa para você: os pesos do modelo são abertos. Ao contrário das APIs de voz do Google ou da Amazon, o Whisper não precisa rodar no servidor de outra pessoa. Existe um ecossistema inteiro para executá-lo localmente — whisper.cpp, faster-whisper e aplicativos nativos como o Whisper Notes. É isso que torna possível uma transcrição verdadeiramente offline e privada.
Tamanhos do modelo Whisper: qual usar
O Whisper vem em seis tamanhos principais. Maior significa mais preciso e mais lento:
| Modelo | Parâmetros | Velocidade | Ideal para |
|---|---|---|---|
| tiny | 39M | O mais rápido | Rascunhos rápidos, hardware fraco |
| base | 74M | Muito rápido | Áudio simples e limpo |
| small | 244M | Rápido | Bom equilíbrio entre velocidade e precisão no celular |
| medium | 769M | Moderado | Raramente a escolha certa hoje |
| large-v3 | 1.55B | O mais lento | Precisão máxima, áudio difícil |
| large-v3-turbo | 809M | ~5x mais rápido que o large-v3 | A escolha padrão em 2026 |
Para quase todo mundo, a resposta é large-v3-turbo: ele mantém o encoder do large-v3, mas corta as camadas do decoder de 32 para 4, entregando precisão quase idêntica com uma fração da computação. Fizemos benchmarks detalhados em Whisper Large V3 Turbo vs V3.
Quão precisa é a transcrição Whisper?
Com áudio limpo em inglês, os modelos grandes atingem uma taxa de erro de palavras (WER) de cerca de 5-8% — comparável à transcrição humana profissional para a maioria dos usos práticos. A precisão cai com ruído de fundo, sotaques carregados, vozes sobrepostas e idiomas com poucos recursos.
O modo de falha mais famoso do Whisper: alucinações durante o silêncio. Seu decoder autorregressivo às vezes inventa frases repetidas ou créditos de legenda quando ninguém está falando. Modelos mais novos corrigem isso — o Parakeet V3 da NVIDIA foi explicitamente treinado com áudio sem fala e não produz nenhuma alucinação nos nossos testes (benchmark completo Parakeet V3 vs Whisper).
Para chinês, japonês, coreano e cantonês, um modelo especializado supera o Whisper em velocidade e pontuação: veja SenseVoice vs Whisper para idiomas CJK.
5 jeitos de rodar a transcrição Whisper
| Método | Custo | Privacidade | Configuração |
|---|---|---|---|
| API da OpenAI | Pago por minuto de áudio | Áudio enviado | Chave de API + código |
| openai-whisper (Python de referência) | Grátis | 100% local | Ambiente Python, GPU recomendada |
| whisper.cpp / faster-whisper | Grátis | 100% local | Linha de comando |
| Aplicativo nativo (Whisper Notes) | $6.99 uma única vez, teste grátis no Mac | 100% no dispositivo | Nenhuma |
| Ferramentas de demonstração na web | Planos gratuitos | Áudio enviado | Nenhuma |
A regra prática: se você vive no terminal, o faster-whisper é excelente. Se está construindo um produto, a API faz sentido. Se você só quer suas gravações transcritas com privacidade, sem encostar em Python, use um aplicativo nativo — é exatamente por isso que os aplicativos Whisper para Mac existem.
Quer comparar ferramentas offline de forma mais ampla — incluindo opções para Windows e Android? Veja nosso guia completo de conversão de fala em texto offline.
Whisper vs modelos locais mais novos (2026)
O Whisper deu início à era da transcrição local, mas não está mais sozinho. Velocidades abaixo medidas em um Mac M4 Pro:
| Modelo | Idiomas | Velocidade | Destaque |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x tempo real | A maior cobertura de idiomas |
| Parakeet V3 | 25 (europeus) | ~100x tempo real | 6,32% de WER, sem alucinações no silêncio |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x tempo real | O melhor para chinês, japonês, coreano |
Os três rodam localmente no Whisper Notes, e você pode alternar entre eles a cada gravação. Os benchmarks lado a lado estão na nossa página de comparação de modelos Whisper.
Como rodar a transcrição Whisper offline no Mac e no iPhone
Sem linha de comando, sem Python, sem nuvem:
- Baixe o Whisper Notes para Mac (teste grátis) ou para iPhone ($6.99, pagamento único).
- Escolha um modelo: Whisper Large V3 Turbo para ampla cobertura de idiomas, Parakeet V3 para velocidade em inglês, SenseVoice para CJK. O download acontece uma vez e depois funciona para sempre offline.
- Grave diretamente, dite em qualquer app segurando a tecla Fn, ou arraste arquivos de áudio e vídeo (MP3, WAV, M4A, MP4).
- O texto vai aparecendo conforme é processado. Exporte como TXT ou SRT.
Desconfiado do "offline"? Ative o modo avião antes. A transcrição roda em velocidade máxima — nada é enviado, nunca.
Quão precisa é a transcrição Whisper em português? Qual modelo escolher?
Para áudio em português, a resposta curta é Parakeet V3 — o modelo padrão do Whisper Notes no Mac e no iPhone. Ele cobre 25 idiomas europeus, incluindo o português, transcreve na classe dos 6,32% de WER e roda cerca de 10x mais rápido que o Whisper: uma reunião de uma hora vira texto em poucos minutos, tudo no seu dispositivo. Se suas gravações misturarem idiomas fora da lista do Parakeet, troque para o Whisper Large V3 Turbo (~1,5 GB, mais de 100 idiomas) — dá para alternar de modelo a cada gravação.
Perguntas frequentes
A transcrição Whisper é gratuita?
O modelo em si é gratuito e de código aberto (licença MIT). Rodá-lo com ferramentas de linha de comando como o whisper.cpp não custa nada, mas exige configuração. A API da OpenAI cobra por minuto de áudio. Os aplicativos nativos empacotam os modelos por uma taxa pequena — o Whisper Notes custa $6.99 uma única vez, com teste grátis no Mac.
A transcrição Whisper funciona offline?
Sim — essa é justamente a vantagem dos pesos abertos. Depois que o arquivo do modelo está no seu dispositivo, não é preciso internet. O Whisper Notes roda o Whisper Large V3 Turbo em Apple Silicon via CoreML/Metal, totalmente offline. Você pode conferir com o modo avião.
Qual modelo Whisper é o mais preciso?
O large-v3 tem a melhor precisão bruta. O large-v3-turbo empata com ele com diferença de frações de ponto percentual no WER, rodando cerca de 5x mais rápido — por isso é o padrão na maioria das ferramentas hoje.
O Whisper suporta o meu idioma?
O Whisper cobre cerca de 100 idiomas, com melhor desempenho nos de muitos recursos (inglês, espanhol, alemão, francês, etc.). Para chinês, japonês, coreano e cantonês, o SenseVoice entrega pontuação melhor e velocidade muito maior em Apple Silicon.
Existe um app de transcrição Whisper para iPhone?
Sim. O Whisper Notes roda modelos Whisper otimizados para o Neural Engine do iPhone (iPhone 12 e mais novos) — grave, importe do Voice Memos ou do app Arquivos e transcreva inteiramente no dispositivo por $6.99, sem assinatura.