Transcrição Whisper: Modelos, Velocidade e Como Rodar Offline (Guia 2026)

Transcrição Whisper significa converter fala em texto com o Whisper da OpenAI — um modelo de IA de código aberto que você pode rodar na nuvem, em um servidor ou inteiramente no seu próprio dispositivo. Este guia explica como o Whisper funciona, qual tamanho de modelo escolher, quão preciso ele é de verdade e o jeito mais rápido de rodá-lo offline no Mac ou iPhone.

O que é o Whisper, exatamente?

O Whisper é um modelo de reconhecimento automático de fala (ASR) que a OpenAI lançou em setembro de 2022 sob a licença MIT. É um transformer encoder-decoder treinado com mais de 680.000 horas de áudio multilíngue, capaz de transcrever em cerca de 100 idiomas e ainda traduzir para o inglês.

A parte que importa para você: os pesos do modelo são abertos. Ao contrário das APIs de voz do Google ou da Amazon, o Whisper não precisa rodar no servidor de outra pessoa. Existe um ecossistema inteiro para executá-lo localmente — whisper.cpp, faster-whisper e aplicativos nativos como o Whisper Notes. É isso que torna possível uma transcrição verdadeiramente offline e privada.

Tamanhos do modelo Whisper: qual usar

O Whisper vem em seis tamanhos principais. Maior significa mais preciso e mais lento:

Modelo	Parâmetros	Velocidade	Ideal para
tiny	39M	O mais rápido	Rascunhos rápidos, hardware fraco
base	74M	Muito rápido	Áudio simples e limpo
small	244M	Rápido	Bom equilíbrio entre velocidade e precisão no celular
medium	769M	Moderado	Raramente a escolha certa hoje
large-v3	1.55B	O mais lento	Precisão máxima, áudio difícil
large-v3-turbo	809M	~5x mais rápido que o large-v3	A escolha padrão em 2026

Para quase todo mundo, a resposta é large-v3-turbo: ele mantém o encoder do large-v3, mas corta as camadas do decoder de 32 para 4, entregando precisão quase idêntica com uma fração da computação. Fizemos benchmarks detalhados em Whisper Large V3 Turbo vs V3.

Quão precisa é a transcrição Whisper?

Com áudio limpo em inglês, os modelos grandes atingem uma taxa de erro de palavras (WER) de cerca de 5-8% — comparável à transcrição humana profissional para a maioria dos usos práticos. A precisão cai com ruído de fundo, sotaques carregados, vozes sobrepostas e idiomas com poucos recursos.

O modo de falha mais famoso do Whisper: alucinações durante o silêncio. Seu decoder autorregressivo às vezes inventa frases repetidas ou créditos de legenda quando ninguém está falando. Modelos mais novos corrigem isso — o Parakeet V3 da NVIDIA foi explicitamente treinado com áudio sem fala e não produz nenhuma alucinação nos nossos testes (benchmark completo Parakeet V3 vs Whisper).

Para chinês, japonês, coreano e cantonês, um modelo especializado supera o Whisper em velocidade e pontuação: veja SenseVoice vs Whisper para idiomas CJK.

5 jeitos de rodar a transcrição Whisper

Método	Custo	Privacidade	Configuração
API da OpenAI	Pago por minuto de áudio	Áudio enviado	Chave de API + código
openai-whisper (Python de referência)	Grátis	100% local	Ambiente Python, GPU recomendada
whisper.cpp / faster-whisper	Grátis	100% local	Linha de comando
Aplicativo nativo (Whisper Notes)	$6.99 uma única vez, teste grátis no Mac	100% no dispositivo	Nenhuma
Ferramentas de demonstração na web	Planos gratuitos	Áudio enviado	Nenhuma

A regra prática: se você vive no terminal, o faster-whisper é excelente. Se está construindo um produto, a API faz sentido. Se você só quer suas gravações transcritas com privacidade, sem encostar em Python, use um aplicativo nativo — é exatamente por isso que os aplicativos Whisper para Mac existem.

Quer comparar ferramentas offline de forma mais ampla — incluindo opções para Windows e Android? Veja nosso guia completo de conversão de fala em texto offline.

Whisper vs modelos locais mais novos (2026)

O Whisper deu início à era da transcrição local, mas não está mais sozinho. Velocidades abaixo medidas em um Mac M4 Pro:

Modelo	Idiomas	Velocidade	Destaque
Whisper Large V3 Turbo	100+	~12x tempo real	A maior cobertura de idiomas
Parakeet V3	25 (europeus)	~100x tempo real	6,32% de WER, sem alucinações no silêncio
SenseVoice Small	zh, ja, ko, yue, en	~52x tempo real	O melhor para chinês, japonês, coreano

Os três rodam localmente no Whisper Notes, e você pode alternar entre eles a cada gravação. Os benchmarks lado a lado estão na nossa página de comparação de modelos Whisper.

Como rodar a transcrição Whisper offline no Mac e no iPhone

Sem linha de comando, sem Python, sem nuvem:

Baixe o Whisper Notes para Mac (teste grátis) ou para iPhone ($6.99, pagamento único).
Escolha um modelo: Whisper Large V3 Turbo para ampla cobertura de idiomas, Parakeet V3 para velocidade em inglês, SenseVoice para CJK. O download acontece uma vez e depois funciona para sempre offline.
Grave diretamente, dite em qualquer app segurando a tecla Fn, ou arraste arquivos de áudio e vídeo (MP3, WAV, M4A, MP4).
O texto vai aparecendo conforme é processado. Exporte como TXT ou SRT.

Desconfiado do "offline"? Ative o modo avião antes. A transcrição roda em velocidade máxima — nada é enviado, nunca.

Quão precisa é a transcrição Whisper em português? Qual modelo escolher?

Para áudio em português, a resposta curta é Parakeet V3 — o modelo padrão do Whisper Notes no Mac e no iPhone. Ele cobre 25 idiomas europeus, incluindo o português, transcreve na classe dos 6,32% de WER e roda cerca de 10x mais rápido que o Whisper: uma reunião de uma hora vira texto em poucos minutos, tudo no seu dispositivo. Se suas gravações misturarem idiomas fora da lista do Parakeet, troque para o Whisper Large V3 Turbo (~1,5 GB, mais de 100 idiomas) — dá para alternar de modelo a cada gravação.

Perguntas frequentes

A transcrição Whisper é gratuita?

O modelo em si é gratuito e de código aberto (licença MIT). Rodá-lo com ferramentas de linha de comando como o whisper.cpp não custa nada, mas exige configuração. A API da OpenAI cobra por minuto de áudio. Os aplicativos nativos empacotam os modelos por uma taxa pequena — o Whisper Notes custa $6.99 uma única vez, com teste grátis no Mac.

A transcrição Whisper funciona offline?

Sim — essa é justamente a vantagem dos pesos abertos. Depois que o arquivo do modelo está no seu dispositivo, não é preciso internet. O Whisper Notes roda o Whisper Large V3 Turbo em Apple Silicon via CoreML/Metal, totalmente offline. Você pode conferir com o modo avião.

Qual modelo Whisper é o mais preciso?

O large-v3 tem a melhor precisão bruta. O large-v3-turbo empata com ele com diferença de frações de ponto percentual no WER, rodando cerca de 5x mais rápido — por isso é o padrão na maioria das ferramentas hoje.

O Whisper suporta o meu idioma?

O Whisper cobre cerca de 100 idiomas, com melhor desempenho nos de muitos recursos (inglês, espanhol, alemão, francês, etc.). Para chinês, japonês, coreano e cantonês, o SenseVoice entrega pontuação melhor e velocidade muito maior em Apple Silicon.

Existe um app de transcrição Whisper para iPhone?

Sim. O Whisper Notes roda modelos Whisper otimizados para o Neural Engine do iPhone (iPhone 12 e mais novos) — grave, importe do Voice Memos ou do app Arquivos e transcreva inteiramente no dispositivo por $6.99, sem assinatura.

Baixar para iOS

Testar grátis no Mac