Parakeet V3 é agora o motor padrão no Mac — 10x mais rápido que Whisper

7 de março de 2026
·
6 min read
·Whisper Notes Team

A partir da versão 1.3.2, o Whisper Notes para Mac vem com o NVIDIA Parakeet TDT 0.6B como motor de voz predefinido. É 10 vezes mais rápido que o Whisper Large V3 Turbo para inglês, e mais preciso. Os modelos Whisper continuam disponíveis se precisares de outras línguas.

Porque mudámos o modelo predefinido

O Whisper é excelente, mas foi concebido como um modelo de propósito geral. Lida com mais de 100 línguas, traduz, gera marcas temporais — um canivete suíço. O custo é a velocidade. Para ditado em inglês, quando só queres ver as palavras no ecrã depressa, é demasiado.

Havia uma coisa que me incomodava bastante: ao usar o ditado com a tecla Fn a nível de sistema com o Whisper, acabar uma frase de ~1 minuto significava esperar 3 a 5 segundos pela transcrição. Essa pausa quebra o ritmo. Paras de falar, esperas, ficas a olhar para o cursor — e a magia da escrita por voz desaparece.

O Parakeet mudou isso por completo. A velocidade é tal que a transcrição aparece no instante em que paras de falar. Falas, e as palavras simplesmente estão lá. Quando se experimenta essa sensação — esse fluxo contínuo, sem espera nenhuma — é muito difícil voltar ao Whisper.

Quão rápido é o Parakeet V3?

Os números falam por si. Eis uma comparação real com um ficheiro de áudio de 35 minutos no mesmo Mac:

Modelo Áudio de 35 min
Whisper Large V3 Turbo 3 minutos
Parakeet TDT 0.6B v3 18 segundos

10 vezes mais rápido. E como o modelo é mais pequeno (600M vs 800M parâmetros), gasta menos memória e menos bateria.

O que torna o Parakeet v3 tão rápido

O Whisper ouve o áudio como quem lê um livro em voz alta — palavra por palavra, frame por frame, sem saltar nada. Mesmo durante os silêncios, continua a processar, a adivinhar o que vem a seguir. É minucioso, mas lento.

O Parakeet segue uma abordagem radicalmente diferente. Comprime o sinal de áudio 8 vezes antes de o processar, para que o modelo veja apenas o que interessa. Depois, em vez de percorrer cada frame um a um, prevê não só que palavra disseste, mas quanto tempo essa palavra dura — e salta para a frente. Silêncio? Saltado. Uma vogal longa? Uma só previsão em vez de dezenas.

O resultado é um modelo que processa a fala como o teu cérebro — focando-se nas palavras e ignorando os intervalos. É por isso que é 10 vezes mais rápido, com menos parâmetros e maior precisão.

Benchmarks: Parakeet v3 vs Whisper

Comparação da taxa de erro por palavra: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T em vários conjuntos de dados de referência

O Parakeet v3 iguala ou supera modelos 2 a 4 vezes maiores nos benchmarks FLEURS, CoVoST e MLS

No Open ASR Leaderboard do Hugging Face, o Parakeet v3 lidera a tabela com apenas 600M parâmetros — menos de metade dos 1,55 mil milhões do Whisper Large V3:

Modelo Parâmetros WER médio Velocidade (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER mais baixo = menos erros. RTFx mais alto = mais rápido. O Parakeet ganha em ambos. Com 600M parâmetros, é também o modelo mais pequeno da lista — o que significa que funciona lindamente em Apple Silicon com consumo mínimo de memória e bateria.

Acabaram-se as alucinações

Se já usaste o Whisper para ditado, provavelmente viste-o a alucinar durante os silêncios — a repetir frases, a inventar palavras ou a debitar um "Subtitles by Amara.org" vindo do nada. Isto acontece porque o descodificador autorregressivo do Whisper espera sempre produzir texto, mesmo quando não há nada para transcrever.

A NVIDIA treinou o Parakeet com 36.000 horas de áudio puramente não verbal (ruído de fundo, tosses, silêncio) emparelhado com cadeias vazias. O modelo aprendeu como soa o silêncio e fica calado. Para o ditado a nível de sistema em modo permanente, isto muda tudo — acabou-se o texto lixo quando fazes uma pausa para pensar.

Línguas suportadas pelo Parakeet

O Parakeet v3 suporta 25 línguas: búlgaro, croata, checo, dinamarquês, neerlandês, inglês, estónio, finlandês, francês, alemão, grego, húngaro, italiano, letão, lituano, maltês, polaco, português, romeno, russo, eslovaco, esloveno, espanhol, sueco e ucraniano.

Isso cobre a maior parte da Europa, mas não inclui chinês, japonês, coreano, árabe ou hindi. Por isso mantivemos os modelos Whisper como opções transferíveis. Se ditas em japonês ou mandarim, escolhe o Whisper Large V3 Turbo no seletor de modelos. Para inglês e línguas europeias, o Parakeet v3 é simplesmente o melhor motor.

Seletor de modelos do Whisper Notes para Mac a mostrar o Parakeet V3 como predefinido, com Whisper Small e Whisper Large V3 Turbo como opções transferíveis

Seletor de modelos: Parakeet V3 (predefinido), Whisper Small e Whisper Large V3 Turbo — todos a correr localmente

Seletor de modelos no Whisper Notes

Abre as Definições para alternar entre modelos:

  • Parakeet V3 (predefinido) — O mais rápido, ideal para inglês e línguas europeias
  • Whisper Small — Leve, mais de 100 línguas
  • Whisper Large V3 Turbo — O modelo multilingue mais preciso

Todos os modelos correm 100% localmente no teu Mac. Sem internet, sem cloud, nenhum dado sai do teu dispositivo.

Experimenta

O Parakeet v3 já está disponível na versão Mac — basta transferir o DMG mais recente. Se o feedback for positivo, traremos o Parakeet para a versão iOS numa futura atualização.

Perguntas ou sugestões? Envia um email para support@whispernotes.app.