A partir da versão 1.3.2, o Whisper Notes para Mac vem com o NVIDIA Parakeet TDT 0.6B como motor de voz predefinido. É 10 vezes mais rápido que o Whisper Large V3 Turbo para inglês, e mais preciso. Os modelos Whisper continuam disponíveis se precisares de outras línguas.
Porque mudámos o modelo predefinido
O Whisper é excelente, mas foi concebido como um modelo de propósito geral. Lida com mais de 100 línguas, traduz, gera marcas temporais — um canivete suíço. O custo é a velocidade. Para ditado em inglês, quando só queres ver as palavras no ecrã depressa, é demasiado.
Havia uma coisa que me incomodava bastante: ao usar o ditado com a tecla Fn a nível de sistema com o Whisper, acabar uma frase de ~1 minuto significava esperar 3 a 5 segundos pela transcrição. Essa pausa quebra o ritmo. Paras de falar, esperas, ficas a olhar para o cursor — e a magia da escrita por voz desaparece.
O Parakeet mudou isso por completo. A velocidade é tal que a transcrição aparece no instante em que paras de falar. Falas, e as palavras simplesmente estão lá. Quando se experimenta essa sensação — esse fluxo contínuo, sem espera nenhuma — é muito difícil voltar ao Whisper.
Quão rápido é o Parakeet V3?
Os números falam por si. Eis uma comparação real com um ficheiro de áudio de 35 minutos no mesmo Mac:
| Modelo | Áudio de 35 min |
|---|---|
| Whisper Large V3 Turbo | 3 minutos |
| Parakeet TDT 0.6B v3 | 18 segundos |
10 vezes mais rápido. E como o modelo é mais pequeno (600M vs 800M parâmetros), gasta menos memória e menos bateria.
O que torna o Parakeet v3 tão rápido
O Whisper ouve o áudio como quem lê um livro em voz alta — palavra por palavra, frame por frame, sem saltar nada. Mesmo durante os silêncios, continua a processar, a adivinhar o que vem a seguir. É minucioso, mas lento.
O Parakeet segue uma abordagem radicalmente diferente. Comprime o sinal de áudio 8 vezes antes de o processar, para que o modelo veja apenas o que interessa. Depois, em vez de percorrer cada frame um a um, prevê não só que palavra disseste, mas quanto tempo essa palavra dura — e salta para a frente. Silêncio? Saltado. Uma vogal longa? Uma só previsão em vez de dezenas.
O resultado é um modelo que processa a fala como o teu cérebro — focando-se nas palavras e ignorando os intervalos. É por isso que é 10 vezes mais rápido, com menos parâmetros e maior precisão.
Benchmarks: Parakeet v3 vs Whisper
O Parakeet v3 iguala ou supera modelos 2 a 4 vezes maiores nos benchmarks FLEURS, CoVoST e MLS
No Open ASR Leaderboard do Hugging Face, o Parakeet v3 lidera a tabela com apenas 600M parâmetros — menos de metade dos 1,55 mil milhões do Whisper Large V3:
| Modelo | Parâmetros | WER médio | Velocidade (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
WER mais baixo = menos erros. RTFx mais alto = mais rápido. O Parakeet ganha em ambos. Com 600M parâmetros, é também o modelo mais pequeno da lista — o que significa que funciona lindamente em Apple Silicon com consumo mínimo de memória e bateria.
Acabaram-se as alucinações
Se já usaste o Whisper para ditado, provavelmente viste-o a alucinar durante os silêncios — a repetir frases, a inventar palavras ou a debitar um "Subtitles by Amara.org" vindo do nada. Isto acontece porque o descodificador autorregressivo do Whisper espera sempre produzir texto, mesmo quando não há nada para transcrever.
A NVIDIA treinou o Parakeet com 36.000 horas de áudio puramente não verbal (ruído de fundo, tosses, silêncio) emparelhado com cadeias vazias. O modelo aprendeu como soa o silêncio e fica calado. Para o ditado a nível de sistema em modo permanente, isto muda tudo — acabou-se o texto lixo quando fazes uma pausa para pensar.
Línguas suportadas pelo Parakeet
O Parakeet v3 suporta 25 línguas: búlgaro, croata, checo, dinamarquês, neerlandês, inglês, estónio, finlandês, francês, alemão, grego, húngaro, italiano, letão, lituano, maltês, polaco, português, romeno, russo, eslovaco, esloveno, espanhol, sueco e ucraniano.
Isso cobre a maior parte da Europa, mas não inclui chinês, japonês, coreano, árabe ou hindi. Por isso mantivemos os modelos Whisper como opções transferíveis. Se ditas em japonês ou mandarim, escolhe o Whisper Large V3 Turbo no seletor de modelos. Para inglês e línguas europeias, o Parakeet v3 é simplesmente o melhor motor.
Seletor de modelos: Parakeet V3 (predefinido), Whisper Small e Whisper Large V3 Turbo — todos a correr localmente
Seletor de modelos no Whisper Notes
Abre as Definições para alternar entre modelos:
- Parakeet V3 (predefinido) — O mais rápido, ideal para inglês e línguas europeias
- Whisper Small — Leve, mais de 100 línguas
- Whisper Large V3 Turbo — O modelo multilingue mais preciso
Todos os modelos correm 100% localmente no teu Mac. Sem internet, sem cloud, nenhum dado sai do teu dispositivo.
Experimenta
O Parakeet v3 já está disponível na versão Mac — basta transferir o DMG mais recente. Se o feedback for positivo, traremos o Parakeet para a versão iOS numa futura atualização.
Perguntas ou sugestões? Envia um email para support@whispernotes.app.