Transcrição de reuniões offline no Mac: Grave Zoom, Teams e Meet localmente

13 de maio de 2026
·
8 min read
·Whisper Notes Team

Desenvolvemos a transcricao de reunioes offline para Mac. Grava chamadas do Zoom, Teams e Google Meet, transcreve-as localmente com Parakeet V3 e resume-as com Gemma 4. Sem cloud, sem bot na chamada. $6.99 pagamento unico.

Whisper Notes a gravar uma reuniao Zoom no Mac com transcricao em tempo real mostrando etiquetas de orador Eu e Outros

A gravar uma chamada Zoom no Whisper Notes — "Eu" e "Outros" sao identificados pela fonte de audio

Uma segunda-feira tipica

10 h, chamada Zoom com um cliente. Abre o Whisper Notes, clica em gravar. A app captura o audio do sistema e o seu microfone em simultaneo — ninguem na reuniao ve um bot, ninguem recebe uma notificacao, nada aparece na lista de participantes.

Uma hora depois, a chamada termina. Para a gravacao. O Parakeet V3 transcreve 60 minutos de audio em cerca de um minuto, inteiramente no Neural Engine do seu Mac. Clica em Resumir — o Gemma 4 extrai os pontos-chave. Clica em Tarefas — extrai cada tarefa e prazo mencionados. Envia as notas da reuniao ao cliente. O audio nunca saiu da sua maquina.

E todo o fluxo de trabalho. Gravar, transcrever, resumir. Tudo local.

O que faz

Gravacao

O Whisper Notes captura o audio do sistema — o som que sai das suas colunas ou auscultadores. Se consegue ouvi-lo no seu Mac, podemos transceve-lo. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasts ou qualquer outra app. Tambem grava o seu microfone ao mesmo tempo, para que ambos os lados da conversa fiquem capturados.

Nenhum bot entra na chamada. Isto importa mais do que parece. Se alguma vez viu "Otter.ai Notetaker has joined the meeting" aparecer numa chamada Zoom, sabe o que acontece a seguir — alguem pergunta o que e aquilo, outra pessoa fica desconfortavel e a conversa muda. Com a captura de audio do sistema, ninguem sabe que esta a gravar, excepto voce.

Transcricao

O Parakeet V3 corre em Apple Silicon via CoreML. Processa ingles e 24 linguas europeias a aproximadamente 60x em tempo real — uma reuniao de 60 minutos fica pronta em cerca de um minuto. Para chines, japones ou coreano, o SenseVoice trata CJK a 52x de velocidade. O Pyannote VAD remove os silencios antes da transcricao, para que o modelo so processe fala real.

Vista de transcricao do Whisper Notes no Mac mostrando edicao de texto inline com carimbos temporais e forma de onda de audio

Transcricao com carimbos temporais e edicao inline — clique em qualquer segmento para saltar para esse momento no audio

Funcionalidades de IA — todas locais

O Gemma 4 corre no seu Mac. Sem chave API, sem chamada cloud, sem limites de utilizacao. Apos a transcricao:

  • Resumir — pontos principais de uma reuniao de 60 minutos, em segundos
  • Tarefas — tarefas e prazos, extraidos automaticamente
  • Traduzir — Apple Intelligence traduz a transcricao para outra lingua
  • Chat — pergunte "o que combinámos sobre precos?" e obtenha uma resposta baseada na transcricao
Barra lateral do Assistente IA do Whisper Notes com botoes Resumir, Tarefas, Traduzir e interface de chat

Barra lateral de IA Gemma 4 — Resumir, Tarefas, Traduzir e chat livre, tudo a correr localmente

Porque o construimos assim

O audio de reunioes e um dos dados mais sensiveis que uma empresa produz. Negociacoes com clientes, avaliacoes de RH, discussoes de administracao, consultas juridicas — o tipo de conversas em que uma fuga de informacao pode acabar com carreiras.

A maioria das ferramentas de transcricao envia este audio para servidores cloud, processa-o la e armazena-o segundo as suas politicas de retencao de dados. Algumas adicionam um bot a chamada que todos podem ver. Algumas guardam as suas gravacoes indefinidamente para "melhoria do modelo".

Nos tomamos uma abordagem diferente: tudo corre no seu Mac. O modelo ASR, o LLM, o armazenamento de audio — tudo local. Nao ha servidor para violar, nao ha politica de retencao para ler, nao ha risco de intimacao judicial a terceiros. Para equipas sob RGPD, HIPAA ou sigilo profissional advogado-cliente, esta arquitectura e exactamente o ponto.

Comparativo

Whisper Notes Otter.ai Fireflies Jamie
Processamento 100% no dispositivo Cloud Cloud Hibrido
Bot na chamada Nao Sim Sim Nao
Preco $6.99 pagamento unico $16.99/mes (Pro) a partir de $18/mes $24/mes
Funciona offline Sim Nao Nao Parcial
Resumo IA Local (Gemma 4) Cloud Cloud Cloud
Diarizacao de oradores Ainda nao Sim Sim Sim

Diferentes reunioes, diferentes linguas

Escolha o modelo que corresponde a lingua da sua reuniao:

Ingles / Europeu Parakeet V3 — ~60x em tempo real, 6.32% WER, zero alucinacoes em silencio
Chines / Japones / Coreano SenseVoice — 52x de velocidade, suporta cantones, acelerado por GPU via MLX
Outras linguas Whisper Large V3 Turbo — 99 linguas, alta precisao, mais lento

O que falta

Ainda nao temos diarizacao de oradores. Atualmente, o Whisper Notes etiqueta o audio como "Eu" (o seu microfone) e "Outros" (audio do sistema) — o que cobre a maioria das reunioes individuais e de pequenos grupos. Mas para uma chamada com 10 pessoas onde precisa de saber quem disse o que, nao e suficiente.

E o proximo passo obvio e estamos a trabalhar nisso. O objectivo e uma diarizacao local que funcione ao lado do Parakeet V3 e do SenseVoice, sem enviar audio para lado nenhum.