Transcrição de reuniões offline no Mac: Grave Zoom, Teams e Meet localmente

13 de maio de 2026
·
8 min read
·Whisper Notes Team

Criamos transcrição offline de reuniões para Mac. Grava chamadas do Zoom, Teams e Google Meet, transcreve localmente com Parakeet V3 e resume com Gemma 4. Sem nuvem, sem bot na chamada. $6.99 uma vez.

Whisper Notes gravando uma reunião do Zoom no Mac com transcrição em tempo real mostrando rótulos Eu e Outros

Gravando uma chamada do Zoom no Whisper Notes — "Eu" e "Outros" sao rotulados pela fonte de audio

Uma segunda-feira típica

10 da manhã, chamada no Zoom com um cliente. Você abre o Whisper Notes, clica em gravar. O app captura o áudio do sistema e o microfone simultaneamente — ninguém na reunião vê um bot, ninguém recebe notificação, nada aparece na lista de participantes.

Uma hora depois, a chamada termina. Você para a gravação. O Parakeet V3 transcreve 60 minutos de áudio em cerca de um minuto, inteiramente no Neural Engine do seu Mac. Toque em Resumir — o Gemma 4 extrai os pontos principais. Toque em Itens de Ação — ele puxa cada tarefa e prazo mencionados. Você envia as notas da reunião para o cliente. O áudio nunca saiu da sua máquina.

Esse é todo o fluxo. Gravar, transcrever, resumir. Tudo local.

O que faz

Gravação

O Whisper Notes captura áudio do sistema — o som que sai das suas caixas de som ou fones de ouvido. Se você consegue ouvir no seu Mac, conseguimos transcrever. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasts ou qualquer outro app. Também grava o microfone ao mesmo tempo, então os dois lados da conversa são capturados.

Nenhum bot entra na chamada. Isso importa mais do que parece. Se você já viu "Otter.ai Notetaker has joined the meeting" aparecer numa chamada do Zoom, sabe o que acontece em seguida — alguém pergunta o que é aquilo, alguém fica desconfortável e a conversa muda. Com a captura de áudio do sistema, ninguém sabe que você está gravando, exceto você.

Transcrição

O Parakeet V3 roda no Apple Silicon via CoreML. Processa inglês e 24 idiomas europeus a cerca de 60x em tempo real — uma reunião de 60 minutos termina em aproximadamente um minuto. Para chinês, japonês ou coreano, o SenseVoice processa CJK a 52x de velocidade. O Pyannote VAD remove silêncios antes da transcrição, então o modelo só processa fala real.

Tela de transcrição do Whisper Notes no Mac mostrando edição de texto inline com timestamps e forma de onda do áudio

Transcricao com timestamps e edicao inline — clique em qualquer segmento para pular para aquele momento no audio

Recursos de IA — todos locais

O Gemma 4 roda no seu Mac. Sem API key, sem chamada na nuvem, sem limites de uso. Após a transcrição:

  • Resumir — pontos principais de uma reunião de 60 minutos, em segundos
  • Itens de Ação — tarefas e prazos, extraídos automaticamente
  • Traduzir — Apple Intelligence traduz a transcrição para outro idioma
  • Chat — pergunte "o que combinamos sobre preços?" e receba uma resposta baseada na transcrição
Barra lateral do Assistente de IA do Whisper Notes com botões Resumir, Itens de Ação, Traduzir e interface de chat

Barra lateral de IA Gemma 4 — Resumir, Itens de Acao, Traduzir e chat livre, tudo rodando localmente

Por que construímos assim

O áudio de reuniões é um dos dados mais sensíveis que uma empresa produz. Negociações com clientes, avaliações de RH, discussões de diretoria, consultas jurídicas — o tipo de conversa onde um vazamento errado encerra carreiras.

A maioria das ferramentas de transcrição envia esse áudio para servidores na nuvem, processa lá e armazena segundo suas políticas de retenção de dados. Algumas adicionam um bot na chamada que todos podem ver. Algumas mantêm suas gravações indefinidamente para "melhoria de modelo".

Tomamos uma abordagem diferente: tudo roda no seu Mac. O modelo ASR, o LLM, o armazenamento de áudio — tudo local. Não há servidor para ser invadido, nenhuma política de retenção de dados para ler, nenhum risco de intimação de terceiros. Para equipes sob GDPR, HIPAA ou sigilo advocatício, essa arquitetura é o ponto.

Como se compara

Whisper Notes Otter.ai Fireflies Jamie
Processamento 100% no dispositivo Nuvem Nuvem Híbrido
Bot na chamada Não Sim Sim Não
Preço $6.99 uma vez $16.99/mês (Pro) a partir de $18/mês $24/mês
Funciona offline Sim Não Não Parcial
Resumo por IA Local (Gemma 4) Nuvem Nuvem Nuvem
Diarização de falantes Ainda não Sim Sim Sim

Reuniões diferentes, idiomas diferentes

Escolha o modelo que corresponde ao idioma da sua reunião:

Inglês / Europeus Parakeet V3 — ~60x em tempo real, 6.32% WER, zero alucinações em silêncio
Chinês / Japonês / Coreano SenseVoice — 52x de velocidade, suporta cantonês, aceleração por GPU via MLX
Outros idiomas Whisper Large V3 Turbo — 99 idiomas, alta precisão, mais lento

O que falta

Ainda não temos diarização de falantes. Atualmente, o Whisper Notes rotula o áudio como "Eu" (seu microfone) e "Outros" (áudio do sistema) — o que cobre a maioria das reuniões individuais e de pequenos grupos. Mas para uma chamada com 10 pessoas onde você precisa saber quem disse o quê, ainda não é suficiente.

É o próximo passo óbvio e estamos trabalhando nisso. O objetivo é diarização local que rode junto com o Parakeet V3 e o SenseVoice, sem enviar áudio para lugar nenhum.