Transcripción de reuniones offline en Mac: Grabe Zoom, Teams y Meet localmente

13 de mayo de 2026
·
8 min read
·Whisper Notes Team

Hemos desarrollado la transcripcion de reuniones offline para Mac. Graba llamadas de Zoom, Teams y Google Meet, las transcribe localmente con Parakeet V3 y las resume con Gemma 4. Sin nube, sin bot en la llamada. $6.99 por unica vez.

Whisper Notes grabando una reunion de Zoom en Mac con transcripcion en tiempo real mostrando etiquetas de hablante Yo y Otros

Grabando una llamada de Zoom en Whisper Notes — "Yo" y "Otros" se etiquetan segun la fuente de audio

Un lunes cualquiera

10 AM, llamada de Zoom con un cliente. Abres Whisper Notes, pulsas grabar. La app captura el audio del sistema y tu microfono simultaneamente: nadie en la reunion ve un bot, nadie recibe una notificacion, nada aparece en la lista de participantes.

Una hora despues, la llamada termina. Detienes la grabacion. Parakeet V3 transcribe 60 minutos de audio en aproximadamente un minuto, completamente en el Neural Engine de tu Mac. Pulsas Resumir: Gemma 4 extrae los puntos clave. Pulsas Tareas: extrae cada tarea y fecha limite mencionada. Envias las notas de la reunion al cliente. El audio nunca salio de tu maquina.

Ese es todo el flujo de trabajo. Grabar, transcribir, resumir. Todo local.

Que hace

Grabacion

Whisper Notes captura el audio del sistema: el sonido que sale de tus altavoces o auriculares. Si puedes oirlo en tu Mac, podemos transcribirlo. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasts o cualquier otra app. Tambien graba tu microfono al mismo tiempo, asi que ambos lados de la conversacion quedan capturados.

Ningun bot se une a la llamada. Esto importa mas de lo que parece. Si alguna vez has visto "Otter.ai Notetaker has joined the meeting" aparecer en una llamada de Zoom, sabes lo que pasa despues: alguien pregunta que es, alguien mas se siente incomodo y la conversacion cambia. Con la captura de audio del sistema, nadie sabe que estas grabando excepto tu.

Transcripcion

Parakeet V3 se ejecuta en Apple Silicon via CoreML. Procesa ingles y 24 idiomas europeos a aproximadamente 60x en tiempo real: una reunion de 60 minutos se completa en cerca de un minuto. Para chino, japones o coreano, SenseVoice maneja CJK a 52x de velocidad. Pyannote VAD elimina los silencios antes de la transcripcion, de modo que el modelo solo procesa habla real.

Vista de transcripcion de Whisper Notes en Mac mostrando edicion de texto en linea con marcas de tiempo y forma de onda de audio

Transcripcion con marcas de tiempo y edicion en linea — haz clic en cualquier segmento para saltar a ese momento del audio

Funciones de IA, todas locales

Gemma 4 se ejecuta en tu Mac. Sin clave API, sin llamada a la nube, sin limites de uso. Despues de la transcripcion:

  • Resumir — puntos principales de una reunion de 60 minutos, en segundos
  • Tareas — tareas y fechas limite, extraidas automaticamente
  • Traducir — Apple Intelligence traduce la transcripcion a otro idioma
  • Chat — pregunta "en que quedamos sobre precios?" y obtiene una respuesta basada en la transcripcion
Barra lateral del Asistente IA de Whisper Notes con botones de Resumir, Tareas, Traducir e interfaz de chat

Barra lateral de IA Gemma 4 — Resumir, Tareas, Traducir y chat libre, todo ejecutandose localmente

Por que lo construimos asi

El audio de reuniones es uno de los datos mas sensibles que produce una empresa. Negociaciones con clientes, evaluaciones de recursos humanos, reuniones de directorio, consultas legales: el tipo de conversaciones donde una filtracion puede terminar carreras.

La mayoria de las herramientas de transcripcion suben este audio a servidores en la nube, lo procesan alli y lo almacenan bajo sus politicas de retencion de datos. Algunas agregan un bot a la llamada que todos pueden ver. Algunas conservan tus grabaciones indefinidamente para "mejora del modelo".

Nosotros tomamos un enfoque diferente: todo se ejecuta en tu Mac. El modelo ASR, el LLM, el almacenamiento de audio, todo local. No hay servidor que vulnerar, no hay politica de retencion de datos que leer, no hay riesgo de citacion judicial a terceros. Para equipos bajo GDPR, HIPAA o secreto profesional abogado-cliente, esta arquitectura es el punto clave.

Comparativa

Whisper Notes Otter.ai Fireflies Jamie
Procesamiento 100% en el dispositivo Nube Nube Hibrido
Bot en la llamada No Si Si No
Precio $6.99 por unica vez $16.99/mes (Pro) desde $18/mes $24/mes
Funciona offline Si No No Parcial
Resumen con IA Local (Gemma 4) Nube Nube Nube
Diarizacion de hablantes Aun no Si Si Si

Diferentes reuniones, diferentes idiomas

Elige el modelo que corresponda al idioma de tu reunion:

Ingles / Europeo Parakeet V3 — ~60x en tiempo real, 6.32% WER, cero alucinaciones en silencio
Chino / Japones / Coreano SenseVoice — 52x de velocidad, maneja cantones, acelerado por GPU via MLX
Otros idiomas Whisper Large V3 Turbo — 99 idiomas, alta precision, mas lento

Lo que falta

Aun no tenemos diarizacion de hablantes. Actualmente, Whisper Notes etiqueta el audio como "Yo" (tu microfono) y "Otros" (audio del sistema), lo que cubre la mayoria de las reuniones individuales y de grupos pequenos. Pero para una llamada de 10 personas donde necesitas saber quien dijo que, eso no es suficiente.

Es el siguiente paso obvio y estamos trabajando en ello. El objetivo es una diarizacion local que funcione junto con Parakeet V3 y SenseVoice, sin enviar audio a ningun lugar.