Hemos desarrollado la transcripcion de reuniones offline para Mac. Graba llamadas de Zoom, Teams y Google Meet, las transcribe localmente con Parakeet V3 y las resume con Gemma 4. Sin nube, sin bot en la llamada. $6.99 por unica vez.
Grabando una llamada de Zoom en Whisper Notes — "Yo" y "Otros" se etiquetan segun la fuente de audio
Un lunes cualquiera
10 AM, llamada de Zoom con un cliente. Abres Whisper Notes, pulsas grabar. La app captura el audio del sistema y tu microfono simultaneamente: nadie en la reunion ve un bot, nadie recibe una notificacion, nada aparece en la lista de participantes.
Una hora despues, la llamada termina. Detienes la grabacion. Parakeet V3 transcribe 60 minutos de audio en aproximadamente un minuto, completamente en el Neural Engine de tu Mac. Pulsas Resumir: Gemma 4 extrae los puntos clave. Pulsas Tareas: extrae cada tarea y fecha limite mencionada. Envias las notas de la reunion al cliente. El audio nunca salio de tu maquina.
Ese es todo el flujo de trabajo. Grabar, transcribir, resumir. Todo local.
Que hace
Grabacion
Whisper Notes captura el audio del sistema: el sonido que sale de tus altavoces o auriculares. Si puedes oirlo en tu Mac, podemos transcribirlo. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasts o cualquier otra app. Tambien graba tu microfono al mismo tiempo, asi que ambos lados de la conversacion quedan capturados.
Ningun bot se une a la llamada. Esto importa mas de lo que parece. Si alguna vez has visto "Otter.ai Notetaker has joined the meeting" aparecer en una llamada de Zoom, sabes lo que pasa despues: alguien pregunta que es, alguien mas se siente incomodo y la conversacion cambia. Con la captura de audio del sistema, nadie sabe que estas grabando excepto tu.
Transcripcion
Parakeet V3 se ejecuta en Apple Silicon via CoreML. Procesa ingles y 24 idiomas europeos a aproximadamente 60x en tiempo real: una reunion de 60 minutos se completa en cerca de un minuto. Para chino, japones o coreano, SenseVoice maneja CJK a 52x de velocidad. Pyannote VAD elimina los silencios antes de la transcripcion, de modo que el modelo solo procesa habla real.
Transcripcion con marcas de tiempo y edicion en linea — haz clic en cualquier segmento para saltar a ese momento del audio
Funciones de IA, todas locales
Gemma 4 se ejecuta en tu Mac. Sin clave API, sin llamada a la nube, sin limites de uso. Despues de la transcripcion:
- •Resumir — puntos principales de una reunion de 60 minutos, en segundos
- •Tareas — tareas y fechas limite, extraidas automaticamente
- •Traducir — Apple Intelligence traduce la transcripcion a otro idioma
- •Chat — pregunta "en que quedamos sobre precios?" y obtiene una respuesta basada en la transcripcion
Barra lateral de IA Gemma 4 — Resumir, Tareas, Traducir y chat libre, todo ejecutandose localmente
Por que lo construimos asi
El audio de reuniones es uno de los datos mas sensibles que produce una empresa. Negociaciones con clientes, evaluaciones de recursos humanos, reuniones de directorio, consultas legales: el tipo de conversaciones donde una filtracion puede terminar carreras.
La mayoria de las herramientas de transcripcion suben este audio a servidores en la nube, lo procesan alli y lo almacenan bajo sus politicas de retencion de datos. Algunas agregan un bot a la llamada que todos pueden ver. Algunas conservan tus grabaciones indefinidamente para "mejora del modelo".
Nosotros tomamos un enfoque diferente: todo se ejecuta en tu Mac. El modelo ASR, el LLM, el almacenamiento de audio, todo local. No hay servidor que vulnerar, no hay politica de retencion de datos que leer, no hay riesgo de citacion judicial a terceros. Para equipos bajo GDPR, HIPAA o secreto profesional abogado-cliente, esta arquitectura es el punto clave.
Comparativa
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Procesamiento | 100% en el dispositivo | Nube | Nube | Hibrido |
| Bot en la llamada | No | Si | Si | No |
| Precio | $6.99 por unica vez | $16.99/mes (Pro) | desde $18/mes | $24/mes |
| Funciona offline | Si | No | No | Parcial |
| Resumen con IA | Local (Gemma 4) | Nube | Nube | Nube |
| Diarizacion de hablantes | Aun no | Si | Si | Si |
Diferentes reuniones, diferentes idiomas
Elige el modelo que corresponda al idioma de tu reunion:
| Ingles / Europeo | Parakeet V3 — ~60x en tiempo real, 6.32% WER, cero alucinaciones en silencio |
| Chino / Japones / Coreano | SenseVoice — 52x de velocidad, maneja cantones, acelerado por GPU via MLX |
| Otros idiomas | Whisper Large V3 Turbo — 99 idiomas, alta precision, mas lento |
Lo que falta
Aun no tenemos diarizacion de hablantes. Actualmente, Whisper Notes etiqueta el audio como "Yo" (tu microfono) y "Otros" (audio del sistema), lo que cubre la mayoria de las reuniones individuales y de grupos pequenos. Pero para una llamada de 10 personas donde necesitas saber quien dijo que, eso no es suficiente.
Es el siguiente paso obvio y estamos trabajando en ello. El objetivo es una diarizacion local que funcione junto con Parakeet V3 y SenseVoice, sin enviar audio a ningun lugar.