Transcripció de reunions offline a Mac: Graveu Zoom, Teams i Meet localment

13 de maig del 2026
·
8 min read
·Whisper Notes Team

Hem creat la transcripció de reunions offline per a Mac. Grava trucades de Zoom, Teams i Google Meet, les transcriu localment amb Parakeet V3 i les resumeix amb Gemma 4. Sense núvol, sense bot a la trucada. $6.99 un sol pagament.

Whisper Notes gravant una reunió de Zoom al Mac amb transcripció en temps real mostrant les etiquetes Jo i Altres

Gravant una trucada de Zoom a Whisper Notes — "Jo" i "Altres" s'etiqueten segons la font d'àudio

Un dilluns qualsevol

10 del matí, trucada de Zoom amb un client. Obres Whisper Notes, cliques gravar. L'aplicació captura l'àudio del sistema i el micròfon simultàniament — ningú a la reunió veu cap bot, ningú rep cap notificació, res no apareix a la llista de participants.

Una hora després, la trucada acaba. Atures la gravació. Parakeet V3 transcriu 60 minuts d'àudio en aproximadament un minut, íntegrament al Neural Engine del teu Mac. Cliques Resumir — Gemma 4 n'extreu els punts clau. Cliques Tasques pendents — extreu cada tasca i termini mencionats. Envies les notes de la reunió al client. L'àudio no ha sortit mai de la teva màquina.

Aquest és tot el flux de treball. Gravar, transcriure, resumir. Tot local.

Què fa

Gravació

Whisper Notes captura l'àudio del sistema — el so que surt dels altaveus o auriculars. Si ho pots sentir al teu Mac, ho podem transcriure. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasts o qualsevol altra aplicació. També grava el micròfon alhora, de manera que es capturen ambdues parts de la conversa.

Cap bot s'uneix a la trucada. Això importa més del que sembla. Si alguna vegada has vist "Otter.ai Notetaker has joined the meeting" aparèixer en una trucada de Zoom, saps què passa després — algú pregunta què és, algú altre es posa incòmode i la conversa canvia. Amb la captura d'àudio del sistema, ningú sap que estàs gravant excepte tu.

Transcripció

Parakeet V3 s'executa a Apple Silicon via CoreML. Processa anglès i 24 llengües europees a aproximadament 60× temps real — una reunió de 60 minuts acaba en uns un minut. Per a xinès, japonès o coreà, SenseVoice gestiona CJK a 52× de velocitat. Pyannote VAD elimina els silencis abans de la transcripció, de manera que el model només processa la parla real.

Vista de transcripció de Whisper Notes al Mac mostrant edició de text en línia amb marques de temps i forma d'ona d'àudio

Transcripció amb marques de temps i edició en línia — clica qualsevol segment per saltar a aquell moment de l'àudio

Funcions d'IA — Totes locals

Gemma 4 s'executa al teu Mac. Sense clau d'API, sense trucada al núvol, sense límits d'ús. Després de la transcripció:

  • Resumir — els punts principals d'una reunió de 60 minuts, en segons
  • Tasques pendents — tasques i terminis, extrets automàticament
  • Traduir — Apple Intelligence tradueix la transcripció a un altre idioma
  • Xat — pregunta "en què hem quedat sobre el preu?" i obtén una resposta basada en la transcripció
Barra lateral de l'assistent d'IA de Whisper Notes amb botons de Resumir, Tasques pendents, Traduir i interfície de xat

Barra lateral d'IA Gemma 4 — Resumir, Tasques pendents, Traduir i xat lliure, tot executant-se localment

Per què ho hem fet així

L'àudio de les reunions és una de les dades més sensibles que produeix una empresa. Negociacions amb clients, revisions de RRHH, discussions de junta, consultes legals — el tipus de converses on una filtració equivocada acaba amb carreres.

La majoria d'eines de transcripció pugen aquest àudio a servidors al núvol, el processen allà i l'emmagatzemen segons les seves polítiques de retenció de dades. Algunes afegeixen un bot a la trucada que tothom pot veure. Algunes conserven les teves gravacions indefinidament per a "millora del model".

Nosaltres hem triat un enfocament diferent: tot s'executa al teu Mac. El model ASR, el LLM, l'emmagatzematge d'àudio — tot local. No hi ha cap servidor que es pugui vulnerar, cap política de retenció de dades que llegir, cap risc de citació de tercers. Per a equips subjectes a GDPR, HIPAA o secret professional advocat-client, aquesta arquitectura és el que importa.

Com es compara

Whisper Notes Otter.ai Fireflies Jamie
Processament 100% al dispositiu Núvol Núvol Híbrid
Bot a la trucada No No
Preu $6.99 un sol pagament $16.99/mes (Pro) des de $18/mes $24/mes
Funciona offline No No Parcial
Resum IA Local (Gemma 4) Núvol Núvol Núvol
Diarització de parlants Encara no

Diferents reunions, diferents idiomes

Tria el model que correspongui a l'idioma de la teva reunió:

Anglès / Europeu Parakeet V3 — ~60× temps real, 6.32% WER, zero al·lucinacions en silenci
Xinès / Japonès / Coreà SenseVoice — 52× velocitat, gestiona cantonès, accelerat per GPU via MLX
Altres idiomes Whisper Large V3 Turbo — 99 idiomes, alta precisió, més lent

Què falta

Encara no tenim diarització de parlants. Ara mateix, Whisper Notes etiqueta l'àudio com "Jo" (el teu micròfon) i "Altres" (àudio del sistema) — cosa que cobreix la majoria de reunions individuals i de grups petits. Però per a una trucada de 10 persones on necessites saber qui ha dit què, no és suficient.

És el pas obvi següent i hi estem treballant. L'objectiu és una diarització local que funcioni juntament amb Parakeet V3 i SenseVoice, sense enviar àudio enlloc.