Hem creat la transcripció de reunions offline per a Mac. Grava trucades de Zoom, Teams i Google Meet, les transcriu localment amb Parakeet V3 i les resumeix amb Gemma 4. Sense núvol, sense bot a la trucada. $6.99 un sol pagament.
Gravant una trucada de Zoom a Whisper Notes — "Jo" i "Altres" s'etiqueten segons la font d'àudio
Un dilluns qualsevol
10 del matí, trucada de Zoom amb un client. Obres Whisper Notes, cliques gravar. L'aplicació captura l'àudio del sistema i el micròfon simultàniament — ningú a la reunió veu cap bot, ningú rep cap notificació, res no apareix a la llista de participants.
Una hora després, la trucada acaba. Atures la gravació. Parakeet V3 transcriu 60 minuts d'àudio en aproximadament un minut, íntegrament al Neural Engine del teu Mac. Cliques Resumir — Gemma 4 n'extreu els punts clau. Cliques Tasques pendents — extreu cada tasca i termini mencionats. Envies les notes de la reunió al client. L'àudio no ha sortit mai de la teva màquina.
Aquest és tot el flux de treball. Gravar, transcriure, resumir. Tot local.
Què fa
Gravació
Whisper Notes captura l'àudio del sistema — el so que surt dels altaveus o auriculars. Si ho pots sentir al teu Mac, ho podem transcriure. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasts o qualsevol altra aplicació. També grava el micròfon alhora, de manera que es capturen ambdues parts de la conversa.
Cap bot s'uneix a la trucada. Això importa més del que sembla. Si alguna vegada has vist "Otter.ai Notetaker has joined the meeting" aparèixer en una trucada de Zoom, saps què passa després — algú pregunta què és, algú altre es posa incòmode i la conversa canvia. Amb la captura d'àudio del sistema, ningú sap que estàs gravant excepte tu.
Transcripció
Parakeet V3 s'executa a Apple Silicon via CoreML. Processa anglès i 24 llengües europees a aproximadament 60× temps real — una reunió de 60 minuts acaba en uns un minut. Per a xinès, japonès o coreà, SenseVoice gestiona CJK a 52× de velocitat. Pyannote VAD elimina els silencis abans de la transcripció, de manera que el model només processa la parla real.
Transcripció amb marques de temps i edició en línia — clica qualsevol segment per saltar a aquell moment de l'àudio
Funcions d'IA — Totes locals
Gemma 4 s'executa al teu Mac. Sense clau d'API, sense trucada al núvol, sense límits d'ús. Després de la transcripció:
- •Resumir — els punts principals d'una reunió de 60 minuts, en segons
- •Tasques pendents — tasques i terminis, extrets automàticament
- •Traduir — Apple Intelligence tradueix la transcripció a un altre idioma
- •Xat — pregunta "en què hem quedat sobre el preu?" i obtén una resposta basada en la transcripció
Barra lateral d'IA Gemma 4 — Resumir, Tasques pendents, Traduir i xat lliure, tot executant-se localment
Per què ho hem fet així
L'àudio de les reunions és una de les dades més sensibles que produeix una empresa. Negociacions amb clients, revisions de RRHH, discussions de junta, consultes legals — el tipus de converses on una filtració equivocada acaba amb carreres.
La majoria d'eines de transcripció pugen aquest àudio a servidors al núvol, el processen allà i l'emmagatzemen segons les seves polítiques de retenció de dades. Algunes afegeixen un bot a la trucada que tothom pot veure. Algunes conserven les teves gravacions indefinidament per a "millora del model".
Nosaltres hem triat un enfocament diferent: tot s'executa al teu Mac. El model ASR, el LLM, l'emmagatzematge d'àudio — tot local. No hi ha cap servidor que es pugui vulnerar, cap política de retenció de dades que llegir, cap risc de citació de tercers. Per a equips subjectes a GDPR, HIPAA o secret professional advocat-client, aquesta arquitectura és el que importa.
Com es compara
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Processament | 100% al dispositiu | Núvol | Núvol | Híbrid |
| Bot a la trucada | No | Sí | Sí | No |
| Preu | $6.99 un sol pagament | $16.99/mes (Pro) | des de $18/mes | $24/mes |
| Funciona offline | Sí | No | No | Parcial |
| Resum IA | Local (Gemma 4) | Núvol | Núvol | Núvol |
| Diarització de parlants | Encara no | Sí | Sí | Sí |
Diferents reunions, diferents idiomes
Tria el model que correspongui a l'idioma de la teva reunió:
| Anglès / Europeu | Parakeet V3 — ~60× temps real, 6.32% WER, zero al·lucinacions en silenci |
| Xinès / Japonès / Coreà | SenseVoice — 52× velocitat, gestiona cantonès, accelerat per GPU via MLX |
| Altres idiomes | Whisper Large V3 Turbo — 99 idiomes, alta precisió, més lent |
Què falta
Encara no tenim diarització de parlants. Ara mateix, Whisper Notes etiqueta l'àudio com "Jo" (el teu micròfon) i "Altres" (àudio del sistema) — cosa que cobreix la majoria de reunions individuals i de grups petits. Però per a una trucada de 10 persones on necessites saber qui ha dit què, no és suficient.
És el pas obvi següent i hi estem treballant. L'objectiu és una diarització local que funcioni juntament amb Parakeet V3 i SenseVoice, sense enviar àudio enlloc.