Abbiamo creato la trascrizione offline delle riunioni per Mac. Registra le chiamate Zoom, Teams e Google Meet, le trascrive localmente con Parakeet V3 e le riassume con Gemma 4. Niente cloud, niente bot nella chiamata. $6.99 una tantum.
Registrazione di una chiamata Zoom in Whisper Notes — "Io" e "Altri" sono etichettati per fonte audio
Un tipico lunedì
Ore 10, chiamata Zoom con un cliente. Apri Whisper Notes, clicchi su registra. L'app cattura contemporaneamente l'audio di sistema e il tuo microfono — nessuno nella riunione vede un bot, nessuno riceve una notifica, niente compare nella lista dei partecipanti.
Un'ora dopo, la chiamata finisce. Fermi la registrazione. Parakeet V3 trascrive 60 minuti di audio in circa un minuto, interamente sulla Neural Engine del tuo Mac. Tocchi Riassumi — Gemma 4 estrae i punti chiave. Tocchi Azioni — vengono estratti tutti i compiti e le scadenze menzionate. Invii le note della riunione al cliente. L'audio non ha mai lasciato il tuo computer.
Il workflow è tutto qui. Registra, trascrivi, riassumi. Tutto in locale.
Cosa fa
Registrazione
Whisper Notes cattura l'audio di sistema — il suono che esce dai tuoi altoparlanti o dalle cuffie. Se lo puoi sentire sul Mac, possiamo trascriverlo. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcast o qualsiasi altra app. Registra anche il microfono contemporaneamente, così entrambi i lati della conversazione vengono catturati.
Nessun bot entra nella chiamata. Questo conta più di quanto sembri. Se hai mai visto "Otter.ai Notetaker has joined the meeting" comparire in una chiamata Zoom, sai cosa succede dopo — qualcuno chiede cos'è, qualcun altro si sente a disagio, e la conversazione cambia tono. Con la cattura dell'audio di sistema, nessuno sa che stai registrando tranne te.
Trascrizione
Parakeet V3 gira su Apple Silicon tramite CoreML. Elabora inglese e 24 lingue europee a circa 60 volte la velocità reale — una riunione di 60 minuti viene completata in circa un minuto. Per cinese, giapponese o coreano, SenseVoice gestisce CJK a 52 volte la velocità. Pyannote VAD rimuove i silenzi prima della trascrizione, così il modello elabora solo il parlato effettivo.
Trascrizione con timestamp e modifica inline — clicca su un segmento per saltare a quel punto nell'audio
Funzioni IA — tutte in locale
Gemma 4 gira sul tuo Mac. Nessuna API key, nessuna chiamata cloud, nessun limite di utilizzo. Dopo la trascrizione:
- •Riassumi — punti principali di una riunione di 60 minuti, in pochi secondi
- •Azioni — compiti e scadenze, estratti automaticamente
- •Traduci — Apple Intelligence traduce la trascrizione in un'altra lingua
- •Chat — chiedi "cosa abbiamo concordato sul prezzo?" e ottieni una risposta basata sulla trascrizione
Barra laterale IA Gemma 4 — Riassumi, Azioni, Traduci e chat libera, tutto in esecuzione locale
Perché l'abbiamo costruito così
L'audio delle riunioni è tra i dati più sensibili che un'azienda produce. Trattative con i clienti, colloqui HR, discussioni del consiglio, consulenze legali — il tipo di conversazioni in cui una fuga di dati può rovinare carriere.
La maggior parte degli strumenti di trascrizione carica questo audio su server cloud, lo elabora lì e lo archivia secondo le proprie policy di conservazione dati. Alcuni aggiungono un bot alla chiamata visibile a tutti. Alcuni conservano le registrazioni a tempo indeterminato per il "miglioramento del modello".
Noi abbiamo scelto un approccio diverso: tutto gira sul tuo Mac. Il modello ASR, il LLM, l'archiviazione audio — tutto in locale. Non c'è nessun server da violare, nessuna policy di conservazione dati da leggere, nessun rischio di mandato di comparizione verso terzi. Per i team soggetti a GDPR, HIPAA o segreto professionale avvocato-cliente, questa architettura è il punto.
Confronto
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Elaborazione | 100% on-device | Cloud | Cloud | Ibrido |
| Bot nella chiamata | No | Sì | Sì | No |
| Prezzo | $6.99 una tantum | $16.99/mo (Pro) | from $18/mo | $24/mo |
| Funziona offline | Sì | No | No | Parziale |
| Riassunto IA | Locale (Gemma 4) | Cloud | Cloud | Cloud |
| Separazione parlanti | Non ancora | Sì | Sì | Sì |
Riunioni diverse, lingue diverse
Scegli il modello in base alla lingua della riunione:
| Inglese / Europeo | Parakeet V3 — ~60 volte il tempo reale, 6.32% WER, zero allucinazioni sui silenzi |
| Cinese / Giapponese / Coreano | SenseVoice — 52 volte la velocità, supporta il cantonese, accelerazione GPU via MLX |
| Altre lingue | Whisper Large V3 Turbo — 99 lingue, alta precisione, più lento |
Cosa manca
Non abbiamo ancora la separazione dei parlanti. Al momento, Whisper Notes etichetta l'audio come "Io" (il tuo microfono) e "Altri" (audio di sistema) — sufficiente per la maggior parte delle riunioni individuali e di piccoli gruppi. Ma per una chiamata con 10 persone in cui devi sapere chi ha detto cosa, non basta.
È il passo successivo più ovvio e ci stiamo lavorando. L'obiettivo è una separazione dei parlanti locale che funzioni insieme a Parakeet V3 e SenseVoice, senza inviare audio da nessuna parte.