Trascrizione riunioni offline su Mac: Registra Zoom, Teams e Meet in locale

Abbiamo creato la trascrizione offline delle riunioni per Mac. Registra le chiamate Zoom, Teams e Google Meet, le trascrive localmente con Parakeet V3 e le riassume con Gemma 4. Niente cloud, niente bot nella chiamata. $6.99 una tantum.

Whisper Notes registra una riunione Zoom su Mac con trascrizione in tempo reale ed etichette Io e Altri

Registrazione di una chiamata Zoom in Whisper Notes — "Io" e "Altri" sono etichettati per fonte audio

Un tipico lunedì

Ore 10, chiamata Zoom con un cliente. Apri Whisper Notes, clicchi su registra. L'app cattura contemporaneamente l'audio di sistema e il tuo microfono — nessuno nella riunione vede un bot, nessuno riceve una notifica, niente compare nella lista dei partecipanti.

Un'ora dopo, la chiamata finisce. Fermi la registrazione. Parakeet V3 trascrive 60 minuti di audio in circa un minuto, interamente sulla Neural Engine del tuo Mac. Tocchi Riassumi — Gemma 4 estrae i punti chiave. Tocchi Azioni — vengono estratti tutti i compiti e le scadenze menzionate. Invii le note della riunione al cliente. L'audio non ha mai lasciato il tuo computer.

Il workflow è tutto qui. Registra, trascrivi, riassumi. Tutto in locale.

Cosa fa

Registrazione

Whisper Notes cattura l'audio di sistema — il suono che esce dai tuoi altoparlanti o dalle cuffie. Se lo puoi sentire sul Mac, possiamo trascriverlo. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcast o qualsiasi altra app. Registra anche il microfono contemporaneamente, così entrambi i lati della conversazione vengono catturati.

Nessun bot entra nella chiamata. Questo conta più di quanto sembri. Se hai mai visto "Otter.ai Notetaker has joined the meeting" comparire in una chiamata Zoom, sai cosa succede dopo — qualcuno chiede cos'è, qualcun altro si sente a disagio, e la conversazione cambia tono. Con la cattura dell'audio di sistema, nessuno sa che stai registrando tranne te.

Trascrizione

Parakeet V3 gira su Apple Silicon tramite CoreML. Elabora inglese e 24 lingue europee a circa 60 volte la velocità reale — una riunione di 60 minuti viene completata in circa un minuto. Per cinese, giapponese o coreano, SenseVoice gestisce CJK a 52 volte la velocità. Pyannote VAD rimuove i silenzi prima della trascrizione, così il modello elabora solo il parlato effettivo.

Trascrizione con timestamp e modifica inline — clicca su un segmento per saltare a quel punto nell'audio

Funzioni IA — tutte in locale

Gemma 4 gira sul tuo Mac. Nessuna API key, nessuna chiamata cloud, nessun limite di utilizzo. Dopo la trascrizione:

•Riassumi — punti principali di una riunione di 60 minuti, in pochi secondi
•Azioni — compiti e scadenze, estratti automaticamente
•Traduci — Apple Intelligence traduce la trascrizione in un'altra lingua
•Chat — chiedi "cosa abbiamo concordato sul prezzo?" e ottieni una risposta basata sulla trascrizione

Barra laterale dell'assistente IA di Whisper Notes con pulsanti Riassumi, Azioni, Traduci e interfaccia chat

Barra laterale IA Gemma 4 — Riassumi, Azioni, Traduci e chat libera, tutto in esecuzione locale

Perché l'abbiamo costruito così

L'audio delle riunioni è tra i dati più sensibili che un'azienda produce. Trattative con i clienti, colloqui HR, discussioni del consiglio, consulenze legali — il tipo di conversazioni in cui una fuga di dati può rovinare carriere.

La maggior parte degli strumenti di trascrizione carica questo audio su server cloud, lo elabora lì e lo archivia secondo le proprie policy di conservazione dati. Alcuni aggiungono un bot alla chiamata visibile a tutti. Alcuni conservano le registrazioni a tempo indeterminato per il "miglioramento del modello".

Noi abbiamo scelto un approccio diverso: tutto gira sul tuo Mac. Il modello ASR, il LLM, l'archiviazione audio — tutto in locale. Non c'è nessun server da violare, nessuna policy di conservazione dati da leggere, nessun rischio di mandato di comparizione verso terzi. Per i team soggetti a GDPR, HIPAA o segreto professionale avvocato-cliente, questa architettura è il punto.

Confronto

	Whisper Notes	Otter.ai	Fireflies	Jamie
Elaborazione	100% on-device	Cloud	Cloud	Ibrido
Bot nella chiamata	No	Sì	Sì	No
Prezzo	$6.99 una tantum	$16.99/mo (Pro)	from $18/mo	$24/mo
Funziona offline	Sì	No	No	Parziale
Riassunto IA	Locale (Gemma 4)	Cloud	Cloud	Cloud
Separazione parlanti	Non ancora	Sì	Sì	Sì

Riunioni diverse, lingue diverse

Scegli il modello in base alla lingua della riunione:

Inglese / Europeo	Parakeet V3 — ~60 volte il tempo reale, 6.32% WER, zero allucinazioni sui silenzi
Cinese / Giapponese / Coreano	SenseVoice — 52 volte la velocità, supporta il cantonese, accelerazione GPU via MLX
Altre lingue	Whisper Large V3 Turbo — 99 lingue, alta precisione, più lento

Cosa manca

Non abbiamo ancora la separazione dei parlanti. Al momento, Whisper Notes etichetta l'audio come "Io" (il tuo microfono) e "Altri" (audio di sistema) — sufficiente per la maggior parte delle riunioni individuali e di piccoli gruppi. Ma per una chiamata con 10 persone in cui devi sapere chi ha detto cosa, non basta.

È il passo successivo più ovvio e ci stiamo lavorando. L'obiettivo è una separazione dei parlanti locale che funzioni insieme a Parakeet V3 e SenseVoice, senza inviare audio da nessuna parte.

Scarica per iOS

Scarica per macOS