Nous avons developpe la transcription de reunions hors ligne pour Mac. L'app enregistre les appels Zoom, Teams et Google Meet, les transcrit localement avec Parakeet V3 et les resume avec Gemma 4. Pas de cloud, pas de bot dans l'appel. $6.99 en une fois.
Enregistrement d'un appel Zoom dans Whisper Notes — « Moi » et « Autres » sont identifies par source audio
Un lundi ordinaire
10 h, appel Zoom avec un client. Vous ouvrez Whisper Notes, vous cliquez sur enregistrer. L'app capture l'audio systeme et votre microphone simultanement : personne dans la reunion ne voit de bot, personne ne recoit de notification, rien n'apparait dans la liste des participants.
Une heure plus tard, l'appel se termine. Vous arretez l'enregistrement. Parakeet V3 transcrit 60 minutes d'audio en environ une minute, entierement sur le Neural Engine de votre Mac. Vous appuyez sur Resumer : Gemma 4 extrait les points cles. Vous appuyez sur Actions : il extrait chaque tache et echeance mentionnee. Vous envoyez les notes de reunion au client. L'audio n'a jamais quitte votre machine.
C'est tout le workflow. Enregistrer, transcrire, resumer. Tout en local.
Ce que ca fait
Enregistrement
Whisper Notes capture l'audio systeme : le son qui sort de vos haut-parleurs ou de votre casque. Si vous pouvez l'entendre sur votre Mac, nous pouvons le transcrire. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasts ou toute autre app. L'app enregistre egalement votre microphone en meme temps, de sorte que les deux cotes de la conversation sont captures.
Aucun bot ne rejoint l'appel. C'est plus important qu'il n'y parait. Si vous avez deja vu "Otter.ai Notetaker has joined the meeting" s'afficher dans un appel Zoom, vous savez ce qui se passe ensuite : quelqu'un demande ce que c'est, quelqu'un d'autre est mal a l'aise, et la conversation change. Avec la capture audio systeme, personne ne sait que vous enregistrez, sauf vous.
Transcription
Parakeet V3 s'execute sur Apple Silicon via CoreML. Il traite l'anglais et 24 langues europeennes a environ 60x le temps reel : une reunion de 60 minutes se termine en environ une minute. Pour le chinois, le japonais ou le coreen, SenseVoice gere le CJK a 52x la vitesse. Pyannote VAD supprime les silences avant la transcription, de sorte que le modele ne traite que la parole reelle.
Transcription avec horodatages et edition en ligne — cliquez sur un segment pour acceder a ce moment dans l'audio
Fonctionnalites IA — entierement locales
Gemma 4 s'execute sur votre Mac. Pas de cle API, pas d'appel cloud, pas de limites d'utilisation. Apres la transcription :
- •Resumer — les points principaux d'une reunion de 60 minutes, en quelques secondes
- •Actions — taches et echeances, extraites automatiquement
- •Traduire — Apple Intelligence traduit la transcription dans une autre langue
- •Chat — demandez "qu'avons-nous convenu sur les prix ?" et obtenez une reponse basee sur la transcription
Barre laterale IA Gemma 4 — Resumer, Actions, Traduire et chat libre, tout en local
Pourquoi nous l'avons construit ainsi
L'audio de reunion est l'une des donnees les plus sensibles qu'une entreprise produit. Negociations clients, entretiens RH, discussions de conseil d'administration, consultations juridiques : le type de conversations ou une fuite peut mettre fin a des carrieres.
La plupart des outils de transcription envoient cet audio sur des serveurs cloud, le traitent la-bas et le stockent selon leurs politiques de retention de donnees. Certains ajoutent un bot a l'appel que tout le monde peut voir. Certains conservent vos enregistrements indefiniment pour "l'amelioration du modele".
Nous avons pris une approche differente : tout s'execute sur votre Mac. Le modele ASR, le LLM, le stockage audio — tout en local. Il n'y a pas de serveur a pirater, pas de politique de retention a lire, pas de risque d'assignation a un tiers. Pour les equipes soumises au RGPD, a la HIPAA ou au secret professionnel avocat-client, cette architecture est exactement le point.
Comparatif
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Traitement | 100 % sur l'appareil | Cloud | Cloud | Hybride |
| Bot dans l'appel | Non | Oui | Oui | Non |
| Prix | $6.99 en une fois | $16.99/mois (Pro) | a partir de $18/mois | $24/mois |
| Fonctionne hors ligne | Oui | Non | Non | Partiel |
| Resume IA | Local (Gemma 4) | Cloud | Cloud | Cloud |
| Diarisation des locuteurs | Pas encore | Oui | Oui | Oui |
Differentes reunions, differentes langues
Choisissez le modele qui correspond a la langue de votre reunion :
| Anglais / Europeen | Parakeet V3 — ~60x le temps reel, 6.32 % WER, zero hallucinations sur le silence |
| Chinois / Japonais / Coreen | SenseVoice — 52x la vitesse, gere le cantonais, accelere par GPU via MLX |
| Autres langues | Whisper Large V3 Turbo — 99 langues, haute precision, plus lent |
Ce qui manque
Nous n'avons pas encore la diarisation des locuteurs. Actuellement, Whisper Notes etiquette l'audio comme "Moi" (votre microphone) et "Autres" (audio systeme) — ce qui couvre la plupart des reunions en tete-a-tete et en petit groupe. Mais pour un appel a 10 personnes ou vous devez savoir qui a dit quoi, ce n'est pas suffisant.
C'est la prochaine etape evidente et nous y travaillons. L'objectif est une diarisation locale qui fonctionne aux cotes de Parakeet V3 et SenseVoice, sans envoyer l'audio ou que ce soit.