We hebben offline vergadertranscriptie voor Mac gebouwd. Het neemt Zoom-, Teams- en Google Meet-gesprekken op, transcribeert ze lokaal met Parakeet V3, en vat ze samen met Gemma 4. Geen cloud, geen bot in het gesprek. Eenmalig $6.99.
Een Zoom-gesprek opnemen in Whisper Notes — "Ik" en "Anderen" worden gelabeld op audiobron
Een Gewone Maandag
10 uur 's ochtends, Zoom-gesprek met een klant. Je opent Whisper Notes, klikt op opnemen. De app vangt tegelijkertijd systeemaudio en je microfoon op — niemand in de vergadering ziet een bot, niemand krijgt een melding, er verschijnt niets in de deelnemerslijst.
Een uur later is het gesprek afgelopen. Je stopt de opname. Parakeet V3 transcribeert 60 minuten audio in ongeveer een minuut, volledig op de Neural Engine van je Mac. Je tikt op Samenvatten — Gemma 4 haalt de kernpunten eruit. Je tikt op Actiepunten — het extraheert elke taak en deadline die werd genoemd. Je stuurt de vergadernotities naar de klant. De audio heeft je machine nooit verlaten.
Dat is de hele workflow. Opnemen, transcriberen, samenvatten. Alles lokaal.
Wat Het Doet
Opname
Whisper Notes vangt systeemaudio op — het geluid dat uit je speakers of koptelefoon komt. Als je het op je Mac kunt horen, kunnen wij het transcriberen. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasts, of elke andere app. Het neemt ook tegelijkertijd je microfoon op, zodat beide kanten van het gesprek worden vastgelegd.
Er komt geen bot in het gesprek. Dit is belangrijker dan het klinkt. Als je ooit "Otter.ai Notetaker has joined the meeting" hebt zien verschijnen in een Zoom-gesprek, weet je wat er dan gebeurt — iemand vraagt wat het is, iemand anders wordt ongemakkelijk, en het gesprek verandert. Met systeemaudio-opname weet niemand dat je opneemt, behalve jijzelf.
Transcriptie
Parakeet V3 draait op Apple Silicon via CoreML. Het verwerkt Engels en 24 Europese talen met ongeveer 60× real-time snelheid — een vergadering van 60 minuten is in ongeveer een minuut klaar. Voor Chinees, Japans of Koreaans verwerkt SenseVoice CJK met 52× snelheid. Pyannote VAD verwijdert stilte voor de transcriptie, zodat het model alleen daadwerkelijke spraak verwerkt.
Transcript met tijdstempels en inline bewerking — klik op een segment om naar dat moment in de audio te springen
AI-functies — Alles Lokaal
Gemma 4 draait op je Mac. Geen API key, geen cloud-aanroep, geen gebruikslimieten. Na transcriptie:
- •Samenvatten — hoofdpunten van een vergadering van 60 minuten, in seconden
- •Actiepunten — taken en deadlines, automatisch geëxtraheerd
- •Vertalen — Apple Intelligence vertaalt het transcript naar een andere taal
- •Chat — vraag "wat hebben we afgesproken over de prijs?" en krijg een antwoord gebaseerd op het transcript
Gemma 4 AI-zijbalk — Samenvatten, Actiepunten, Vertalen en vrije chat, alles lokaal
Waarom We Het Zo Hebben Gebouwd
Vergaderaudio is een van de gevoeligste gegevens die een bedrijf produceert. Klantonderhandelingen, HR-beoordelingen, bestuursvergaderingen, juridische consulten — het soort gesprekken waarbij het verkeerde lek carrières beëindigt.
De meeste transcriptietools uploaden deze audio naar cloudservers, verwerken het daar, en slaan het op onder hun gegevensretentiebeleid. Sommige voegen een bot toe aan het gesprek die iedereen kan zien. Sommige bewaren je opnames voor onbepaalde tijd voor "modelverbetering."
Wij kozen een andere aanpak: alles draait op je Mac. Het ASR-model, de LLM, de audio-opslag — alles lokaal. Er is geen server om te hacken, geen gegevensretentiebeleid om te lezen, geen risico op dagvaarding door derden. Voor teams die onder GDPR, HIPAA of het verschoningsrecht vallen, is deze architectuur het hele punt.
Vergelijking
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Verwerking | 100% op het apparaat | Cloud | Cloud | Hybrid |
| Bot in gesprek | Nee | Ja | Ja | Nee |
| Prijs | Eenmalig $6.99 | $16.99/mnd (Pro) | vanaf $18/mnd | $24/mnd |
| Werkt offline | Ja | Nee | Nee | Gedeeltelijk |
| AI-samenvatting | Lokaal (Gemma 4) | Cloud | Cloud | Cloud |
| Sprekersherkenning | Nog niet | Ja | Ja | Ja |
Verschillende Vergaderingen, Verschillende Talen
Kies het model dat bij de taal van je vergadering past:
| Engels / Europees | Parakeet V3 — ~60× real-time, 6.32% WER, geen hallucinaties bij stilte |
| Chinees / Japans / Koreaans | SenseVoice — 52× snelheid, ondersteunt Kantonees, GPU-versneld via MLX |
| Andere talen | Whisper Large V3 Turbo — 99 talen, hoge nauwkeurigheid, langzamer |
Wat Er Nog Ontbreekt
We hebben nog geen sprekersherkenning. Op dit moment labelt Whisper Notes audio als "Ik" (je microfoon) en "Anderen" (systeemaudio) — wat voor de meeste een-op-een- en kleine groepsvergaderingen volstaat. Maar voor een gesprek met 10 personen waar je moet weten wie wat zei, is dat niet genoeg.
Het is de voor de hand liggende volgende stap en we werken eraan. Het doel is lokale sprekersherkenning die naast Parakeet V3 en SenseVoice draait, zonder audio ergens naartoe te sturen.