Offline mötesutskrift på Mac: Spela in Zoom, Teams och Meet lokalt

13 maj 2026
·
8 min read
·Whisper Notes Team

Vi byggde offline-mötestranskription för Mac. Den spelar in Zoom-, Teams- och Google Meet-samtal, transkriberar dem lokalt med Parakeet V3 och sammanfattar dem med Gemma 4. Ingen molntjänst, ingen bot i samtalet. $6.99 engångsköp.

Whisper Notes spelar in ett Zoom-möte på Mac med realtidstranskription som visar etiketterna Jag och Andra

Spela in ett Zoom-samtal i Whisper Notes — "Jag" och "Andra" märks efter ljudkälla

En Vanlig Måndag

Klockan 10, Zoom-samtal med en kund. Du öppnar Whisper Notes, klickar på spela in. Appen fångar systemljud och din mikrofon samtidigt — ingen i mötet ser en bot, ingen får en avisering, inget dyker upp i deltagarlistan.

En timme senare avslutas samtalet. Du stoppar inspelningen. Parakeet V3 transkriberar 60 minuters ljud på ungefär en minut, helt på din Macs Neural Engine. Du trycker på Sammanfatta — Gemma 4 extraherar nyckelpunkterna. Du trycker på Åtgärdspunkter — den plockar ut varje uppgift och deadline som nämndes. Du skickar mötesanteckningarna till kunden. Ljudet lämnade aldrig din dator.

Det är hela arbetsflödet. Spela in, transkribera, sammanfatta. Allt lokalt.

Vad Den Gör

Inspelning

Whisper Notes fångar systemljud — ljudet som kommer ur dina högtalare eller hörlurar. Om du kan höra det på din Mac kan vi transkribera det. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, poddar eller vilken annan app som helst. Den spelar också in din mikrofon samtidigt, så båda sidor av konversationen fångas.

Ingen bot ansluter till samtalet. Det spelar större roll än det låter. Om du någonsin sett "Otter.ai Notetaker has joined the meeting" dyka upp i ett Zoom-samtal vet du vad som händer härnäst — någon frågar vad det är, någon annan blir obekväm och samtalet förändras. Med systemljudinspelning vet ingen att du spelar in förutom du själv.

Transkription

Parakeet V3 körs på Apple Silicon via CoreML. Den bearbetar engelska och 24 europeiska språk med ungefär 60× realtid — ett 60-minutersmöte är klart på ungefär en minut. För kinesiska, japanska eller koreanska hanterar SenseVoice CJK med 52× hastighet. Pyannote VAD tar bort tystnad före transkription, så modellen bara bearbetar faktiskt tal.

Whisper Notes transkriptionsvy på Mac med inline-textredigering med tidsstämplar och ljudvågform

Transkript med tidsstämplar och inline-redigering — klicka på valfritt segment för att hoppa till det ögonblicket i ljudet

AI-funktioner — Allt Lokalt

Gemma 4 körs på din Mac. Ingen API-nyckel, inget molnanrop, inga användningsgränser. Efter transkription:

  • Sammanfatta — huvudpunkterna från ett 60-minutersmöte, på sekunder
  • Åtgärdspunkter — uppgifter och deadlines, extraherade automatiskt
  • Översätt — Apple Intelligence översätter transkriptet till ett annat språk
  • Chatt — fråga "vad kom vi överens om angående priset?" och få ett svar grundat i transkriptet
Whisper Notes AI-assistent sidofält med knapparna Sammanfatta, Åtgärdspunkter, Översätt och chattgränssnitt

Gemma 4 AI-sidofält — Sammanfatta, Åtgärdspunkter, Översätt och fri chatt, allt körs lokalt

Varför Vi Byggde Det Så Här

Mötesljud är bland de känsligaste data ett företag producerar. Kundförhandlingar, HR-utvärderingar, styrelsediskussioner, juridiska konsultationer — den typen av samtal där fel läcka avslutar karriärer.

De flesta transkriptionsverktyg laddar upp detta ljud till molnservrar, bearbetar det där och lagrar det enligt sina datalagringsregler. Vissa lägger till en bot i samtalet som alla kan se. Vissa behåller dina inspelningar på obestämd tid för "modellförbättring."

Vi valde en annan väg: allt körs på din Mac. ASR-modellen, LLM:en, ljudlagringen — allt lokalt. Det finns ingen server att hacka, inga datalagringsregler att läsa, ingen risk för tredjepartsförelägganden. För team som lyder under GDPR, HIPAA eller advokatsekretess är denna arkitektur hela poängen.

Jämförelse

Whisper Notes Otter.ai Fireflies Jamie
Bearbetning 100% på enheten Cloud Cloud Hybrid
Bot i samtalet Nej Ja Ja Nej
Pris $6.99 engångsköp $16.99/mån (Pro) från $18/mån $24/mån
Fungerar offline Ja Nej Nej Delvis
AI-sammanfattning Lokalt (Gemma 4) Cloud Cloud Cloud
Talaridentifiering Inte ännu Ja Ja Ja

Olika Möten, Olika Språk

Välj den modell som matchar ditt mötesspråk:

Engelska / Europeiska Parakeet V3 — ~60× realtid, 6.32% WER, inga hallucinationer vid tystnad
Kinesiska / Japanska / Koreanska SenseVoice — 52× hastighet, stöder kantonesiska, GPU-accelererad via MLX
Andra språk Whisper Large V3 Turbo — 99 språk, hög precision, långsammare

Vad Som Saknas

Vi har inte talaridentifiering ännu. Just nu märker Whisper Notes ljud som "Jag" (din mikrofon) och "Andra" (systemljud) — vilket täcker de flesta enskilda samtal och smågruppsmöten. Men för ett samtal med 10 personer där du behöver veta vem som sa vad räcker det inte.

Det är det uppenbara nästa steget och vi arbetar på det. Målet är lokal talaridentifiering som körs tillsammans med Parakeet V3 och SenseVoice, utan att skicka ljud någonstans.