Offline transkripcija sastanaka na Macu: Snimajte Zoom, Teams i Meet lokalno

13. svibnja 2026.
·
8 min read
·Whisper Notes Team

Napravili smo offline transkripciju sastanaka za Mac. Snima pozive na Zoom, Teams i Google Meet, lokalno ih transkribira pomocu Parakeet V3 i sazetke radi pomocu Gemma 4. Bez oblaka, bez bota u pozivu. Jednokratno $6.99.

Whisper Notes snima Zoom sastanak na Macu s transkripcijom u stvarnom vremenu i oznakama govornika Ja i Ostali

Snimanje Zoom poziva u Whisper Notes — "Ja" i "Ostali" su oznaceni prema izvoru zvuka

Tipicni ponedjeljak

10 sati ujutro, Zoom poziv s klijentom. Otvorite Whisper Notes, kliknete snimi. Aplikacija istovremeno hvata zvuk sustava i vas mikrofon — nitko na sastanku ne vidi bota, nitko ne dobiva obavijest, nista se ne pojavljuje na popisu sudionika.

Sat vremena kasnije, poziv zavrsava. Zaustavite snimanje. Parakeet V3 transkribira 60 minuta zvuka u otprilike minutu, u potpunosti na Neural Engineu vaseg Maca. Kliknete Sazetak — Gemma 4 izvlaci kljucne tocke. Kliknete Zadaci — izvlaci svaki zadatak i rok koji je spomenut. Posaljete biljeske sa sastanka klijentu. Zvuk nikada nije napustio vase racunalo.

To je cijeli tijek rada. Snimi, transkribiraj, sazmi. Sve lokalno.

Sto radi

Snimanje

Whisper Notes hvata zvuk sustava — zvuk koji dolazi iz vasih zvucnika ili slusalica. Ako ga mozete cuti na Macu, mozemo ga transkribirati. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcastovi ili bilo koja druga aplikacija. Takoder snima vas mikrofon istovremeno, tako da su obje strane razgovora uhvacene.

Nijedan bot se ne prikljucuje pozivu. To je vaznije nego sto zvuci. Ako ste ikada vidjeli „Otter.ai Notetaker has joined the meeting" iskociti u Zoom pozivu, znate sto se dogada — netko pita sto je to, netko se osjecao neugodno i razgovor se mijenja. S hvatanjem zvuka sustava, nitko ne zna da snimate osim vas.

Transkripcija

Parakeet V3 radi na Apple Silicon putem CoreML. Obraduje engleski i 24 europska jezika brzinom od otprilike 60× stvarnog vremena — 60-minutni sastanak zavrsi za otprilike minutu. Za kineski, japanski ili korejski, SenseVoice obraduje CJK brzinom 52×. Pyannote VAD uklanja tisinu prije transkripcije, tako da model obraduje samo stvarni govor.

Prikaz transkripcije u Whisper Notes na Macu s inline uredivanjem teksta, vremenskim oznakama i audio valnim oblikom

Transkript s vremenskim oznakama i inline uredivanjem — kliknite na bilo koji segment za skok na taj trenutak u zvuku

AI znacajke — sve lokalno

Gemma 4 radi na vasem Macu. Bez API kljuca, bez poziva u oblak, bez ogranicenja koristenja. Nakon transkripcije:

  • Sazetak — glavne tocke 60-minutnog sastanka, u sekundama
  • Zadaci — zadaci i rokovi, automatski izvuceni
  • Prijevod — Apple Intelligence prevodi transkript na drugi jezik
  • Chat — pitajte „sto smo dogovorili oko cijena?" i dobijte odgovor utemeljen na transkriptu
Bocna traka AI asistenta Whisper Notes s gumbima Sazetak, Zadaci, Prijevod i suceljem za chat

Bocna traka AI Gemma 4 — Sazetak, Zadaci, Prijevod i slobodni chat, sve radi lokalno

Zasto smo to napravili ovako

Zvuk sa sastanaka spada medu najosjetljivije podatke koje tvrtka proizvodi. Pregovori s klijentima, HR razgovori, rasprave uprave, pravne konzultacije — vrste razgovora kod kojih krivi curenje moze unistiti karijere.

Vecina alata za transkripciju prenosi ovaj zvuk na posluzitelje u oblaku, tamo ga obraduje i pohranjuje prema svojim pravilima o cuvanju podataka. Neki dodaju bota u poziv kojeg svi vide. Neki cuvaju vase snimke neograniceno za „poboljsanje modela".

Mi smo odabrali drugaciji pristup: sve radi na vasem Macu. ASR model, LLM, pohrana zvuka — sve lokalno. Nema posluzitelja koji se moze probiti, nema pravila o cuvanju podataka za citanje, nema rizika od sudskog naloga trece strane. Za timove pod GDPR, HIPAA ili odvjetnickom tajnom, ova arhitektura je sama bit.

Usporedba

Whisper Notes Otter.ai Fireflies Jamie
Obrada 100% na uredaju Oblak Oblak Hibridno
Bot u pozivu Ne Da Da Ne
Cijena Jednokratno $6.99 $16.99/mj. (Pro) od $18/mj. $24/mj.
Radi offline Da Ne Ne Djelomicno
AI sazetak Lokalno (Gemma 4) Oblak Oblak Oblak
Razlikovanje govornika Jos ne Da Da Da

Razliciti sastanci, razliciti jezici

Odaberite model koji odgovara jeziku vaseg sastanka:

Engleski / europski jezici Parakeet V3 — ~60× stvarno vrijeme, 6.32% WER, nula halucinacija na tisini
Kineski / japanski / korejski SenseVoice — 52× brzina, podrzava kantonski, GPU ubrzanje putem MLX
Ostali jezici Whisper Large V3 Turbo — 99 jezika, visoka tocnost, sporije

Sto nedostaje

Jos nemamo razlikovanje govornika. Trenutno Whisper Notes oznacava zvuk kao „Ja" (vas mikrofon) i „Ostali" (zvuk sustava) — sto pokriva vecinu sastanaka jedan na jedan i malih grupa. Ali za poziv s 10 osoba gdje trebate znati tko je sto rekao, to nije dovoljno.

To je ociti sljedeci korak i radimo na tome. Cilj je lokalno razlikovanje govornika koje radi uz Parakeet V3 i SenseVoice, bez slanja zvuka ikamo.