Napravili smo offline transkripciju sastanaka za Mac. Snima pozive na Zoom, Teams i Google Meet, lokalno ih transkribira pomocu Parakeet V3 i sazetke radi pomocu Gemma 4. Bez oblaka, bez bota u pozivu. Jednokratno $6.99.
Snimanje Zoom poziva u Whisper Notes — "Ja" i "Ostali" su oznaceni prema izvoru zvuka
Tipicni ponedjeljak
10 sati ujutro, Zoom poziv s klijentom. Otvorite Whisper Notes, kliknete snimi. Aplikacija istovremeno hvata zvuk sustava i vas mikrofon — nitko na sastanku ne vidi bota, nitko ne dobiva obavijest, nista se ne pojavljuje na popisu sudionika.
Sat vremena kasnije, poziv zavrsava. Zaustavite snimanje. Parakeet V3 transkribira 60 minuta zvuka u otprilike minutu, u potpunosti na Neural Engineu vaseg Maca. Kliknete Sazetak — Gemma 4 izvlaci kljucne tocke. Kliknete Zadaci — izvlaci svaki zadatak i rok koji je spomenut. Posaljete biljeske sa sastanka klijentu. Zvuk nikada nije napustio vase racunalo.
To je cijeli tijek rada. Snimi, transkribiraj, sazmi. Sve lokalno.
Sto radi
Snimanje
Whisper Notes hvata zvuk sustava — zvuk koji dolazi iz vasih zvucnika ili slusalica. Ako ga mozete cuti na Macu, mozemo ga transkribirati. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcastovi ili bilo koja druga aplikacija. Takoder snima vas mikrofon istovremeno, tako da su obje strane razgovora uhvacene.
Nijedan bot se ne prikljucuje pozivu. To je vaznije nego sto zvuci. Ako ste ikada vidjeli „Otter.ai Notetaker has joined the meeting" iskociti u Zoom pozivu, znate sto se dogada — netko pita sto je to, netko se osjecao neugodno i razgovor se mijenja. S hvatanjem zvuka sustava, nitko ne zna da snimate osim vas.
Transkripcija
Parakeet V3 radi na Apple Silicon putem CoreML. Obraduje engleski i 24 europska jezika brzinom od otprilike 60× stvarnog vremena — 60-minutni sastanak zavrsi za otprilike minutu. Za kineski, japanski ili korejski, SenseVoice obraduje CJK brzinom 52×. Pyannote VAD uklanja tisinu prije transkripcije, tako da model obraduje samo stvarni govor.
Transkript s vremenskim oznakama i inline uredivanjem — kliknite na bilo koji segment za skok na taj trenutak u zvuku
AI znacajke — sve lokalno
Gemma 4 radi na vasem Macu. Bez API kljuca, bez poziva u oblak, bez ogranicenja koristenja. Nakon transkripcije:
- •Sazetak — glavne tocke 60-minutnog sastanka, u sekundama
- •Zadaci — zadaci i rokovi, automatski izvuceni
- •Prijevod — Apple Intelligence prevodi transkript na drugi jezik
- •Chat — pitajte „sto smo dogovorili oko cijena?" i dobijte odgovor utemeljen na transkriptu
Bocna traka AI Gemma 4 — Sazetak, Zadaci, Prijevod i slobodni chat, sve radi lokalno
Zasto smo to napravili ovako
Zvuk sa sastanaka spada medu najosjetljivije podatke koje tvrtka proizvodi. Pregovori s klijentima, HR razgovori, rasprave uprave, pravne konzultacije — vrste razgovora kod kojih krivi curenje moze unistiti karijere.
Vecina alata za transkripciju prenosi ovaj zvuk na posluzitelje u oblaku, tamo ga obraduje i pohranjuje prema svojim pravilima o cuvanju podataka. Neki dodaju bota u poziv kojeg svi vide. Neki cuvaju vase snimke neograniceno za „poboljsanje modela".
Mi smo odabrali drugaciji pristup: sve radi na vasem Macu. ASR model, LLM, pohrana zvuka — sve lokalno. Nema posluzitelja koji se moze probiti, nema pravila o cuvanju podataka za citanje, nema rizika od sudskog naloga trece strane. Za timove pod GDPR, HIPAA ili odvjetnickom tajnom, ova arhitektura je sama bit.
Usporedba
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Obrada | 100% na uredaju | Oblak | Oblak | Hibridno |
| Bot u pozivu | Ne | Da | Da | Ne |
| Cijena | Jednokratno $6.99 | $16.99/mj. (Pro) | od $18/mj. | $24/mj. |
| Radi offline | Da | Ne | Ne | Djelomicno |
| AI sazetak | Lokalno (Gemma 4) | Oblak | Oblak | Oblak |
| Razlikovanje govornika | Jos ne | Da | Da | Da |
Razliciti sastanci, razliciti jezici
Odaberite model koji odgovara jeziku vaseg sastanka:
| Engleski / europski jezici | Parakeet V3 — ~60× stvarno vrijeme, 6.32% WER, nula halucinacija na tisini |
| Kineski / japanski / korejski | SenseVoice — 52× brzina, podrzava kantonski, GPU ubrzanje putem MLX |
| Ostali jezici | Whisper Large V3 Turbo — 99 jezika, visoka tocnost, sporije |
Sto nedostaje
Jos nemamo razlikovanje govornika. Trenutno Whisper Notes oznacava zvuk kao „Ja" (vas mikrofon) i „Ostali" (zvuk sustava) — sto pokriva vecinu sastanaka jedan na jedan i malih grupa. Ali za poziv s 10 osoba gdje trebate znati tko je sto rekao, to nije dovoljno.
To je ociti sljedeci korak i radimo na tome. Cilj je lokalno razlikovanje govornika koje radi uz Parakeet V3 i SenseVoice, bez slanja zvuka ikamo.