Offline értekezlet-átírás Mac-en: Zoom, Teams és Meet helyi rögzítése

2026. május 13.
·
8 min read
·Whisper Notes Team

Offline megbeszélés-átírást építettünk Mac-re. Rögzíti a Zoom, Teams és Google Meet hívásokat, helyileg írja át őket a Parakeet V3-mal, és a Gemma 4-gyel összefoglalja őket. Nincs felhő, nincs bot a hívásban. Egyszer $6.99.

Whisper Notes Zoom megbeszélés rögzítése Mac-en valós idejű átírással Én és Mások címkékkel

Zoom hívás felvétele a Whisper Notes-ban — az „Én" és „Mások" a hangforrás alapján vannak címkézve

Egy átlagos hétfő

Délelőtt 10, Zoom hívás egy ügyféllel. Megnyitod a Whisper Notes-ot, kattintasz a felvételre. Az alkalmazás egyidejűleg rögzíti a rendszerhangot és a mikrofont — senki sem lát botot a megbeszélésben, senki sem kap értesítést, semmi sem jelenik meg a résztvevők listáján.

Egy órával később a hívás véget ér. Leállítod a felvételt. A Parakeet V3 körülbelül egy perc alatt átírja a 60 perc hanganyagot, teljes egészében a Mac Neural Engine-jén. Kattintasz az Összefoglalás-ra — a Gemma 4 kivonja a legfontosabb pontokat. Kattintasz a Teendők-re — kigyűjti az összes említett feladatot és határidőt. Elküldöd a megbeszélésről készült jegyzeteket az ügyfélnek. A hang soha nem hagyta el a gépedet.

Ez az egész munkafolyamat. Felvétel, átírás, összefoglalás. Minden helyi.

Mit tud

Felvétel

A Whisper Notes rögzíti a rendszerhangot — a hangszóróid vagy fejhallgatód hangját. Ha hallod a Mac-eden, mi átírjuk. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcastok vagy bármely másik alkalmazás. Egyidejűleg a mikrofont is rögzíti, így a beszélgetés mindkét oldala megörökítődik.

Nem csatlakozik bot a híváshoz. Ez fontosabb, mint amilyennek hangzik. Ha valaha láttad az „Otter.ai Notetaker has joined the meeting" üzenetet felbukkannia egy Zoom hívásban, tudod, mi történik utána — valaki megkérdezi, mi az, valaki más kényelmetlenül érzi magát, és a beszélgetés megváltozik. Rendszerhang rögzítéssel rajtad kívül senki sem tudja, hogy felvételt készítesz.

Átírás

A Parakeet V3 Apple Siliconon fut CoreML-en keresztül. Angolt és 24 európai nyelvet dolgoz fel nagyjából 60× valós idő sebességgel — egy 60 perces megbeszélés körülbelül egy perc alatt kész. Kínai, japán vagy koreai esetében a SenseVoice kezeli a CJK nyelveket 52× sebességgel. A Pyannote VAD átírás előtt eltávolítja a csendet, így a modell csak a tényleges beszédet dolgozza fel.

Whisper Notes átírás nézet Mac-en soron belüli szövegszerkesztéssel időbélyegekkel és hanghullámformával

Átírás időbélyegekkel és soron belüli szerkesztéssel — kattints bármely szegmensre, hogy az adott pillanatra ugorj a hanganyagban

AI funkciók — Mind helyi

A Gemma 4 a Mac-eden fut. Nincs szükség API kulcsra, felhőhívásra, használati korlátra. Átírás után:

  • Összefoglalás — egy 60 perces megbeszélés fő pontjai, másodpercek alatt
  • Teendők — feladatok és határidők, automatikusan kinyerve
  • Fordítás — az Apple Intelligence lefordítja az átírást másik nyelvre
  • Csevegés — kérdezd meg, hogy „miben egyeztünk meg az árakon?" és kapj az átíráson alapuló választ
Whisper Notes AI Asszisztens oldalsó panel Összefoglalás, Teendők, Fordítás gombokkal és csevegő felülettel

Gemma 4 AI oldalsó panel — Összefoglalás, Teendők, Fordítás és szabad csevegés, mind helyileg fut

Miért így építettük

A megbeszélések hanganyaga az egyik legérzékenyebb adat, amit egy vállalat előállít. Ügyfél-tárgyalások, HR értékelések, igazgatósági ülések, jogi konzultációk — az a fajta beszélgetés, ahol egyetlen rossz kiszivárgás karriereket zár le.

A legtöbb átíró eszköz feltölti ezt a hanganyagot felhőszerverekre, ott dolgozza fel, és az adatmegőrzési szabályzatuk szerint tárolja. Néhány botot is ad a híváshoz, amit mindenki lát. Néhány a felvételeidet határozatlan ideig megőrzi „modellfejlesztés" céljából.

Mi más utat választottunk: minden a Mac-eden fut. Az ASR modell, az LLM, a hangtárolás — mind helyi. Nincs feltörhető szerver, nincs elolvasandó adatmegőrzési szabályzat, nincs harmadik feles idézési kockázat. A GDPR, HIPAA vagy ügyvédi titoktartás hatálya alá eső csapatok számára ez az architektúra maga a lényeg.

Összehasonlítás

Whisper Notes Otter.ai Fireflies Jamie
Feldolgozás 100% eszközön Felhő Felhő Hibrid
Bot a hívásban Nem Igen Igen Nem
Ár Egyszer $6.99 $16.99/hó (Pro) $18-tól/hó $24/hó
Offline működés Igen Nem Nem Részleges
AI összefoglalás Helyi (Gemma 4) Felhő Felhő Felhő
Beszélőazonosítás Még nem Igen Igen Igen

Különböző megbeszélések, különböző nyelvek

Válaszd ki a megbeszélésed nyelvének megfelelő modellt:

Angol / Európai Parakeet V3 — ~60× valós idő, 6.32% WER, nulla hallucináció csendben
Kínai / Japán / Koreai SenseVoice — 52× sebesség, kezeli a kantoni nyelvet, GPU-gyorsított MLX-en keresztül
Egyéb nyelvek Whisper Large V3 Turbo — 99 nyelv, magas pontosság, lassabb

Mi hiányzik

Még nincs beszélőazonosításunk. Jelenleg a Whisper Notes „Én" (mikrofon) és „Mások" (rendszerhang) címkével jelöli a hangot — ez a legtöbb egyszemélyes és kiscsoportos megbeszélésre elegendő. De egy 10 fős hívásnál, ahol tudni kell, ki mit mondott, ez nem elég.

Ez a kézenfekvő következő lépés, és dolgozunk rajta. A cél a helyi beszélőazonosítás, amely a Parakeet V3 és a SenseVoice mellett fut anélkül, hogy a hanganyagot bárhova is elküldené.