Offline megbeszélés-átírást építettünk Mac-re. Rögzíti a Zoom, Teams és Google Meet hívásokat, helyileg írja át őket a Parakeet V3-mal, és a Gemma 4-gyel összefoglalja őket. Nincs felhő, nincs bot a hívásban. Egyszer $6.99.
Zoom hívás felvétele a Whisper Notes-ban — az „Én" és „Mások" a hangforrás alapján vannak címkézve
Egy átlagos hétfő
Délelőtt 10, Zoom hívás egy ügyféllel. Megnyitod a Whisper Notes-ot, kattintasz a felvételre. Az alkalmazás egyidejűleg rögzíti a rendszerhangot és a mikrofont — senki sem lát botot a megbeszélésben, senki sem kap értesítést, semmi sem jelenik meg a résztvevők listáján.
Egy órával később a hívás véget ér. Leállítod a felvételt. A Parakeet V3 körülbelül egy perc alatt átírja a 60 perc hanganyagot, teljes egészében a Mac Neural Engine-jén. Kattintasz az Összefoglalás-ra — a Gemma 4 kivonja a legfontosabb pontokat. Kattintasz a Teendők-re — kigyűjti az összes említett feladatot és határidőt. Elküldöd a megbeszélésről készült jegyzeteket az ügyfélnek. A hang soha nem hagyta el a gépedet.
Ez az egész munkafolyamat. Felvétel, átírás, összefoglalás. Minden helyi.
Mit tud
Felvétel
A Whisper Notes rögzíti a rendszerhangot — a hangszóróid vagy fejhallgatód hangját. Ha hallod a Mac-eden, mi átírjuk. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcastok vagy bármely másik alkalmazás. Egyidejűleg a mikrofont is rögzíti, így a beszélgetés mindkét oldala megörökítődik.
Nem csatlakozik bot a híváshoz. Ez fontosabb, mint amilyennek hangzik. Ha valaha láttad az „Otter.ai Notetaker has joined the meeting" üzenetet felbukkannia egy Zoom hívásban, tudod, mi történik utána — valaki megkérdezi, mi az, valaki más kényelmetlenül érzi magát, és a beszélgetés megváltozik. Rendszerhang rögzítéssel rajtad kívül senki sem tudja, hogy felvételt készítesz.
Átírás
A Parakeet V3 Apple Siliconon fut CoreML-en keresztül. Angolt és 24 európai nyelvet dolgoz fel nagyjából 60× valós idő sebességgel — egy 60 perces megbeszélés körülbelül egy perc alatt kész. Kínai, japán vagy koreai esetében a SenseVoice kezeli a CJK nyelveket 52× sebességgel. A Pyannote VAD átírás előtt eltávolítja a csendet, így a modell csak a tényleges beszédet dolgozza fel.
Átírás időbélyegekkel és soron belüli szerkesztéssel — kattints bármely szegmensre, hogy az adott pillanatra ugorj a hanganyagban
AI funkciók — Mind helyi
A Gemma 4 a Mac-eden fut. Nincs szükség API kulcsra, felhőhívásra, használati korlátra. Átírás után:
- •Összefoglalás — egy 60 perces megbeszélés fő pontjai, másodpercek alatt
- •Teendők — feladatok és határidők, automatikusan kinyerve
- •Fordítás — az Apple Intelligence lefordítja az átírást másik nyelvre
- •Csevegés — kérdezd meg, hogy „miben egyeztünk meg az árakon?" és kapj az átíráson alapuló választ
Gemma 4 AI oldalsó panel — Összefoglalás, Teendők, Fordítás és szabad csevegés, mind helyileg fut
Miért így építettük
A megbeszélések hanganyaga az egyik legérzékenyebb adat, amit egy vállalat előállít. Ügyfél-tárgyalások, HR értékelések, igazgatósági ülések, jogi konzultációk — az a fajta beszélgetés, ahol egyetlen rossz kiszivárgás karriereket zár le.
A legtöbb átíró eszköz feltölti ezt a hanganyagot felhőszerverekre, ott dolgozza fel, és az adatmegőrzési szabályzatuk szerint tárolja. Néhány botot is ad a híváshoz, amit mindenki lát. Néhány a felvételeidet határozatlan ideig megőrzi „modellfejlesztés" céljából.
Mi más utat választottunk: minden a Mac-eden fut. Az ASR modell, az LLM, a hangtárolás — mind helyi. Nincs feltörhető szerver, nincs elolvasandó adatmegőrzési szabályzat, nincs harmadik feles idézési kockázat. A GDPR, HIPAA vagy ügyvédi titoktartás hatálya alá eső csapatok számára ez az architektúra maga a lényeg.
Összehasonlítás
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Feldolgozás | 100% eszközön | Felhő | Felhő | Hibrid |
| Bot a hívásban | Nem | Igen | Igen | Nem |
| Ár | Egyszer $6.99 | $16.99/hó (Pro) | $18-tól/hó | $24/hó |
| Offline működés | Igen | Nem | Nem | Részleges |
| AI összefoglalás | Helyi (Gemma 4) | Felhő | Felhő | Felhő |
| Beszélőazonosítás | Még nem | Igen | Igen | Igen |
Különböző megbeszélések, különböző nyelvek
Válaszd ki a megbeszélésed nyelvének megfelelő modellt:
| Angol / Európai | Parakeet V3 — ~60× valós idő, 6.32% WER, nulla hallucináció csendben |
| Kínai / Japán / Koreai | SenseVoice — 52× sebesség, kezeli a kantoni nyelvet, GPU-gyorsított MLX-en keresztül |
| Egyéb nyelvek | Whisper Large V3 Turbo — 99 nyelv, magas pontosság, lassabb |
Mi hiányzik
Még nincs beszélőazonosításunk. Jelenleg a Whisper Notes „Én" (mikrofon) és „Mások" (rendszerhang) címkével jelöli a hangot — ez a legtöbb egyszemélyes és kiscsoportos megbeszélésre elegendő. De egy 10 fős hívásnál, ahol tudni kell, ki mit mondott, ez nem elég.
Ez a kézenfekvő következő lépés, és dolgozunk rajta. A cél a helyi beszélőazonosítás, amely a Parakeet V3 és a SenseVoice mellett fut anélkül, hogy a hanganyagot bárhova is elküldené.