Vytvorili sme offline prepis schodzok pre Mac. Nahrava hovory v Zoom, Teams a Google Meet, lokalne ich prepisuje pomocou Parakeet V3 a vytvara zhrnutia pomocou Gemma 4. Ziadny cloud, ziadny bot v hovore. Jednorazovo $6.99.
Nahravanie hovoru Zoom vo Whisper Notes — „Ja" a „Ostatni" su oznaceni podla zdroja zvuku
Typicky pondelok
10 hodin rano, Zoom hovor s klientom. Otvorite Whisper Notes, kliknete na nahravanie. Aplikacia sucasne zachytava systemovy zvuk a vas mikrofon — nikto na schodzke nevidi bota, nikto nedostane upozornenie, nic sa neobjavi v zozname ucastnikov.
O hodinu neskor hovor konci. Zastavite nahravanie. Parakeet V3 prepise 60 minut zvuku za priblizne minutu, uplne na Neural Engine vasho Macu. Kliknete na Zhrnutie — Gemma 4 extrahuje klucove body. Kliknete na Ulohy — vytiahne kazdu ulohu a termin, ktory bol spomenuty. Poslete zapis zo schodzky klientovi. Zvuk nikdy neopustil vas pocitac.
To je cely pracovny postup. Nahrat, prepisat, zhrnur. Vsetko lokalne.
Co to vie
Nahravanie
Whisper Notes zachytava systemovy zvuk — zvuk vychadzajuci z vasich reproduktorov alebo sluchadiel. Ak ho na Macu pocujete, dokazeme ho prepisat. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasty alebo akakolvek ina aplikacia. Sucasne nahrava aj vas mikrofon, takze su zachytene obe strany konverzacie.
Do hovoru sa nepripaja ziadny bot. To je dolezitejsie, nez to znie. Ak ste niekedy videli „Otter.ai Notetaker has joined the meeting" vyskocit v Zoom hovore, viete, co sa stane — niekto sa pyta, co to je, niekto iny sa citi nepohodlne a konverzacia sa zmeni. Pri zachytavani systemoveho zvuku nikto nevie, ze nahravate, okrem vas.
Prepis
Parakeet V3 bezi na Apple Silicon cez CoreML. Spracovava anglictinu a 24 europskych jazykov rychlostou priblizne 60× realneho casu — 60-minutova schodzka je hotova za priblizne minutu. Pre cinstinu, japoncinu alebo korejcinu SenseVoice spracovava CJK rychlostou 52×. Pyannote VAD odstrani ticho pred prepisom, takze model spracovava iba skutocnu rec.
Prepis s casovymi znackami a inline upravami — kliknite na lubovolny segment pre skok na dany moment v nahravke
AI funkcie — vsetko lokalne
Gemma 4 bezi na vasom Macu. Ziadny API kluc, ziadny cloud, ziadne limity pouzitia. Po prepise:
- •Zhrnutie — hlavne body 60-minutovej schodzky behom sekund
- •Ulohy — ulohy a terminy, automaticky extrahovane
- •Preklad — Apple Intelligence prelozi prepis do ineho jazyka
- •Chat — opytajte sa „na com sme sa dohodli ohladom cien?" a dostanete odpoved zalozenu na prepise
Postranny panel AI Gemma 4 — Zhrnutie, Ulohy, Preklad a volny chat, vsetko bezi lokalne
Preco sme to urobili takto
Zvuk zo schodzok patri k najcitlivejsim udajom, ktore firma produkuje. Vyjednavanie s klientmi, HR pohovory, rokovania predstavenstva, pravne konzultacie — typ konverzacii, kde jeden unik moze znicit kariery.
Vacsina nastrojov na prepis nahra tento zvuk na cloudove servery, tam ho spracuje a ulozi podla svojich zasad uchovávania udajov. Niektore pridaju do hovoru bota, ktoreho vidia vsetci. Niektore uchovavaju vase nahravky neobmedzene na „zlepsovanie modelov".
My sme zvolili iny pristup: vsetko bezi na vasom Macu. ASR model, LLM, ulozisko zvuku — vsetko lokalne. Nie je ziadny server, ktory by sa dal prelomit, ziadne zasady uchovávania udajov na precitanie, ziadne riziko sudneho prikazu tretej strany. Pre timy pod GDPR, HIPAA alebo advokatskym tajomstvom je tato architektura samotnym zmyslom.
Ako si stoji v porovnani
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Spracovanie | 100% na zariadeni | Cloud | Cloud | Hybridne |
| Bot v hovore | Nie | Ano | Ano | Nie |
| Cena | Jednorazovo $6.99 | $16.99/mes. (Pro) | od $18/mes. | $24/mes. |
| Funguje offline | Ano | Nie | Nie | Ciastocne |
| AI zhrnutie | Lokalne (Gemma 4) | Cloud | Cloud | Cloud |
| Rozlisenie hovoriacich | Zatial nie | Ano | Ano | Ano |
Rozne schodzky, rozne jazyky
Vyberte model zodpovedajuci jazyku vasej schodzky:
| Anglictina / europske jazyky | Parakeet V3 — ~60× realny cas, 6.32% WER, nulove halucinacie pri tichu |
| Cinstina / japoncina / korejcina | SenseVoice — 52× rychlost, zvlada kantoncinu, GPU akceleracia cez MLX |
| Ostatne jazyky | Whisper Large V3 Turbo — 99 jazykov, vysoka presnost, pomalsie |
Co zatial chyba
Zatial nemame rozlisenie hovoriacich. V sucasnosti Whisper Notes oznacuje zvuk ako „Ja" (vas mikrofon) a „Ostatni" (systemovy zvuk) — co pokryva vacsinu schodzok vo dvojici alebo malych skupinach. Ale pri hovore s 10 ludmi, kde potrebujete vediet, kto co povedal, to nestaci.
Je to logicky dalsi krok a pracujeme na tom. Cielom je lokalne rozlisenie hovoriacich, ktore pobezi spolu s Parakeet V3 a SenseVoice, bez odosielania zvuku kamkolvek.