Vytvořili jsme offline přepis schůzek pro Mac. Nahrává hovory v Zoom, Teams a Google Meet, lokálně je přepisuje pomocí Parakeet V3 a vytváří shrnutí pomocí Gemma 4. Žádný cloud, žádný bot v hovoru. Jednorázově $6.99.
Nahrávání hovoru Zoom ve Whisper Notes — „Já" a „Ostatní" jsou označeni podle zdroje zvuku
Typické pondělí
10 hodin ráno, Zoom hovor s klientem. Otevřete Whisper Notes, kliknete na nahrávání. Aplikace současně zachycuje systémový zvuk a váš mikrofon — nikdo ve schůzce nevidí bota, nikdo nedostane upozornění, nic se neobjeví v seznamu účastníků.
O hodinu později hovor končí. Zastavíte nahrávání. Parakeet V3 přepíše 60 minut zvuku za přibližně minutu, zcela na Neural Engine vašeho Macu. Klepnete na Shrnutí — Gemma 4 extrahuje klíčové body. Klepnete na Úkoly — vytáhne každý úkol a termín, který byl zmíněn. Odešlete zápis z jednání klientovi. Zvuk nikdy neopustil váš počítač.
To je celý pracovní postup. Nahrát, přepsat, shrnout. Vše lokálně.
Co to umí
Nahrávání
Whisper Notes zachycuje systémový zvuk — zvuk vycházející z vašich reproduktorů nebo sluchátek. Pokud ho na Macu slyšíte, dokážeme ho přepsat. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasty nebo jakákoliv jiná aplikace. Současně nahrává i váš mikrofon, takže jsou zachyceny obě strany konverzace.
Do hovoru se nepřipojuje žádný bot. To je důležitější, než to zní. Pokud jste někdy viděli „Otter.ai Notetaker has joined the meeting" vyskočit v Zoom hovoru, víte, co se stane — někdo se ptá, co to je, někomu jinému to vadí a konverzace se změní. Při zachycení systémového zvuku nikdo neví, že nahráváte, kromě vás.
Přepis
Parakeet V3 běží na Apple Silicon přes CoreML. Zpracovává angličtinu a 24 evropských jazyků rychlostí přibližně 60× reálného času — 60minutová schůzka je hotová za přibližně minutu. Pro čínštinu, japonštinu nebo korejštinu SenseVoice zpracovává CJK rychlostí 52×. Pyannote VAD odstraní ticho před přepisem, takže model zpracovává pouze skutečnou řeč.
Přepis s časovými značkami a inline úpravami — klikněte na libovolný segment pro přeskok na daný moment v nahrávce
AI funkce — vše lokálně
Gemma 4 běží na vašem Macu. Žádný API klíč, žádný cloud, žádné limity použití. Po přepisu:
- •Shrnutí — hlavní body 60minutové schůzky během sekund
- •Úkoly — úkoly a termíny, automaticky extrahované
- •Překlad — Apple Intelligence přeloží přepis do jiného jazyka
- •Chat — zeptejte se „na čem jsme se dohodli ohledně cen?" a dostanete odpověď založenou na přepisu
Postranní panel AI Gemma 4 — Shrnutí, Úkoly, Překlad a volný chat, vše běží lokálně
Proč jsme to udělali takto
Zvuk ze schůzek patří k nejcitlivějším datům, která firma produkuje. Vyjednávání s klienty, HR pohovory, jednání představenstva, právní konzultace — typ konverzací, kde jeden únik může zničit kariéry.
Většina nástrojů pro přepis nahraje tento zvuk na cloudové servery, tam ho zpracuje a uloží podle svých zásad uchovávání dat. Některé přidají do hovoru bota, kterého vidí všichni. Některé uchovávají vaše nahrávky neomezeně pro „vylepšování modelů".
My jsme zvolili jiný přístup: vše běží na vašem Macu. ASR model, LLM, úložiště zvuku — vše lokálně. Není žádný server, který by šlo prolomit, žádné zásady uchovávání dat k prostudování, žádné riziko soudního příkazu třetí strany. Pro týmy pod GDPR, HIPAA nebo advokátním tajemstvím je tato architektura samotným smyslem.
Jak si stojí v porovnání
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Zpracování | 100% na zařízení | Cloud | Cloud | Hybridní |
| Bot v hovoru | Ne | Ano | Ano | Ne |
| Cena | Jednorázově $6.99 | $16.99/měs. (Pro) | od $18/měs. | $24/měs. |
| Funguje offline | Ano | Ne | Ne | Částečně |
| AI shrnutí | Lokálně (Gemma 4) | Cloud | Cloud | Cloud |
| Rozlišení mluvčích | Zatím ne | Ano | Ano | Ano |
Různé schůzky, různé jazyky
Vyberte model odpovídající jazyku vaší schůzky:
| Angličtina / evropské jazyky | Parakeet V3 — ~60× reálný čas, 6.32% WER, nulové halucinace při tichu |
| Čínština / japonština / korejština | SenseVoice — 52× rychlost, zvládá kantonštinu, GPU akcelerace přes MLX |
| Ostatní jazyky | Whisper Large V3 Turbo — 99 jazyků, vysoká přesnost, pomalejší |
Co zatím chybí
Zatím nemáme rozlišení mluvčích. V současnosti Whisper Notes označuje zvuk jako „Já" (váš mikrofon) a „Ostatní" (systémový zvuk) — což pokrývá většinu schůzek ve dvou nebo malých skupinách. Ale u hovoru s 10 lidmi, kde potřebujete vědět, kdo co řekl, to nestačí.
Je to logický další krok a pracujeme na tom. Cílem je lokální rozlišení mluvčích, které poběží společně s Parakeet V3 a SenseVoice, bez odesílání zvuku kamkoliv.