Zbudowaliśmy offline'ową transkrypcję spotkań na Maca. Nagrywa rozmowy na Zoom, Teams i Google Meet, transkrybuje je lokalnie za pomocą Parakeet V3 i podsumowuje je Gemma 4. Bez chmury, bez bota w rozmowie. $6.99 jednorazowo.
Nagrywanie rozmowy Zoom w Whisper Notes — "Ja" i "Inni" są oznaczeni według źródła audio
Typowy Poniedziałek
10 rano, rozmowa na Zoom z klientem. Otwierasz Whisper Notes, klikasz nagrywanie. Aplikacja przechwytuje jednocześnie dźwięk systemowy i mikrofon — nikt na spotkaniu nie widzi bota, nikt nie dostaje powiadomienia, nic nie pojawia się na liście uczestników.
Godzinę później rozmowa się kończy. Zatrzymujesz nagrywanie. Parakeet V3 transkrybuje 60 minut audio w około minutę, całkowicie na Neural Engine Twojego Maca. Klikasz Podsumuj — Gemma 4 wyciąga kluczowe punkty. Klikasz Zadania — wyciąga każde zadanie i termin wymieniony podczas rozmowy. Wysyłasz notatki ze spotkania klientowi. Audio nigdy nie opuściło Twojego komputera.
To cały przepływ pracy. Nagrywaj, transkrybuj, podsumowuj. Wszystko lokalnie.
Co Potrafi
Nagrywanie
Whisper Notes przechwytuje dźwięk systemowy — to, co wychodzi z głośników lub słuchawek. Jeśli słyszysz to na Macu, możemy to transkrybować. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasty lub dowolna inna aplikacja. Jednocześnie nagrywa też Twój mikrofon, więc obie strony rozmowy są przechwycone.
Żaden bot nie dołącza do rozmowy. To ważniejsze, niż się wydaje. Jeśli kiedykolwiek widziałeś "Otter.ai Notetaker has joined the meeting" pojawiające się na rozmowie Zoom, wiesz, co dzieje się potem — ktoś pyta, co to jest, ktoś inny czuje się niekomfortowo, a rozmowa się zmienia. Przy przechwytywaniu dźwięku systemowego nikt nie wie, że nagrywasz, oprócz Ciebie.
Transkrypcja
Parakeet V3 działa na Apple Silicon przez CoreML. Przetwarza angielski i 24 języki europejskie z prędkością około 60× real-time — 60-minutowe spotkanie kończy się w około minutę. Dla chińskiego, japońskiego lub koreańskiego SenseVoice obsługuje CJK z prędkością 52×. Pyannote VAD usuwa ciszę przed transkrypcją, więc model przetwarza tylko faktyczną mowę.
Transkrypcja ze znacznikami czasu i edycją inline — kliknij dowolny segment, aby przejść do tego momentu w nagraniu
Funkcje AI — Wszystko Lokalnie
Gemma 4 działa na Twoim Macu. Bez klucza API, bez połączenia z chmurą, bez limitów użycia. Po transkrypcji:
- •Podsumowanie — główne punkty 60-minutowego spotkania, w kilka sekund
- •Zadania — zadania i terminy, wyodrębnione automatycznie
- •Tłumaczenie — Apple Intelligence tłumaczy transkrypcję na inny język
- •Czat — zapytaj "co ustaliliśmy w sprawie cen?" i uzyskaj odpowiedź opartą na transkrypcji
Panel boczny AI Gemma 4 — Podsumowanie, Zadania, Tłumaczenie i swobodny czat, wszystko działa lokalnie
Dlaczego Tak To Zbudowaliśmy
Audio ze spotkań to jedne z najbardziej wrażliwych danych, jakie firma wytwarza. Negocjacje z klientami, oceny HR, dyskusje zarządu, konsultacje prawne — rodzaj rozmów, w których niewłaściwy wyciek kończy kariery.
Większość narzędzi do transkrypcji przesyła to audio na serwery w chmurze, przetwarza je tam i przechowuje zgodnie z własnymi politykami retencji danych. Niektóre dodają bota do rozmowy, którego widzą wszyscy. Niektóre przechowują Twoje nagrania na czas nieokreślony na potrzeby "ulepszania modelu."
My wybraliśmy inne podejście: wszystko działa na Twoim Macu. Model ASR, LLM, przechowywanie audio — wszystko lokalnie. Nie ma serwera do zhakowania, nie ma polityki retencji danych do czytania, nie ma ryzyka wezwania sądowego od stron trzecich. Dla zespołów podlegających GDPR, HIPAA czy tajemnicy adwokackiej, ta architektura jest sednem sprawy.
Porównanie
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Przetwarzanie | 100% na urządzeniu | Cloud | Cloud | Hybrid |
| Bot w rozmowie | Nie | Tak | Tak | Nie |
| Cena | $6.99 jednorazowo | $16.99/mies. (Pro) | od $18/mies. | $24/mies. |
| Działa offline | Tak | Nie | Nie | Częściowo |
| Podsumowanie AI | Lokalnie (Gemma 4) | Cloud | Cloud | Cloud |
| Diaryzacja mówców | Jeszcze nie | Tak | Tak | Tak |
Różne Spotkania, Różne Języki
Wybierz model pasujący do języka spotkania:
| Angielski / Europejskie | Parakeet V3 — ~60× real-time, 6.32% WER, zero halucynacji na ciszy |
| Chiński / Japoński / Koreański | SenseVoice — prędkość 52×, obsługuje kantoński, akceleracja GPU przez MLX |
| Inne języki | Whisper Large V3 Turbo — 99 języków, wysoka dokładność, wolniejszy |
Czego Jeszcze Brakuje
Nie mamy jeszcze diaryzacji mówców. Obecnie Whisper Notes oznacza audio jako "Ja" (Twój mikrofon) i "Inni" (dźwięk systemowy) — co wystarcza w większości spotkań jeden na jeden i w małych grupach. Ale w rozmowie z 10 osobami, gdzie trzeba wiedzieć, kto co powiedział, to nie wystarczy.
To oczywisty następny krok i pracujemy nad nim. Celem jest lokalna diaryzacja działająca obok Parakeet V3 i SenseVoice, bez wysyłania audio gdziekolwiek.