Offline transkrypcja spotkań na Macu: Nagrywaj Zoom, Teams i Meet lokalnie

13 maja 2026
·
8 min read
·Whisper Notes Team

Zbudowaliśmy offline'ową transkrypcję spotkań na Maca. Nagrywa rozmowy na Zoom, Teams i Google Meet, transkrybuje je lokalnie za pomocą Parakeet V3 i podsumowuje je Gemma 4. Bez chmury, bez bota w rozmowie. $6.99 jednorazowo.

Whisper Notes nagrywa spotkanie Zoom na Macu z transkrypcją w czasie rzeczywistym pokazującą etykiety Ja i Inni

Nagrywanie rozmowy Zoom w Whisper Notes — "Ja" i "Inni" są oznaczeni według źródła audio

Typowy Poniedziałek

10 rano, rozmowa na Zoom z klientem. Otwierasz Whisper Notes, klikasz nagrywanie. Aplikacja przechwytuje jednocześnie dźwięk systemowy i mikrofon — nikt na spotkaniu nie widzi bota, nikt nie dostaje powiadomienia, nic nie pojawia się na liście uczestników.

Godzinę później rozmowa się kończy. Zatrzymujesz nagrywanie. Parakeet V3 transkrybuje 60 minut audio w około minutę, całkowicie na Neural Engine Twojego Maca. Klikasz Podsumuj — Gemma 4 wyciąga kluczowe punkty. Klikasz Zadania — wyciąga każde zadanie i termin wymieniony podczas rozmowy. Wysyłasz notatki ze spotkania klientowi. Audio nigdy nie opuściło Twojego komputera.

To cały przepływ pracy. Nagrywaj, transkrybuj, podsumowuj. Wszystko lokalnie.

Co Potrafi

Nagrywanie

Whisper Notes przechwytuje dźwięk systemowy — to, co wychodzi z głośników lub słuchawek. Jeśli słyszysz to na Macu, możemy to transkrybować. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcasty lub dowolna inna aplikacja. Jednocześnie nagrywa też Twój mikrofon, więc obie strony rozmowy są przechwycone.

Żaden bot nie dołącza do rozmowy. To ważniejsze, niż się wydaje. Jeśli kiedykolwiek widziałeś "Otter.ai Notetaker has joined the meeting" pojawiające się na rozmowie Zoom, wiesz, co dzieje się potem — ktoś pyta, co to jest, ktoś inny czuje się niekomfortowo, a rozmowa się zmienia. Przy przechwytywaniu dźwięku systemowego nikt nie wie, że nagrywasz, oprócz Ciebie.

Transkrypcja

Parakeet V3 działa na Apple Silicon przez CoreML. Przetwarza angielski i 24 języki europejskie z prędkością około 60× real-time — 60-minutowe spotkanie kończy się w około minutę. Dla chińskiego, japońskiego lub koreańskiego SenseVoice obsługuje CJK z prędkością 52×. Pyannote VAD usuwa ciszę przed transkrypcją, więc model przetwarza tylko faktyczną mowę.

Widok transkrypcji Whisper Notes na Macu z edycją tekstu inline, znacznikami czasu i falą dźwiękową

Transkrypcja ze znacznikami czasu i edycją inline — kliknij dowolny segment, aby przejść do tego momentu w nagraniu

Funkcje AI — Wszystko Lokalnie

Gemma 4 działa na Twoim Macu. Bez klucza API, bez połączenia z chmurą, bez limitów użycia. Po transkrypcji:

  • Podsumowanie — główne punkty 60-minutowego spotkania, w kilka sekund
  • Zadania — zadania i terminy, wyodrębnione automatycznie
  • Tłumaczenie — Apple Intelligence tłumaczy transkrypcję na inny język
  • Czat — zapytaj "co ustaliliśmy w sprawie cen?" i uzyskaj odpowiedź opartą na transkrypcji
Pasek boczny asystenta AI Whisper Notes z przyciskami Podsumuj, Zadania, Tłumacz i interfejsem czatu

Panel boczny AI Gemma 4 — Podsumowanie, Zadania, Tłumaczenie i swobodny czat, wszystko działa lokalnie

Dlaczego Tak To Zbudowaliśmy

Audio ze spotkań to jedne z najbardziej wrażliwych danych, jakie firma wytwarza. Negocjacje z klientami, oceny HR, dyskusje zarządu, konsultacje prawne — rodzaj rozmów, w których niewłaściwy wyciek kończy kariery.

Większość narzędzi do transkrypcji przesyła to audio na serwery w chmurze, przetwarza je tam i przechowuje zgodnie z własnymi politykami retencji danych. Niektóre dodają bota do rozmowy, którego widzą wszyscy. Niektóre przechowują Twoje nagrania na czas nieokreślony na potrzeby "ulepszania modelu."

My wybraliśmy inne podejście: wszystko działa na Twoim Macu. Model ASR, LLM, przechowywanie audio — wszystko lokalnie. Nie ma serwera do zhakowania, nie ma polityki retencji danych do czytania, nie ma ryzyka wezwania sądowego od stron trzecich. Dla zespołów podlegających GDPR, HIPAA czy tajemnicy adwokackiej, ta architektura jest sednem sprawy.

Porównanie

Whisper Notes Otter.ai Fireflies Jamie
Przetwarzanie 100% na urządzeniu Cloud Cloud Hybrid
Bot w rozmowie Nie Tak Tak Nie
Cena $6.99 jednorazowo $16.99/mies. (Pro) od $18/mies. $24/mies.
Działa offline Tak Nie Nie Częściowo
Podsumowanie AI Lokalnie (Gemma 4) Cloud Cloud Cloud
Diaryzacja mówców Jeszcze nie Tak Tak Tak

Różne Spotkania, Różne Języki

Wybierz model pasujący do języka spotkania:

Angielski / Europejskie Parakeet V3 — ~60× real-time, 6.32% WER, zero halucynacji na ciszy
Chiński / Japoński / Koreański SenseVoice — prędkość 52×, obsługuje kantoński, akceleracja GPU przez MLX
Inne języki Whisper Large V3 Turbo — 99 języków, wysoka dokładność, wolniejszy

Czego Jeszcze Brakuje

Nie mamy jeszcze diaryzacji mówców. Obecnie Whisper Notes oznacza audio jako "Ja" (Twój mikrofon) i "Inni" (dźwięk systemowy) — co wystarcza w większości spotkań jeden na jeden i w małych grupach. Ale w rozmowie z 10 osobami, gdzie trzeba wiedzieć, kto co powiedział, to nie wystarczy.

To oczywisty następny krok i pracujemy nad nim. Celem jest lokalna diaryzacja działająca obok Parakeet V3 i SenseVoice, bez wysyłania audio gdziekolwiek.