Prywatność głosu: dlaczego wybraliśmy lokalną architekturę
Nie musisz wybierać między wygodą a kontrolą.
Notatki głosowe są inne
Notatki głosowe są często chaotyczne, niefiltrowane i osobiste. Uchwytują myśli w trakcie kształtowania się — pomysły zanim zostaną dopracowane, frustracje zanim zostaną przetrawione, obserwacje zanim zostaną uporządkowane. Ta surowa autentyczność jest właśnie tym, co czyni je wartościowymi.
Mają inne odczucie niż dopracowany dokument. To odczucie ma znaczenie.
Kiedy nagrywasz notatkę głosową, często mówisz do siebie. Intymność tego momentu — niedokończone zdania, dygresje, nieosłonięta szczerość — zasługuje na pewien szacunek w sposobie technicznego przetwarzania.
Kwestia higieny cyfrowej
Twój głos to unikalny identyfikator biometryczny. W przeciwieństwie do hasła, nie możesz go zresetować. W przeciwieństwie do numeru karty kredytowej, nie możesz poprosić o nowy. To nie ma budzić alarmu — to po prostu cecha danych głosowych, którą warto rozpoznać.
Dla większości codziennych nagrań przetwarzanie w chmurze jest zupełnie akceptowalne. Ale dla wrażliwych treści — osobistych przemyśleń, notatek zawodowych, rozmów z klientami — trzymanie surowych plików audio z dala od chmury to po prostu dobra higiena cyfrowa. To ta sama zasada co niestosowanie haseł w postaci jawnej: nie dlatego, że katastrofa jest nieuchronna, ale dlatego, że przemyślana architektura zapobiega problemom zanim się pojawią.
Zbudowaliśmy Whisper Notes wokół tej zasady. Twoje audio zostaje na twoim urządzeniu — nie dlatego, że uważamy usługi chmurowe za niebezpieczne, ale dlatego, że powinieneś mieć wybór.
Architektura
Whisper Notes uruchamia model rozpoznawania mowy Whisper od OpenAI bezpośrednio na twoim sprzęcie. Nie ma komponentu serwerowego. Twoje nagrania są przetwarzane lokalnie i nigdy nigdzie nie są transmitowane.
Implementacja różni się między platformami, aby zoptymalizować możliwości każdego urządzenia:
Mac: Whisper Large-v3 Turbo
Na Macu uruchamiamy Whisper Large-v3 Turbo — model z 1,5 miliarda parametrów zoptymalizowany dla Apple Silicon. Zapewnia to dokładność porównywalną z usługami transkrypcji w chmurze, z prawidłową interpunkcją i inteligentnym formatowaniem akapitów.
Szybkość przetwarzania skaluje się z chipem: maszyny M4 osiągają około 12x czasu rzeczywistego, podczas gdy chipy M1 działają z około 8x czasu rzeczywistego.
iPhone: Zoptymalizowany model Whisper dla urządzeń mobilnych
Urządzenia mobilne mają inne ograniczenia — limity termiczne, żywotność baterii, przepustowość pamięci. Wdrażamy zoptymalizowany dla urządzeń mobilnych model Whisper, dostrojony do Neural Engine w chipach A i M.
Choć mniejszy niż model na Maca, produkuje strukturyzowany, interpunkcjonowany tekst, który konsekwentnie przewyższa standardowe dyktowanie. Kompromis jest uczciwy: dla maksymalnej dokładności przy długich nagraniach, przetwarzaj na Macu. Do szybkiego przechwytywania model mobilny sprawdza się dobrze.
Zaprojektowane pod szybkość
Dobre pomysły nie czekają. Przychodzą podczas jazdy, spaceru, lub tuż przed zaśnięciem. Widget ekranu blokady został zaprojektowany, aby zminimalizować tarcie między myślą a nagraniem.
Widget ekranu blokady z Live Activity
- • Aktywacja jednym dotknięciem: Rozpocznij nagrywanie bezpośrednio z ekranu blokady
- • Live Activity: Wizualne potwierdzenie czasu nagrywania na Dynamic Island
- • Integracja Face ID: Widget działa z uwierzytelnianiem Face ID
- • Tryb bez użycia rąk: Działa w rękawiczkach, z mokrymi rękami lub gestami AirPods
Workflow przechwytywania i przeglądu
Najbardziej efektywny workflow notatek głosowych rozdziela przechwytywanie od przeglądu. Urządzenia mobilne świetnie nadają się do szybkiego nagrywania; środowiska desktopowe do pogłębionej edycji.
iPhone: Przechwytywanie
Używaj iPhone'a do przechwytywania myśli w momencie ich pojawienia się. Widget ekranu blokady redukuje tarcie do jednego dotknięcia. Model mobilny transkrybuje natychmiast, dając użyteczny tekst na miejscu.
Mac: Przegląd
Na Macu Whisper Notes oferuje narzędzia do pogłębionej pracy:
- • Przetwarzanie Large-v3 Turbo: Ponowna transkrypcja nagrań z maksymalną dokładnością
- • Akapity ze znacznikami czasu: Kliknij dowolny akapit, aby przejść do tego momentu w audio
- • Zsynchronizowane odtwarzanie: Tekst podświetla się podczas odtwarzania audio
- • Elastyczny eksport: Zwykły tekst, format ze znacznikami czasu lub napisy SRT
- • Dyktowanie systemowe: Przytrzymaj Fn, aby dyktować bezpośrednio do dowolnej aplikacji
Transkrypcja ze znacznikami czasu z zsynchronizowanym odtwarzaniem audio
Spokój ducha
Prawdziwa korzyść to nie tylko bezpieczeństwo techniczne — to kwestia psychologiczna.
Wiedząc, że twoje audio nigdy nie opuszcza urządzenia, masz swobodę mówienia całkowicie swobodnie, bez autocenzury. Możesz nagrywać na wpół uformowane myśli, wyładowywać frustracje, przeprowadzać szalone burze mózgów lub dokumentować wrażliwe sprawy zawodowe — wszystko bez zastanawiania się, kto może ostatecznie uzyskać dostęp do tego audio.
To ten sam powód, dla którego niektórzy wolą pisać w fizycznym notatniku: nie dlatego, że notatki cyfrowe są niebezpieczne, ale dlatego, że poczucie prywatności zmienia to, jak swobodnie myślisz.
Model ekonomiczny
Ponieważ całe przetwarzanie odbywa się na twoim urządzeniu, nie ma kosztów serwerowych skalujących się z użyciem. Umożliwia to model jednorazowego zakupu: 4,99 $ za iPhone i Mac, na zawsze.
Bez subskrypcji. Bez opłat za minutę. Bez limitów użycia.
Uczciwe kompromisy
Przetwarzanie lokalne wiąże się z realnymi kompromisami, które warto zrozumieć:
Kwestie do rozważenia
- • Szybkość przetwarzania: Inferowanie na urządzeniu jest wolniejsze niż API chmurowe. 10-minutowe nagranie zajmuje 1-2 minuty na iPhone 15. Usługi chmurowe odpowiadają w sekundach.
- • Pułap dokładności: Whisper osiąga 95%+ dokładności przy wyraźnej mowie. Silne akcenty lub znaczny szum w tle mogą wymagać pewnej edycji.
- • Platforma: Tylko Apple Silicon — Mac M1 lub nowszy, iPhone z iOS 18+. Brak Androida ani Windows.
- • Transkrypcja po nagraniu: Whisper Notes transkrybuje po nagraniu, nie w jego trakcie. Daje to bardziej precyzyjne wyniki.
Kiedy to podejście pasuje
Whisper Notes sprawdza się dobrze dla:
- • Profesjonalistów dbających o prywatność: Prawo, medycyna, dziennikarstwo, terapia
- • Osobistych przemyśleń: Dziennik, przechwytywanie pomysłów, przetwarzanie myśli
- • Środowisk offline: Samoloty, obiekty zabezpieczone, niestabilne połączenie
- • Użytkowników zmęczonych subskrypcjami: Jedna opłata, stały dostęp
Kiedy rozważyć alternatywy
Usługi chmurowe mogą być lepszym wyborem, jeśli potrzebujesz:
- • Transkrypcji w czasie rzeczywistym udostępnianej zespołowi
- • Natychmiastowego przetwarzania bardzo długich nagrań
- • Wsparcia dla Androida lub Windows
Podsumowanie
Whisper Notes opiera się na prostej przesłance: notatki głosowe są osobiste i powinieneś kontrolować, gdzie to audio rezyduje. Wybraliśmy architekturę local-first nie dlatego, że usługi chmurowe są złe, ale dlatego, że niektóre treści zasługują na pozostanie na twoim urządzeniu.
Whisper Large-v3 Turbo na Macu dla dokładności. Zoptymalizowany model mobilny na iPhone do szybkiego przechwytywania. Obie platformy przetwarzają całkowicie offline.
4,99 $ jednorazowo. iPhone i Mac. Twoje audio należy do ciebie.