Masz nagranie z dyktafonu — podyktowane pismo, wywiad, notatki po wizycie — i potrzebujesz go w formie tekstu. Oto jak to zrobić bez wysyłania do sieci ani sekundy audio: wyeksportuj plik z dyktafonu, przeciągnij go do Whisper Notes, a Parakeet V3 wykona transkrypcję w całości na Twoim iPhonie lub Macu. Bez chmury, bez konta, bez opłat za minutę. Jednorazowo $6.99.
Kto wciąż używa dyktafonu — i dlaczego to ma znaczenie
Dyktafon nigdy nie zniknął. Po prostu przeniósł się do zawodów, w których mówienie jest szybsze niż pisanie, a treść jest zbyt wrażliwa, by ją zgubić — albo pozwolić, by wyciekła.
- •Prawnicy dyktują pisma procesowe, notatki ze spotkań i korespondencję między rozprawami. Takie dyktando zawiera nazwiska klientów, strategię procesową i poufne szczegóły, które nigdy nie powinny trafić na cudzy serwer.
- •Lekarze po każdej wizycie dyktują opisy badań i skierowania. To audio to dane medyczne w najczystszej postaci.
- •Dziennikarze nagrywają wywiady dyktafonem lub telefonem. Ochrona informatora zaczyna się od tego, by nie wysyłać jego głosu do cudzej chmury.
- •Badacze gromadzą godziny wywiadów terenowych i obserwacji, często na podstawie zgód etycznych, które wprost ograniczają, gdzie wolno przetwarzać nagrania.
Dla wszystkich czterech grup wąskie gardło jest to samo: zamiana godzin dyktowania na tekst. Tradycyjnie oznaczało to maszynistkę, biuro transkrypcji albo usługę w chmurze — za każdym razem osobę lub serwer, który słyszy wszystko, co powiedziałeś. Transkrypcja offline całkowicie usuwa pośrednika.
Od nagrania do tekstu w trzech krokach
1. Wyeksportuj plik z dyktafonu
Podłącz dyktafon przez USB (albo skorzystaj z jego aplikacji) i skopiuj nagranie na Maca lub iPhone'a. Większość cyfrowych dyktafonów — Olympus, Philips, Sony, Zoom czy aplikacja Dyktafon w telefonie — zapisuje nagrania jako MP3, WAV lub M4A. Każdy z tych formatów działa od razu; konwersja nie jest potrzebna.
2. Zaimportuj do Whisper Notes
Przeciągnij plik do Whisper Notes na Macu albo udostępnij go do aplikacji na iPhonie. Nie ma limitu długości — dwuminutowa notatka i trzygodzinny wywiad działają tak samo. Wideo też: zaimportuj plik MP4 lub MOV, a aplikacja przetranskrybuje ścieżkę dźwiękową.
| Format | Typ | Obsługiwany |
|---|---|---|
| MP3 | Audio — większość cyfrowych dyktafonów | Tak, dowolna długość |
| WAV | Audio — rejestratory bez kompresji | Tak, dowolna długość |
| M4A | Audio — Dyktafon na iPhonie | Tak, dowolna długość |
| MP4 | Wideo — transkrybowana jest ścieżka dźwiękowa | Tak, dowolna długość |
| MOV | Wideo — transkrybowana jest ścieżka dźwiękowa | Tak, dowolna długość |
3. Transkrybuj lokalnie, eksportuj dokądkolwiek
Kliknij transkrybuj. Parakeet V3 — model domyślny — przetwarza dźwięk na chipie Twojego urządzenia, mniej więcej 10× szybciej niż Whisper, ze współczynnikiem błędów 6,32% (WER) na czystej mowie. Efekt to transkrypcja podzielona na akapity ze znacznikami czasu: kliknij dowolny akapit, by przeskoczyć do tego momentu nagrania. Weryfikacja cytatu czy dawkowania zajmuje sekundy zamiast minut.
Zaimportowane nagranie, przetranskrybowane ze znacznikami czasu — kliknij segment, by usłyszeć oryginalne audio
Gdy skończysz, wyeksportuj jako TXT do dokumentu albo jako SRT/VTT ze znacznikami czasu, jeśli nagranie pochodzi z wideo. Możesz najpierw poprawić tekst bezpośrednio w aplikacji — korekty pozostają zsynchronizowane z dźwiękiem.
Dlaczego offline wygrywa z chmurą przy dyktowaniu
Chmurowe usługi transkrypcji działają tak: Twoje audio trafia na ich serwery, jest tam przetwarzane i przechowywane zgodnie z ich polityką retencji. Dla odcinka podcastu — w porządku. Dla podyktowanego pisma w sprawie klienta czy notatki o pacjencie to problem poufności, którego po prostu nie musisz mieć.
Przy transkrypcji na urządzeniu nie ma czego zabezpieczać, bo nic nigdzie nie wychodzi. Żadnego uploadu, konta, logów serwera ani umowy powierzenia przetwarzania do negocjowania. Dla polskich profesjonalistów to zgodność z RODO wynikająca z samej architektury: nie przekazujesz danych osobowych podmiotowi przetwarzającemu, bo takiego podmiotu po prostu nie ma.
| Aplikacja offline (Whisper Notes) | Chmurowe usługi transkrypcji | |
|---|---|---|
| Gdzie przetwarzane jest audio | Na Twoim własnym urządzeniu | Na serwerach dostawcy |
| Poufność | Audio nigdy nie opuszcza urządzenia | Zależy od polityki dostawcy |
| RODO | Zgodność z architektury — brak przekazywania danych | Wymaga umów powierzenia przetwarzania |
| Koszt | Jednorazowo $6.99 | Miesięczny abonament lub opłaty za minutę |
| Działa bez internetu | Tak — sąd, gabinet, samolot, teren | Nie |
| Wymagane konto | Nie | Tak |
Ekonomia ma znaczenie także dla tych, którzy dyktują dużo. Jeśli dyktujesz godzinę dziennie, rozliczenia za minutę w chmurze szybko urastają do sporych kwot, a abonament nalicza się niezależnie od tego, czy w danym miesiącu dyktujesz, czy nie. Jednorazowy zakup kosztuje tyle samo, niezależnie od tego, czy transkrybujesz dziesięć minut miesięcznie, czy dziesięć godzin tygodniowo.
Jak uzyskać najdokładniejszą transkrypcję
Przy profesjonalnym dyktowaniu największą różnicę robią dwa ustawienia:
Własny słownik. Modele mowy są trenowane na języku ogólnym, więc potykają się dokładnie na tych słowach, które w Twojej branży znaczą najwięcej — nazwiska klientów, nazwy leków, sygnatury akt, żargon techniczny. W Whisper Notes dodasz te terminy do własnego słownika, a model wykorzysta je do rozstrzygania niejednoznacznego audio. Dodaj dziesięć najczęściej dyktowanych nazw własnych, a większość powtarzających się błędów zniknie.
Model dobrany do języka. Wybierz model pasujący do języka, w którym dyktujesz:
| Polski / języki europejskie | Parakeet V3 — 25 języków europejskich, w tym polski, niemiecki i francuski, 6,32% WER, 10× szybszy niż Whisper, tylko 465MB |
| Chiński / japoński / koreański | SenseVoice — najszybszy dla języków CJK i kantońskiego, 52× czasu rzeczywistego |
| Inne języki | Whisper Large V3 Turbo — ponad 100 języków, ~1,5GB, wolniejszy, ale o najszerszym zasięgu |
A jeden nawyk z epoki analogowego dyktowania wciąż się opłaca: trzymaj dyktafon blisko, mów w równym tempie i dyktuj pełnymi zdaniami. Czysty dźwięk na wejściu, czysty tekst na wyjściu.
Najczęściej zadawane pytania
Czy mogę przetranskrybować stare nagrania z dyktafonu?
Tak. Skopiuj pliki z dyktafonu i zaimportuj je do Whisper Notes — MP3, WAV i M4A działają w dowolnej długości. Nagranie sprzed dziesięciu lat transkrybuje się dokładnie tak samo jak dzisiejsze; dokładność zależy od jakości dźwięku, a nie od wieku pliku.
Jaka jest najlepsza aplikacja do transkrypcji nagrań z dyktafonu?
Oceniaj każdą aplikację według czterech kryteriów: gdzie przetwarzane jest audio, jakie formaty plików przyjmuje, czy radzi sobie z branżowym żargonem i ile kosztuje w skali roku. Jeśli Twoje dyktanda są poufne — prawnicze, medyczne, dziennikarskie — przetwarzanie na urządzeniu jest naszym zdaniem nienegocjowalne. Właśnie dlatego zbudowaliśmy Whisper Notes: lokalna transkrypcja, import MP3/WAV/M4A/MP4/MOV w dowolnej długości, własny słownik, jednorazowo $6.99.
Czy transkrypcja dyktafonu działa bez internetu?
Z Whisper Notes — tak, w pełni offline. Modele mowy pobierasz raz, a potem działają na chipie Twojego iPhone'a lub Maca, więc transkrybujesz w piwnicy sądu, w samolocie czy w terenie bez zasięgu. Do transkrypcji połączenie nie jest nigdy wymagane.
Jak dokładna jest transkrypcja dyktafonu offline?
Parakeet V3 osiąga współczynnik błędów słów 6,32% na czystym audio — porównywalnie z usługami chmurowymi. Pozostałe błędy skupiają się wokół nazw własnych i specjalistycznego żargonu — i właśnie po to jest własny słownik: dodaj powtarzające się nazwiska i terminy, a dokładność dokładnie na tych słowach wyraźnie wzrośnie.