Transkrypcja Whisper to zamiana mowy na tekst za pomocą Whispera od OpenAI — otwartoźródłowego modelu AI, który można uruchomić w chmurze, na serwerze albo w całości na własnym urządzeniu. Ten przewodnik wyjaśnia, jak działa Whisper, który rozmiar modelu wybrać, jak dokładny jest naprawdę i jak najszybciej uruchomić go offline na Macu lub iPhonie.
Czym właściwie jest Whisper?
Whisper to model automatycznego rozpoznawania mowy (ASR), który OpenAI wydało we wrześniu 2022 roku na licencji MIT. To transformer typu encoder-decoder wytrenowany na ponad 680 000 godzin wielojęzycznego audio; obsługuje transkrypcję w około 100 językach oraz tłumaczenie na angielski.
Najważniejsze dla Ciebie: wagi modelu są otwarte. W przeciwieństwie do API mowy Google'a czy Amazona Whisper nie musi działać na cudzym serwerze. Istnieje cały ekosystem do uruchamiania go lokalnie — whisper.cpp, faster-whisper i natywne aplikacje, takie jak Whisper Notes. To właśnie dzięki temu możliwa jest naprawdę offline'owa, prywatna transkrypcja.
Rozmiary modelu Whisper: który wybrać
Whisper występuje w sześciu głównych rozmiarach. Większy znaczy dokładniejszy i wolniejszy:
| Model | Parametry | Szybkość | Najlepszy do |
|---|---|---|---|
| tiny | 39M | Najszybszy | Szybkie szkice, słabszy sprzęt |
| base | 74M | Bardzo szybki | Proste, czyste nagrania |
| small | 244M | Szybki | Dobry balans szybkości i dokładności na urządzeniach mobilnych |
| medium | 769M | Umiarkowany | Dziś rzadko właściwy wybór |
| large-v3 | 1.55B | Najwolniejszy | Maksymalna dokładność, trudne audio |
| large-v3-turbo | 809M | ~5x szybszy niż large-v3 | Domyślny wybór w 2026 roku |
Dla niemal każdego odpowiedzią jest large-v3-turbo: zachowuje encoder large-v3, ale redukuje warstwy decodera z 32 do 4, oferując niemal identyczną dokładność przy ułamku mocy obliczeniowej. Szczegółowe benchmarki znajdziesz w artykule Whisper Large V3 Turbo vs V3.
Jak dokładna jest transkrypcja Whisper?
Na czystym angielskim audio duże modele osiągają współczynnik błędów słów (WER) rzędu 5-8% — do większości praktycznych zastosowań porównywalnie z profesjonalną transkrypcją wykonywaną przez człowieka. Dokładność spada przy szumie tła, mocnych akcentach, nakładających się głosach i językach o małych zasobach.
Najsłynniejsza wada Whispera: halucynacje podczas ciszy. Jego autoregresywny decoder potrafi wymyślać powtarzające się frazy albo napisy końcowe, gdy nikt nie mówi. Nowsze modele to naprawiają — Parakeet V3 od NVIDIA był celowo trenowany na audio bez mowy i w naszych testach nie generuje żadnych halucynacji (pełny benchmark Parakeet V3 vs Whisper).
Dla chińskiego, japońskiego, koreańskiego i kantońskiego wyspecjalizowany model bije Whispera zarówno pod względem szybkości, jak i interpunkcji: zobacz SenseVoice vs Whisper dla języków CJK.
5 sposobów na uruchomienie transkrypcji Whisper
| Metoda | Koszt | Prywatność | Konfiguracja |
|---|---|---|---|
| API OpenAI | Opłata za minutę audio | Audio jest wysyłane | Klucz API + kod |
| openai-whisper (referencyjny Python) | Za darmo | 100% lokalnie | Środowisko Pythona, zalecane GPU |
| whisper.cpp / faster-whisper | Za darmo | 100% lokalnie | Wiersz poleceń |
| Natywna aplikacja (Whisper Notes) | $6.99 jednorazowo, darmowa wersja próbna na Macu | 100% na urządzeniu | Brak |
| Webowe narzędzia demo | Darmowe pakiety | Audio jest wysyłane | Brak |
Praktyczna zasada: jeśli żyjesz w terminalu, faster-whisper jest znakomity. Jeśli budujesz produkt, API ma sens. Jeśli po prostu chcesz prywatnie przepisać swoje nagrania bez dotykania Pythona, użyj natywnej aplikacji — dokładnie po to istnieją aplikacje Whisper na Maca.
Chcesz szerzej porównać narzędzia offline — także opcje na Windowsa i Androida? Zobacz nasz kompletny przewodnik po zamianie mowy na tekst offline.
Whisper kontra nowsze modele lokalne (2026)
Whisper zapoczątkował erę lokalnej transkrypcji, ale nie jest już sam. Poniższe szybkości zmierzono na Macu z M4 Pro:
| Model | Języki | Szybkość | Wyróżnik |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x czasu rzeczywistego | Najszersze pokrycie językowe |
| Parakeet V3 | 25 (europejskie) | ~100x czasu rzeczywistego | 6,32% WER, brak halucynacji podczas ciszy |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x czasu rzeczywistego | Najlepszy do chińskiego, japońskiego, koreańskiego |
Wszystkie trzy działają lokalnie w Whisper Notes i można je przełączać przy każdym nagraniu. Porównania obok siebie znajdziesz na naszej stronie porównania modeli Whisper.
Jak uruchomić transkrypcję Whisper offline na Macu i iPhonie
Bez wiersza poleceń, bez Pythona, bez chmury:
- Pobierz Whisper Notes na Maca (darmowa wersja próbna) albo na iPhone'a ($6.99 jednorazowo).
- Wybierz model: Whisper Large V3 Turbo dla szerokiego pokrycia językowego, Parakeet V3 dla szybkości w angielskim, SenseVoice dla CJK. Pobiera się raz, a potem działa offline już zawsze.
- Nagrywaj bezpośrednio, dyktuj w całym systemie, przytrzymując klawisz Fn, albo przeciągnij pliki audio i wideo (MP3, WAV, M4A, MP4).
- Tekst pojawia się na bieżąco w trakcie przetwarzania. Eksportuj jako TXT lub SRT.
Nie wierzysz w "offline"? Najpierw włącz tryb samolotowy. Transkrypcja działa z pełną prędkością — nic nie jest wysyłane, nigdy.
Jak dokładna jest transkrypcja Whisper po polsku? Który model wybrać?
Dla polskiego audio krótka odpowiedź brzmi: Parakeet V3 — domyślny model Whisper Notes na Macu i iPhonie. Obsługuje 25 języków europejskich, w tym polski, transkrybuje z dokładnością klasy 6,32% WER i działa około 10x szybciej niż Whisper — godzinne nagranie po polsku zamienia się w tekst w kilka minut, w całości na Twoim urządzeniu. Jeśli Twoje nagrania zawierają języki spoza listy Parakeet, przełącz się na Whisper Large V3 Turbo (~1,5 GB, ponad 100 języków); model można zmieniać przy każdym nagraniu.
Najczęściej zadawane pytania
Czy transkrypcja Whisper jest darmowa?
Sam model jest darmowy i otwartoźródłowy (licencja MIT). Uruchamianie go narzędziami wiersza poleceń, jak whisper.cpp, nic nie kosztuje, ale wymaga konfiguracji. API OpenAI pobiera opłatę za każdą minutę audio. Natywne aplikacje pakują modele za niewielką opłatą — Whisper Notes kosztuje $6.99 jednorazowo, z darmową wersją próbną na Macu.
Czy transkrypcja Whisper może działać offline?
Tak — na tym polega sens otwartych wag. Gdy plik modelu jest już na Twoim urządzeniu, internet nie jest potrzebny. Whisper Notes uruchamia Whisper Large V3 Turbo na Apple Silicon przez CoreML/Metal, w pełni offline. Możesz to sprawdzić w trybie samolotowym.
Który model Whisper jest najdokładniejszy?
large-v3 ma najlepszą surową dokładność. large-v3-turbo dorównuje mu z różnicą ułamka punktu procentowego WER, działając około 5x szybciej — dlatego to on jest dziś domyślnym wyborem w większości narzędzi.
Czy Whisper obsługuje mój język?
Whisper pokrywa około 100 języków, najlepiej te o dużych zasobach (angielski, hiszpański, niemiecki, francuski itd.). Dla chińskiego, japońskiego, koreańskiego i kantońskiego SenseVoice zapewnia lepszą interpunkcję i znacznie większą szybkość na Apple Silicon.
Czy istnieje aplikacja do transkrypcji Whisper na iPhone'a?
Tak. Whisper Notes uruchamia modele Whisper zoptymalizowane pod Neural Engine iPhone'a (iPhone 12 i nowsze) — nagrywaj, importuj z Dyktafonu lub aplikacji Pliki i transkrybuj w całości na urządzeniu za $6.99, bez subskrypcji.