Transkrypcja Whisper: modele, szybkość i jak uruchomić offline (przewodnik 2026)

Transkrypcja Whisper to zamiana mowy na tekst za pomocą Whispera od OpenAI — otwartoźródłowego modelu AI, który można uruchomić w chmurze, na serwerze albo w całości na własnym urządzeniu. Ten przewodnik wyjaśnia, jak działa Whisper, który rozmiar modelu wybrać, jak dokładny jest naprawdę i jak najszybciej uruchomić go offline na Macu lub iPhonie.

Czym właściwie jest Whisper?

Whisper to model automatycznego rozpoznawania mowy (ASR), który OpenAI wydało we wrześniu 2022 roku na licencji MIT. To transformer typu encoder-decoder wytrenowany na ponad 680 000 godzin wielojęzycznego audio; obsługuje transkrypcję w około 100 językach oraz tłumaczenie na angielski.

Najważniejsze dla Ciebie: wagi modelu są otwarte. W przeciwieństwie do API mowy Google'a czy Amazona Whisper nie musi działać na cudzym serwerze. Istnieje cały ekosystem do uruchamiania go lokalnie — whisper.cpp, faster-whisper i natywne aplikacje, takie jak Whisper Notes. To właśnie dzięki temu możliwa jest naprawdę offline'owa, prywatna transkrypcja.

Rozmiary modelu Whisper: który wybrać

Whisper występuje w sześciu głównych rozmiarach. Większy znaczy dokładniejszy i wolniejszy:

Model	Parametry	Szybkość	Najlepszy do
tiny	39M	Najszybszy	Szybkie szkice, słabszy sprzęt
base	74M	Bardzo szybki	Proste, czyste nagrania
small	244M	Szybki	Dobry balans szybkości i dokładności na urządzeniach mobilnych
medium	769M	Umiarkowany	Dziś rzadko właściwy wybór
large-v3	1.55B	Najwolniejszy	Maksymalna dokładność, trudne audio
large-v3-turbo	809M	~5x szybszy niż large-v3	Domyślny wybór w 2026 roku

Dla niemal każdego odpowiedzią jest large-v3-turbo: zachowuje encoder large-v3, ale redukuje warstwy decodera z 32 do 4, oferując niemal identyczną dokładność przy ułamku mocy obliczeniowej. Szczegółowe benchmarki znajdziesz w artykule Whisper Large V3 Turbo vs V3.

Jak dokładna jest transkrypcja Whisper?

Na czystym angielskim audio duże modele osiągają współczynnik błędów słów (WER) rzędu 5-8% — do większości praktycznych zastosowań porównywalnie z profesjonalną transkrypcją wykonywaną przez człowieka. Dokładność spada przy szumie tła, mocnych akcentach, nakładających się głosach i językach o małych zasobach.

Najsłynniejsza wada Whispera: halucynacje podczas ciszy. Jego autoregresywny decoder potrafi wymyślać powtarzające się frazy albo napisy końcowe, gdy nikt nie mówi. Nowsze modele to naprawiają — Parakeet V3 od NVIDIA był celowo trenowany na audio bez mowy i w naszych testach nie generuje żadnych halucynacji (pełny benchmark Parakeet V3 vs Whisper).

Dla chińskiego, japońskiego, koreańskiego i kantońskiego wyspecjalizowany model bije Whispera zarówno pod względem szybkości, jak i interpunkcji: zobacz SenseVoice vs Whisper dla języków CJK.

5 sposobów na uruchomienie transkrypcji Whisper

Metoda	Koszt	Prywatność	Konfiguracja
API OpenAI	Opłata za minutę audio	Audio jest wysyłane	Klucz API + kod
openai-whisper (referencyjny Python)	Za darmo	100% lokalnie	Środowisko Pythona, zalecane GPU
whisper.cpp / faster-whisper	Za darmo	100% lokalnie	Wiersz poleceń
Natywna aplikacja (Whisper Notes)	$6.99 jednorazowo, darmowa wersja próbna na Macu	100% na urządzeniu	Brak
Webowe narzędzia demo	Darmowe pakiety	Audio jest wysyłane	Brak

Praktyczna zasada: jeśli żyjesz w terminalu, faster-whisper jest znakomity. Jeśli budujesz produkt, API ma sens. Jeśli po prostu chcesz prywatnie przepisać swoje nagrania bez dotykania Pythona, użyj natywnej aplikacji — dokładnie po to istnieją aplikacje Whisper na Maca.

Chcesz szerzej porównać narzędzia offline — także opcje na Windowsa i Androida? Zobacz nasz kompletny przewodnik po zamianie mowy na tekst offline.

Whisper kontra nowsze modele lokalne (2026)

Whisper zapoczątkował erę lokalnej transkrypcji, ale nie jest już sam. Poniższe szybkości zmierzono na Macu z M4 Pro:

Model	Języki	Szybkość	Wyróżnik
Whisper Large V3 Turbo	100+	~12x czasu rzeczywistego	Najszersze pokrycie językowe
Parakeet V3	25 (europejskie)	~100x czasu rzeczywistego	6,32% WER, brak halucynacji podczas ciszy
SenseVoice Small	zh, ja, ko, yue, en	~52x czasu rzeczywistego	Najlepszy do chińskiego, japońskiego, koreańskiego

Wszystkie trzy działają lokalnie w Whisper Notes i można je przełączać przy każdym nagraniu. Porównania obok siebie znajdziesz na naszej stronie porównania modeli Whisper.

Jak uruchomić transkrypcję Whisper offline na Macu i iPhonie

Bez wiersza poleceń, bez Pythona, bez chmury:

Pobierz Whisper Notes na Maca (darmowa wersja próbna) albo na iPhone'a ($6.99 jednorazowo).
Wybierz model: Whisper Large V3 Turbo dla szerokiego pokrycia językowego, Parakeet V3 dla szybkości w angielskim, SenseVoice dla CJK. Pobiera się raz, a potem działa offline już zawsze.
Nagrywaj bezpośrednio, dyktuj w całym systemie, przytrzymując klawisz Fn, albo przeciągnij pliki audio i wideo (MP3, WAV, M4A, MP4).
Tekst pojawia się na bieżąco w trakcie przetwarzania. Eksportuj jako TXT lub SRT.

Nie wierzysz w "offline"? Najpierw włącz tryb samolotowy. Transkrypcja działa z pełną prędkością — nic nie jest wysyłane, nigdy.

Jak dokładna jest transkrypcja Whisper po polsku? Który model wybrać?

Dla polskiego audio krótka odpowiedź brzmi: Parakeet V3 — domyślny model Whisper Notes na Macu i iPhonie. Obsługuje 25 języków europejskich, w tym polski, transkrybuje z dokładnością klasy 6,32% WER i działa około 10x szybciej niż Whisper — godzinne nagranie po polsku zamienia się w tekst w kilka minut, w całości na Twoim urządzeniu. Jeśli Twoje nagrania zawierają języki spoza listy Parakeet, przełącz się na Whisper Large V3 Turbo (~1,5 GB, ponad 100 języków); model można zmieniać przy każdym nagraniu.

Najczęściej zadawane pytania

Czy transkrypcja Whisper jest darmowa?

Sam model jest darmowy i otwartoźródłowy (licencja MIT). Uruchamianie go narzędziami wiersza poleceń, jak whisper.cpp, nic nie kosztuje, ale wymaga konfiguracji. API OpenAI pobiera opłatę za każdą minutę audio. Natywne aplikacje pakują modele za niewielką opłatą — Whisper Notes kosztuje $6.99 jednorazowo, z darmową wersją próbną na Macu.

Czy transkrypcja Whisper może działać offline?

Tak — na tym polega sens otwartych wag. Gdy plik modelu jest już na Twoim urządzeniu, internet nie jest potrzebny. Whisper Notes uruchamia Whisper Large V3 Turbo na Apple Silicon przez CoreML/Metal, w pełni offline. Możesz to sprawdzić w trybie samolotowym.

Który model Whisper jest najdokładniejszy?

large-v3 ma najlepszą surową dokładność. large-v3-turbo dorównuje mu z różnicą ułamka punktu procentowego WER, działając około 5x szybciej — dlatego to on jest dziś domyślnym wyborem w większości narzędzi.

Czy Whisper obsługuje mój język?

Whisper pokrywa około 100 języków, najlepiej te o dużych zasobach (angielski, hiszpański, niemiecki, francuski itd.). Dla chińskiego, japońskiego, koreańskiego i kantońskiego SenseVoice zapewnia lepszą interpunkcję i znacznie większą szybkość na Apple Silicon.

Czy istnieje aplikacja do transkrypcji Whisper na iPhone'a?

Tak. Whisper Notes uruchamia modele Whisper zoptymalizowane pod Neural Engine iPhone'a (iPhone 12 i nowsze) — nagrywaj, importuj z Dyktafonu lub aplikacji Pliki i transkrybuj w całości na urządzeniu za $6.99, bez subskrypcji.

Pobierz na iOS

Wypróbuj za darmo na Macu