Transkrypcja Whisper: modele, szybkość i jak uruchomić offline (przewodnik 2026)

2 lipca 2026
·
9 min read
·Whisper Notes Team

Transkrypcja Whisper to zamiana mowy na tekst za pomocą Whispera od OpenAI — otwartoźródłowego modelu AI, który można uruchomić w chmurze, na serwerze albo w całości na własnym urządzeniu. Ten przewodnik wyjaśnia, jak działa Whisper, który rozmiar modelu wybrać, jak dokładny jest naprawdę i jak najszybciej uruchomić go offline na Macu lub iPhonie.

Czym właściwie jest Whisper?

Whisper to model automatycznego rozpoznawania mowy (ASR), który OpenAI wydało we wrześniu 2022 roku na licencji MIT. To transformer typu encoder-decoder wytrenowany na ponad 680 000 godzin wielojęzycznego audio; obsługuje transkrypcję w około 100 językach oraz tłumaczenie na angielski.

Najważniejsze dla Ciebie: wagi modelu są otwarte. W przeciwieństwie do API mowy Google'a czy Amazona Whisper nie musi działać na cudzym serwerze. Istnieje cały ekosystem do uruchamiania go lokalnie — whisper.cpp, faster-whisper i natywne aplikacje, takie jak Whisper Notes. To właśnie dzięki temu możliwa jest naprawdę offline'owa, prywatna transkrypcja.

Rozmiary modelu Whisper: który wybrać

Whisper występuje w sześciu głównych rozmiarach. Większy znaczy dokładniejszy i wolniejszy:

Model Parametry Szybkość Najlepszy do
tiny 39M Najszybszy Szybkie szkice, słabszy sprzęt
base 74M Bardzo szybki Proste, czyste nagrania
small 244M Szybki Dobry balans szybkości i dokładności na urządzeniach mobilnych
medium 769M Umiarkowany Dziś rzadko właściwy wybór
large-v3 1.55B Najwolniejszy Maksymalna dokładność, trudne audio
large-v3-turbo 809M ~5x szybszy niż large-v3 Domyślny wybór w 2026 roku

Dla niemal każdego odpowiedzią jest large-v3-turbo: zachowuje encoder large-v3, ale redukuje warstwy decodera z 32 do 4, oferując niemal identyczną dokładność przy ułamku mocy obliczeniowej. Szczegółowe benchmarki znajdziesz w artykule Whisper Large V3 Turbo vs V3.

Jak dokładna jest transkrypcja Whisper?

Na czystym angielskim audio duże modele osiągają współczynnik błędów słów (WER) rzędu 5-8% — do większości praktycznych zastosowań porównywalnie z profesjonalną transkrypcją wykonywaną przez człowieka. Dokładność spada przy szumie tła, mocnych akcentach, nakładających się głosach i językach o małych zasobach.

Najsłynniejsza wada Whispera: halucynacje podczas ciszy. Jego autoregresywny decoder potrafi wymyślać powtarzające się frazy albo napisy końcowe, gdy nikt nie mówi. Nowsze modele to naprawiają — Parakeet V3 od NVIDIA był celowo trenowany na audio bez mowy i w naszych testach nie generuje żadnych halucynacji (pełny benchmark Parakeet V3 vs Whisper).

Dla chińskiego, japońskiego, koreańskiego i kantońskiego wyspecjalizowany model bije Whispera zarówno pod względem szybkości, jak i interpunkcji: zobacz SenseVoice vs Whisper dla języków CJK.

5 sposobów na uruchomienie transkrypcji Whisper

Metoda Koszt Prywatność Konfiguracja
API OpenAI Opłata za minutę audio Audio jest wysyłane Klucz API + kod
openai-whisper (referencyjny Python) Za darmo 100% lokalnie Środowisko Pythona, zalecane GPU
whisper.cpp / faster-whisper Za darmo 100% lokalnie Wiersz poleceń
Natywna aplikacja (Whisper Notes) $6.99 jednorazowo, darmowa wersja próbna na Macu 100% na urządzeniu Brak
Webowe narzędzia demo Darmowe pakiety Audio jest wysyłane Brak

Praktyczna zasada: jeśli żyjesz w terminalu, faster-whisper jest znakomity. Jeśli budujesz produkt, API ma sens. Jeśli po prostu chcesz prywatnie przepisać swoje nagrania bez dotykania Pythona, użyj natywnej aplikacji — dokładnie po to istnieją aplikacje Whisper na Maca.

Chcesz szerzej porównać narzędzia offline — także opcje na Windowsa i Androida? Zobacz nasz kompletny przewodnik po zamianie mowy na tekst offline.

Whisper kontra nowsze modele lokalne (2026)

Whisper zapoczątkował erę lokalnej transkrypcji, ale nie jest już sam. Poniższe szybkości zmierzono na Macu z M4 Pro:

Model Języki Szybkość Wyróżnik
Whisper Large V3 Turbo 100+ ~12x czasu rzeczywistego Najszersze pokrycie językowe
Parakeet V3 25 (europejskie) ~100x czasu rzeczywistego 6,32% WER, brak halucynacji podczas ciszy
SenseVoice Small zh, ja, ko, yue, en ~52x czasu rzeczywistego Najlepszy do chińskiego, japońskiego, koreańskiego

Wszystkie trzy działają lokalnie w Whisper Notes i można je przełączać przy każdym nagraniu. Porównania obok siebie znajdziesz na naszej stronie porównania modeli Whisper.

Jak uruchomić transkrypcję Whisper offline na Macu i iPhonie

Bez wiersza poleceń, bez Pythona, bez chmury:

  1. Pobierz Whisper Notes na Maca (darmowa wersja próbna) albo na iPhone'a ($6.99 jednorazowo).
  2. Wybierz model: Whisper Large V3 Turbo dla szerokiego pokrycia językowego, Parakeet V3 dla szybkości w angielskim, SenseVoice dla CJK. Pobiera się raz, a potem działa offline już zawsze.
  3. Nagrywaj bezpośrednio, dyktuj w całym systemie, przytrzymując klawisz Fn, albo przeciągnij pliki audio i wideo (MP3, WAV, M4A, MP4).
  4. Tekst pojawia się na bieżąco w trakcie przetwarzania. Eksportuj jako TXT lub SRT.

Nie wierzysz w "offline"? Najpierw włącz tryb samolotowy. Transkrypcja działa z pełną prędkością — nic nie jest wysyłane, nigdy.

Jak dokładna jest transkrypcja Whisper po polsku? Który model wybrać?

Dla polskiego audio krótka odpowiedź brzmi: Parakeet V3 — domyślny model Whisper Notes na Macu i iPhonie. Obsługuje 25 języków europejskich, w tym polski, transkrybuje z dokładnością klasy 6,32% WER i działa około 10x szybciej niż Whisper — godzinne nagranie po polsku zamienia się w tekst w kilka minut, w całości na Twoim urządzeniu. Jeśli Twoje nagrania zawierają języki spoza listy Parakeet, przełącz się na Whisper Large V3 Turbo (~1,5 GB, ponad 100 języków); model można zmieniać przy każdym nagraniu.

Najczęściej zadawane pytania

Czy transkrypcja Whisper jest darmowa?

Sam model jest darmowy i otwartoźródłowy (licencja MIT). Uruchamianie go narzędziami wiersza poleceń, jak whisper.cpp, nic nie kosztuje, ale wymaga konfiguracji. API OpenAI pobiera opłatę za każdą minutę audio. Natywne aplikacje pakują modele za niewielką opłatą — Whisper Notes kosztuje $6.99 jednorazowo, z darmową wersją próbną na Macu.

Czy transkrypcja Whisper może działać offline?

Tak — na tym polega sens otwartych wag. Gdy plik modelu jest już na Twoim urządzeniu, internet nie jest potrzebny. Whisper Notes uruchamia Whisper Large V3 Turbo na Apple Silicon przez CoreML/Metal, w pełni offline. Możesz to sprawdzić w trybie samolotowym.

Który model Whisper jest najdokładniejszy?

large-v3 ma najlepszą surową dokładność. large-v3-turbo dorównuje mu z różnicą ułamka punktu procentowego WER, działając około 5x szybciej — dlatego to on jest dziś domyślnym wyborem w większości narzędzi.

Czy Whisper obsługuje mój język?

Whisper pokrywa około 100 języków, najlepiej te o dużych zasobach (angielski, hiszpański, niemiecki, francuski itd.). Dla chińskiego, japońskiego, koreańskiego i kantońskiego SenseVoice zapewnia lepszą interpunkcję i znacznie większą szybkość na Apple Silicon.

Czy istnieje aplikacja do transkrypcji Whisper na iPhone'a?

Tak. Whisper Notes uruchamia modele Whisper zoptymalizowane pod Neural Engine iPhone'a (iPhone 12 i nowsze) — nagrywaj, importuj z Dyktafonu lub aplikacji Pliki i transkrybuj w całości na urządzeniu za $6.99, bez subskrypcji.