Whisper transkripcija: potpuni vodič za pretvaranje govora u tekst (2026)

2. srpnja 2026.
·
9 min read
·Whisper Notes Team

Whisper transkripcija znači pretvaranje govora u tekst pomoću OpenAI-jeva Whispera — open-source AI modela koji možete pokrenuti u oblaku, na poslužitelju ili u potpunosti na vlastitom uređaju. Ovaj vodič objašnjava kako Whisper radi, koju veličinu modela odabrati, koliko je zapravo točan i koji je najbrži način da ga pokrenete offline na Macu ili iPhoneu.

Što je zapravo Whisper?

Whisper je model za automatsko prepoznavanje govora (ASR) koji je OpenAI objavio u rujnu 2022. pod MIT licencom. Riječ je o encoder-decoder transformeru treniranom na više od 680.000 sati višejezičnog zvuka; podržava transkripciju na otprilike 100 jezika te prijevod na engleski.

Dio koji je vama bitan: težine modela su otvorene. Za razliku od Googleovih ili Amazonovih govornih API-ja, Whisper ne mora raditi na tuđem poslužitelju. Postoji cijeli ekosustav za lokalno pokretanje — whisper.cpp, faster-whisper i nativne aplikacije poput Whisper Notesa. Upravo to omogućuje istinski offline, privatnu transkripciju.

Veličine Whisper modela: koju koristiti

Whisper dolazi u šest glavnih veličina. Veći znači točniji i sporiji:

Model Parametri Brzina Najbolji za
tiny 39M Najbrži Brze skice, slabiji hardver
base 74M Vrlo brz Jednostavan, čist zvuk
small 244M Brz Dobar omjer brzine i točnosti na mobitelu
medium 769M Umjeren Danas rijetko pravi izbor
large-v3 1.55B Najsporiji Maksimalna točnost, zahtjevan zvuk
large-v3-turbo 809M ~5x brži od large-v3 Zadani izbor u 2026.

Za gotovo sve odgovor je large-v3-turbo: zadržava encoder modela large-v3, ali smanjuje broj decoder slojeva s 32 na 4, pa isporučuje gotovo identičnu točnost uz djelić računalne snage. Detaljno smo ga izmjerili u članku Whisper Large V3 Turbo vs V3.

Koliko je točna Whisper transkripcija?

Na čistom engleskom zvuku veliki modeli postižu stopu pogreške riječi (WER) od otprilike 5–8 % — za većinu praktičnih potreba usporedivo s profesionalnom ljudskom transkripcijom. Točnost pada uz pozadinsku buku, jake naglaske, preklapanje govora i jezike s malo podataka.

Jedna poznata Whisperova mana: halucinacije tijekom tišine. Njegov autoregresivni decoder ponekad izmišlja ponavljajuće fraze ili odjavne titlove kad nitko ne govori. Noviji modeli to rješavaju — NVIDIA-in Parakeet V3 izričito je treniran i na zvuku bez govora te u našim testovima ne proizvodi nijednu halucinaciju (potpuni benchmark Parakeet V3 vs Whisper).

Za kineski, japanski, korejski i kantonski specijalizirani model pobjeđuje Whisper i u brzini i u interpunkciji: pogledajte SenseVoice vs Whisper za CJK jezike.

5 načina pokretanja Whisper transkripcije

Metoda Cijena Privatnost Postavljanje
OpenAI API Plaćanje po minuti zvuka Zvuk se prenosi na poslužitelj API ključ + kod
openai-whisper (referentni Python) Besplatno 100 % lokalno Python okruženje, preporučen GPU
whisper.cpp / faster-whisper Besplatno 100 % lokalno Naredbeni redak
Nativna aplikacija (Whisper Notes) $6.99 jednokratno, besplatna proba na Macu 100 % na uređaju Nema
Web demo alati Besplatne razine Zvuk se prenosi na poslužitelj Nema

Zlatno pravilo: ako živite u terminalu, faster-whisper je izvrstan. Ako gradite proizvod, API ima smisla. Ako samo želite privatno transkribirati svoje snimke bez dodirivanja Pythona, koristite nativnu aplikaciju — upravo zato postoje Whisper aplikacije za Mac.

Razmatrate offline alate šire — uključujući opcije za Windows i Android? Pogledajte naš potpuni vodič za offline pretvaranje govora u tekst.

Whisper vs noviji lokalni modeli (2026.)

Whisper je pokrenuo eru lokalne transkripcije, ali više nije sam. Brzine u nastavku izmjerene su na Macu s M4 Pro:

Model Jezici Brzina Ističe se
Whisper Large V3 Turbo 100+ ~12x stvarnog vremena Najšira jezična pokrivenost
Parakeet V3 25 (europski) ~100x stvarnog vremena 6,32 % WER, bez halucinacija u tišini
SenseVoice Small zh, ja, ko, yue, en ~52x stvarnog vremena Najbolji za kineski, japanski, korejski

Sva tri modela rade lokalno u Whisper Notesu i možete ih mijenjati za svaku snimku. Usporedni benchmarkovi nalaze se na našoj stranici usporedbe Whisper modela.

Kako pokrenuti Whisper transkripciju offline na Macu i iPhoneu

Bez naredbenog retka, bez Pythona, bez oblaka:

  1. Preuzmite Whisper Notes za Mac (besplatna proba) ili za iPhone ($6.99 jednokratno).
  2. Odaberite model: Whisper Large V3 Turbo za široku jezičnu pokrivenost, Parakeet V3 za brzinu na engleskom, SenseVoice za CJK jezike. Preuzima se jednom i zatim zauvijek radi offline.
  3. Snimajte izravno, diktirajte bilo gdje u sustavu držanjem tipke Fn ili ubacite audio i video datoteke (MP3, WAV, M4A, MP4).
  4. Tekst pristiže dok se obrađuje. Izvezite kao TXT ili SRT.

Sumnjate u „offline“? Najprije uključite zrakoplovni način rada. Transkripcija radi punom brzinom — ništa se nikada ne prenosi na poslužitelj.

Koliko je točna Whisper transkripcija na hrvatskom? Koji model odabrati?

Hrvatski je jedan od 25 europskih jezika koje pokriva Parakeet V3 — s točnošću u klasi 6,32 % WER i otprilike 10x većom brzinom od Whispera. Upravo je zato Parakeet V3 zadani model u Whisper Notesu i najbolji izbor za hrvatske snimke. Whisper Large V3 Turbo (100+ jezika, ~1,5 GB) dobra je rezerva za vrlo zahtjevan zvuk ili jezike koje Parakeet ne pokriva. Oba modela rade potpuno offline na Macu i iPhoneu.

Često postavljana pitanja

Je li Whisper transkripcija besplatna?

Sam model je besplatan i otvorenog koda (MIT licenca). Pokretanje putem alata naredbenog retka poput whisper.cpp ne košta ništa, ali zahtijeva postavljanje. OpenAI-jev API naplaćuje po minuti zvuka. Nativne aplikacije pakiraju modele uz malu naknadu — Whisper Notes stoji $6.99 jednokratno, uz besplatnu probu na Macu.

Može li Whisper transkripcija raditi offline?

Da — to je smisao otvorenih težina. Kad je datoteka modela na vašem uređaju, internet više nije potreban. Whisper Notes pokreće Whisper Large V3 Turbo na Apple Siliconu putem CoreML/Metala, potpuno offline. Možete provjeriti zrakoplovnim načinom rada.

Koji je Whisper model najtočniji?

large-v3 ima najbolju sirovu točnost. large-v3-turbo mu je ravan unutar djelića postotka WER-a, a radi oko 5x brže — zato je danas zadani izbor u većini alata.

Podržava li Whisper moj jezik?

Whisper pokriva otprilike 100 jezika, a najjači je u onima s puno podataka (engleski, španjolski, njemački, francuski itd.). Za kineski, japanski, korejski i kantonski SenseVoice nudi bolju interpunkciju i znatno veću brzinu na Apple Siliconu.

Postoji li aplikacija za Whisper transkripciju na iPhoneu?

Da. Whisper Notes pokreće Whisper modele optimizirane za iPhoneov Neural Engine (iPhone 12 i noviji) — snimajte, uvezite iz Diktafona ili Datoteka i transkribirajte u potpunosti na uređaju za $6.99, bez pretplate.