Whisper transkripcija znači pretvaranje govora u tekst pomoću OpenAI-jeva Whispera — open-source AI modela koji možete pokrenuti u oblaku, na poslužitelju ili u potpunosti na vlastitom uređaju. Ovaj vodič objašnjava kako Whisper radi, koju veličinu modela odabrati, koliko je zapravo točan i koji je najbrži način da ga pokrenete offline na Macu ili iPhoneu.
Što je zapravo Whisper?
Whisper je model za automatsko prepoznavanje govora (ASR) koji je OpenAI objavio u rujnu 2022. pod MIT licencom. Riječ je o encoder-decoder transformeru treniranom na više od 680.000 sati višejezičnog zvuka; podržava transkripciju na otprilike 100 jezika te prijevod na engleski.
Dio koji je vama bitan: težine modela su otvorene. Za razliku od Googleovih ili Amazonovih govornih API-ja, Whisper ne mora raditi na tuđem poslužitelju. Postoji cijeli ekosustav za lokalno pokretanje — whisper.cpp, faster-whisper i nativne aplikacije poput Whisper Notesa. Upravo to omogućuje istinski offline, privatnu transkripciju.
Veličine Whisper modela: koju koristiti
Whisper dolazi u šest glavnih veličina. Veći znači točniji i sporiji:
| Model | Parametri | Brzina | Najbolji za |
|---|---|---|---|
| tiny | 39M | Najbrži | Brze skice, slabiji hardver |
| base | 74M | Vrlo brz | Jednostavan, čist zvuk |
| small | 244M | Brz | Dobar omjer brzine i točnosti na mobitelu |
| medium | 769M | Umjeren | Danas rijetko pravi izbor |
| large-v3 | 1.55B | Najsporiji | Maksimalna točnost, zahtjevan zvuk |
| large-v3-turbo | 809M | ~5x brži od large-v3 | Zadani izbor u 2026. |
Za gotovo sve odgovor je large-v3-turbo: zadržava encoder modela large-v3, ali smanjuje broj decoder slojeva s 32 na 4, pa isporučuje gotovo identičnu točnost uz djelić računalne snage. Detaljno smo ga izmjerili u članku Whisper Large V3 Turbo vs V3.
Koliko je točna Whisper transkripcija?
Na čistom engleskom zvuku veliki modeli postižu stopu pogreške riječi (WER) od otprilike 5–8 % — za većinu praktičnih potreba usporedivo s profesionalnom ljudskom transkripcijom. Točnost pada uz pozadinsku buku, jake naglaske, preklapanje govora i jezike s malo podataka.
Jedna poznata Whisperova mana: halucinacije tijekom tišine. Njegov autoregresivni decoder ponekad izmišlja ponavljajuće fraze ili odjavne titlove kad nitko ne govori. Noviji modeli to rješavaju — NVIDIA-in Parakeet V3 izričito je treniran i na zvuku bez govora te u našim testovima ne proizvodi nijednu halucinaciju (potpuni benchmark Parakeet V3 vs Whisper).
Za kineski, japanski, korejski i kantonski specijalizirani model pobjeđuje Whisper i u brzini i u interpunkciji: pogledajte SenseVoice vs Whisper za CJK jezike.
5 načina pokretanja Whisper transkripcije
| Metoda | Cijena | Privatnost | Postavljanje |
|---|---|---|---|
| OpenAI API | Plaćanje po minuti zvuka | Zvuk se prenosi na poslužitelj | API ključ + kod |
| openai-whisper (referentni Python) | Besplatno | 100 % lokalno | Python okruženje, preporučen GPU |
| whisper.cpp / faster-whisper | Besplatno | 100 % lokalno | Naredbeni redak |
| Nativna aplikacija (Whisper Notes) | $6.99 jednokratno, besplatna proba na Macu | 100 % na uređaju | Nema |
| Web demo alati | Besplatne razine | Zvuk se prenosi na poslužitelj | Nema |
Zlatno pravilo: ako živite u terminalu, faster-whisper je izvrstan. Ako gradite proizvod, API ima smisla. Ako samo želite privatno transkribirati svoje snimke bez dodirivanja Pythona, koristite nativnu aplikaciju — upravo zato postoje Whisper aplikacije za Mac.
Razmatrate offline alate šire — uključujući opcije za Windows i Android? Pogledajte naš potpuni vodič za offline pretvaranje govora u tekst.
Whisper vs noviji lokalni modeli (2026.)
Whisper je pokrenuo eru lokalne transkripcije, ali više nije sam. Brzine u nastavku izmjerene su na Macu s M4 Pro:
| Model | Jezici | Brzina | Ističe se |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x stvarnog vremena | Najšira jezična pokrivenost |
| Parakeet V3 | 25 (europski) | ~100x stvarnog vremena | 6,32 % WER, bez halucinacija u tišini |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x stvarnog vremena | Najbolji za kineski, japanski, korejski |
Sva tri modela rade lokalno u Whisper Notesu i možete ih mijenjati za svaku snimku. Usporedni benchmarkovi nalaze se na našoj stranici usporedbe Whisper modela.
Kako pokrenuti Whisper transkripciju offline na Macu i iPhoneu
Bez naredbenog retka, bez Pythona, bez oblaka:
- Preuzmite Whisper Notes za Mac (besplatna proba) ili za iPhone ($6.99 jednokratno).
- Odaberite model: Whisper Large V3 Turbo za široku jezičnu pokrivenost, Parakeet V3 za brzinu na engleskom, SenseVoice za CJK jezike. Preuzima se jednom i zatim zauvijek radi offline.
- Snimajte izravno, diktirajte bilo gdje u sustavu držanjem tipke Fn ili ubacite audio i video datoteke (MP3, WAV, M4A, MP4).
- Tekst pristiže dok se obrađuje. Izvezite kao TXT ili SRT.
Sumnjate u „offline“? Najprije uključite zrakoplovni način rada. Transkripcija radi punom brzinom — ništa se nikada ne prenosi na poslužitelj.
Koliko je točna Whisper transkripcija na hrvatskom? Koji model odabrati?
Hrvatski je jedan od 25 europskih jezika koje pokriva Parakeet V3 — s točnošću u klasi 6,32 % WER i otprilike 10x većom brzinom od Whispera. Upravo je zato Parakeet V3 zadani model u Whisper Notesu i najbolji izbor za hrvatske snimke. Whisper Large V3 Turbo (100+ jezika, ~1,5 GB) dobra je rezerva za vrlo zahtjevan zvuk ili jezike koje Parakeet ne pokriva. Oba modela rade potpuno offline na Macu i iPhoneu.
Često postavljana pitanja
Je li Whisper transkripcija besplatna?
Sam model je besplatan i otvorenog koda (MIT licenca). Pokretanje putem alata naredbenog retka poput whisper.cpp ne košta ništa, ali zahtijeva postavljanje. OpenAI-jev API naplaćuje po minuti zvuka. Nativne aplikacije pakiraju modele uz malu naknadu — Whisper Notes stoji $6.99 jednokratno, uz besplatnu probu na Macu.
Može li Whisper transkripcija raditi offline?
Da — to je smisao otvorenih težina. Kad je datoteka modela na vašem uređaju, internet više nije potreban. Whisper Notes pokreće Whisper Large V3 Turbo na Apple Siliconu putem CoreML/Metala, potpuno offline. Možete provjeriti zrakoplovnim načinom rada.
Koji je Whisper model najtočniji?
large-v3 ima najbolju sirovu točnost. large-v3-turbo mu je ravan unutar djelića postotka WER-a, a radi oko 5x brže — zato je danas zadani izbor u većini alata.
Podržava li Whisper moj jezik?
Whisper pokriva otprilike 100 jezika, a najjači je u onima s puno podataka (engleski, španjolski, njemački, francuski itd.). Za kineski, japanski, korejski i kantonski SenseVoice nudi bolju interpunkciju i znatno veću brzinu na Apple Siliconu.
Postoji li aplikacija za Whisper transkripciju na iPhoneu?
Da. Whisper Notes pokreće Whisper modele optimizirane za iPhoneov Neural Engine (iPhone 12 i noviji) — snimajte, uvezite iz Diktafona ili Datoteka i transkribirajte u potpunosti na uređaju za $6.99, bez pretplate.