Whisper Large V3 Turbo vs V3: 5× Brži na Macu (Benchmark) | Whisper Notes Blog: Najnovija ažuriranja

OpenAI-jev Whisper Large-v3 Turbo smanjuje dekoder s 32 sloja na 4, srezujuci parametre s 1,55B na 809M. Rezultat: 2-5× brza transkripcija s gotovo identicnom tocnoscu. Whisper Notes ga isporucuje na Mac s Apple Silicon.

Usporedba arhitekture Whisper Large V3 Turbo i V3

V3 Turbo vs V3: Sto se promijenilo

Turbo nije nova arhitektura. To je tocno isti model Whisper Large-v3 s dekoderom skracenim s 32 sloja na 4, zatim fino podesenim za oporavak tocnosti. Enkoder je netaknut.

	Large-v3 Turbo	Large-v3
Parametri	809M	1 550M
Slojevi dekodera	4	32
Jezici	99	99
Zadatak prijevoda	Nije podrzano	Podrzano
Licenca	MIT	Apache 2.0

Zadatak prijevoda je eksplicitno iskljucen iz podataka za treniranje Turba. Puni model Large-v3 ga podrzava, ali Whisper Notes isporucuje samo Turbo - prijevod se zasebno obavlja putem Apple Intelligence.

Benchmark brzine: Whisper Notes na Apple Silicon

U Whisper Notes za Mac, Turbo radi putem CoreML na Neural Engine. Obrada 10 minuta zvuka:

Uredaj	Whisper V3	V3 Turbo	Ubrzanje
iPhone 15 Pro	425 s	82 s	5,2×
iPad Pro M2	380 s	71 s	5,4×
MacBook Pro M2	316 s	63 s	5,0×

5× ubrzanje specificno je za Whisper Notes na Apple Silicon, gdje manji dekoder profitira od optimizacije Neural Engine. Na GPU s okvirima poput faster-whisper, razlika se smanjuje na ~2,7× (pogledajte komunitne benchmarkove u nastavku).

Tocnost: Usporedba WER

Hugging Face Open ASR Leaderboard testira oba modela na istim engleskim datasetovima. Stopa pogreske rijeci (WER) Turba je unutar pola postotnog boda od V3 u svim benchmarkovima:

Dataset	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
Prosjecni WER	7.83%	7.44%

V3 je neznatno tocniji na svakom datasetu, ali razlika je mala - prosjecno 0,39 postotnih bodova. Za vecinu stvarne transkripcije necete primijetiti razliku.

Na evaluaciji YouTube-commons za dugi format (jedan od najvecih open-source ASR benchmarkova), Turbo postize 13,40 % WER naspram 13,20 % V3-a - pri cemu radi s 129,5× real-time faktorom naspram 55,3×. To je 2,3× brze s gotovo identicnom tocnoscu na stvarnom zvuku.

Komunitni benchmarkovi: GPU i CPU

Nezavisni benchmarkovi iz zajednica faster-whisper i whisper.cpp pokazuju dosljedne rezultate na razlicitom hardveru. Transkripcija 13 minuta zvuka s faster-whisper na GPU:

Model	Preciznost	Vrijeme	GPU memorija	WER
Large-v3 Turbo	fp16	19.2 s	2 537 MB	1.92%
Large-v3	fp16	52.0 s	4 521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1 545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2 409 MB	2.39%

Izvor: benchmark faster-whisper na NVIDIA GPU, LibriSpeech clean validacijski split. Turbo int8 koristi samo 1,5 GB VRAM - stane na 2 GB GPU.

Skupna inferencija na RTX 3060 Laptop (6 GB VRAM, int8 preciznost) gura prednost jos dalje:

Model	Sekvencijalno	Skupno (10)	Skupni WER
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Izvor: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, francuski zvuk, int8 preciznost.

Sa skupnom obradom, Turbo postize najbolji WER od svih testiranih modela (7,7 %) i pritom je najbrzi. To je jasna optimalna tocka za produkcijsku upotrebu.

Poznata ogranicenja (i kako ih Whisper Notes rjesava)

Nema ugradenog prijevoda

Turbo je trenirano bez podataka za prijevod. Transkribira samo na izvornom jeziku - za razliku od Large-v3 koji podrzava prijevod zvuka na engleski.

Whisper Notes - Apple Intelligence automatski prevodi transkripte na vas odabrani jezik, dajuci vam dvojezicni izlaz bez obzira na koristeni model.

Vise halucinacija na bucnom zvuku

Izvjesca zajednice ukazuju da Turbo vise halucinira na vrlo kratkim isjecima ili bucnim snimkama u usporedbi s V3. Ocekivano s obzirom na smanjeni dekoder (4 sloja naspram 32).

Whisper Notes - pokrece Pyannote VAD prije transkripcije, detektirajuci govorne segmente i uklanjajuci tisinu/buku tako da model obraduje samo stvarni glas.

Koji model biste trebali koristiti?

Engleski / Europski	Parakeet V3 - 10× brzi od Whispera, bolja tocnost
Kineski / Japanski / Korejski	SenseVoice - namjenski izraden za CJK, 52× brzina
Ostali jezici	Whisper Large V3 Turbo - 99 jezika, visoka tocnost, sporiji

Preuzmi za iOS

Preuzmi za macOS