Whisper Large V3 Turbo vs V3: 5× Rýchlejší na Mac (Benchmark)

Whisper Large-v3 Turbo od OpenAI orezáva dekodér z 32 vrstiev na 4 a znižuje počet parametrov z 1,55 miliardy na 809 miliónov. V našich testoch na čipoch Apple Silicon prepísal rovnaký zvuk približne 5× rýchlejšie s takmer totožnou presnosťou. Whisper Notes ho dodáva na Macu aj iPhone.

Porovnanie architektúry Whisper Large V3 Turbo a V3

V3 Turbo vs V3: Čo sa zmenilo

Turbo nie je nová architektúra. Ide o presne ten istý model Whisper Large-v3, len s dekodérom orezaným z 32 vrstiev na 4 a následne doladeným, aby sa obnovila presnosť. Enkodér zostal nedotknutý.

	Large-v3 Turbo	Large-v3
Parametre	809M	1 550M
Vrstvy dekodéra	4	32
Jazyky	100+	100+
Úloha prekladu	Nepodporované	Podporované
Licencia	MIT	Apache 2.0

Metodika: rovnaký desaťminútový zvukový súbor bol prepísaný v rovnakom zostavení Whisper Notes na každom z uvedených zariadení. Časy sú reálne sekundy od spustenia prepisu po finálny text; medzi V3 a Turbom sa menil iba model.

Úloha prekladu bola z trénovacích dát Turba výslovne vylúčená. Plný model Large-v3 ju podporuje, Whisper Notes však dodáva iba Turbo — preklad sa rieši samostatne cez Apple Intelligence.

Základný model: Čo je Whisper Large-v3?

Whisper Large-v3 je vlajkový open-source model OpenAI na rozpoznávanie reči, vydaný v novembri 2023. Má 1,55 miliardy parametrov, na vstupe používa spektrogram so 128 mel pásmami, natrénovaný bol na 5 miliónoch hodín zvuku (1 milión slabo anotovaných + 4 milióny pseudoanotovaných) a podporuje 100+ jazykov vrátane kantončiny. V rebríčku Hugging Face Open ASR Leaderboard dosahuje priemernú chybovosť slov ~7,4 % — to je strop presnosti, s ktorým sa Turbo v celom tomto článku porovnáva. Ako si Large-v3 stojí oproti všetkým ostatným on-device modelom, nájdete v našom porovnaní modelov Whisper.

Benchmark rýchlosti: Whisper Notes na Apple Silicon

Vo Whisper Notes pre Mac beží Turbo cez CoreML na Neural Engine. Spracovanie 10 minút zvuku:

Zariadenie	Whisper V3	V3 Turbo	Zrýchlenie
iPhone 15 Pro	425 s	82 s	5,2×
iPad Pro M2	380 s	71 s	5,4×
MacBook Pro M2	316 s	63 s	5,0×

Päťnásobné zrýchlenie je špecifické pre Whisper Notes na čipoch Apple Silicon, kde menší dekodér ťaží z optimalizácie pre Neural Engine. Na GPU s frameworkmi ako faster-whisper sa rozdiel zmenšuje na ~2,7× (pozri komunitné benchmarky nižšie).

Presnosť: Porovnanie WER

Hugging Face Open ASR Leaderboard testuje oba modely na rovnakých anglických datasetoch. Chybovosť slov (WER) Turba je vo všetkých benchmarkoch do pol percentuálneho bodu od V3:

Dataset	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
Priemerný WER	7.83%	7.44%

V3 je na každom datasete o čosi presnejší, rozdiel je však malý — v priemere 0,39 percentuálneho bodu. Pri väčšine reálnych prepisov ho nepostrehnete.

Na evaluácii dlhých nahrávok YouTube-commons (jeden z najväčších open-source ASR benchmarkov) dosahuje Turbo 13,40 % WER oproti 13,20 % pri V3 — a beží s real-time faktorom 129,5× oproti 55,3×. To je 2,3× vyššia rýchlosť s takmer totožnou presnosťou na reálnom zvuku.

Aké presné je Turbo v kórejčine, ruštine a ďalších jazykoch?

Vyššie uvedené benchmarky sú anglické. Podľa model card od OpenAI stojí orezaný štvorvrstvový dekodér Turba o niečo viac presnosti v neanglických jazykoch než v angličtine, pričom najväčší prepad sa týka jazykov s menším množstvom dát. V ruštine a väčšine európskych jazykov sa Turbo drží blízko plného Large-v3 — a ak používate Whisper Notes, Parakeet V3 pokrýva ruštinu a 24 ďalších európskych jazykov pri desaťnásobku rýchlosti Whisperu.

Pre kórejčinu, japončinu, čínštinu a kantončinu je špecializovaný model rýchlejší a lepšie si poradí aj s interpunkciou: SenseVoice prepisuje CJK jazyky rýchlosťou 52× reálneho času. Whisper Notes dodáva SenseVoice popri Turbe na Macu aj iOS, takže si pre každý jazyk vyberiete ten správny model, namiesto toho, aby všetko išlo cez jediný.

Komunitné benchmarky: GPU a CPU

Nezávislé benchmarky z komunít faster-whisper a whisper.cpp ukazujú konzistentné výsledky naprieč hardvérom. Prepis 13 minút zvuku pomocou faster-whisper na GPU:

Model	Presnosť	Čas	Pamäť GPU	WER
Large-v3 Turbo	fp16	19.2 s	2 537 MB	1.92%
Large-v3	fp16	52.0 s	4 521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1 545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2 409 MB	2.39%

Zdroj: benchmark faster-whisper na GPU NVIDIA, validačná sada LibriSpeech clean. Turbo v int8 využíva len 1,5 GB VRAM — zmestí sa aj na GPU s 2 GB pamäte.

Dávková inferencia na RTX 3060 Laptop (6 GB VRAM, presnosť int8) posúva náskok ešte ďalej:

Model	Sekvenčne	Dávkovo (10)	Dávkový WER
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Zdroj: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, francúzsky zvuk, presnosť int8.

Pri dávkovom spracovaní dosahuje Turbo najlepší WER zo všetkých testovaných modelov (7,7 %) a zároveň je najrýchlejší. Pre produkčné nasadenie je to jednoznačný sweet spot.

Turbo vs Medium vs všetky veľkosti modelov Whisper

Pred príchodom Turba býval zvyčajným kompromisom Medium: prijateľná presnosť pri znesiteľnej rýchlosti. Turbo tento kompromis odsunulo do minulosti — s 809 miliónmi parametrov je len o málo väčšie než Medium (769M), a pritom ponúka presnosť triedy large pri niekoľkonásobnej rýchlosti. Tu je celá rodina modelov vedľa seba:

Model	Parametre	Veľkosť na disku	Relatívna rýchlosť	Trieda presnosti
tiny	39M	~75 MB	~10×	Najnižšia
base	74M	~142 MB	~7×	Nízka
small	244M	~466 MB	~4×	Stredná
medium	769M	~1,5 GB	~2×	Vysoká
large-v3	1 550M	~2,9 GB	1× (základ)	Najvyššia
large-v3-turbo	809M	~1,6 GB	~5× na Apple Silicon	Takmer najvyššia

Turbo vyšlo 30. septembra 2024 a má 809 miliónov parametrov. Ak ste doteraz volili Medium kvôli miestu na disku alebo rýchlosti, Turbo ho teraz poráža v presnosti aj rýchlosti pri zhruba rovnakej veľkosti.

Známe obmedzenia (a ako ich Whisper Notes rieši)

Bez vstavaného prekladu

Turbo bolo trénované bez prekladových dát. Prepisuje iba v zdrojovom jazyku — na rozdiel od Large-v3, ktorý podporuje preklad zvuku do angličtiny.

Whisper Notes — Apple Intelligence automaticky prekladá prepisy do zvoleného jazyka, takže dvojjazyčný výstup získate bez ohľadu na použitý model.

Viac halucinácií na hlučnom zvuku

Podľa hlásení z komunity Turbo halucinuje viac na veľmi krátkych klipoch a hlučných nahrávkach než V3. Vzhľadom na zmenšený dekodér (4 vrstvy oproti 32) sa to dá čakať.

Whisper Notes — pred prepisom spúšťa Pyannote VAD, ktorý rozpozná rečové segmenty a odstráni ticho aj šum, takže model spracúva len skutočný hlas.

Ktorý model by ste mali použiť?

Angličtina / európske jazyky	Parakeet V3 — 10× rýchlejší než Whisper, lepšia presnosť
Čínština / japončina / kórejčina	SenseVoice — stavaný priamo pre CJK, rýchlosť 52×
Ostatné jazyky	Whisper Large V3 Turbo — 100+ jazykov, vysoká presnosť, pomalší

Whisper Large-v3 Turbo: Časté otázky

Aký je rozdiel medzi Whisper Large-v3 a Large-v3 Turbo?

Large-v3 Turbo si ponecháva enkodér z Large-v3, ale zmenšuje dekodér z 32 vrstiev na 4. Preto je výrazne rýchlejší a pri prepise sa presnosťou drží blízko Large-v3. Daňou je, že Turbo nepodporuje vstavanú úlohu prekladu vo Whisperi.

Podporuje faster-whisper model Large-v3 Turbo?

Áno. faster-whisper podporuje Large-v3 Turbo cez konverzie CTranslate2 a komunitné benchmarky ukazujú, že Turbo je silná voľba pri obmedzenej VRAM. V benchmarku vyššie použilo Turbo v int8 približne 1,5 GB VRAM.

Podporuje whisper.cpp model Large-v3 Turbo?

Áno. whisper.cpp dokáže spúšťať konvertované verzie Whisper Large-v3 Turbo vo formátoch GGML/GGUF. Ak si staviate vlastnú lokálnu pipeline na prepis, Turbo sa na bežný hardvér zmestí ľahšie než plný Large-v3.

Kde si stiahnem openai/whisper-large-v3-turbo?

Oficiálne váhy modelu sú k dispozícii od OpenAI na Hugging Face. Používatelia Whisper Notes ich však nemusia sťahovať ručne: aplikácia pre Mac vybaví nastavenie lokálneho modelu priamo vo svojom rozhraní.

Porovnávate všetky lokálne možnosti? Každý on-device model na prevod reči na text — varianty Whisperu, Parakeet V3, SenseVoice aj Voxtral — nájdete vedľa seba na našej stránke s porovnaním modelov Whisper. S Whisperom ešte len začínate? Začnite sprievodcom prepisom pomocou Whisperu — čo je to za model, aké sú všetky spôsoby, ako ho spustiť, a koľko to stojí.

Stiahnuť pre iOS

Stiahnuť pre macOS