Whisper Large V3 Turbo vs V3: 5× Rychlejší na Mac (Benchmark)

OpenAI Whisper Large-v3 Turbo redukuje dekoder z 32 vrstev na 4 a snizuje pocet parametru z 1,55B na 809M. Vysledek: 2-5× rychlejsi transkripce s temer identickou presnosti. Whisper Notes ho dodava na Mac s Apple Silicon.

Porovnani architektury Whisper Large V3 Turbo a V3

V3 Turbo vs V3: Co se zmenilo

Turbo neni nova architektura. Je to presne stejny model Whisper Large-v3, u ktereho byl dekoder orezan z 32 vrstev na 4 a nasledne doladen pro obnoveni presnosti. Enkoder zustava nedotceny.

	Large-v3 Turbo	Large-v3
Parametry	809M	1 550M
Vrstvy dekoderu	4	32
Jazyky	99	99
Uloha prekladu	Nepodporovano	Podporovano
Licence	MIT	Apache 2.0

Uloha prekladu byla z treninkovych dat Turba explicitne vyloucena. Plny model Large-v3 ji podporuje, ale Whisper Notes dodava pouze Turbo - preklad je resen samostatne pres Apple Intelligence.

Benchmark rychlosti: Whisper Notes na Apple Silicon

Ve Whisper Notes pro Mac bezi Turbo pres CoreML na Neural Engine. Zpracovani 10 minut zvuku:

Zarizeni	Whisper V3	V3 Turbo	Zrychleni
iPhone 15 Pro	425 s	82 s	5,2×
iPad Pro M2	380 s	71 s	5,4×
MacBook Pro M2	316 s	63 s	5,0×

5× zrychleni je specificke pro Whisper Notes na Apple Silicon, kde mensi dekoder tezi z optimalizace Neural Engine. Na GPU s frameworky jako faster-whisper se rozdil zmensi na ~2,7× (viz komunitni benchmarky nize).

Presnost: Porovnani WER

Hugging Face Open ASR Leaderboard testuje oba modely na stejnych anglickych datasetech. Chybovost slov (WER) u Turba je v ramci pul procentniho bodu od V3 ve vsech benchmarcich:

Dataset	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
Prumerny WER	7.83%	7.44%

V3 je na kazdem datasetu mirne presnejsi, ale rozdil je maly - prumerne 0,39 procentniho bodu. Pri vetsine realne transkripce rozdil nepoznate.

Na evaluaci YouTube-commons pro dlouhe nahrávky (jeden z nejvetisich open-source ASR benchmarku) dosahuje Turbo 13,40 % WER oproti 13,20 % u V3 - pri 129,5× real-time faktoru oproti 55,3×. To je 2,3× rychlejsi s temer identickou presnosti na realnem zvuku.

Komunitni benchmarky: GPU a CPU

Nezavisle benchmarky z komunit faster-whisper a whisper.cpp ukazuji konzistentni vysledky na ruznem hardwaru. Transkripce 13 minut zvuku s faster-whisper na GPU:

Model	Presnost	Cas	Pamet GPU	WER
Large-v3 Turbo	fp16	19.2 s	2 537 MB	1.92%
Large-v3	fp16	52.0 s	4 521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1 545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2 409 MB	2.39%

Zdroj: benchmark faster-whisper na NVIDIA GPU, LibriSpeech clean validacni split. Turbo int8 pouziva pouze 1,5 GB VRAM - vejde se na 2 GB GPU.

Davkova inference na RTX 3060 Laptop (6 GB VRAM, int8 presnost) posouvá vyhodu jeste dal:

Model	Sekvencni	Davkove (10)	Davkovy WER
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Zdroj: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, francouzsky zvuk, int8 presnost.

Pri davkovem zpracovani dosahuje Turbo nejlepsiho WER ze vsech testovanych modelu (7,7 %) a zaroven je nejrychlejsi. Je to jasny sweet spot pro produkcni nasazeni.

Znama omezeni (a jak je Whisper Notes resi)

Zadny vesteveny preklad

Turbo bylo trenovano bez prekladovych dat. Prepisuje pouze ve zdrojovem jazyce - na rozdil od Large-v3, ktery podporuje preklad zvuku do anglictiny.

Whisper Notes - Apple Intelligence automaticky preklada prepisy do vami zvoleneho jazyka, coz vam dava dvojjazycny vystup bez ohledu na pouzity model.

Vice halucinaci na hlucnem zvuku

Komunitni hlaseni naznacuji, ze Turbo vice halucinuje na velmi kratkych klipech nebo hlucnych nahravkach oproti V3. Ocekavane vzhledem k redukovemu dekoderu (4 vrstvy vs 32).

Whisper Notes - pred transkripci spousti Pyannote VAD, detekuje recove segmenty a odstraní ticho/sum, takze model zpracovava pouze skutecny hlas.

Ktery model byste meli pouzit?

Anglictina / Evropske jazyky	Parakeet V3 - 10× rychlejsi nez Whisper, lepsi presnost
Cinstina / Japonstina / Korejstina	SenseVoice - ucelove navrzen pro CJK, 52× rychlost
Ostatni jazyky	Whisper Large V3 Turbo - 99 jazyku, vysoka presnost, pomalejsi

Stahnout pro iOS

Stahnout pro macOS