Whisper Large V3 Turbo vs V3: 5× Rýchlejší na Mac (Benchmark)

6. novembra 2024
·
6 min read
·Whisper Notes Team

OpenAI Whisper Large-v3 Turbo redukuje dekoder z 32 vrstiev na 4, znizujuc pocet parametrov z 1,55B na 809M. Vysledok: 2-5× rychlejsi transkripcia s takmer identickou presnostou. Whisper Notes ho dodava na Mac s Apple Silicon.

Porovnanie architektury Whisper Large V3 Turbo a V3

V3 Turbo vs V3: Co sa zmenilo

Turbo nie je nova architektura. Je to presne ten isty model Whisper Large-v3 s dekoderom orezanym z 32 vrstiev na 4, nasledne doladenym na obnovenie presnosti. Enkoder zostava nedotknuty.

Large-v3 Turbo Large-v3
Parametre 809M 1 550M
Vrstvy dekoderu 4 32
Jazyky 99 99
Uloha prekladu Nepodporovane Podporovane
Licencia MIT Apache 2.0

Uloha prekladu bola z trenovacich dat Turba explicitne vylucena. Plny model Large-v3 ju podporuje, ale Whisper Notes dodava iba Turbo - preklad je rieseny samostatne cez Apple Intelligence.

Benchmark rychlosti: Whisper Notes na Apple Silicon

Vo Whisper Notes pre Mac bezi Turbo cez CoreML na Neural Engine. Spracovanie 10 minut zvuku:

Zariadenie Whisper V3 V3 Turbo Zrychlenie
iPhone 15 Pro 425 s 82 s 5,2×
iPad Pro M2 380 s 71 s 5,4×
MacBook Pro M2 316 s 63 s 5,0×

5× zrychlenie je specificke pre Whisper Notes na Apple Silicon, kde mensi dekoder profituje z optimalizacie Neural Engine. Na GPU s frameworkmi ako faster-whisper sa rozdiel zmensi na ~2,7× (pozrite komunitne benchmarky nizsie).

Presnost: Porovnanie WER

Hugging Face Open ASR Leaderboard testuje oba modely na rovnakych anglickych datasetoch. Chybovost slov (WER) u Turba je v ramci pol percentualneho bodu od V3 vo vsetkych benchmarkoch:

Dataset V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
Priemerny WER 7.83% 7.44%

V3 je na kazdom datasete mierne presnejsi, ale rozdiel je maly - priemerne 0,39 percentualneho bodu. Pri vacsine realnej transkripcie rozdiel nepoznate.

Na evaluacii YouTube-commons pre dlhe nahravky (jeden z najvacsich open-source ASR benchmarkov) dosahuje Turbo 13,40 % WER oproti 13,20 % u V3 - pri 129,5× real-time faktore oproti 55,3×. To je 2,3× rychlejsie s takmer identickou presnostou na realnom zvuku.

Komunitne benchmarky: GPU a CPU

Nezavisle benchmarky z komunit faster-whisper a whisper.cpp ukazuju konzistentne vysledky na roznom hardveri. Transkripcia 13 minut zvuku s faster-whisper na GPU:

Model Presnost Cas Pamat GPU WER
Large-v3 Turbo fp16 19.2 s 2 537 MB 1.92%
Large-v3 fp16 52.0 s 4 521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1 545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2 409 MB 2.39%

Zdroj: benchmark faster-whisper na NVIDIA GPU, LibriSpeech clean validacny split. Turbo int8 pouziva iba 1,5 GB VRAM - vojde sa na 2 GB GPU.

Davkova inferencia na RTX 3060 Laptop (6 GB VRAM, int8 presnost) posuva vyhodu este dalej:

Model Sekvencne Davkovo (10) Davkovy WER
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Zdroj: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, francuzsky zvuk, int8 presnost.

Pri davkovom spracovani dosahuje Turbo najlepsieho WER zo vsetkych testovanych modelov (7,7 %) a zaroven je najrychlejsie. Je to jasny sweet spot pre produkcne nasadenie.

Zname obmedzenia (a ako ich Whisper Notes riesi)

Ziadny vstavaný preklad

Turbo bolo trenovane bez prekladovych dat. Prepisuje iba v zdrojovom jazyku - na rozdiel od Large-v3, ktory podporuje preklad zvuku do anglictiny.

Whisper Notes - Apple Intelligence automaticky preklada prepisy do vami zvoleneho jazyka, co vam dava dvojjazycny vystup bez ohladu na pouzity model.

Viac halucinacii na hlucnom zvuku

Komunitne hlasenia naznacuju, ze Turbo viac halucinuje na velmi kratkych klipoch alebo hlucnych nahravkach v porovnani s V3. Ocakavane vzhladom na redukovany dekoder (4 vrstvy oproti 32).

Whisper Notes - pred transkripciou spusta Pyannote VAD, deteguje recove segmenty a odstranuje ticho/sum, takze model spracovava iba skutocny hlas.

Ktory model by ste mali pouzit?

Anglictina / Europske jazyky Parakeet V3 - 10× rychlejsi ako Whisper, lepsia presnost
Cinstina / Japoncina / Korejcina SenseVoice - ucelovo navrhnuty pre CJK, 52× rychlost
Ostatne jazyky Whisper Large V3 Turbo - 99 jazykov, vysoka presnost, pomalsi