Whisper Large V3 Turbo vs V3: 5× Rychlejší na Mac (Benchmark)

6. listopadu 2024
·
6 min read
·Whisper Notes Team

OpenAI Whisper Large-v3 Turbo redukuje dekoder z 32 vrstev na 4 a snizuje pocet parametru z 1,55B na 809M. Vysledek: 2-5× rychlejsi transkripce s temer identickou presnosti. Whisper Notes ho dodava na Mac s Apple Silicon.

Porovnani architektury Whisper Large V3 Turbo a V3

V3 Turbo vs V3: Co se zmenilo

Turbo neni nova architektura. Je to presne stejny model Whisper Large-v3, u ktereho byl dekoder orezan z 32 vrstev na 4 a nasledne doladen pro obnoveni presnosti. Enkoder zustava nedotceny.

Large-v3 Turbo Large-v3
Parametry 809M 1 550M
Vrstvy dekoderu 4 32
Jazyky 99 99
Uloha prekladu Nepodporovano Podporovano
Licence MIT Apache 2.0

Uloha prekladu byla z treninkovych dat Turba explicitne vyloucena. Plny model Large-v3 ji podporuje, ale Whisper Notes dodava pouze Turbo - preklad je resen samostatne pres Apple Intelligence.

Benchmark rychlosti: Whisper Notes na Apple Silicon

Ve Whisper Notes pro Mac bezi Turbo pres CoreML na Neural Engine. Zpracovani 10 minut zvuku:

Zarizeni Whisper V3 V3 Turbo Zrychleni
iPhone 15 Pro 425 s 82 s 5,2×
iPad Pro M2 380 s 71 s 5,4×
MacBook Pro M2 316 s 63 s 5,0×

5× zrychleni je specificke pro Whisper Notes na Apple Silicon, kde mensi dekoder tezi z optimalizace Neural Engine. Na GPU s frameworky jako faster-whisper se rozdil zmensi na ~2,7× (viz komunitni benchmarky nize).

Presnost: Porovnani WER

Hugging Face Open ASR Leaderboard testuje oba modely na stejnych anglickych datasetech. Chybovost slov (WER) u Turba je v ramci pul procentniho bodu od V3 ve vsech benchmarcich:

Dataset V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
Prumerny WER 7.83% 7.44%

V3 je na kazdem datasetu mirne presnejsi, ale rozdil je maly - prumerne 0,39 procentniho bodu. Pri vetsine realne transkripce rozdil nepoznate.

Na evaluaci YouTube-commons pro dlouhe nahrávky (jeden z nejvetisich open-source ASR benchmarku) dosahuje Turbo 13,40 % WER oproti 13,20 % u V3 - pri 129,5× real-time faktoru oproti 55,3×. To je 2,3× rychlejsi s temer identickou presnosti na realnem zvuku.

Komunitni benchmarky: GPU a CPU

Nezavisle benchmarky z komunit faster-whisper a whisper.cpp ukazuji konzistentni vysledky na ruznem hardwaru. Transkripce 13 minut zvuku s faster-whisper na GPU:

Model Presnost Cas Pamet GPU WER
Large-v3 Turbo fp16 19.2 s 2 537 MB 1.92%
Large-v3 fp16 52.0 s 4 521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1 545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2 409 MB 2.39%

Zdroj: benchmark faster-whisper na NVIDIA GPU, LibriSpeech clean validacni split. Turbo int8 pouziva pouze 1,5 GB VRAM - vejde se na 2 GB GPU.

Davkova inference na RTX 3060 Laptop (6 GB VRAM, int8 presnost) posouvá vyhodu jeste dal:

Model Sekvencni Davkove (10) Davkovy WER
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Zdroj: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, francouzsky zvuk, int8 presnost.

Pri davkovem zpracovani dosahuje Turbo nejlepsiho WER ze vsech testovanych modelu (7,7 %) a zaroven je nejrychlejsi. Je to jasny sweet spot pro produkcni nasazeni.

Znama omezeni (a jak je Whisper Notes resi)

Zadny vesteveny preklad

Turbo bylo trenovano bez prekladovych dat. Prepisuje pouze ve zdrojovem jazyce - na rozdil od Large-v3, ktery podporuje preklad zvuku do anglictiny.

Whisper Notes - Apple Intelligence automaticky preklada prepisy do vami zvoleneho jazyka, coz vam dava dvojjazycny vystup bez ohledu na pouzity model.

Vice halucinaci na hlucnem zvuku

Komunitni hlaseni naznacuji, ze Turbo vice halucinuje na velmi kratkych klipech nebo hlucnych nahravkach oproti V3. Ocekavane vzhledem k redukovemu dekoderu (4 vrstvy vs 32).

Whisper Notes - pred transkripci spousti Pyannote VAD, detekuje recove segmenty a odstraní ticho/sum, takze model zpracovava pouze skutecny hlas.

Ktery model byste meli pouzit?

Anglictina / Evropske jazyky Parakeet V3 - 10× rychlejsi nez Whisper, lepsi presnost
Cinstina / Japonstina / Korejstina SenseVoice - ucelove navrzen pro CJK, 52× rychlost
Ostatni jazyky Whisper Large V3 Turbo - 99 jazyku, vysoka presnost, pomalejsi