Whisper Large V3 Turbo vs V3: 5× Gyorsabb Mac-en (Benchmark)

2024. november 6.
·
6 min read
·Whisper Notes Team

Az OpenAI Whisper Large-v3 Turbo modellje a dekódert 32 rétegről 4-re csökkenti, a paraméterszámot 1,55 milliárdról 809 millióra redukálva. Az eredmény: 2–5× gyorsabb átírás szinte azonos pontossággal. A Whisper Notes Apple Silicon Mac-en szállítja.

A Whisper Large V3 Turbo és V3 architektúra összehasonlítása

V3 Turbo vs V3: Mi változott

A Turbo nem új architektúra. Pontosan ugyanaz a Whisper Large-v3 modell, amelynek dekóderét 32 rétegről 4-re metszették, majd finomhangolással visszanyerték a pontosságot. A kódoló érintetlen.

Large-v3 Turbo Large-v3
Paraméterek 809M 1,550M
Dekóder rétegek 4 32
Nyelvek 99 99
Fordítási feladat Nem támogatott Támogatott
Licenc MIT Apache 2.0

A fordítási feladatot kifejezetten kizárták a Turbo tanítási adataiból. A teljes Large-v3 modell támogatja, de a Whisper Notes csak a Turbo-t szállítja — a fordítást külön az Apple Intelligence végzi.

Sebességi benchmark: Whisper Notes Apple Silicon-on

A Mac-es Whisper Notes-ban a Turbo CoreML-en keresztül fut a Neural Engine-en. 10 perc hang feldolgozása:

Eszköz Whisper V3 V3 Turbo Gyorsulás
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

Az 5×-ös gyorsulás a Whisper Notes Apple Silicon-on mért eredménye, ahol a kisebb dekóder jobban kihasználja a Neural Engine optimalizációját. GPU-n, faster-whisper-hez hasonló keretrendszerekkel a különbség ~2,7×-re csökken (lásd alább a közösségi benchmarkokat).

Pontosság: WER összehasonlítás

A Hugging Face Open ASR Leaderboard mindkét modellt ugyanazon angol adathalmazokon teszteli. A Turbo szóhibaaránya minden benchmarkon fél százalékponton belül van a V3-hoz képest:

Adathalmaz V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
Átlagos WER 7.83% 7.44%

A V3 minden adathalmazon kissé pontosabb, de a különbség kicsi — átlagosan 0,39 százalékpont. A legtöbb valós átírási feladatnál nem fogod érzékelni a különbséget.

A YouTube-commons hosszú formátumú kiértékelésen (az egyik legnagyobb nyílt forráskódú ASR benchmark) a Turbo WER-je 13,40%, míg a V3-é 13,20% — miközben a Turbo valós idejű faktora 129,5×, a V3-é pedig 55,3×. Ez 2,3× gyorsabb, szinte azonos pontossággal valós hanganyagon.

Közösségi benchmarkok: GPU és CPU

A faster-whisper és whisper.cpp közösségek független benchmarkjai konzisztens eredményeket mutatnak különböző hardvereken. 13 perc hang átírása faster-whisper-rel GPU-n:

Modell Pontosság Idő GPU memória WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Forrás: faster-whisper benchmark NVIDIA GPU-n, LibriSpeech clean validációs split. A Turbo int8 mindössze 1,5 GB VRAM-ot használ — elfér egy 2 GB-os GPU-n.

Kötegelt feldolgozás RTX 3060 Laptop-on (6 GB VRAM, int8 pontosság) tovább növeli az előnyt:

Modell Szekvenciális Kötegelt (10) Kötegelt WER
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Forrás: NilaierMusic benchmark, Intel i7-12650H + RTX 3060 Laptop 6 GB, francia hanganyag, int8 pontosság.

Kötegelt feldolgozással a Turbo éri el a legjobb WER-t az összes tesztelt modell közül (7,7%), miközben a leggyorsabb is. Ez a legjobb választás éles használatra.

Ismert korlátok (és hogyan kezeli ezeket a Whisper Notes)

Nincs beépített fordítás

A Turbo-t fordítási adatok nélkül tanították. Csak a forrásnyelven ír át — ellentétben a Large-v3-mal, amely támogatja a hang→angol fordítást.

Whisper Notes — Az Apple Intelligence automatikusan lefordítja az átiratokat a választott nyelvre, kétnyelvű kimenetet biztosítva, függetlenül attól, melyik modellt használod.

Több hallucináció zajos hanganyagnál

A közösségi visszajelzések szerint a Turbo többet hallucinál nagyon rövid klipeknél vagy zajos felvételeknél a V3-hoz képest. Ez a csökkentett dekóderrel magyarázható (4 réteg vs 32).

Whisper Notes — az átírás előtt Pyannote VAD-ot futtat, felismeri a beszédszegmenseket és eltávolítja a csendet/zajt, így a modell csak valódi hangot dolgoz fel.

Melyik modellt válaszd?

Angol / Európai Parakeet V3 — 10× gyorsabb a Whispernél, jobb pontosság
Kínai / Japán / Koreai SenseVoice — CJK-ra tervezve, 52× sebesség
Egyéb nyelvek Whisper Large V3 Turbo — 99 nyelv, magas pontosság, lassabb