Whisper Large V3 Turbo vs V3: 5× Gyorsabb Mac-en (Benchmark)

Az OpenAI Whisper Large-v3 Turbo modellje a dekódert 32 rétegről 4-re csökkenti, a paraméterszámot 1,55 milliárdról 809 millióra redukálva. Az eredmény: 2–5× gyorsabb átírás szinte azonos pontossággal. A Whisper Notes Apple Silicon Mac-en szállítja.

A Whisper Large V3 Turbo és V3 architektúra összehasonlítása

V3 Turbo vs V3: Mi változott

A Turbo nem új architektúra. Pontosan ugyanaz a Whisper Large-v3 modell, amelynek dekóderét 32 rétegről 4-re metszették, majd finomhangolással visszanyerték a pontosságot. A kódoló érintetlen.

	Large-v3 Turbo	Large-v3
Paraméterek	809M	1,550M
Dekóder rétegek	4	32
Nyelvek	99	99
Fordítási feladat	Nem támogatott	Támogatott
Licenc	MIT	Apache 2.0

A fordítási feladatot kifejezetten kizárták a Turbo tanítási adataiból. A teljes Large-v3 modell támogatja, de a Whisper Notes csak a Turbo-t szállítja — a fordítást külön az Apple Intelligence végzi.

Sebességi benchmark: Whisper Notes Apple Silicon-on

A Mac-es Whisper Notes-ban a Turbo CoreML-en keresztül fut a Neural Engine-en. 10 perc hang feldolgozása:

Eszköz	Whisper V3	V3 Turbo	Gyorsulás
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

Az 5×-ös gyorsulás a Whisper Notes Apple Silicon-on mért eredménye, ahol a kisebb dekóder jobban kihasználja a Neural Engine optimalizációját. GPU-n, faster-whisper-hez hasonló keretrendszerekkel a különbség ~2,7×-re csökken (lásd alább a közösségi benchmarkokat).

Pontosság: WER összehasonlítás

A Hugging Face Open ASR Leaderboard mindkét modellt ugyanazon angol adathalmazokon teszteli. A Turbo szóhibaaránya minden benchmarkon fél százalékponton belül van a V3-hoz képest:

Adathalmaz	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
Átlagos WER	7.83%	7.44%

A V3 minden adathalmazon kissé pontosabb, de a különbség kicsi — átlagosan 0,39 százalékpont. A legtöbb valós átírási feladatnál nem fogod érzékelni a különbséget.

A YouTube-commons hosszú formátumú kiértékelésen (az egyik legnagyobb nyílt forráskódú ASR benchmark) a Turbo WER-je 13,40%, míg a V3-é 13,20% — miközben a Turbo valós idejű faktora 129,5×, a V3-é pedig 55,3×. Ez 2,3× gyorsabb, szinte azonos pontossággal valós hanganyagon.

Közösségi benchmarkok: GPU és CPU

A faster-whisper és whisper.cpp közösségek független benchmarkjai konzisztens eredményeket mutatnak különböző hardvereken. 13 perc hang átírása faster-whisper-rel GPU-n:

Modell	Pontosság	Idő	GPU memória	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

Forrás: faster-whisper benchmark NVIDIA GPU-n, LibriSpeech clean validációs split. A Turbo int8 mindössze 1,5 GB VRAM-ot használ — elfér egy 2 GB-os GPU-n.

Kötegelt feldolgozás RTX 3060 Laptop-on (6 GB VRAM, int8 pontosság) tovább növeli az előnyt:

Modell	Szekvenciális	Kötegelt (10)	Kötegelt WER
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Forrás: NilaierMusic benchmark, Intel i7-12650H + RTX 3060 Laptop 6 GB, francia hanganyag, int8 pontosság.

Kötegelt feldolgozással a Turbo éri el a legjobb WER-t az összes tesztelt modell közül (7,7%), miközben a leggyorsabb is. Ez a legjobb választás éles használatra.

Ismert korlátok (és hogyan kezeli ezeket a Whisper Notes)

Nincs beépített fordítás

A Turbo-t fordítási adatok nélkül tanították. Csak a forrásnyelven ír át — ellentétben a Large-v3-mal, amely támogatja a hang→angol fordítást.

Whisper Notes — Az Apple Intelligence automatikusan lefordítja az átiratokat a választott nyelvre, kétnyelvű kimenetet biztosítva, függetlenül attól, melyik modellt használod.

Több hallucináció zajos hanganyagnál

A közösségi visszajelzések szerint a Turbo többet hallucinál nagyon rövid klipeknél vagy zajos felvételeknél a V3-hoz képest. Ez a csökkentett dekóderrel magyarázható (4 réteg vs 32).

Whisper Notes — az átírás előtt Pyannote VAD-ot futtat, felismeri a beszédszegmenseket és eltávolítja a csendet/zajt, így a modell csak valódi hangot dolgoz fel.

Melyik modellt válaszd?

Angol / Európai	Parakeet V3 — 10× gyorsabb a Whispernél, jobb pontosság
Kínai / Japán / Koreai	SenseVoice — CJK-ra tervezve, 52× sebesség
Egyéb nyelvek	Whisper Large V3 Turbo — 99 nyelv, magas pontosság, lassabb

Letöltés iOS-re

Letöltés macOS-re