Az OpenAI Whisper Large-v3 Turbo modellje a dekódert 32 rétegről 4-re csökkenti, a paraméterszámot 1,55 milliárdról 809 millióra redukálva. Az eredmény: 2–5× gyorsabb átírás szinte azonos pontossággal. A Whisper Notes Apple Silicon Mac-en szállítja.
V3 Turbo vs V3: Mi változott
A Turbo nem új architektúra. Pontosan ugyanaz a Whisper Large-v3 modell, amelynek dekóderét 32 rétegről 4-re metszették, majd finomhangolással visszanyerték a pontosságot. A kódoló érintetlen.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Paraméterek | 809M | 1,550M |
| Dekóder rétegek | 4 | 32 |
| Nyelvek | 99 | 99 |
| Fordítási feladat | Nem támogatott | Támogatott |
| Licenc | MIT | Apache 2.0 |
A fordítási feladatot kifejezetten kizárták a Turbo tanítási adataiból. A teljes Large-v3 modell támogatja, de a Whisper Notes csak a Turbo-t szállítja — a fordítást külön az Apple Intelligence végzi.
Sebességi benchmark: Whisper Notes Apple Silicon-on
A Mac-es Whisper Notes-ban a Turbo CoreML-en keresztül fut a Neural Engine-en. 10 perc hang feldolgozása:
| Eszköz | Whisper V3 | V3 Turbo | Gyorsulás |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
Az 5×-ös gyorsulás a Whisper Notes Apple Silicon-on mért eredménye, ahol a kisebb dekóder jobban kihasználja a Neural Engine optimalizációját. GPU-n, faster-whisper-hez hasonló keretrendszerekkel a különbség ~2,7×-re csökken (lásd alább a közösségi benchmarkokat).
Pontosság: WER összehasonlítás
A Hugging Face Open ASR Leaderboard mindkét modellt ugyanazon angol adathalmazokon teszteli. A Turbo szóhibaaránya minden benchmarkon fél százalékponton belül van a V3-hoz képest:
| Adathalmaz | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| Átlagos WER | 7.83% | 7.44% |
A V3 minden adathalmazon kissé pontosabb, de a különbség kicsi — átlagosan 0,39 százalékpont. A legtöbb valós átírási feladatnál nem fogod érzékelni a különbséget.
A YouTube-commons hosszú formátumú kiértékelésen (az egyik legnagyobb nyílt forráskódú ASR benchmark) a Turbo WER-je 13,40%, míg a V3-é 13,20% — miközben a Turbo valós idejű faktora 129,5×, a V3-é pedig 55,3×. Ez 2,3× gyorsabb, szinte azonos pontossággal valós hanganyagon.
Közösségi benchmarkok: GPU és CPU
A faster-whisper és whisper.cpp közösségek független benchmarkjai konzisztens eredményeket mutatnak különböző hardvereken. 13 perc hang átírása faster-whisper-rel GPU-n:
| Modell | Pontosság | Idő | GPU memória | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
Forrás: faster-whisper benchmark NVIDIA GPU-n, LibriSpeech clean validációs split. A Turbo int8 mindössze 1,5 GB VRAM-ot használ — elfér egy 2 GB-os GPU-n.
Kötegelt feldolgozás RTX 3060 Laptop-on (6 GB VRAM, int8 pontosság) tovább növeli az előnyt:
| Modell | Szekvenciális | Kötegelt (10) | Kötegelt WER |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Forrás: NilaierMusic benchmark, Intel i7-12650H + RTX 3060 Laptop 6 GB, francia hanganyag, int8 pontosság.
Kötegelt feldolgozással a Turbo éri el a legjobb WER-t az összes tesztelt modell közül (7,7%), miközben a leggyorsabb is. Ez a legjobb választás éles használatra.
Ismert korlátok (és hogyan kezeli ezeket a Whisper Notes)
Nincs beépített fordítás
A Turbo-t fordítási adatok nélkül tanították. Csak a forrásnyelven ír át — ellentétben a Large-v3-mal, amely támogatja a hang→angol fordítást.
Whisper Notes — Az Apple Intelligence automatikusan lefordítja az átiratokat a választott nyelvre, kétnyelvű kimenetet biztosítva, függetlenül attól, melyik modellt használod.
Több hallucináció zajos hanganyagnál
A közösségi visszajelzések szerint a Turbo többet hallucinál nagyon rövid klipeknél vagy zajos felvételeknél a V3-hoz képest. Ez a csökkentett dekóderrel magyarázható (4 réteg vs 32).
Whisper Notes — az átírás előtt Pyannote VAD-ot futtat, felismeri a beszédszegmenseket és eltávolítja a csendet/zajt, így a modell csak valódi hangot dolgoz fel.
Melyik modellt válaszd?
| Angol / Európai | Parakeet V3 — 10× gyorsabb a Whispernél, jobb pontosság |
| Kínai / Japán / Koreai | SenseVoice — CJK-ra tervezve, 52× sebesség |
| Egyéb nyelvek | Whisper Large V3 Turbo — 99 nyelv, magas pontosság, lassabb |