OpenAI Whisper Large-v3 Turbo redukuje dekoder z 32 vrstiev na 4, znizujuc pocet parametrov z 1,55B na 809M. Vysledok: 2-5× rychlejsi transkripcia s takmer identickou presnostou. Whisper Notes ho dodava na Mac s Apple Silicon.
V3 Turbo vs V3: Co sa zmenilo
Turbo nie je nova architektura. Je to presne ten isty model Whisper Large-v3 s dekoderom orezanym z 32 vrstiev na 4, nasledne doladenym na obnovenie presnosti. Enkoder zostava nedotknuty.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Parametre | 809M | 1 550M |
| Vrstvy dekoderu | 4 | 32 |
| Jazyky | 99 | 99 |
| Uloha prekladu | Nepodporovane | Podporovane |
| Licencia | MIT | Apache 2.0 |
Uloha prekladu bola z trenovacich dat Turba explicitne vylucena. Plny model Large-v3 ju podporuje, ale Whisper Notes dodava iba Turbo - preklad je rieseny samostatne cez Apple Intelligence.
Benchmark rychlosti: Whisper Notes na Apple Silicon
Vo Whisper Notes pre Mac bezi Turbo cez CoreML na Neural Engine. Spracovanie 10 minut zvuku:
| Zariadenie | Whisper V3 | V3 Turbo | Zrychlenie |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5,2× |
| iPad Pro M2 | 380 s | 71 s | 5,4× |
| MacBook Pro M2 | 316 s | 63 s | 5,0× |
5× zrychlenie je specificke pre Whisper Notes na Apple Silicon, kde mensi dekoder profituje z optimalizacie Neural Engine. Na GPU s frameworkmi ako faster-whisper sa rozdiel zmensi na ~2,7× (pozrite komunitne benchmarky nizsie).
Presnost: Porovnanie WER
Hugging Face Open ASR Leaderboard testuje oba modely na rovnakych anglickych datasetoch. Chybovost slov (WER) u Turba je v ramci pol percentualneho bodu od V3 vo vsetkych benchmarkoch:
| Dataset | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| Priemerny WER | 7.83% | 7.44% |
V3 je na kazdom datasete mierne presnejsi, ale rozdiel je maly - priemerne 0,39 percentualneho bodu. Pri vacsine realnej transkripcie rozdiel nepoznate.
Na evaluacii YouTube-commons pre dlhe nahravky (jeden z najvacsich open-source ASR benchmarkov) dosahuje Turbo 13,40 % WER oproti 13,20 % u V3 - pri 129,5× real-time faktore oproti 55,3×. To je 2,3× rychlejsie s takmer identickou presnostou na realnom zvuku.
Komunitne benchmarky: GPU a CPU
Nezavisle benchmarky z komunit faster-whisper a whisper.cpp ukazuju konzistentne vysledky na roznom hardveri. Transkripcia 13 minut zvuku s faster-whisper na GPU:
| Model | Presnost | Cas | Pamat GPU | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2 537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4 521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1 545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2 409 MB | 2.39% |
Zdroj: benchmark faster-whisper na NVIDIA GPU, LibriSpeech clean validacny split. Turbo int8 pouziva iba 1,5 GB VRAM - vojde sa na 2 GB GPU.
Davkova inferencia na RTX 3060 Laptop (6 GB VRAM, int8 presnost) posuva vyhodu este dalej:
| Model | Sekvencne | Davkovo (10) | Davkovy WER |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Zdroj: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, francuzsky zvuk, int8 presnost.
Pri davkovom spracovani dosahuje Turbo najlepsieho WER zo vsetkych testovanych modelov (7,7 %) a zaroven je najrychlejsie. Je to jasny sweet spot pre produkcne nasadenie.
Zname obmedzenia (a ako ich Whisper Notes riesi)
Ziadny vstavaný preklad
Turbo bolo trenovane bez prekladovych dat. Prepisuje iba v zdrojovom jazyku - na rozdiel od Large-v3, ktory podporuje preklad zvuku do anglictiny.
Whisper Notes - Apple Intelligence automaticky preklada prepisy do vami zvoleneho jazyka, co vam dava dvojjazycny vystup bez ohladu na pouzity model.
Viac halucinacii na hlucnom zvuku
Komunitne hlasenia naznacuju, ze Turbo viac halucinuje na velmi kratkych klipoch alebo hlucnych nahravkach v porovnani s V3. Ocakavane vzhladom na redukovany dekoder (4 vrstvy oproti 32).
Whisper Notes - pred transkripciou spusta Pyannote VAD, deteguje recove segmenty a odstranuje ticho/sum, takze model spracovava iba skutocny hlas.
Ktory model by ste mali pouzit?
| Anglictina / Europske jazyky | Parakeet V3 - 10× rychlejsi ako Whisper, lepsia presnost |
| Cinstina / Japoncina / Korejcina | SenseVoice - ucelovo navrhnuty pre CJK, 52× rychlost |
| Ostatne jazyky | Whisper Large V3 Turbo - 99 jazykov, vysoka presnost, pomalsi |