OpenAI Whisper Large-v3 Turbo redukuje dekoder z 32 vrstev na 4 a snizuje pocet parametru z 1,55B na 809M. Vysledek: 2-5× rychlejsi transkripce s temer identickou presnosti. Whisper Notes ho dodava na Mac s Apple Silicon.
V3 Turbo vs V3: Co se zmenilo
Turbo neni nova architektura. Je to presne stejny model Whisper Large-v3, u ktereho byl dekoder orezan z 32 vrstev na 4 a nasledne doladen pro obnoveni presnosti. Enkoder zustava nedotceny.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Parametry | 809M | 1 550M |
| Vrstvy dekoderu | 4 | 32 |
| Jazyky | 99 | 99 |
| Uloha prekladu | Nepodporovano | Podporovano |
| Licence | MIT | Apache 2.0 |
Uloha prekladu byla z treninkovych dat Turba explicitne vyloucena. Plny model Large-v3 ji podporuje, ale Whisper Notes dodava pouze Turbo - preklad je resen samostatne pres Apple Intelligence.
Benchmark rychlosti: Whisper Notes na Apple Silicon
Ve Whisper Notes pro Mac bezi Turbo pres CoreML na Neural Engine. Zpracovani 10 minut zvuku:
| Zarizeni | Whisper V3 | V3 Turbo | Zrychleni |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5,2× |
| iPad Pro M2 | 380 s | 71 s | 5,4× |
| MacBook Pro M2 | 316 s | 63 s | 5,0× |
5× zrychleni je specificke pro Whisper Notes na Apple Silicon, kde mensi dekoder tezi z optimalizace Neural Engine. Na GPU s frameworky jako faster-whisper se rozdil zmensi na ~2,7× (viz komunitni benchmarky nize).
Presnost: Porovnani WER
Hugging Face Open ASR Leaderboard testuje oba modely na stejnych anglickych datasetech. Chybovost slov (WER) u Turba je v ramci pul procentniho bodu od V3 ve vsech benchmarcich:
| Dataset | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| Prumerny WER | 7.83% | 7.44% |
V3 je na kazdem datasetu mirne presnejsi, ale rozdil je maly - prumerne 0,39 procentniho bodu. Pri vetsine realne transkripce rozdil nepoznate.
Na evaluaci YouTube-commons pro dlouhe nahrávky (jeden z nejvetisich open-source ASR benchmarku) dosahuje Turbo 13,40 % WER oproti 13,20 % u V3 - pri 129,5× real-time faktoru oproti 55,3×. To je 2,3× rychlejsi s temer identickou presnosti na realnem zvuku.
Komunitni benchmarky: GPU a CPU
Nezavisle benchmarky z komunit faster-whisper a whisper.cpp ukazuji konzistentni vysledky na ruznem hardwaru. Transkripce 13 minut zvuku s faster-whisper na GPU:
| Model | Presnost | Cas | Pamet GPU | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2 537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4 521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1 545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2 409 MB | 2.39% |
Zdroj: benchmark faster-whisper na NVIDIA GPU, LibriSpeech clean validacni split. Turbo int8 pouziva pouze 1,5 GB VRAM - vejde se na 2 GB GPU.
Davkova inference na RTX 3060 Laptop (6 GB VRAM, int8 presnost) posouvá vyhodu jeste dal:
| Model | Sekvencni | Davkove (10) | Davkovy WER |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Zdroj: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, francouzsky zvuk, int8 presnost.
Pri davkovem zpracovani dosahuje Turbo nejlepsiho WER ze vsech testovanych modelu (7,7 %) a zaroven je nejrychlejsi. Je to jasny sweet spot pro produkcni nasazeni.
Znama omezeni (a jak je Whisper Notes resi)
Zadny vesteveny preklad
Turbo bylo trenovano bez prekladovych dat. Prepisuje pouze ve zdrojovem jazyce - na rozdil od Large-v3, ktery podporuje preklad zvuku do anglictiny.
Whisper Notes - Apple Intelligence automaticky preklada prepisy do vami zvoleneho jazyka, coz vam dava dvojjazycny vystup bez ohledu na pouzity model.
Vice halucinaci na hlucnem zvuku
Komunitni hlaseni naznacuji, ze Turbo vice halucinuje na velmi kratkych klipech nebo hlucnych nahravkach oproti V3. Ocekavane vzhledem k redukovemu dekoderu (4 vrstvy vs 32).
Whisper Notes - pred transkripci spousti Pyannote VAD, detekuje recove segmenty a odstraní ticho/sum, takze model zpracovava pouze skutecny hlas.
Ktery model byste meli pouzit?
| Anglictina / Evropske jazyky | Parakeet V3 - 10× rychlejsi nez Whisper, lepsi presnost |
| Cinstina / Japonstina / Korejstina | SenseVoice - ucelove navrzen pro CJK, 52× rychlost |
| Ostatni jazyky | Whisper Large V3 Turbo - 99 jazyku, vysoka presnost, pomalejsi |