Whisper Large-v3 Turbo od OpenAI redukuje dekoder z 32 warstw do 4, zmniejszajac liczbe parametrow z 1,55B do 809M. Rezultat: 2–5× szybsza transkrypcja przy niemal identycznej dokladnosci. Whisper Notes dostarcza go na Mac z Apple Silicon.
V3 Turbo vs V3: Co sie zmienilo
Turbo to nie nowa architektura. To dokladnie ten sam model Whisper Large-v3 z dekoderem przyciętym z 32 warstw do 4, a nastepnie dostrojonym w celu odzyskania dokladnosci. Enkoder pozostal niezmieniony.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Parametry | 809M | 1,550M |
| Warstwy dekodera | 4 | 32 |
| Jezyki | 99 | 99 |
| Zadanie tlumaczenia | Nieobslugiwane | Obslugiwane |
| Licencja | MIT | Apache 2.0 |
Zadanie tlumaczenia zostalo jawnie wykluczone z danych treningowych Turbo. Pelny model Large-v3 je obsluguje, ale Whisper Notes dostarcza tylko Turbo — tlumaczenie jest obslugiwane osobno przez Apple Intelligence.
Benchmark predkosci: Whisper Notes na Apple Silicon
W Whisper Notes dla Mac Turbo dziala przez CoreML na Neural Engine. Przetwarzanie 10 minut audio:
| Urzadzenie | Whisper V3 | V3 Turbo | Przyspieszenie |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
5-krotne przyspieszenie jest specyficzne dla Whisper Notes na Apple Silicon, gdzie mniejszy dekoder korzysta z optymalizacji Neural Engine. Na GPU z frameworkami takimi jak faster-whisper roznica maleje do ~2,7× (patrz benchmarki spolecznosci ponizej).
Dokladnosc: Porownanie WER
Hugging Face Open ASR Leaderboard testuje oba modele na tych samych angielskojezycznych datasetach. Word error rate Turbo miesci sie w polowie punktu od V3 na kazdym benchmarku:
| Dataset | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| Sredni WER | 7.83% | 7.44% |
V3 jest nieco dokladniejszy na kazdym datasecie, ale roznica jest mala — srednio 0,39 punktu procentowego. W przypadku wiekszosci transkrypcji w rzeczywistych warunkach nie uslyszysz roznicy.
W ewaluacji dlugich nagrari YouTube-commons (jednym z najwiekszych benchmarkow ASR open-source) Turbo uzyskuje 13.40% WER wobec 13.20% V3 — przy wspolczynniku czasu rzeczywistego 129.5× wobec 55.3×. To 2,3× szybciej przy niemal identycznej dokladnosci na audio ze swiata rzeczywistego.
Benchmarki spolecznosci: GPU i CPU
Niezalezne benchmarki ze spolecznosci faster-whisper i whisper.cpp pokazuja spojne wyniki na roznym sprzecie. Transkrypcja 13 minut audio z faster-whisper na GPU:
| Model | Precyzja | Czas | Pamiec GPU | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
Zrodlo: benchmark faster-whisper na NVIDIA GPU, split walidacyjny LibriSpeech clean. Turbo int8 uzywa tylko 1.5 GB VRAM — miesci sie na GPU 2 GB.
Wnioskowanie wsadowe na RTX 3060 Laptop (6 GB VRAM, precyzja int8) jeszcze bardziej powieksza przewage:
| Model | Sekwencyjnie | Wsadowo (10) | WER wsadowy |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Zrodlo: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio francuskie, precyzja int8.
Przy przetwarzaniu wsadowym Turbo osiaga najlepszy WER ze wszystkich testowanych modeli (7,7%) bedac jednoczesnie najszybszym. To wyrazny optymalny punkt dla zastosowari produkcyjnych.
Znane ograniczenia (i jak Whisper Notes sobie z nimi radzi)
Brak wbudowanego tlumaczenia
Turbo zostal wytrenowany bez danych tlumaczeniowych. Transkrybuje tylko w jezyku zrodlowym — w przeciwienstwie do Large-v3, ktory obsluguje tlumaczenie audio na angielski.
Whisper Notes — Apple Intelligence automatycznie tlumaczy transkrypcje na wybrany przez Ciebie jezyk, dajac dwujezyczne wyjscie niezaleznie od uzytego modelu.
Wiecej halucynacji przy zaszumionym audio
Raporty spolecznosci wskazuja, ze Turbo halucynuje wiecej na bardzo krotkich klipach lub zaszumionych nagraniach w porownaniu z V3. Jest to oczekiwane, biorac pod uwage zmniejszony dekoder (4 warstwy vs 32).
Whisper Notes — uruchamia Pyannote VAD przed transkrypcja, wykrywajac segmenty mowy i usuwajac cisze/szum, aby model przetwarzal tylko prawdziwy glos.
Ktory model powinienes wybrac?
| Angielski / Europejskie | Parakeet V3 — 10× szybszy niz Whisper, lepsza dokladnosc |
| Chinski / Japonski / Koreanski | SenseVoice — stworzony specjalnie dla CJK, predkosc 52× |
| Inne jezyki | Whisper Large V3 Turbo — 99 jezykow, wysoka dokladnosc, wolniejszy |