Whisper Large V3 Turbo vs V3: 5× Szybszy na Mac (Benchmark)

6 listopada 2024
·
6 min read
·Whisper Notes Team

Whisper Large-v3 Turbo od OpenAI redukuje dekoder z 32 warstw do 4, zmniejszajac liczbe parametrow z 1,55B do 809M. Rezultat: 2–5× szybsza transkrypcja przy niemal identycznej dokladnosci. Whisper Notes dostarcza go na Mac z Apple Silicon.

Porownanie architektury Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: Co sie zmienilo

Turbo to nie nowa architektura. To dokladnie ten sam model Whisper Large-v3 z dekoderem przyciętym z 32 warstw do 4, a nastepnie dostrojonym w celu odzyskania dokladnosci. Enkoder pozostal niezmieniony.

Large-v3 Turbo Large-v3
Parametry 809M 1,550M
Warstwy dekodera 4 32
Jezyki 99 99
Zadanie tlumaczenia Nieobslugiwane Obslugiwane
Licencja MIT Apache 2.0

Zadanie tlumaczenia zostalo jawnie wykluczone z danych treningowych Turbo. Pelny model Large-v3 je obsluguje, ale Whisper Notes dostarcza tylko Turbo — tlumaczenie jest obslugiwane osobno przez Apple Intelligence.

Benchmark predkosci: Whisper Notes na Apple Silicon

W Whisper Notes dla Mac Turbo dziala przez CoreML na Neural Engine. Przetwarzanie 10 minut audio:

Urzadzenie Whisper V3 V3 Turbo Przyspieszenie
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

5-krotne przyspieszenie jest specyficzne dla Whisper Notes na Apple Silicon, gdzie mniejszy dekoder korzysta z optymalizacji Neural Engine. Na GPU z frameworkami takimi jak faster-whisper roznica maleje do ~2,7× (patrz benchmarki spolecznosci ponizej).

Dokladnosc: Porownanie WER

Hugging Face Open ASR Leaderboard testuje oba modele na tych samych angielskojezycznych datasetach. Word error rate Turbo miesci sie w polowie punktu od V3 na kazdym benchmarku:

Dataset V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
Sredni WER 7.83% 7.44%

V3 jest nieco dokladniejszy na kazdym datasecie, ale roznica jest mala — srednio 0,39 punktu procentowego. W przypadku wiekszosci transkrypcji w rzeczywistych warunkach nie uslyszysz roznicy.

W ewaluacji dlugich nagrari YouTube-commons (jednym z najwiekszych benchmarkow ASR open-source) Turbo uzyskuje 13.40% WER wobec 13.20% V3 — przy wspolczynniku czasu rzeczywistego 129.5× wobec 55.3×. To 2,3× szybciej przy niemal identycznej dokladnosci na audio ze swiata rzeczywistego.

Benchmarki spolecznosci: GPU i CPU

Niezalezne benchmarki ze spolecznosci faster-whisper i whisper.cpp pokazuja spojne wyniki na roznym sprzecie. Transkrypcja 13 minut audio z faster-whisper na GPU:

Model Precyzja Czas Pamiec GPU WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Zrodlo: benchmark faster-whisper na NVIDIA GPU, split walidacyjny LibriSpeech clean. Turbo int8 uzywa tylko 1.5 GB VRAM — miesci sie na GPU 2 GB.

Wnioskowanie wsadowe na RTX 3060 Laptop (6 GB VRAM, precyzja int8) jeszcze bardziej powieksza przewage:

Model Sekwencyjnie Wsadowo (10) WER wsadowy
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Zrodlo: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio francuskie, precyzja int8.

Przy przetwarzaniu wsadowym Turbo osiaga najlepszy WER ze wszystkich testowanych modeli (7,7%) bedac jednoczesnie najszybszym. To wyrazny optymalny punkt dla zastosowari produkcyjnych.

Znane ograniczenia (i jak Whisper Notes sobie z nimi radzi)

Brak wbudowanego tlumaczenia

Turbo zostal wytrenowany bez danych tlumaczeniowych. Transkrybuje tylko w jezyku zrodlowym — w przeciwienstwie do Large-v3, ktory obsluguje tlumaczenie audio na angielski.

Whisper Notes — Apple Intelligence automatycznie tlumaczy transkrypcje na wybrany przez Ciebie jezyk, dajac dwujezyczne wyjscie niezaleznie od uzytego modelu.

Wiecej halucynacji przy zaszumionym audio

Raporty spolecznosci wskazuja, ze Turbo halucynuje wiecej na bardzo krotkich klipach lub zaszumionych nagraniach w porownaniu z V3. Jest to oczekiwane, biorac pod uwage zmniejszony dekoder (4 warstwy vs 32).

Whisper Notes — uruchamia Pyannote VAD przed transkrypcja, wykrywajac segmenty mowy i usuwajac cisze/szum, aby model przetwarzal tylko prawdziwy glos.

Ktory model powinienes wybrac?

Angielski / Europejskie Parakeet V3 — 10× szybszy niz Whisper, lepsza dokladnosc
Chinski / Japonski / Koreanski SenseVoice — stworzony specjalnie dla CJK, predkosc 52×
Inne jezyki Whisper Large V3 Turbo — 99 jezykow, wysoka dokladnosc, wolniejszy