Whisper Large V3 Turbo vs V3: 5× Snabbare på Mac (Benchmark)

6 november 2024
·
6 min read
·Whisper Notes Team

OpenAI:s Whisper Large-v3 Turbo reducerar dekodern fran 32 lager till 4, vilket sanker parametrarna fran 1,55B till 809M. Resultatet: 2–5× snabbare transkription med nastan identisk noggrannhet. Whisper Notes levererar det pa Mac med Apple Silicon.

Arkitekturjamforelse Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: Vad som andrades

Turbo ar inte en ny arkitektur. Det ar exakt samma Whisper Large-v3-modell med dekodern beskuren fran 32 lager till 4, sedan finjusterad for att aterstalla noggrannheten. Enkodern ar oforandrad.

Large-v3 Turbo Large-v3
Parametrar 809M 1,550M
Dekoderlager 4 32
Sprak 99 99
Oversattningsuppgift Stods inte Stods
Licens MIT Apache 2.0

Oversattningsuppgiften exkluderades uttryckligen fran Turbos traningsdata. Den fullstandiga Large-v3-modellen stoder den, men Whisper Notes levererar enbart Turbo — oversattning hanteras separat via Apple Intelligence.

Hastighetsbenchmark: Whisper Notes pa Apple Silicon

I Whisper Notes for Mac kor Turbo via CoreML pa Neural Engine. Bearbetning av 10 minuters ljud:

Enhet Whisper V3 V3 Turbo Uppsnabbning
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

Den 5× uppsnabbningen ar specifik for Whisper Notes pa Apple Silicon, dar den mindre dekodern drar nytta av Neural Engine-optimering. Pa GPU med ramverk som faster-whisper minskar skillnaden till ~2,7× (se communitybenchmarks nedan).

Noggrannhet: WER-jamforelse

Hugging Face Open ASR Leaderboard testar bada modellerna pa samma engelsksprakiga dataset. Turbos word error rate ligger inom en halv punkt fran V3 pa varje benchmark:

Dataset V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
Genomsnittlig WER 7.83% 7.44%

V3 ar nagot mer exakt pa varje dataset, men skillnaden ar liten — 0,39 procentenheter i genomsnitt. For de flesta transkriptioner i praktiken marker du inte skillnaden.

Pa YouTube-commons long-form-utvarderingen (ett av de storsta ASR-benchmarken med oppen kallkod) far Turbo 13.40% WER jamfort med V3:s 13.20% — samtidigt som det kor vid 129.5× realtidsfaktor mot 55.3×. Det ar 2,3× snabbare med nastan identisk noggrannhet pa verkligt ljud.

Communitybenchmarks: GPU och CPU

Oberoende benchmarks fran faster-whisper- och whisper.cpp-communityn visar konsekventa resultat pa olika hardvara. Transkription av 13 minuters ljud med faster-whisper pa GPU:

Modell Precision Tid GPU-minne WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Kalla: faster-whisper benchmark pa NVIDIA GPU, LibriSpeech clean valideringssplit. Turbo int8 anvander bara 1.5 GB VRAM — det ryms pa en 2 GB GPU.

Batchinferens pa en RTX 3060 Laptop (6 GB VRAM, int8 precision) forstorsar fordelen ytterligare:

Modell Sekventiell Batch (10) Batch WER
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Kalla: NilaierMusic benchmark, Intel i7-12650H + RTX 3060 Laptop 6 GB, franskt ljud, int8 precision.

Med batchbearbetning uppnar Turbo den basta WER:en av alla testade modeller (7,7%) samtidigt som den ar snabbast. Det ar den tydliga sweet spot for produktionsanvandning.

Kanda begransningar (och hur Whisper Notes hanterar dem)

Ingen inbyggd oversattning

Turbo tranades utan oversattningsdata. Den transkriberar bara pa kallspraket — till skillnad fran Large-v3, som stoder ljud-till-engelska-oversattning.

Whisper Notes — Apple Intelligence oversatter automatiskt transkriptioner till ditt valda sprak, vilket ger dig tvasprakig utdata oavsett vilken modell du anvander.

Mer hallucination vid brusigt ljud

Communityrapporter visar att Turbo hallucinerar mer pa mycket korta klipp eller brusiga inspelningar jamfort med V3. Forvantat med tanke pa den reducerade dekodern (4 lager mot 32).

Whisper Notes — kor Pyannote VAD fore transkription, detekterar talsegment och tar bort tystnad/brus sa att modellen bara bearbetar riktig rost.

Vilken modell bor du anvanda?

Engelska / Europeiska Parakeet V3 — 10× snabbare an Whisper, battre noggrannhet
Kinesiska / Japanska / Koreanska SenseVoice — specialbyggd for CJK, 52× hastighet
Andra sprak Whisper Large V3 Turbo — 99 sprak, hog noggrannhet, langsammare