OpenAI:s Whisper Large-v3 Turbo reducerar dekodern fran 32 lager till 4, vilket sanker parametrarna fran 1,55B till 809M. Resultatet: 2–5× snabbare transkription med nastan identisk noggrannhet. Whisper Notes levererar det pa Mac med Apple Silicon.
V3 Turbo vs V3: Vad som andrades
Turbo ar inte en ny arkitektur. Det ar exakt samma Whisper Large-v3-modell med dekodern beskuren fran 32 lager till 4, sedan finjusterad for att aterstalla noggrannheten. Enkodern ar oforandrad.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Parametrar | 809M | 1,550M |
| Dekoderlager | 4 | 32 |
| Sprak | 99 | 99 |
| Oversattningsuppgift | Stods inte | Stods |
| Licens | MIT | Apache 2.0 |
Oversattningsuppgiften exkluderades uttryckligen fran Turbos traningsdata. Den fullstandiga Large-v3-modellen stoder den, men Whisper Notes levererar enbart Turbo — oversattning hanteras separat via Apple Intelligence.
Hastighetsbenchmark: Whisper Notes pa Apple Silicon
I Whisper Notes for Mac kor Turbo via CoreML pa Neural Engine. Bearbetning av 10 minuters ljud:
| Enhet | Whisper V3 | V3 Turbo | Uppsnabbning |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
Den 5× uppsnabbningen ar specifik for Whisper Notes pa Apple Silicon, dar den mindre dekodern drar nytta av Neural Engine-optimering. Pa GPU med ramverk som faster-whisper minskar skillnaden till ~2,7× (se communitybenchmarks nedan).
Noggrannhet: WER-jamforelse
Hugging Face Open ASR Leaderboard testar bada modellerna pa samma engelsksprakiga dataset. Turbos word error rate ligger inom en halv punkt fran V3 pa varje benchmark:
| Dataset | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| Genomsnittlig WER | 7.83% | 7.44% |
V3 ar nagot mer exakt pa varje dataset, men skillnaden ar liten — 0,39 procentenheter i genomsnitt. For de flesta transkriptioner i praktiken marker du inte skillnaden.
Pa YouTube-commons long-form-utvarderingen (ett av de storsta ASR-benchmarken med oppen kallkod) far Turbo 13.40% WER jamfort med V3:s 13.20% — samtidigt som det kor vid 129.5× realtidsfaktor mot 55.3×. Det ar 2,3× snabbare med nastan identisk noggrannhet pa verkligt ljud.
Communitybenchmarks: GPU och CPU
Oberoende benchmarks fran faster-whisper- och whisper.cpp-communityn visar konsekventa resultat pa olika hardvara. Transkription av 13 minuters ljud med faster-whisper pa GPU:
| Modell | Precision | Tid | GPU-minne | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
Kalla: faster-whisper benchmark pa NVIDIA GPU, LibriSpeech clean valideringssplit. Turbo int8 anvander bara 1.5 GB VRAM — det ryms pa en 2 GB GPU.
Batchinferens pa en RTX 3060 Laptop (6 GB VRAM, int8 precision) forstorsar fordelen ytterligare:
| Modell | Sekventiell | Batch (10) | Batch WER |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Kalla: NilaierMusic benchmark, Intel i7-12650H + RTX 3060 Laptop 6 GB, franskt ljud, int8 precision.
Med batchbearbetning uppnar Turbo den basta WER:en av alla testade modeller (7,7%) samtidigt som den ar snabbast. Det ar den tydliga sweet spot for produktionsanvandning.
Kanda begransningar (och hur Whisper Notes hanterar dem)
Ingen inbyggd oversattning
Turbo tranades utan oversattningsdata. Den transkriberar bara pa kallspraket — till skillnad fran Large-v3, som stoder ljud-till-engelska-oversattning.
Whisper Notes — Apple Intelligence oversatter automatiskt transkriptioner till ditt valda sprak, vilket ger dig tvasprakig utdata oavsett vilken modell du anvander.
Mer hallucination vid brusigt ljud
Communityrapporter visar att Turbo hallucinerar mer pa mycket korta klipp eller brusiga inspelningar jamfort med V3. Forvantat med tanke pa den reducerade dekodern (4 lager mot 32).
Whisper Notes — kor Pyannote VAD fore transkription, detekterar talsegment och tar bort tystnad/brus sa att modellen bara bearbetar riktig rost.
Vilken modell bor du anvanda?
| Engelska / Europeiska | Parakeet V3 — 10× snabbare an Whisper, battre noggrannhet |
| Kinesiska / Japanska / Koreanska | SenseVoice — specialbyggd for CJK, 52× hastighet |
| Andra sprak | Whisper Large V3 Turbo — 99 sprak, hog noggrannhet, langsammare |