Whisper Large V3 Turbo vs V3: 5× Snabbare på Mac (Benchmark)

OpenAI:s Whisper Large-v3 Turbo skär ner dekodern från 32 lager till 4 och sänker parameterantalet från 1,55 miljarder till 809 miljoner. I våra tester på Apple Silicon transkriberade den samma ljud ungefär 5× snabbare med nästan identisk noggrannhet. Whisper Notes levererar den på Mac och iPhone.

Arkitekturjämförelse mellan Whisper Large V3 Turbo och V3

V3 Turbo vs V3: vad som ändrades

Turbo är ingen ny arkitektur. Det är exakt samma Whisper Large-v3-modell där dekodern beskurits från 32 lager till 4 och sedan finjusterats för att återställa noggrannheten. Enkodern är orörd.

	Large-v3 Turbo	Large-v3
Parametrar	809M	1550M
Dekoderlager	4	32
Språk	100+	100+
Översättningsuppgift	Stöds inte	Stöds
Licens	MIT	Apache 2.0

Metod: samma 10 minuter långa ljudfil transkriberades i samma Whisper Notes-bygge på varje angiven enhet. Tiderna är sekunder i klocktid från startad transkription till färdig text; endast modellen ändrades mellan V3 och Turbo.

Översättningsuppgiften uteslöts uttryckligen ur Turbos träningsdata. Den fullständiga Large-v3-modellen stöder den, men Whisper Notes levererar enbart Turbo — översättning hanteras separat via Apple Intelligence.

Basmodellen: vad är Whisper Large-v3?

Whisper Large-v3 är OpenAI:s öppna flaggskeppsmodell för taligenkänning, släppt i november 2023. Den har 1,55 miljarder parametrar, tar ett spektrogram med 128 mel-band som indata, tränades på 5 miljoner timmar ljud (1 miljon svagt märkta + 4 miljoner pseudomärkta) och stöder fler än 100 språk, inklusive kantonesiska. På Hugging Faces Open ASR Leaderboard ligger den på i genomsnitt ~7,4 % ordfelfrekvens — det noggrannhetstak som Turbo mäts mot genom hela artikeln. För hur Large-v3 står sig mot alla andra lokala modeller, se vår jämförelse av Whisper-modeller.

Hastighetsbenchmark: Whisper Notes på Apple Silicon

I Whisper Notes för Mac körs Turbo via CoreML på Neural Engine. Bearbetning av 10 minuter ljud:

Enhet	Whisper V3	V3 Turbo	Hastighetsökning
iPhone 15 Pro	425 s	82 s	5,2×
iPad Pro M2	380 s	71 s	5,4×
MacBook Pro M2	316 s	63 s	5,0×

Den femfaldiga hastighetsökningen gäller specifikt Whisper Notes på Apple Silicon, där den mindre dekodern drar nytta av Neural Engine-optimeringen. På GPU med ramverk som faster-whisper krymper gapet till ~2,7× (se community-benchmarks nedan).

Noggrannhet: WER-jämförelse

Hugging Faces Open ASR Leaderboard testar båda modellerna på samma engelska datamängder. Turbos ordfelfrekvens ligger inom en halv procentenhet från V3 i varje benchmark:

Datamängd	V3 Turbo WER	V3 WER
LibriSpeech Clean	2,10 %	2,01 %
LibriSpeech Other	4,24 %	3,91 %
GigaSpeech	10,14 %	10,02 %
Earnings22	11,63 %	11,29 %
AMI	16,13 %	15,95 %
Genomsnittlig WER	7,83 %	7,44 %

V3 är något mer träffsäker på varje datamängd, men skillnaden är liten — 0,39 procentenheter i genomsnitt. I de flesta verkliga transkriptioner hör du ingen skillnad.

I långformsutvärderingen YouTube-commons (en av de största ASR-benchmarkerna med öppen källkod) får Turbo 13,40 % WER mot V3:s 13,20 % — samtidigt som den kör i 129,5× realtidsfaktor mot 55,3×. Det är 2,3× snabbare med nästan identisk noggrannhet på verkligt ljud.

Hur träffsäker är Turbo på koreanska, ryska och andra språk?

Benchmarkerna ovan är engelska. Enligt OpenAI:s modellkort kostar Turbos beskurna dekoder med 4 lager något mer noggrannhet på andra språk än på engelska, med störst försämring på språk med lite träningsdata. För ryska och de flesta europeiska språk håller sig Turbo nära fullstora Large-v3 — och kör du Whisper Notes täcker Parakeet V3 ryska och 24 andra europeiska språk i 10× Whispers hastighet.

För koreanska, japanska, kinesiska och kantonesiska är en specialbyggd modell både snabbare och bättre på interpunktion: SenseVoice transkriberar CJK i 52× realtid. Whisper Notes levererar SenseVoice vid sidan av Turbo på både Mac och iOS, så att du kan välja rätt modell per språk i stället för att tvinga allt genom en och samma.

Community-benchmarks: GPU och CPU

Oberoende benchmarks från faster-whisper- och whisper.cpp-communityerna visar konsekventa resultat på olika hårdvara. Transkribering av 13 minuter ljud med faster-whisper på GPU:

Modell	Precision	Tid	GPU-minne	WER
Large-v3 Turbo	fp16	19,2 s	2537 MB	1,92 %
Large-v3	fp16	52,0 s	4521 MB	2,88 %
Large-v3 Turbo	int8	19,6 s	1545 MB	1,92 %
Distil-Large-v3	fp16	26,1 s	2409 MB	2,39 %

Källa: faster-whisper-benchmark på NVIDIA-GPU, LibriSpeech clean-valideringssplit. Turbo int8 använder bara 1,5 GB VRAM — den får plats på en GPU med 2 GB.

Batchad inferens på en RTX 3060 Laptop (6 GB VRAM, int8-precision) driver försprånget ännu längre:

Modell	Sekventiell	Batchad (10)	Batchad WER
Large-v3 Turbo	46,1 s	18,7 s	7,7 %
Large-v3	230,8 s	43,0 s	7,9 %
Large-v2	178,3 s	43,2 s	8,8 %
Medium	113,3 s	26,3 s	8,9 %

Källa: NilaierMusic-benchmark, Intel i7-12650H + RTX 3060 Laptop 6 GB, franskt ljud, int8-precision.

Med batchad bearbetning når Turbo den bästa WER av alla testade modeller (7,7 %) och är samtidigt snabbast. Det är den självklara kompromissen för produktionsbruk.

Turbo vs Medium vs alla Whisper-modellstorlekar

Före Turbo var Medium den vanliga kompromissen: acceptabel noggrannhet i uthärdlig hastighet. Turbo gör den avvägningen överflödig — med 809 miljoner parametrar är den knappt större än Medium (769M), men levererar noggrannhet i large-klass i flera gånger högre hastighet. Här är hela modellfamiljen sida vid sida:

Modell	Parametrar	Diskutrymme	Relativ hastighet	Noggrannhetsnivå
tiny	39M	~75 MB	~10×	Lägst
base	74M	~142 MB	~7×	Låg
small	244M	~466 MB	~4×	Måttlig
medium	769M	~1,5 GB	~2×	Hög
large-v3	1550M	~2,9 GB	1× (baslinje)	Högst
large-v3-turbo	809M	~1,6 GB	~5× på Apple Silicon	Nära högst

Turbo har 809 miljoner parametrar och släpptes den 30 september 2024. Valde du tidigare Medium för att spara diskutrymme eller tid slår Turbo den nu på både noggrannhet och hastighet, med ungefär samma fotavtryck.

Kända begränsningar (och hur Whisper Notes hanterar dem)

Ingen inbyggd översättning

Turbo tränades utan översättningsdata. Den transkriberar enbart på källspråket — till skillnad från Large-v3, som stöder översättning ljud→engelska.

Whisper Notes — Apple Intelligence översätter automatiskt transkripten till det språk du valt och ger dig tvåspråkig utdata oavsett vilken modell du använder.

Mer hallucination på brusigt ljud

Rapporter från communityn tyder på att Turbo hallucinerar mer på mycket korta klipp eller brusiga inspelningar än V3. Väntat med tanke på den nedskurna dekodern (4 lager mot 32).

Whisper Notes — kör Pyannote VAD före transkriptionen, hittar talsegmenten och rensar bort tystnad och brus så att modellen bara bearbetar riktig röst.

Vilken modell ska du använda?

Engelska / europeiska	Parakeet V3 — 10× snabbare än Whisper, bättre noggrannhet
Kinesiska / japanska / koreanska	SenseVoice — specialbyggd för CJK, 52× hastighet
Övriga språk	Whisper Large V3 Turbo — 100+ språk, hög noggrannhet, långsammare

Vanliga frågor om Whisper Large-v3 Turbo

Vad är skillnaden mellan Whisper Large-v3 och Large-v3 Turbo?

Large-v3 Turbo behåller Large-v3:s enkoder men minskar dekodern från 32 lager till 4. Därför är den mycket snabbare samtidigt som den vid transkription håller sig nära Large-v3:s noggrannhet. Priset är att Turbo inte stöder Whispers inbyggda översättningsuppgift.

Stöder faster-whisper Large-v3 Turbo?

Ja. faster-whisper stöder Large-v3 Turbo via CTranslate2-konverteringar, och community-benchmarks visar att Turbo är ett starkt val när VRAM är begränsat. I benchmarken ovan använde Turbo int8 ungefär 1,5 GB VRAM.

Stöder whisper.cpp Large-v3 Turbo?

Ja. whisper.cpp kan köra konverterade GGML/GGUF-versioner av Whisper Large V3 Turbo. Bygger du en egen lokal transkriptionspipeline är Turbo ofta lättare att få plats med på konsumenthårdvara än fullstora Large-v3.

Var kan jag ladda ner openai/whisper-large-v3-turbo?

De officiella modellvikterna finns hos OpenAI på Hugging Face. Whisper Notes-användare behöver inte ladda ner dem manuellt: Mac-appen sköter den lokala modellinstallationen via appens gränssnitt.

Jämför du alla lokala alternativ? Varje tal-till-text-modell som körs på enheten — Whisper-varianterna, Parakeet V3, SenseVoice och Voxtral — jämförs sida vid sida på vår jämförelsesida för Whisper-modeller. Ny på Whisper? Börja med guiden till Whisper-transkription — vad modellen är, alla sätt att köra den och vad det kostar.

Ladda ner för iOS

Ladda ner för macOS