Whisper Large V3 Turbo vs V3: 5× Sneller op Mac (Benchmark)

OpenAI's Whisper Large-v3 Turbo verkleint de decoder van 32 lagen naar 4, waardoor de parameters dalen van 1,55B naar 809M. Het resultaat: 2–5× snellere transcriptie met nagenoeg identieke nauwkeurigheid. Whisper Notes levert het op Mac met Apple Silicon.

Architectuurvergelijking Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: Wat is er veranderd

Turbo is geen nieuwe architectuur. Het is exact hetzelfde Whisper Large-v3 model met de decoder teruggebracht van 32 naar 4 lagen, daarna gefinetuned om de nauwkeurigheid te herstellen. De encoder is ongewijzigd.

	Large-v3 Turbo	Large-v3
Parameters	809M	1,550M
Decoderlagen	4	32
Talen	99	99
Vertaaltaak	Niet ondersteund	Ondersteund
Licentie	MIT	Apache 2.0

De vertaaltaak is expliciet uitgesloten van de trainingsdata van Turbo. Het volledige Large-v3 model ondersteunt dit wel, maar Whisper Notes levert alleen Turbo — vertaling wordt apart afgehandeld via Apple Intelligence.

Snelheidsbenchmark: Whisper Notes op Apple Silicon

In Whisper Notes voor Mac draait Turbo via CoreML op de Neural Engine. Verwerking van 10 minuten audio:

Apparaat	Whisper V3	V3 Turbo	Versnelling
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

De 5× versnelling is specifiek voor Whisper Notes op Apple Silicon, waar de kleinere decoder profiteert van Neural Engine-optimalisatie. Op GPU met frameworks zoals faster-whisper wordt het verschil kleiner tot ~2,7× (zie communitybenchmarks hieronder).

Nauwkeurigheid: WER-vergelijking

Het Hugging Face Open ASR Leaderboard test beide modellen op dezelfde Engelstalige datasets. De word error rate van Turbo ligt binnen een half punt van V3 op elke benchmark:

Dataset	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
Gemiddelde WER	7.83%	7.44%

V3 is iets nauwkeuriger op elke dataset, maar het verschil is klein — gemiddeld 0,39 procentpunten. Voor de meeste transcripties in de praktijk merk je het verschil niet.

Op de YouTube-commons long-form evaluatie (een van de grootste open-source ASR-benchmarks) scoort Turbo 13.40% WER tegenover 13.20% van V3 — terwijl het draait op 129.5× real-time factor vs 55.3×. Dat is 2,3× sneller met nagenoeg identieke nauwkeurigheid op real-world audio.

Communitybenchmarks: GPU & CPU

Onafhankelijke benchmarks van de faster-whisper en whisper.cpp communities tonen consistente resultaten op diverse hardware. Transcriptie van 13 minuten audio met faster-whisper op GPU:

Model	Precisie	Tijd	GPU-geheugen	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

Bron: faster-whisper benchmark op NVIDIA GPU, LibriSpeech clean validatiesplit. Turbo int8 gebruikt slechts 1.5 GB VRAM — het past op een 2 GB GPU.

Batch-inferentie op een RTX 3060 Laptop (6 GB VRAM, int8 precisie) vergroot het voordeel verder:

Model	Sequentieel	Batch (10)	Batch WER
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Bron: NilaierMusic benchmark, Intel i7-12650H + RTX 3060 Laptop 6 GB, Franse audio, int8 precisie.

Met batchverwerking behaalt Turbo de beste WER van alle geteste modellen (7,7%) en is tegelijkertijd het snelst. Het is duidelijk de sweet spot voor productiegebruik.

Bekende beperkingen (en hoe Whisper Notes ze aanpakt)

Geen ingebouwde vertaling

Turbo is getraind zonder vertaaldata. Het transcribeert alleen in de brontaal — in tegenstelling tot Large-v3, dat audio-naar-Engels vertaling ondersteunt.

Whisper Notes — Apple Intelligence vertaalt transcripten automatisch naar de taal van uw keuze, waardoor u tweetalige uitvoer krijgt ongeacht welk model u gebruikt.

Meer hallucinatie bij ruisvolle audio

Communityrapportages wijzen erop dat Turbo meer hallucineert bij zeer korte clips of opnames met veel ruis in vergelijking met V3. Dit is te verwachten gezien de verkleinde decoder (4 lagen vs 32).

Whisper Notes — draait Pyannote VAD voor de transcriptie, detecteert spraaksegmenten en verwijdert stilte/ruis zodat het model alleen echte spraak verwerkt.

Welk model moet u gebruiken?

Engels / Europees	Parakeet V3 — 10× sneller dan Whisper, betere nauwkeurigheid
Chinees / Japans / Koreaans	SenseVoice — speciaal gebouwd voor CJK, 52× snelheid
Andere talen	Whisper Large V3 Turbo — 99 talen, hoge nauwkeurigheid, langzamer

Download voor iOS

Download voor macOS