Whisper Large V3 Turbo vs V3: 5× Sneller op Mac (Benchmark)

6 november 2024
·
6 min read
·Whisper Notes Team

OpenAI's Whisper Large-v3 Turbo verkleint de decoder van 32 lagen naar 4, waardoor de parameters dalen van 1,55B naar 809M. Het resultaat: 2–5× snellere transcriptie met nagenoeg identieke nauwkeurigheid. Whisper Notes levert het op Mac met Apple Silicon.

Architectuurvergelijking Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: Wat is er veranderd

Turbo is geen nieuwe architectuur. Het is exact hetzelfde Whisper Large-v3 model met de decoder teruggebracht van 32 naar 4 lagen, daarna gefinetuned om de nauwkeurigheid te herstellen. De encoder is ongewijzigd.

Large-v3 Turbo Large-v3
Parameters 809M 1,550M
Decoderlagen 4 32
Talen 99 99
Vertaaltaak Niet ondersteund Ondersteund
Licentie MIT Apache 2.0

De vertaaltaak is expliciet uitgesloten van de trainingsdata van Turbo. Het volledige Large-v3 model ondersteunt dit wel, maar Whisper Notes levert alleen Turbo — vertaling wordt apart afgehandeld via Apple Intelligence.

Snelheidsbenchmark: Whisper Notes op Apple Silicon

In Whisper Notes voor Mac draait Turbo via CoreML op de Neural Engine. Verwerking van 10 minuten audio:

Apparaat Whisper V3 V3 Turbo Versnelling
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

De 5× versnelling is specifiek voor Whisper Notes op Apple Silicon, waar de kleinere decoder profiteert van Neural Engine-optimalisatie. Op GPU met frameworks zoals faster-whisper wordt het verschil kleiner tot ~2,7× (zie communitybenchmarks hieronder).

Nauwkeurigheid: WER-vergelijking

Het Hugging Face Open ASR Leaderboard test beide modellen op dezelfde Engelstalige datasets. De word error rate van Turbo ligt binnen een half punt van V3 op elke benchmark:

Dataset V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
Gemiddelde WER 7.83% 7.44%

V3 is iets nauwkeuriger op elke dataset, maar het verschil is klein — gemiddeld 0,39 procentpunten. Voor de meeste transcripties in de praktijk merk je het verschil niet.

Op de YouTube-commons long-form evaluatie (een van de grootste open-source ASR-benchmarks) scoort Turbo 13.40% WER tegenover 13.20% van V3 — terwijl het draait op 129.5× real-time factor vs 55.3×. Dat is 2,3× sneller met nagenoeg identieke nauwkeurigheid op real-world audio.

Communitybenchmarks: GPU & CPU

Onafhankelijke benchmarks van de faster-whisper en whisper.cpp communities tonen consistente resultaten op diverse hardware. Transcriptie van 13 minuten audio met faster-whisper op GPU:

Model Precisie Tijd GPU-geheugen WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Bron: faster-whisper benchmark op NVIDIA GPU, LibriSpeech clean validatiesplit. Turbo int8 gebruikt slechts 1.5 GB VRAM — het past op een 2 GB GPU.

Batch-inferentie op een RTX 3060 Laptop (6 GB VRAM, int8 precisie) vergroot het voordeel verder:

Model Sequentieel Batch (10) Batch WER
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Bron: NilaierMusic benchmark, Intel i7-12650H + RTX 3060 Laptop 6 GB, Franse audio, int8 precisie.

Met batchverwerking behaalt Turbo de beste WER van alle geteste modellen (7,7%) en is tegelijkertijd het snelst. Het is duidelijk de sweet spot voor productiegebruik.

Bekende beperkingen (en hoe Whisper Notes ze aanpakt)

Geen ingebouwde vertaling

Turbo is getraind zonder vertaaldata. Het transcribeert alleen in de brontaal — in tegenstelling tot Large-v3, dat audio-naar-Engels vertaling ondersteunt.

Whisper Notes — Apple Intelligence vertaalt transcripten automatisch naar de taal van uw keuze, waardoor u tweetalige uitvoer krijgt ongeacht welk model u gebruikt.

Meer hallucinatie bij ruisvolle audio

Communityrapportages wijzen erop dat Turbo meer hallucineert bij zeer korte clips of opnames met veel ruis in vergelijking met V3. Dit is te verwachten gezien de verkleinde decoder (4 lagen vs 32).

Whisper Notes — draait Pyannote VAD voor de transcriptie, detecteert spraaksegmenten en verwijdert stilte/ruis zodat het model alleen echte spraak verwerkt.

Welk model moet u gebruiken?

Engels / Europees Parakeet V3 — 10× sneller dan Whisper, betere nauwkeurigheid
Chinees / Japans / Koreaans SenseVoice — speciaal gebouwd voor CJK, 52× snelheid
Andere talen Whisper Large V3 Turbo — 99 talen, hoge nauwkeurigheid, langzamer