OpenAI's Whisper Large-v3 Turbo verkleint de decoder van 32 lagen naar 4, waardoor de parameters dalen van 1,55B naar 809M. Het resultaat: 2–5× snellere transcriptie met nagenoeg identieke nauwkeurigheid. Whisper Notes levert het op Mac met Apple Silicon.
V3 Turbo vs V3: Wat is er veranderd
Turbo is geen nieuwe architectuur. Het is exact hetzelfde Whisper Large-v3 model met de decoder teruggebracht van 32 naar 4 lagen, daarna gefinetuned om de nauwkeurigheid te herstellen. De encoder is ongewijzigd.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Parameters | 809M | 1,550M |
| Decoderlagen | 4 | 32 |
| Talen | 99 | 99 |
| Vertaaltaak | Niet ondersteund | Ondersteund |
| Licentie | MIT | Apache 2.0 |
De vertaaltaak is expliciet uitgesloten van de trainingsdata van Turbo. Het volledige Large-v3 model ondersteunt dit wel, maar Whisper Notes levert alleen Turbo — vertaling wordt apart afgehandeld via Apple Intelligence.
Snelheidsbenchmark: Whisper Notes op Apple Silicon
In Whisper Notes voor Mac draait Turbo via CoreML op de Neural Engine. Verwerking van 10 minuten audio:
| Apparaat | Whisper V3 | V3 Turbo | Versnelling |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
De 5× versnelling is specifiek voor Whisper Notes op Apple Silicon, waar de kleinere decoder profiteert van Neural Engine-optimalisatie. Op GPU met frameworks zoals faster-whisper wordt het verschil kleiner tot ~2,7× (zie communitybenchmarks hieronder).
Nauwkeurigheid: WER-vergelijking
Het Hugging Face Open ASR Leaderboard test beide modellen op dezelfde Engelstalige datasets. De word error rate van Turbo ligt binnen een half punt van V3 op elke benchmark:
| Dataset | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| Gemiddelde WER | 7.83% | 7.44% |
V3 is iets nauwkeuriger op elke dataset, maar het verschil is klein — gemiddeld 0,39 procentpunten. Voor de meeste transcripties in de praktijk merk je het verschil niet.
Op de YouTube-commons long-form evaluatie (een van de grootste open-source ASR-benchmarks) scoort Turbo 13.40% WER tegenover 13.20% van V3 — terwijl het draait op 129.5× real-time factor vs 55.3×. Dat is 2,3× sneller met nagenoeg identieke nauwkeurigheid op real-world audio.
Communitybenchmarks: GPU & CPU
Onafhankelijke benchmarks van de faster-whisper en whisper.cpp communities tonen consistente resultaten op diverse hardware. Transcriptie van 13 minuten audio met faster-whisper op GPU:
| Model | Precisie | Tijd | GPU-geheugen | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
Bron: faster-whisper benchmark op NVIDIA GPU, LibriSpeech clean validatiesplit. Turbo int8 gebruikt slechts 1.5 GB VRAM — het past op een 2 GB GPU.
Batch-inferentie op een RTX 3060 Laptop (6 GB VRAM, int8 precisie) vergroot het voordeel verder:
| Model | Sequentieel | Batch (10) | Batch WER |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Bron: NilaierMusic benchmark, Intel i7-12650H + RTX 3060 Laptop 6 GB, Franse audio, int8 precisie.
Met batchverwerking behaalt Turbo de beste WER van alle geteste modellen (7,7%) en is tegelijkertijd het snelst. Het is duidelijk de sweet spot voor productiegebruik.
Bekende beperkingen (en hoe Whisper Notes ze aanpakt)
Geen ingebouwde vertaling
Turbo is getraind zonder vertaaldata. Het transcribeert alleen in de brontaal — in tegenstelling tot Large-v3, dat audio-naar-Engels vertaling ondersteunt.
Whisper Notes — Apple Intelligence vertaalt transcripten automatisch naar de taal van uw keuze, waardoor u tweetalige uitvoer krijgt ongeacht welk model u gebruikt.
Meer hallucinatie bij ruisvolle audio
Communityrapportages wijzen erop dat Turbo meer hallucineert bij zeer korte clips of opnames met veel ruis in vergelijking met V3. Dit is te verwachten gezien de verkleinde decoder (4 lagen vs 32).
Whisper Notes — draait Pyannote VAD voor de transcriptie, detecteert spraaksegmenten en verwijdert stilte/ruis zodat het model alleen echte spraak verwerkt.
Welk model moet u gebruiken?
| Engels / Europees | Parakeet V3 — 10× sneller dan Whisper, betere nauwkeurigheid |
| Chinees / Japans / Koreaans | SenseVoice — speciaal gebouwd voor CJK, 52× snelheid |
| Andere talen | Whisper Large V3 Turbo — 99 talen, hoge nauwkeurigheid, langzamer |