Whisper Large-v3 Turbo dari OpenAI memangkas decoder dari 32 lapisan menjadi 4, menurunkan parameter dari 1,55B menjadi 809M. Hasilnya: transkripsi 2–5× lebih cepat dengan akurasi hampir identik. Whisper Notes menghadirkannya di Mac dengan Apple Silicon.
V3 Turbo vs V3: Apa yang Berubah
Turbo bukan arsitektur baru. Ini adalah model Whisper Large-v3 yang sama persis dengan decoder yang dipangkas dari 32 lapisan menjadi 4, lalu di-fine-tune untuk memulihkan akurasi. Encoder tidak diubah.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Parameter | 809M | 1,550M |
| Lapisan decoder | 4 | 32 |
| Bahasa | 99 | 99 |
| Tugas terjemahan | Tidak didukung | Didukung |
| Lisensi | MIT | Apache 2.0 |
Tugas terjemahan secara eksplisit dikecualikan dari data pelatihan Turbo. Model Large-v3 lengkap mendukungnya, tetapi Whisper Notes hanya menggunakan Turbo — terjemahan ditangani secara terpisah melalui Apple Intelligence.
Benchmark Kecepatan: Whisper Notes di Apple Silicon
Di Whisper Notes untuk Mac, Turbo berjalan melalui CoreML di Neural Engine. Memproses 10 menit audio:
| Perangkat | Whisper V3 | V3 Turbo | Percepatan |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
Percepatan 5× ini spesifik untuk Whisper Notes di Apple Silicon, di mana decoder yang lebih kecil mendapat manfaat dari optimasi Neural Engine. Di GPU dengan framework seperti faster-whisper, selisihnya menyempit menjadi ~2,7× (lihat benchmark komunitas di bawah).
Akurasi: Perbandingan WER
Hugging Face Open ASR Leaderboard menguji kedua model pada dataset bahasa Inggris yang sama. Word error rate Turbo berada dalam setengah poin dari V3 di setiap benchmark:
| Dataset | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| Rata-rata WER | 7.83% | 7.44% |
V3 sedikit lebih akurat di setiap dataset, tetapi selisihnya kecil — rata-rata 0,39 poin persentase. Untuk sebagian besar transkripsi dunia nyata, Anda tidak akan merasakan perbedaannya.
Pada evaluasi YouTube-commons format panjang (salah satu benchmark ASR open-source terbesar), Turbo mencatat 13.40% WER vs 13.20% milik V3 — sambil berjalan pada faktor real-time 129.5× vs 55.3×. Itu 2,3× lebih cepat dengan akurasi hampir identik pada audio dunia nyata.
Benchmark Komunitas: GPU & CPU
Benchmark independen dari komunitas faster-whisper dan whisper.cpp menunjukkan hasil konsisten di berbagai perangkat keras. Transkripsi 13 menit audio dengan faster-whisper di GPU:
| Model | Presisi | Waktu | Memori GPU | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
Sumber: benchmark faster-whisper di NVIDIA GPU, split validasi LibriSpeech clean. Turbo int8 hanya menggunakan 1.5 GB VRAM — cukup untuk GPU 2 GB.
Inferensi batch pada RTX 3060 Laptop (6 GB VRAM, presisi int8) menunjukkan keunggulan lebih jauh:
| Model | Sekuensial | Batch (10) | WER Batch |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Sumber: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio bahasa Prancis, presisi int8.
Dengan pemrosesan batch, Turbo mencapai WER terbaik dari semua model yang diuji (7,7%) sekaligus menjadi yang tercepat. Ini adalah titik optimal yang jelas untuk penggunaan produksi.
Keterbatasan yang Diketahui (dan Cara Whisper Notes Menanganinya)
Tidak ada terjemahan bawaan
Turbo dilatih tanpa data terjemahan. Ia hanya mentranskripsi dalam bahasa sumber — tidak seperti Large-v3, yang mendukung terjemahan audio ke bahasa Inggris.
Whisper Notes — Apple Intelligence secara otomatis menerjemahkan transkrip ke bahasa pilihan Anda, memberikan output dwibahasa terlepas dari model mana yang Anda gunakan.
Lebih banyak halusinasi pada audio berisik
Laporan komunitas menunjukkan Turbo lebih banyak berhalusinasi pada klip sangat pendek atau rekaman berisik dibandingkan V3. Hal ini diperkirakan mengingat decoder yang lebih kecil (4 lapisan vs 32).
Whisper Notes — menjalankan Pyannote VAD sebelum transkripsi, mendeteksi segmen suara dan menghilangkan keheningan/kebisingan sehingga model hanya memproses suara nyata.
Model Mana yang Harus Anda Gunakan?
| Inggris / Eropa | Parakeet V3 — 10× lebih cepat dari Whisper, akurasi lebih baik |
| Tionghoa / Jepang / Korea | SenseVoice — dirancang khusus untuk CJK, kecepatan 52× |
| Bahasa lainnya | Whisper Large V3 Turbo — 99 bahasa, akurasi tinggi, lebih lambat |