Whisper Large V3 Turbo vs V3: 5× Lebih Cepat di Mac (Benchmark)

6 November 2024
·
6 min read
·Whisper Notes Team

Whisper Large-v3 Turbo dari OpenAI memangkas decoder dari 32 lapisan menjadi 4, menurunkan parameter dari 1,55B menjadi 809M. Hasilnya: transkripsi 2–5× lebih cepat dengan akurasi hampir identik. Whisper Notes menghadirkannya di Mac dengan Apple Silicon.

Perbandingan arsitektur Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: Apa yang Berubah

Turbo bukan arsitektur baru. Ini adalah model Whisper Large-v3 yang sama persis dengan decoder yang dipangkas dari 32 lapisan menjadi 4, lalu di-fine-tune untuk memulihkan akurasi. Encoder tidak diubah.

Large-v3 Turbo Large-v3
Parameter 809M 1,550M
Lapisan decoder 4 32
Bahasa 99 99
Tugas terjemahan Tidak didukung Didukung
Lisensi MIT Apache 2.0

Tugas terjemahan secara eksplisit dikecualikan dari data pelatihan Turbo. Model Large-v3 lengkap mendukungnya, tetapi Whisper Notes hanya menggunakan Turbo — terjemahan ditangani secara terpisah melalui Apple Intelligence.

Benchmark Kecepatan: Whisper Notes di Apple Silicon

Di Whisper Notes untuk Mac, Turbo berjalan melalui CoreML di Neural Engine. Memproses 10 menit audio:

Perangkat Whisper V3 V3 Turbo Percepatan
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

Percepatan 5× ini spesifik untuk Whisper Notes di Apple Silicon, di mana decoder yang lebih kecil mendapat manfaat dari optimasi Neural Engine. Di GPU dengan framework seperti faster-whisper, selisihnya menyempit menjadi ~2,7× (lihat benchmark komunitas di bawah).

Akurasi: Perbandingan WER

Hugging Face Open ASR Leaderboard menguji kedua model pada dataset bahasa Inggris yang sama. Word error rate Turbo berada dalam setengah poin dari V3 di setiap benchmark:

Dataset V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
Rata-rata WER 7.83% 7.44%

V3 sedikit lebih akurat di setiap dataset, tetapi selisihnya kecil — rata-rata 0,39 poin persentase. Untuk sebagian besar transkripsi dunia nyata, Anda tidak akan merasakan perbedaannya.

Pada evaluasi YouTube-commons format panjang (salah satu benchmark ASR open-source terbesar), Turbo mencatat 13.40% WER vs 13.20% milik V3 — sambil berjalan pada faktor real-time 129.5× vs 55.3×. Itu 2,3× lebih cepat dengan akurasi hampir identik pada audio dunia nyata.

Benchmark Komunitas: GPU & CPU

Benchmark independen dari komunitas faster-whisper dan whisper.cpp menunjukkan hasil konsisten di berbagai perangkat keras. Transkripsi 13 menit audio dengan faster-whisper di GPU:

Model Presisi Waktu Memori GPU WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Sumber: benchmark faster-whisper di NVIDIA GPU, split validasi LibriSpeech clean. Turbo int8 hanya menggunakan 1.5 GB VRAM — cukup untuk GPU 2 GB.

Inferensi batch pada RTX 3060 Laptop (6 GB VRAM, presisi int8) menunjukkan keunggulan lebih jauh:

Model Sekuensial Batch (10) WER Batch
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Sumber: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio bahasa Prancis, presisi int8.

Dengan pemrosesan batch, Turbo mencapai WER terbaik dari semua model yang diuji (7,7%) sekaligus menjadi yang tercepat. Ini adalah titik optimal yang jelas untuk penggunaan produksi.

Keterbatasan yang Diketahui (dan Cara Whisper Notes Menanganinya)

Tidak ada terjemahan bawaan

Turbo dilatih tanpa data terjemahan. Ia hanya mentranskripsi dalam bahasa sumber — tidak seperti Large-v3, yang mendukung terjemahan audio ke bahasa Inggris.

Whisper Notes — Apple Intelligence secara otomatis menerjemahkan transkrip ke bahasa pilihan Anda, memberikan output dwibahasa terlepas dari model mana yang Anda gunakan.

Lebih banyak halusinasi pada audio berisik

Laporan komunitas menunjukkan Turbo lebih banyak berhalusinasi pada klip sangat pendek atau rekaman berisik dibandingkan V3. Hal ini diperkirakan mengingat decoder yang lebih kecil (4 lapisan vs 32).

Whisper Notes — menjalankan Pyannote VAD sebelum transkripsi, mendeteksi segmen suara dan menghilangkan keheningan/kebisingan sehingga model hanya memproses suara nyata.

Model Mana yang Harus Anda Gunakan?

Inggris / Eropa Parakeet V3 — 10× lebih cepat dari Whisper, akurasi lebih baik
Tionghoa / Jepang / Korea SenseVoice — dirancang khusus untuk CJK, kecepatan 52×
Bahasa lainnya Whisper Large V3 Turbo — 99 bahasa, akurasi tinggi, lebih lambat