Whisper Large V3 Turbo vs V3: 5× Lebih Cepat di Mac (Benchmark)

Whisper Large-v3 Turbo dari OpenAI memangkas decoder dari 32 lapisan menjadi 4, menurunkan parameter dari 1,55B menjadi 809M. Dalam pengujian kami di Apple Silicon, model ini mentranskripsi audio yang sama sekitar 5× lebih cepat dengan akurasi hampir identik. Whisper Notes menghadirkannya di Mac dan iPhone.

Perbandingan arsitektur Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: Apa yang Berubah

Turbo bukan arsitektur baru. Ini adalah model Whisper Large-v3 yang sama persis dengan decoder yang dipangkas dari 32 lapisan menjadi 4, lalu di-fine-tune untuk memulihkan akurasi. Encoder tidak diubah.

	Large-v3 Turbo	Large-v3
Parameter	809M	1,550M
Lapisan decoder	4	32
Bahasa	100+	100+
Tugas terjemahan	Tidak didukung	Didukung
Lisensi	MIT	Apache 2.0

Metode: file audio 10 menit yang sama ditranskripsi dengan build Whisper Notes yang sama di setiap perangkat yang disebutkan. Waktu adalah detik wall-clock dari awal transkripsi hingga teks akhir; hanya model yang berubah antara V3 dan Turbo.

Tugas terjemahan secara eksplisit dikecualikan dari data pelatihan Turbo. Model Large-v3 lengkap mendukungnya, tetapi Whisper Notes hanya menggunakan Turbo — terjemahan ditangani secara terpisah melalui Apple Intelligence.

Model Dasar: Apa Itu Whisper Large-v3?

Whisper Large-v3 adalah model pengenalan suara open-source andalan OpenAI, dirilis pada November 2023. Model ini memiliki 1,55B parameter, menggunakan input spektrogram 128 mel-bin, dilatih dengan 5 juta jam audio (1 juta jam weakly labeled + 4 juta jam pseudo-labeled), dan mendukung lebih dari 100 bahasa termasuk bahasa Kanton. Di Hugging Face Open ASR Leaderboard, rata-rata word error rate-nya sekitar ~7,4% — batas akurasi yang menjadi pembanding Turbo di sepanjang artikel ini. Untuk melihat bagaimana Large-v3 dibandingkan dengan semua model on-device lainnya, lihat halaman perbandingan model Whisper kami.

Benchmark Kecepatan: Whisper Notes di Apple Silicon

Di Whisper Notes untuk Mac, Turbo berjalan melalui CoreML di Neural Engine. Memproses 10 menit audio:

Perangkat	Whisper V3	V3 Turbo	Percepatan
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

Percepatan 5× ini spesifik untuk Whisper Notes di Apple Silicon, di mana decoder yang lebih kecil mendapat manfaat dari optimasi Neural Engine. Di GPU dengan framework seperti faster-whisper, selisihnya menyempit menjadi ~2,7× (lihat benchmark komunitas di bawah).

Akurasi: Perbandingan WER

Hugging Face Open ASR Leaderboard menguji kedua model pada dataset bahasa Inggris yang sama. Word error rate Turbo berada dalam setengah poin dari V3 di setiap benchmark:

Dataset	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
Rata-rata WER	7.83%	7.44%

V3 sedikit lebih akurat di setiap dataset, tetapi selisihnya kecil — rata-rata 0,39 poin persentase. Untuk sebagian besar transkripsi dunia nyata, Anda tidak akan merasakan perbedaannya.

Pada evaluasi YouTube-commons format panjang (salah satu benchmark ASR open-source terbesar), Turbo mencatat 13.40% WER vs 13.20% milik V3 — sambil berjalan pada faktor real-time 129.5× vs 55.3×. Itu 2,3× lebih cepat dengan akurasi hampir identik pada audio dunia nyata.

Seberapa Akurat Turbo dalam Bahasa Korea, Rusia, dan Bahasa Lainnya?

Benchmark di atas menggunakan bahasa Inggris. Menurut model card OpenAI, decoder 4 lapisan Turbo yang dipangkas sedikit lebih mengorbankan akurasi di bahasa non-Inggris dibandingkan bahasa Inggris, dengan penurunan terbesar pada bahasa bersumber daya rendah. Untuk bahasa Rusia dan sebagian besar bahasa Eropa, Turbo tetap dekat dengan Large-v3 penuh — dan jika Anda menggunakan Whisper Notes, Parakeet V3 mencakup bahasa Rusia dan 24 bahasa Eropa lainnya dengan kecepatan 10× dari Whisper.

Untuk bahasa Korea, Jepang, Mandarin, dan Kanton, model yang dibangun khusus lebih cepat sekaligus lebih rapi tanda bacanya: SenseVoice mentranskripsi CJK pada kecepatan 52× real-time. Whisper Notes menghadirkan SenseVoice berdampingan dengan Turbo di Mac dan iOS, sehingga Anda dapat memilih model yang tepat untuk setiap bahasa alih-alih memaksakan semuanya melalui satu model.

Benchmark Komunitas: GPU & CPU

Benchmark independen dari komunitas faster-whisper dan whisper.cpp menunjukkan hasil konsisten di berbagai perangkat keras. Transkripsi 13 menit audio dengan faster-whisper di GPU:

Model	Presisi	Waktu	Memori GPU	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

Sumber: benchmark faster-whisper di NVIDIA GPU, split validasi LibriSpeech clean. Turbo int8 hanya menggunakan 1,5 GB VRAM — cukup untuk GPU 2 GB.

Inferensi batch pada RTX 3060 Laptop (6 GB VRAM, presisi int8) menunjukkan keunggulan lebih jauh:

Model	Sekuensial	Batch (10)	WER Batch
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Sumber: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio bahasa Prancis, presisi int8.

Dengan pemrosesan batch, Turbo mencapai WER terbaik dari semua model yang diuji (7,7%) sekaligus menjadi yang tercepat. Ini adalah titik optimal yang jelas untuk penggunaan produksi.

Turbo vs Medium vs Semua Ukuran Model Whisper

Sebelum Turbo, Medium adalah kompromi yang lazim: akurasi yang dapat diterima dengan kecepatan yang masih bisa ditoleransi. Turbo membuat kompromi itu usang — dengan 809M parameter, ukurannya nyaris tidak lebih besar dari Medium (769M), namun memberikan akurasi kelas large dengan kecepatan beberapa kali lipat. Berikut seluruh keluarga model berdampingan:

Model	Parameter	Ukuran Disk	Kecepatan Relatif	Tingkat Akurasi
tiny	39M	~75 MB	~10×	Terendah
base	74M	~142 MB	~7×	Rendah
small	244M	~466 MB	~4×	Sedang
medium	769M	~1,5 GB	~2×	Tinggi
large-v3	1,550M	~2,9 GB	1× (garis dasar)	Tertinggi
large-v3-turbo	809M	~1,6 GB	~5× di Apple Silicon	Hampir tertinggi

Dirilis pada 30 September 2024, Turbo memiliki 809M parameter. Jika sebelumnya Anda memilih Medium untuk menghemat ruang disk atau mengejar kecepatan, Turbo kini mengunggulinya baik dalam akurasi maupun kecepatan dengan jejak penyimpanan yang kurang lebih sama.

Keterbatasan yang Diketahui (dan Cara Whisper Notes Menanganinya)

Tidak ada terjemahan bawaan

Turbo dilatih tanpa data terjemahan. Ia hanya mentranskripsi dalam bahasa sumber — tidak seperti Large-v3, yang mendukung terjemahan audio ke bahasa Inggris.

Whisper Notes — Apple Intelligence secara otomatis menerjemahkan transkrip ke bahasa pilihan Anda, memberikan output dwibahasa terlepas dari model mana yang Anda gunakan.

Lebih banyak halusinasi pada audio berisik

Laporan komunitas menunjukkan Turbo lebih banyak berhalusinasi pada klip sangat pendek atau rekaman berisik dibandingkan V3. Hal ini diperkirakan mengingat decoder yang lebih kecil (4 lapisan vs 32).

Whisper Notes — menjalankan Pyannote VAD sebelum transkripsi, mendeteksi segmen suara dan menghilangkan keheningan/kebisingan sehingga model hanya memproses suara nyata.

Model Mana yang Harus Anda Gunakan?

Inggris / Eropa	Parakeet V3 — 10× lebih cepat dari Whisper, akurasi lebih baik
Tionghoa / Jepang / Korea	SenseVoice — dirancang khusus untuk CJK, kecepatan 52×
Bahasa lainnya	Whisper Large V3 Turbo — 100+ bahasa, akurasi tinggi, lebih lambat

FAQ Whisper Large-v3 Turbo

Apa perbedaan antara Whisper Large-v3 dan Large-v3 Turbo?

Large-v3 Turbo mempertahankan encoder Large-v3 tetapi mengurangi decoder dari 32 lapisan menjadi 4. Itulah sebabnya ia jauh lebih cepat sambil tetap mendekati akurasi transkripsi Large-v3. Kompromi yang harus diterima: Turbo tidak mendukung tugas terjemahan bawaan Whisper.

Apakah faster-whisper mendukung Large-v3 Turbo?

Ya. faster-whisper mendukung Large-v3 Turbo melalui konversi CTranslate2, dan benchmark komunitas menunjukkan Turbo adalah pilihan kuat saat VRAM terbatas. Dalam benchmark di atas, Turbo int8 menggunakan sekitar 1,5 GB VRAM.

Apakah whisper.cpp mendukung Large-v3 Turbo?

Ya. whisper.cpp dapat menjalankan versi GGML/GGUF hasil konversi dari Whisper Large-v3 Turbo. Jika Anda membangun pipeline transkripsi lokal sendiri, Turbo sering kali lebih mudah dimuat di perangkat keras konsumen daripada Large-v3 penuh.

Di mana saya bisa mengunduh openai/whisper-large-v3-turbo?

Bobot model resminya tersedia dari OpenAI di Hugging Face. Pengguna Whisper Notes tidak perlu mengunduhnya secara manual: aplikasi Mac menangani penyiapan model lokal melalui antarmuka aplikasi.

Sedang membandingkan semua opsi lokal? Setiap model speech-to-text on-device — varian Whisper, Parakeet V3, SenseVoice, dan Voxtral — dibandingkan berdampingan di halaman perbandingan model Whisper kami. Baru mengenal Whisper? Mulailah dengan Panduan Transkripsi Whisper — apa itu modelnya, semua cara menjalankannya, dan berapa biayanya.

Unduh untuk iOS

Unduh untuk macOS