Transkripsi Whisper berarti mengubah ucapan menjadi teks dengan Whisper dari OpenAI — model AI open-source yang bisa dijalankan di cloud, di server, atau sepenuhnya di perangkat Anda sendiri. Panduan ini membahas cara kerja Whisper, ukuran model mana yang harus dipilih, seberapa akurat sebenarnya, dan cara tercepat menjalankannya secara offline di Mac atau iPhone.
Apa Itu Whisper, Sebenarnya?
Whisper adalah model pengenalan suara otomatis (ASR) yang dirilis OpenAI pada September 2022 di bawah lisensi MIT. Model ini berupa transformer encoder-decoder yang dilatih dengan lebih dari 680.000 jam audio multibahasa, mampu mentranskripsi sekitar 100 bahasa plus menerjemahkan ke bahasa Inggris.
Bagian yang penting bagi Anda: bobot modelnya terbuka. Berbeda dengan API suara Google atau Amazon, Whisper tidak harus berjalan di server orang lain. Ada seluruh ekosistem untuk menjalankannya secara lokal — whisper.cpp, faster-whisper, dan aplikasi native seperti Whisper Notes. Itulah yang membuat transkripsi yang benar-benar offline dan privat menjadi mungkin.
Ukuran Model Whisper: Mana yang Harus Dipakai
Whisper hadir dalam enam ukuran utama. Semakin besar semakin akurat tapi semakin lambat:
| Model | Parameter | Kecepatan | Paling cocok untuk |
|---|---|---|---|
| tiny | 39M | Tercepat | Draf cepat, perangkat keras lemah |
| base | 74M | Sangat cepat | Audio sederhana dan bersih |
| small | 244M | Cepat | Keseimbangan kecepatan/akurasi yang baik di perangkat mobile |
| medium | 769M | Sedang | Kini jarang menjadi pilihan yang tepat |
| large-v3 | 1.55B | Paling lambat | Akurasi maksimum, audio sulit |
| large-v3-turbo | 809M | ~5x lebih cepat dari large-v3 | Pilihan default di 2026 |
Bagi hampir semua orang, jawabannya adalah large-v3-turbo: ia mempertahankan encoder large-v3 tetapi memangkas lapisan decoder dari 32 menjadi 4, memberikan akurasi nyaris identik dengan hanya sebagian kecil komputasi. Kami mengujinya secara detail di Whisper Large V3 Turbo vs V3.
Seberapa Akurat Transkripsi Whisper?
Pada audio bahasa Inggris yang bersih, model besar mencapai word error rate (WER) sekitar 5-8% — sebanding dengan transkripsi manusia profesional untuk sebagian besar keperluan praktis. Akurasi menurun dengan kebisingan latar, aksen kental, suara tumpang tindih, dan bahasa dengan sedikit data.
Kelemahan Whisper yang paling terkenal: halusinasi saat hening. Decoder autoregressive-nya kadang mengarang frasa berulang atau kredit subtitle ketika tidak ada yang berbicara. Model yang lebih baru memperbaikinya — Parakeet V3 dari NVIDIA secara eksplisit dilatih pada audio non-ucapan dan tidak menghasilkan halusinasi sama sekali dalam pengujian kami (benchmark lengkap Parakeet V3 vs Whisper).
Untuk bahasa Mandarin, Jepang, Korea, dan Kanton, model khusus mengalahkan Whisper baik dalam kecepatan maupun tanda baca: lihat SenseVoice vs Whisper untuk bahasa CJK.
5 Cara Menjalankan Transkripsi Whisper
| Metode | Biaya | Privasi | Persiapan |
|---|---|---|---|
| OpenAI API | Bayar per menit audio | Audio diunggah | API key + kode |
| openai-whisper (Python referensi) | Gratis | 100% lokal | Lingkungan Python, GPU disarankan |
| whisper.cpp / faster-whisper | Gratis | 100% lokal | Command line |
| Aplikasi native (Whisper Notes) | $6.99 sekali bayar, uji coba gratis di Mac | 100% di perangkat | Tidak perlu apa pun |
| Alat demo web | Ada paket gratis | Audio diunggah | Tidak perlu apa pun |
Aturan praktisnya: kalau Anda hidup di terminal, faster-whisper sangat bagus. Kalau sedang membangun produk, API masuk akal. Kalau hanya ingin rekaman ditranskripsi secara privat tanpa menyentuh Python, pakai aplikasi native — itulah alasan aplikasi Whisper untuk Mac ada.
Ingin menimbang alat offline secara lebih luas — termasuk opsi Windows dan Android? Lihat panduan lengkap speech-to-text offline kami.
Whisper vs Model Lokal yang Lebih Baru (2026)
Whisper memulai era transkripsi lokal, tapi kini ia tidak sendirian. Kecepatan di bawah diukur pada Mac M4 Pro:
| Model | Bahasa | Kecepatan | Keunggulan |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x realtime | Cakupan bahasa terluas |
| Parakeet V3 | 25 (Eropa) | ~100x realtime | WER 6,32%, tanpa halusinasi saat hening |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x realtime | Terbaik untuk Mandarin, Jepang, Korea |
Ketiganya berjalan lokal di Whisper Notes, dan Anda bisa berganti model per rekaman. Benchmark berdampingan ada di halaman perbandingan model Whisper kami.
Cara Menjalankan Transkripsi Whisper Secara Offline di Mac & iPhone
Tanpa command line, tanpa Python, tanpa cloud:
- Unduh Whisper Notes untuk Mac (uji coba gratis) atau untuk iPhone ($6.99 sekali bayar).
- Pilih model: Whisper Large V3 Turbo untuk cakupan bahasa luas (termasuk bahasa Indonesia), Parakeet V3 untuk kecepatan bahasa Inggris, SenseVoice untuk CJK. Model diunduh sekali lalu bekerja offline selamanya.
- Rekam langsung, dikte di seluruh sistem dengan menahan Fn, atau seret file audio dan video (MP3, WAV, M4A, MP4).
- Teks muncul seiring pemrosesan. Ekspor sebagai TXT atau SRT.
Ragu dengan kata "offline"? Nyalakan mode pesawat dulu. Transkripsi tetap berjalan dengan kecepatan penuh — tidak ada yang diunggah, tidak pernah.
Seberapa Akurat Transkripsi Whisper dalam Bahasa Indonesia? Model Mana yang Dipilih?
Untuk bahasa Indonesia, pilih Whisper Large V3 Turbo — model yang mencakup lebih dari 100 bahasa, termasuk bahasa Indonesia, dengan ukuran sekitar 1,5GB. Parakeet V3 (default, 25 bahasa Eropa) dan SenseVoice (khusus Mandarin, Jepang, Korea) tidak mendukung bahasa Indonesia, jadi Turbo adalah pilihan yang tepat. Di Whisper Notes, unduh modelnya sekali lalu transkripsikan rekaman bahasa Indonesia Anda sepenuhnya offline di Mac atau iPhone — audio tidak pernah meninggalkan perangkat. Bicaralah dengan jelas dan kurangi kebisingan latar untuk hasil terbaik.
Pertanyaan yang Sering Diajukan
Apakah transkripsi Whisper gratis?
Modelnya sendiri gratis dan open source (lisensi MIT). Menjalankannya lewat alat command line seperti whisper.cpp tidak berbiaya tetapi butuh persiapan. API OpenAI menagih per menit audio. Aplikasi native mengemas modelnya dengan biaya kecil — Whisper Notes seharga $6.99 sekali bayar, dengan uji coba gratis di Mac.
Bisakah transkripsi Whisper berjalan offline?
Bisa — itulah inti dari bobot terbuka. Begitu file model ada di perangkat Anda, internet tidak dibutuhkan. Whisper Notes menjalankan Whisper Large V3 Turbo di Apple Silicon via CoreML/Metal, sepenuhnya offline. Anda bisa memverifikasinya dengan mode pesawat.
Model Whisper mana yang paling akurat?
large-v3 punya akurasi mentah terbaik. large-v3-turbo menyamainya dengan selisih WER hanya sepersekian persen sambil berjalan sekitar 5x lebih cepat — karena itulah ia menjadi default di sebagian besar alat saat ini.
Apakah Whisper mendukung bahasa saya?
Whisper mencakup sekitar 100 bahasa, paling kuat di bahasa dengan data melimpah (Inggris, Spanyol, Jerman, Prancis, dll.). Untuk Mandarin, Jepang, Korea, dan Kanton, SenseVoice memberi tanda baca lebih baik dan kecepatan jauh lebih tinggi di Apple Silicon.
Adakah aplikasi transkripsi Whisper untuk iPhone?
Ada. Whisper Notes menjalankan model Whisper yang dioptimalkan untuk Neural Engine iPhone (iPhone 12 ke atas) — rekam, impor dari Voice Memos atau Files, dan transkripsikan sepenuhnya di perangkat seharga $6.99, tanpa langganan.