Transkripsi Whisper bermaksud menukar pertuturan kepada teks dengan Whisper daripada OpenAI — model AI sumber terbuka yang boleh dijalankan di awan, di pelayan, atau sepenuhnya pada peranti anda sendiri. Panduan ini merangkumi cara Whisper berfungsi, saiz model mana yang patut dipilih, sejauh mana ketepatannya sebenarnya, dan cara terpantas menjalankannya secara luar talian di Mac atau iPhone.
Apa Sebenarnya Whisper?
Whisper ialah model pengecaman pertuturan automatik (ASR) yang dikeluarkan OpenAI pada September 2022 di bawah lesen MIT. Ia merupakan transformer encoder-decoder yang dilatih dengan lebih 680,000 jam audio pelbagai bahasa, dan mampu mentranskripsi kira-kira 100 bahasa serta menterjemah ke bahasa Inggeris.
Bahagian yang penting untuk anda: pemberat modelnya terbuka. Tidak seperti API pertuturan Google atau Amazon, Whisper tidak semestinya berjalan di pelayan orang lain. Terdapat seluruh ekosistem untuk menjalankannya secara setempat — whisper.cpp, faster-whisper, dan aplikasi natif seperti Whisper Notes. Itulah yang menjadikan transkripsi yang benar-benar luar talian dan peribadi suatu kenyataan.
Saiz Model Whisper: Yang Mana Patut Digunakan
Whisper hadir dalam enam saiz utama. Lebih besar bermakna lebih tepat tetapi lebih perlahan:
| Model | Parameter | Kelajuan | Paling sesuai untuk |
|---|---|---|---|
| tiny | 39M | Terpantas | Draf pantas, perkakasan lemah |
| base | 74M | Sangat pantas | Audio ringkas dan bersih |
| small | 244M | Pantas | Imbangan kelajuan/ketepatan yang baik pada peranti mudah alih |
| medium | 769M | Sederhana | Kini jarang menjadi pilihan yang tepat |
| large-v3 | 1.55B | Paling perlahan | Ketepatan maksimum, audio sukar |
| large-v3-turbo | 809M | ~5x lebih pantas daripada large-v3 | Pilihan lalai pada 2026 |
Bagi hampir semua orang, jawapannya ialah large-v3-turbo: ia mengekalkan encoder large-v3 tetapi memotong lapisan decoder daripada 32 kepada 4, memberikan ketepatan hampir serupa dengan hanya sebahagian kecil pengiraan. Kami menandaarasnya secara terperinci dalam Whisper Large V3 Turbo vs V3.
Sejauh Mana Ketepatan Transkripsi Whisper?
Pada audio bahasa Inggeris yang bersih, model besar mencapai kadar ralat perkataan (WER) kira-kira 5-8% — setanding dengan transkripsi manusia profesional untuk kebanyakan tujuan praktikal. Ketepatan menurun dengan bunyi latar, loghat pekat, pertuturan bertindih, dan bahasa yang kurang sumber.
Kelemahan Whisper yang terkenal: halusinasi semasa senyap. Decoder autoregresifnya kadangkala mereka-reka frasa berulang atau kredit sari kata ketika tiada sesiapa bercakap. Model yang lebih baharu membetulkannya — Parakeet V3 daripada NVIDIA dilatih secara khusus pada audio tanpa pertuturan dan tidak menghasilkan sebarang halusinasi dalam ujian kami (penanda aras penuh Parakeet V3 vs Whisper).
Untuk bahasa Cina, Jepun, Korea dan Kantonis, model khusus mengatasi Whisper dari segi kelajuan dan tanda baca: lihat SenseVoice vs Whisper untuk bahasa CJK.
5 Cara Menjalankan Transkripsi Whisper
| Kaedah | Kos | Privasi | Persediaan |
|---|---|---|---|
| OpenAI API | Bayar mengikut minit audio | Audio dimuat naik | Kunci API + kod |
| openai-whisper (Python rujukan) | Percuma | 100% setempat | Persekitaran Python, GPU disyorkan |
| whisper.cpp / faster-whisper | Percuma | 100% setempat | Baris arahan |
| Aplikasi natif (Whisper Notes) | $6.99 sekali sahaja, percubaan percuma di Mac | 100% pada peranti | Tiada |
| Alat demo web | Pelan percuma | Audio dimuat naik | Tiada |
Peraturan mudahnya: jika anda hidup dalam terminal, faster-whisper memang hebat. Jika anda membina produk, API masuk akal. Jika anda cuma mahu rakaman ditranskripsi secara peribadi tanpa menyentuh Python, gunakan aplikasi natif — itulah sebab aplikasi Whisper untuk Mac wujud.
Mahu menimbang alat luar talian dengan lebih luas — termasuk pilihan Windows dan Android? Lihat panduan lengkap pertuturan-ke-teks luar talian kami.
Whisper vs Model Setempat Lebih Baharu (2026)
Whisper memulakan era transkripsi setempat, tetapi ia bukan lagi bersendirian. Kelajuan di bawah diukur pada Mac M4 Pro:
| Model | Bahasa | Kelajuan | Keistimewaan |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x masa nyata | Liputan bahasa paling luas |
| Parakeet V3 | 25 (Eropah) | ~100x masa nyata | WER 6.32%, tiada halusinasi semasa senyap |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x masa nyata | Terbaik untuk bahasa Cina, Jepun, Korea |
Ketiga-tiganya berjalan secara setempat dalam Whisper Notes, dan anda boleh bertukar model bagi setiap rakaman. Penanda aras bersebelahan ada di halaman perbandingan model Whisper kami.
Cara Menjalankan Transkripsi Whisper Secara Luar Talian di Mac & iPhone
Tiada baris arahan, tiada Python, tiada awan:
- Muat turun Whisper Notes untuk Mac (percubaan percuma) atau untuk iPhone ($6.99 sekali sahaja).
- Pilih model: Whisper Large V3 Turbo untuk liputan bahasa yang luas (termasuk bahasa Melayu), Parakeet V3 untuk kelajuan bahasa Inggeris, SenseVoice untuk CJK. Model dimuat turun sekali dan kemudian berfungsi luar talian selama-lamanya.
- Rakam terus, buat dikte di seluruh sistem dengan menahan Fn, atau seret masuk fail audio dan video (MP3, WAV, M4A, MP4).
- Teks muncul semasa pemprosesan. Eksport sebagai TXT atau SRT.
Ragu-ragu dengan "luar talian"? Hidupkan mod pesawat dahulu. Transkripsi tetap berjalan pada kelajuan penuh — tiada apa-apa yang dimuat naik, tidak sesekali.
Sejauh Mana Ketepatan Transkripsi Whisper dalam Bahasa Melayu? Model Mana Patut Dipilih?
Untuk bahasa Melayu, pilih Whisper Large V3 Turbo — model yang meliputi lebih 100 bahasa, termasuk bahasa Melayu, dengan saiz kira-kira 1.5GB. Parakeet V3 (lalai, 25 bahasa Eropah) dan SenseVoice (khusus bahasa Cina, Jepun, Korea) tidak menyokong bahasa Melayu, jadi Turbo ialah pilihan yang betul. Dalam Whisper Notes, muat turun model sekali sahaja dan transkripsikan rakaman bahasa Melayu anda sepenuhnya luar talian di Mac atau iPhone — audio anda tidak pernah meninggalkan peranti. Bertutur dengan jelas dan kurangkan bunyi latar untuk hasil terbaik.
Soalan Lazim
Adakah transkripsi Whisper percuma?
Model itu sendiri percuma dan sumber terbuka (lesen MIT). Menjalankannya melalui alat baris arahan seperti whisper.cpp tidak dikenakan bayaran tetapi memerlukan persediaan. API OpenAI mengenakan caj mengikut minit audio. Aplikasi natif membungkus model dengan bayaran kecil — Whisper Notes berharga $6.99 sekali sahaja, dengan percubaan percuma di Mac.
Bolehkah transkripsi Whisper berjalan luar talian?
Boleh — itulah tujuan pemberat terbuka. Sebaik sahaja fail model berada pada peranti anda, internet tidak diperlukan. Whisper Notes menjalankan Whisper Large V3 Turbo pada Apple Silicon melalui CoreML/Metal, sepenuhnya luar talian. Anda boleh mengesahkannya dengan mod pesawat.
Model Whisper mana yang paling tepat?
large-v3 mempunyai ketepatan mentah terbaik. large-v3-turbo menyamainya dengan beza WER hanya sepersekian peratus sambil berjalan kira-kira 5x lebih pantas — sebab itulah ia menjadi lalai dalam kebanyakan alat hari ini.
Adakah Whisper menyokong bahasa saya?
Whisper meliputi kira-kira 100 bahasa, paling kuat dalam bahasa bersumber tinggi (Inggeris, Sepanyol, Jerman, Perancis, dll.). Untuk bahasa Cina, Jepun, Korea dan Kantonis, SenseVoice memberikan tanda baca lebih baik dan kelajuan jauh lebih tinggi pada Apple Silicon.
Adakah aplikasi transkripsi Whisper untuk iPhone?
Ada. Whisper Notes menjalankan model Whisper yang dioptimumkan untuk Neural Engine iPhone (iPhone 12 dan lebih baharu) — rakam, import daripada Voice Memos atau Files, dan transkripsikan sepenuhnya pada peranti dengan harga $6.99, tanpa langganan.