Transkripsi Whisper: Model, Kelajuan & Cara Menjalankannya Luar Talian (Panduan 2026)

2 Julai 2026
·
9 min read
·Whisper Notes Team

Transkripsi Whisper bermaksud menukar pertuturan kepada teks dengan Whisper daripada OpenAI — model AI sumber terbuka yang boleh dijalankan di awan, di pelayan, atau sepenuhnya pada peranti anda sendiri. Panduan ini merangkumi cara Whisper berfungsi, saiz model mana yang patut dipilih, sejauh mana ketepatannya sebenarnya, dan cara terpantas menjalankannya secara luar talian di Mac atau iPhone.

Apa Sebenarnya Whisper?

Whisper ialah model pengecaman pertuturan automatik (ASR) yang dikeluarkan OpenAI pada September 2022 di bawah lesen MIT. Ia merupakan transformer encoder-decoder yang dilatih dengan lebih 680,000 jam audio pelbagai bahasa, dan mampu mentranskripsi kira-kira 100 bahasa serta menterjemah ke bahasa Inggeris.

Bahagian yang penting untuk anda: pemberat modelnya terbuka. Tidak seperti API pertuturan Google atau Amazon, Whisper tidak semestinya berjalan di pelayan orang lain. Terdapat seluruh ekosistem untuk menjalankannya secara setempat — whisper.cpp, faster-whisper, dan aplikasi natif seperti Whisper Notes. Itulah yang menjadikan transkripsi yang benar-benar luar talian dan peribadi suatu kenyataan.

Saiz Model Whisper: Yang Mana Patut Digunakan

Whisper hadir dalam enam saiz utama. Lebih besar bermakna lebih tepat tetapi lebih perlahan:

Model Parameter Kelajuan Paling sesuai untuk
tiny 39M Terpantas Draf pantas, perkakasan lemah
base 74M Sangat pantas Audio ringkas dan bersih
small 244M Pantas Imbangan kelajuan/ketepatan yang baik pada peranti mudah alih
medium 769M Sederhana Kini jarang menjadi pilihan yang tepat
large-v3 1.55B Paling perlahan Ketepatan maksimum, audio sukar
large-v3-turbo 809M ~5x lebih pantas daripada large-v3 Pilihan lalai pada 2026

Bagi hampir semua orang, jawapannya ialah large-v3-turbo: ia mengekalkan encoder large-v3 tetapi memotong lapisan decoder daripada 32 kepada 4, memberikan ketepatan hampir serupa dengan hanya sebahagian kecil pengiraan. Kami menandaarasnya secara terperinci dalam Whisper Large V3 Turbo vs V3.

Sejauh Mana Ketepatan Transkripsi Whisper?

Pada audio bahasa Inggeris yang bersih, model besar mencapai kadar ralat perkataan (WER) kira-kira 5-8% — setanding dengan transkripsi manusia profesional untuk kebanyakan tujuan praktikal. Ketepatan menurun dengan bunyi latar, loghat pekat, pertuturan bertindih, dan bahasa yang kurang sumber.

Kelemahan Whisper yang terkenal: halusinasi semasa senyap. Decoder autoregresifnya kadangkala mereka-reka frasa berulang atau kredit sari kata ketika tiada sesiapa bercakap. Model yang lebih baharu membetulkannya — Parakeet V3 daripada NVIDIA dilatih secara khusus pada audio tanpa pertuturan dan tidak menghasilkan sebarang halusinasi dalam ujian kami (penanda aras penuh Parakeet V3 vs Whisper).

Untuk bahasa Cina, Jepun, Korea dan Kantonis, model khusus mengatasi Whisper dari segi kelajuan dan tanda baca: lihat SenseVoice vs Whisper untuk bahasa CJK.

5 Cara Menjalankan Transkripsi Whisper

Kaedah Kos Privasi Persediaan
OpenAI API Bayar mengikut minit audio Audio dimuat naik Kunci API + kod
openai-whisper (Python rujukan) Percuma 100% setempat Persekitaran Python, GPU disyorkan
whisper.cpp / faster-whisper Percuma 100% setempat Baris arahan
Aplikasi natif (Whisper Notes) $6.99 sekali sahaja, percubaan percuma di Mac 100% pada peranti Tiada
Alat demo web Pelan percuma Audio dimuat naik Tiada

Peraturan mudahnya: jika anda hidup dalam terminal, faster-whisper memang hebat. Jika anda membina produk, API masuk akal. Jika anda cuma mahu rakaman ditranskripsi secara peribadi tanpa menyentuh Python, gunakan aplikasi natif — itulah sebab aplikasi Whisper untuk Mac wujud.

Mahu menimbang alat luar talian dengan lebih luas — termasuk pilihan Windows dan Android? Lihat panduan lengkap pertuturan-ke-teks luar talian kami.

Whisper vs Model Setempat Lebih Baharu (2026)

Whisper memulakan era transkripsi setempat, tetapi ia bukan lagi bersendirian. Kelajuan di bawah diukur pada Mac M4 Pro:

Model Bahasa Kelajuan Keistimewaan
Whisper Large V3 Turbo 100+ ~12x masa nyata Liputan bahasa paling luas
Parakeet V3 25 (Eropah) ~100x masa nyata WER 6.32%, tiada halusinasi semasa senyap
SenseVoice Small zh, ja, ko, yue, en ~52x masa nyata Terbaik untuk bahasa Cina, Jepun, Korea

Ketiga-tiganya berjalan secara setempat dalam Whisper Notes, dan anda boleh bertukar model bagi setiap rakaman. Penanda aras bersebelahan ada di halaman perbandingan model Whisper kami.

Cara Menjalankan Transkripsi Whisper Secara Luar Talian di Mac & iPhone

Tiada baris arahan, tiada Python, tiada awan:

  1. Muat turun Whisper Notes untuk Mac (percubaan percuma) atau untuk iPhone ($6.99 sekali sahaja).
  2. Pilih model: Whisper Large V3 Turbo untuk liputan bahasa yang luas (termasuk bahasa Melayu), Parakeet V3 untuk kelajuan bahasa Inggeris, SenseVoice untuk CJK. Model dimuat turun sekali dan kemudian berfungsi luar talian selama-lamanya.
  3. Rakam terus, buat dikte di seluruh sistem dengan menahan Fn, atau seret masuk fail audio dan video (MP3, WAV, M4A, MP4).
  4. Teks muncul semasa pemprosesan. Eksport sebagai TXT atau SRT.

Ragu-ragu dengan "luar talian"? Hidupkan mod pesawat dahulu. Transkripsi tetap berjalan pada kelajuan penuh — tiada apa-apa yang dimuat naik, tidak sesekali.

Sejauh Mana Ketepatan Transkripsi Whisper dalam Bahasa Melayu? Model Mana Patut Dipilih?

Untuk bahasa Melayu, pilih Whisper Large V3 Turbo — model yang meliputi lebih 100 bahasa, termasuk bahasa Melayu, dengan saiz kira-kira 1.5GB. Parakeet V3 (lalai, 25 bahasa Eropah) dan SenseVoice (khusus bahasa Cina, Jepun, Korea) tidak menyokong bahasa Melayu, jadi Turbo ialah pilihan yang betul. Dalam Whisper Notes, muat turun model sekali sahaja dan transkripsikan rakaman bahasa Melayu anda sepenuhnya luar talian di Mac atau iPhone — audio anda tidak pernah meninggalkan peranti. Bertutur dengan jelas dan kurangkan bunyi latar untuk hasil terbaik.

Soalan Lazim

Adakah transkripsi Whisper percuma?

Model itu sendiri percuma dan sumber terbuka (lesen MIT). Menjalankannya melalui alat baris arahan seperti whisper.cpp tidak dikenakan bayaran tetapi memerlukan persediaan. API OpenAI mengenakan caj mengikut minit audio. Aplikasi natif membungkus model dengan bayaran kecil — Whisper Notes berharga $6.99 sekali sahaja, dengan percubaan percuma di Mac.

Bolehkah transkripsi Whisper berjalan luar talian?

Boleh — itulah tujuan pemberat terbuka. Sebaik sahaja fail model berada pada peranti anda, internet tidak diperlukan. Whisper Notes menjalankan Whisper Large V3 Turbo pada Apple Silicon melalui CoreML/Metal, sepenuhnya luar talian. Anda boleh mengesahkannya dengan mod pesawat.

Model Whisper mana yang paling tepat?

large-v3 mempunyai ketepatan mentah terbaik. large-v3-turbo menyamainya dengan beza WER hanya sepersekian peratus sambil berjalan kira-kira 5x lebih pantas — sebab itulah ia menjadi lalai dalam kebanyakan alat hari ini.

Adakah Whisper menyokong bahasa saya?

Whisper meliputi kira-kira 100 bahasa, paling kuat dalam bahasa bersumber tinggi (Inggeris, Sepanyol, Jerman, Perancis, dll.). Untuk bahasa Cina, Jepun, Korea dan Kantonis, SenseVoice memberikan tanda baca lebih baik dan kelajuan jauh lebih tinggi pada Apple Silicon.

Adakah aplikasi transkripsi Whisper untuk iPhone?

Ada. Whisper Notes menjalankan model Whisper yang dioptimumkan untuk Neural Engine iPhone (iPhone 12 dan lebih baharu) — rakam, import daripada Voice Memos atau Files, dan transkripsikan sepenuhnya pada peranti dengan harga $6.99, tanpa langganan.