Transkripsi Whisper: Model, Kelajuan & Cara Menjalankannya Luar Talian (Panduan 2026)

Transkripsi Whisper bermaksud menukar pertuturan kepada teks dengan Whisper daripada OpenAI — model AI sumber terbuka yang boleh dijalankan di awan, di pelayan, atau sepenuhnya pada peranti anda sendiri. Panduan ini merangkumi cara Whisper berfungsi, saiz model mana yang patut dipilih, sejauh mana ketepatannya sebenarnya, dan cara terpantas menjalankannya secara luar talian di Mac atau iPhone.

Apa Sebenarnya Whisper?

Whisper ialah model pengecaman pertuturan automatik (ASR) yang dikeluarkan OpenAI pada September 2022 di bawah lesen MIT. Ia merupakan transformer encoder-decoder yang dilatih dengan lebih 680,000 jam audio pelbagai bahasa, dan mampu mentranskripsi kira-kira 100 bahasa serta menterjemah ke bahasa Inggeris.

Bahagian yang penting untuk anda: pemberat modelnya terbuka. Tidak seperti API pertuturan Google atau Amazon, Whisper tidak semestinya berjalan di pelayan orang lain. Terdapat seluruh ekosistem untuk menjalankannya secara setempat — whisper.cpp, faster-whisper, dan aplikasi natif seperti Whisper Notes. Itulah yang menjadikan transkripsi yang benar-benar luar talian dan peribadi suatu kenyataan.

Saiz Model Whisper: Yang Mana Patut Digunakan

Whisper hadir dalam enam saiz utama. Lebih besar bermakna lebih tepat tetapi lebih perlahan:

Model	Parameter	Kelajuan	Paling sesuai untuk
tiny	39M	Terpantas	Draf pantas, perkakasan lemah
base	74M	Sangat pantas	Audio ringkas dan bersih
small	244M	Pantas	Imbangan kelajuan/ketepatan yang baik pada peranti mudah alih
medium	769M	Sederhana	Kini jarang menjadi pilihan yang tepat
large-v3	1.55B	Paling perlahan	Ketepatan maksimum, audio sukar
large-v3-turbo	809M	~5x lebih pantas daripada large-v3	Pilihan lalai pada 2026

Bagi hampir semua orang, jawapannya ialah large-v3-turbo: ia mengekalkan encoder large-v3 tetapi memotong lapisan decoder daripada 32 kepada 4, memberikan ketepatan hampir serupa dengan hanya sebahagian kecil pengiraan. Kami menandaarasnya secara terperinci dalam Whisper Large V3 Turbo vs V3.

Sejauh Mana Ketepatan Transkripsi Whisper?

Pada audio bahasa Inggeris yang bersih, model besar mencapai kadar ralat perkataan (WER) kira-kira 5-8% — setanding dengan transkripsi manusia profesional untuk kebanyakan tujuan praktikal. Ketepatan menurun dengan bunyi latar, loghat pekat, pertuturan bertindih, dan bahasa yang kurang sumber.

Kelemahan Whisper yang terkenal: halusinasi semasa senyap. Decoder autoregresifnya kadangkala mereka-reka frasa berulang atau kredit sari kata ketika tiada sesiapa bercakap. Model yang lebih baharu membetulkannya — Parakeet V3 daripada NVIDIA dilatih secara khusus pada audio tanpa pertuturan dan tidak menghasilkan sebarang halusinasi dalam ujian kami (penanda aras penuh Parakeet V3 vs Whisper).

Untuk bahasa Cina, Jepun, Korea dan Kantonis, model khusus mengatasi Whisper dari segi kelajuan dan tanda baca: lihat SenseVoice vs Whisper untuk bahasa CJK.

5 Cara Menjalankan Transkripsi Whisper

Kaedah	Kos	Privasi	Persediaan
OpenAI API	Bayar mengikut minit audio	Audio dimuat naik	Kunci API + kod
openai-whisper (Python rujukan)	Percuma	100% setempat	Persekitaran Python, GPU disyorkan
whisper.cpp / faster-whisper	Percuma	100% setempat	Baris arahan
Aplikasi natif (Whisper Notes)	$6.99 sekali sahaja, percubaan percuma di Mac	100% pada peranti	Tiada
Alat demo web	Pelan percuma	Audio dimuat naik	Tiada

Peraturan mudahnya: jika anda hidup dalam terminal, faster-whisper memang hebat. Jika anda membina produk, API masuk akal. Jika anda cuma mahu rakaman ditranskripsi secara peribadi tanpa menyentuh Python, gunakan aplikasi natif — itulah sebab aplikasi Whisper untuk Mac wujud.

Mahu menimbang alat luar talian dengan lebih luas — termasuk pilihan Windows dan Android? Lihat panduan lengkap pertuturan-ke-teks luar talian kami.

Whisper vs Model Setempat Lebih Baharu (2026)

Whisper memulakan era transkripsi setempat, tetapi ia bukan lagi bersendirian. Kelajuan di bawah diukur pada Mac M4 Pro:

Model	Bahasa	Kelajuan	Keistimewaan
Whisper Large V3 Turbo	100+	~12x masa nyata	Liputan bahasa paling luas
Parakeet V3	25 (Eropah)	~100x masa nyata	WER 6.32%, tiada halusinasi semasa senyap
SenseVoice Small	zh, ja, ko, yue, en	~52x masa nyata	Terbaik untuk bahasa Cina, Jepun, Korea

Ketiga-tiganya berjalan secara setempat dalam Whisper Notes, dan anda boleh bertukar model bagi setiap rakaman. Penanda aras bersebelahan ada di halaman perbandingan model Whisper kami.

Cara Menjalankan Transkripsi Whisper Secara Luar Talian di Mac & iPhone

Tiada baris arahan, tiada Python, tiada awan:

Muat turun Whisper Notes untuk Mac (percubaan percuma) atau untuk iPhone ($6.99 sekali sahaja).
Pilih model: Whisper Large V3 Turbo untuk liputan bahasa yang luas (termasuk bahasa Melayu), Parakeet V3 untuk kelajuan bahasa Inggeris, SenseVoice untuk CJK. Model dimuat turun sekali dan kemudian berfungsi luar talian selama-lamanya.
Rakam terus, buat dikte di seluruh sistem dengan menahan Fn, atau seret masuk fail audio dan video (MP3, WAV, M4A, MP4).
Teks muncul semasa pemprosesan. Eksport sebagai TXT atau SRT.

Ragu-ragu dengan "luar talian"? Hidupkan mod pesawat dahulu. Transkripsi tetap berjalan pada kelajuan penuh — tiada apa-apa yang dimuat naik, tidak sesekali.

Sejauh Mana Ketepatan Transkripsi Whisper dalam Bahasa Melayu? Model Mana Patut Dipilih?

Untuk bahasa Melayu, pilih Whisper Large V3 Turbo — model yang meliputi lebih 100 bahasa, termasuk bahasa Melayu, dengan saiz kira-kira 1.5GB. Parakeet V3 (lalai, 25 bahasa Eropah) dan SenseVoice (khusus bahasa Cina, Jepun, Korea) tidak menyokong bahasa Melayu, jadi Turbo ialah pilihan yang betul. Dalam Whisper Notes, muat turun model sekali sahaja dan transkripsikan rakaman bahasa Melayu anda sepenuhnya luar talian di Mac atau iPhone — audio anda tidak pernah meninggalkan peranti. Bertutur dengan jelas dan kurangkan bunyi latar untuk hasil terbaik.

Soalan Lazim

Adakah transkripsi Whisper percuma?

Model itu sendiri percuma dan sumber terbuka (lesen MIT). Menjalankannya melalui alat baris arahan seperti whisper.cpp tidak dikenakan bayaran tetapi memerlukan persediaan. API OpenAI mengenakan caj mengikut minit audio. Aplikasi natif membungkus model dengan bayaran kecil — Whisper Notes berharga $6.99 sekali sahaja, dengan percubaan percuma di Mac.

Bolehkah transkripsi Whisper berjalan luar talian?

Boleh — itulah tujuan pemberat terbuka. Sebaik sahaja fail model berada pada peranti anda, internet tidak diperlukan. Whisper Notes menjalankan Whisper Large V3 Turbo pada Apple Silicon melalui CoreML/Metal, sepenuhnya luar talian. Anda boleh mengesahkannya dengan mod pesawat.

Model Whisper mana yang paling tepat?

large-v3 mempunyai ketepatan mentah terbaik. large-v3-turbo menyamainya dengan beza WER hanya sepersekian peratus sambil berjalan kira-kira 5x lebih pantas — sebab itulah ia menjadi lalai dalam kebanyakan alat hari ini.

Adakah Whisper menyokong bahasa saya?

Whisper meliputi kira-kira 100 bahasa, paling kuat dalam bahasa bersumber tinggi (Inggeris, Sepanyol, Jerman, Perancis, dll.). Untuk bahasa Cina, Jepun, Korea dan Kantonis, SenseVoice memberikan tanda baca lebih baik dan kelajuan jauh lebih tinggi pada Apple Silicon.

Adakah aplikasi transkripsi Whisper untuk iPhone?

Ada. Whisper Notes menjalankan model Whisper yang dioptimumkan untuk Neural Engine iPhone (iPhone 12 dan lebih baharu) — rakam, import daripada Voice Memos atau Files, dan transkripsikan sepenuhnya pada peranti dengan harga $6.99, tanpa langganan.

Muat Turun untuk iOS

Cuba Percuma di Mac