Parakeet V3 kini enjin lalai Mac — 10x lebih pantas daripada Whisper

7 Mac 2026
·
6 min read
·Whisper Notes Team

Bermula dari versi 1.3.2, Whisper Notes untuk Mac menggunakan NVIDIA Parakeet TDT 0.6B sebagai enjin pengecaman suara lalai. Ia 10x lebih pantas daripada Whisper Large V3 Turbo untuk bahasa Inggeris, dan lebih tepat juga. Model Whisper masih boleh digunakan kalau anda perlukan bahasa lain.

Kenapa Kami Tukar Model Lalai

Whisper memang bagus, tapi ia direka sebagai model serba guna. Ia boleh mengendalikan 100+ bahasa, menterjemah, menjana timestamp — macam pisau Swiss Army. Tukarannya ialah kelajuan. Untuk dikte bahasa Inggeris, di mana anda cuma nak perkataan muncul di skrin dengan pantas, ia berlebihan.

Ada satu benda yang mengganggu saya: bila guna dikte seluruh sistem melalui kekunci Fn dengan Whisper, habis bercakap ~1 minit kena tunggu 3–5 saat baru transkrip muncul. Jeda tu merosakkan aliran kerja. Berhenti bercakap, tunggu, tengok kursor — ia membunuh keajaiban voice typing.

Parakeet ubah semua tu. Kelajuannya begitu pantas sehingga transkrip muncul serta-merta bila anda berhenti bercakap. Bercakap, dan perkataan terus ada di situ. Sekali anda rasa pengalaman tu — aliran lancar tanpa menunggu — memang susah nak balik ke Whisper.

Berapa Pantas Parakeet V3?

Nombor bercakap lebih kuat daripada kata-kata. Ini perbandingan sebenar menggunakan fail audio 35 minit pada Mac yang sama:

Model Audio 35 minit
Whisper Large V3 Turbo 3 minit
Parakeet TDT 0.6B v3 18 saat

10x lebih pantas. Dan kerana model lebih kecil (600M berbanding 800M parameter), ia guna memori dan bateri yang lebih sedikit juga.

Apa yang Buat Parakeet v3 Begitu Pantas

Whisper mendengar audio macam anda membaca buku dengan kuat — perkataan demi perkataan, frame demi frame, tak pernah melompat ke hadapan. Walaupun masa senyap, ia masih memproses, masih meneka apa yang datang seterusnya. Teliti memang teliti, tapi lambat.

Parakeet guna pendekatan yang berbeza secara asas. Ia memampatkan isyarat audio 8x sebelum memproses, jadi model hanya nampak apa yang penting. Kemudian, daripada mengisar setiap frame satu per satu, ia meramal bukan sahaja perkataan apa yang anda sebut, tapi juga berapa lama perkataan itu berlangsung — dan terus melompat ke hadapan. Senyap? Dilangkau terus. Vokal yang panjang? Satu ramalan sahaja, bukan berpuluh-puluh.

Hasilnya ialah model yang memproses pertuturan macam cara otak anda bekerja — fokus pada perkataan, abaikan ruang kosong. Itulah sebabnya ia 10x lebih pantas dengan parameter lebih sedikit dan ketepatan lebih tinggi.

Penanda Aras: Parakeet v3 vs Whisper

Perbandingan Kadar Ralat Perkataan: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T merentasi beberapa set data penanda aras

Parakeet v3 menyamai atau mengatasi model 2-4x lebih besar merentasi penanda aras FLEURS, CoVoST dan MLS

Di Hugging Face Open ASR Leaderboard, Parakeet v3 menduduki puncak carta dengan hanya 600M parameter — kurang daripada separuh 1.55B Whisper Large V3:

Model Parameter WER Purata Kelajuan (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER lebih rendah = kurang ralat. RTFx lebih tinggi = lebih pantas. Parakeet menang kedua-duanya. Dengan 600M parameter, ia juga model paling kecil dalam senarai tu — bermakna ia berjalan dengan cantik di Apple Silicon dengan penggunaan memori dan bateri yang minimum.

Tiada Lagi Halusinasi

Kalau anda pernah guna Whisper untuk dikte, anda mungkin pernah nampak ia berhalusinasi masa senyap — mengulang frasa, mereka kata, atau tiba-tiba keluarkan "Subtitles by Amara.org" entah dari mana. Ini berlaku kerana decoder autoregressive Whisper sentiasa mengharapkan untuk menghasilkan teks, walaupun tiada apa untuk ditranskrip.

NVIDIA melatih Parakeet dengan 36,000 jam audio bukan-pertuturan tulen (bunyi latar, batuk, senyap) yang dipasangkan dengan sasaran rentetan kosong. Model belajar macam mana bunyi senyap dan kekal diam. Untuk dikte seluruh sistem yang sentiasa aktif, ini pengubah permainan — tiada lagi teks sampah muncul bila anda berhenti seketika untuk berfikir.

Bahasa yang Disokong Parakeet

Parakeet v3 menyokong 25 bahasa: Bulgaria, Croatia, Czech, Denmark, Belanda, Inggeris, Estonia, Finland, Perancis, Jerman, Greek, Hungary, Itali, Latvia, Lithuania, Malta, Poland, Portugis, Romania, Rusia, Slovakia, Slovenia, Sepanyol, Sweden dan Ukraine.

Itu meliputi hampir seluruh Eropah, tapi ia tidak menyokong bahasa Mandarin, Jepun, Korea, Arab atau Hindi. Sebab itulah kami kekalkan model Whisper sebagai pilihan muat turun. Kalau anda mendikte dalam bahasa Jepun atau Mandarin, pilih Whisper Large V3 Turbo dari pemilih model. Untuk bahasa Inggeris dan bahasa Eropah, Parakeet v3 memang enjin yang lebih baik.

Pemilih model Whisper Notes Mac menunjukkan Parakeet V3 sebagai lalai, dengan Whisper Small dan Whisper Large V3 Turbo boleh dimuat turun

Pemilih model: Parakeet V3 (lalai), Whisper Small dan Whisper Large V3 Turbo — semuanya berjalan secara tempatan

Pemilih Model dalam Whisper Notes

Buka Tetapan untuk bertukar antara model:

  • Parakeet V3 (lalai) — Paling pantas, terbaik untuk bahasa Inggeris & bahasa Eropah
  • Whisper Small — Ringan, 100+ bahasa
  • Whisper Large V3 Turbo — Model pelbagai bahasa paling tepat

Semua model berjalan 100% secara tempatan di Mac anda. Tanpa internet, tanpa awan, tiada data meninggalkan peranti anda.

Cuba Sekarang

Parakeet v3 sudah tersedia dalam versi Mac — cuma muat turun DMG terkini. Kalau maklum balas positif, kami akan bawa Parakeet ke versi iOS dalam kemas kini akan datang.

Ada soalan atau maklum balas? Emel ke support@whispernotes.app.