Parakeet V3 Sekarang Menjadi Mesin Default Mac — 10x Lebih Cepat dari Whisper

7 Maret 2026
·
6 min read
·Whisper Notes Team

Mulai dari versi 1.3.2, Whisper Notes untuk Mac menggunakan NVIDIA Parakeet TDT 0.6B sebagai engine pengenalan suara default. Kecepatannya 10x lebih cepat dari Whisper Large V3 Turbo untuk bahasa Inggris, dan lebih akurat juga. Model Whisper tetap tersedia kalau kamu butuh bahasa lain.

Kenapa Kami Ganti Default-nya

Whisper memang bagus, tapi dia didesain sebagai model serba guna. Bisa handle 100+ bahasa, menerjemahkan, bikin timestamp — pisau Swiss Army lah. Konsekuensinya ya kecepatan. Buat dikte bahasa Inggris, di mana kamu cuma mau teks muncul di layar secepat mungkin, itu berlebihan.

Ada satu hal yang bikin saya kesal: waktu pakai dikte sistem via tombol Fn dengan Whisper, selesai ngomong ~1 menit harus nunggu 3–5 detik baru transkrip muncul. Jeda itu merusak flow. Berhenti ngomong, nunggu, melirik kursor — keajaiban voice typing hilang begitu saja.

Parakeet mengubah semuanya. Kecepatannya begitu tinggi sehingga transkrip muncul seketika begitu kamu berhenti bicara. Ngomong, dan kata-katanya langsung ada di sana. Begitu kamu merasakan pengalaman itu — aliran mulus tanpa jeda — susah banget balik ke Whisper.

Seberapa Cepat Parakeet V3?

Angka bicara lebih keras dari kata-kata. Ini perbandingan nyata menggunakan file audio 35 menit di Mac yang sama:

Model Audio 35 menit
Whisper Large V3 Turbo 3 menit
Parakeet TDT 0.6B v3 18 detik

10x lebih cepat. Dan karena modelnya lebih kecil (600M vs 800M parameter), dia pakai lebih sedikit memori dan baterai juga.

Apa yang Bikin Parakeet v3 Secepat Ini

Whisper mendengarkan audio seperti kamu membaca buku dengan keras — kata per kata, frame per frame, nggak pernah loncat ke depan. Bahkan saat hening, dia tetap memproses, tetap menebak apa yang datang selanjutnya. Teliti sih, tapi lambat.

Parakeet pakai pendekatan yang fundamentally berbeda. Dia mengompresi sinyal audio 8x sebelum diproses, jadi model hanya melihat yang penting. Lalu, alih-alih menggiling setiap frame satu per satu, dia memprediksi bukan cuma kata apa yang kamu ucapkan, tapi juga berapa lama kata itu berlangsung — dan langsung loncat ke depan. Keheningan? Dilewati sepenuhnya. Vokal yang panjang? Satu prediksi saja, bukan puluhan.

Hasilnya adalah model yang memproses ucapan seperti cara otak kamu bekerja — fokus pada kata-kata, abaikan jeda. Itulah kenapa dia 10x lebih cepat dengan parameter lebih sedikit dan akurasi lebih tinggi.

Benchmark: Parakeet v3 vs Whisper

Perbandingan Word Error Rate: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T di beberapa dataset benchmark

Parakeet v3 menyamai atau mengalahkan model yang 2-4x lebih besar di benchmark FLEURS, CoVoST, dan MLS

Di Hugging Face Open ASR Leaderboard, Parakeet v3 menduduki puncak dengan hanya 600M parameter — kurang dari setengah 1.55B milik Whisper Large V3:

Model Parameter WER Rata-rata Kecepatan (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER lebih rendah = lebih sedikit error. RTFx lebih tinggi = lebih cepat. Parakeet menang di keduanya. Dengan 600M parameter, dia juga model terkecil di daftar itu — artinya dia berjalan mulus di Apple Silicon dengan konsumsi memori dan baterai yang minimal.

Nggak Ada Halusinasi Lagi

Kalau kamu pernah pakai Whisper untuk dikte, pasti pernah lihat dia berhalusinasi saat hening — mengulang frasa, mengarang kata, atau tiba-tiba muncul "Subtitles by Amara.org" entah dari mana. Ini terjadi karena decoder autoregressive Whisper selalu mengharapkan untuk menghasilkan teks, meskipun tidak ada yang perlu ditranskrip.

NVIDIA melatih Parakeet dengan 36,000 jam audio murni non-ucapan (suara latar, batuk, keheningan) yang dipasangkan dengan target string kosong. Model belajar seperti apa keheningan itu dan tetap diam. Untuk dikte sistem yang selalu aktif, ini game-changer — nggak ada lagi teks sampah yang muncul saat kamu berhenti sejenak untuk berpikir.

Bahasa yang Didukung Parakeet

Parakeet v3 mendukung 25 bahasa: Bulgaria, Kroasia, Ceko, Denmark, Belanda, Inggris, Estonia, Finlandia, Prancis, Jerman, Yunani, Hungaria, Italia, Latvia, Lituania, Malta, Polandia, Portugis, Rumania, Rusia, Slovakia, Slovenia, Spanyol, Swedia, dan Ukraina.

Itu mencakup hampir seluruh Eropa, tapi tidak mendukung bahasa Mandarin, Jepang, Korea, Arab, atau Hindi. Makanya kami tetap menyediakan model Whisper untuk diunduh. Kalau kamu dikte dalam bahasa Jepang atau Mandarin, pilih Whisper Large V3 Turbo dari pemilih model. Untuk bahasa Inggris dan bahasa Eropa, Parakeet v3 jelas engine yang lebih baik.

Pemilih model Whisper Notes Mac menampilkan Parakeet V3 sebagai default, dengan Whisper Small dan Whisper Large V3 Turbo yang bisa diunduh

Pemilih model: Parakeet V3 (default), Whisper Small, dan Whisper Large V3 Turbo — semuanya berjalan lokal

Pemilih Model di Whisper Notes

Buka Pengaturan untuk beralih antar model:

  • Parakeet V3 (default) — Tercepat, terbaik untuk bahasa Inggris & bahasa Eropa
  • Whisper Small — Ringan, 100+ bahasa
  • Whisper Large V3 Turbo — Model multi-bahasa paling akurat

Semua model berjalan 100% lokal di Mac kamu. Tanpa internet, tanpa cloud, tidak ada data yang keluar dari perangkat.

Coba Sekarang

Parakeet v3 sudah tersedia di versi Mac — tinggal download DMG terbaru. Kalau feedback-nya positif, kami akan bawa Parakeet ke versi iOS di update mendatang.

Ada pertanyaan atau feedback? Email ke support@whispernotes.app.