Parakeet V3 vs Whisper: 10x Lebih Cepat, Akurasi Lebih Baik (Benchmark)

TL;DR

	Parakeet V3	Perbandingan Whisper
Kecepatan	10× vs Turbo; ~23× vs V3	Baseline: Turbo / Large V3
Bahasa yang didukung	25	100+
Tingkat kesalahan Inggris (WER)	6.32%	Turbo 7.83%; V3 7.44%
Rata-rata kesalahan 25 bahasa (WER)	12.0%	12.6%
Halusinasi	Nyaris tidak ada saat hening dalam pengujian kami	Bisa muncul saat hening
Terbaik untuk	Inggris & Eropa	Asia, Arab, 100+

* Kecepatan: audio 35 menit yang sama di Apple Silicon. WER Inggris: Hugging Face Open ASR Leaderboard. Rata-rata 25 bahasa: benchmark FLEURS. Perilaku saat hening adalah observasi produk kami, bukan jaminan bebas kesalahan sepenuhnya.

Mulai dari versi 1.3.2 (Direct Download / DMG), Whisper Notes untuk Mac menggunakan NVIDIA Parakeet TDT 0.6B sebagai engine pengenalan suara default. Kecepatannya 10x lebih cepat dari Whisper Large V3 Turbo untuk bahasa Inggris, dan lebih akurat juga. Model Whisper tetap tersedia kalau Anda butuh bahasa lain.

Kenapa Kami Ganti Default-nya

Whisper memang bagus, tapi ia didesain sebagai model serba guna. Bisa menangani lebih dari 100 bahasa, menerjemahkan, membuat timestamp — seperti pisau Swiss Army. Konsekuensinya adalah kecepatan. Untuk dikte bahasa Inggris, di mana Anda hanya ingin teks muncul di layar secepat mungkin, itu berlebihan.

Ada satu hal yang selalu mengganggu saya: saat memakai dikte seluruh sistem via tombol Fn dengan Whisper, selesai bicara ~1 menit harus menunggu 3–5 detik sampai transkrip muncul. Jeda itu merusak alur. Berhenti bicara, menunggu, menatap kursor — keajaiban mengetik dengan suara hilang begitu saja.

Parakeet mengubah semuanya. Kecepatannya begitu tinggi sehingga transkrip muncul seketika begitu Anda berhenti bicara. Bicara saja, dan kata-katanya langsung ada di sana. Begitu Anda merasakan pengalaman itu — aliran mulus tanpa jeda — sangat sulit kembali ke Whisper.

Seberapa Cepat Parakeet V3?

Angka bicara lebih keras dari kata-kata. Ini perbandingan nyata menggunakan file audio 35 menit di Mac yang sama:

Model	Audio 35 menit
Whisper Large V3 Turbo	3 menit
Parakeet TDT 0.6B v3	18 detik

10x lebih cepat. Dan karena modelnya lebih kecil (600M vs 800M parameter), ia memakai lebih sedikit memori dan baterai juga.

Apa yang Membuat Parakeet v3 Secepat Ini

Whisper mendengarkan audio seperti Anda membaca buku dengan lantang — kata per kata, frame per frame, tidak pernah melompat ke depan. Bahkan saat hening, ia tetap memproses, tetap menebak apa yang datang selanjutnya. Teliti memang, tapi lambat.

Parakeet memakai pendekatan yang secara fundamental berbeda. Ia mengompresi sinyal audio 8x sebelum diproses, jadi model hanya melihat yang penting. Lalu, alih-alih menggiling setiap frame satu per satu, ia memprediksi bukan hanya kata apa yang Anda ucapkan, tapi juga berapa lama kata itu berlangsung — dan langsung melompat ke depan. Keheningan? Dilewati sepenuhnya. Vokal yang panjang? Satu prediksi saja, bukan puluhan.

Hasilnya adalah model yang memproses ucapan seperti cara otak Anda bekerja — fokus pada kata-kata, abaikan jeda. Itulah kenapa ia 10x lebih cepat dengan parameter lebih sedikit dan akurasi lebih tinggi.

Benchmark: Parakeet v3 vs Whisper

Perbandingan Word Error Rate: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T di beberapa dataset benchmark

Parakeet v3 menyamai atau mengalahkan model yang 2-4x lebih besar di benchmark FLEURS, CoVoST, dan MLS

Di Hugging Face Open ASR Leaderboard, Parakeet v3 menduduki puncak dengan hanya 600M parameter — kurang dari setengah 1.55B milik Whisper Large V3:

Model	Parameter	WER Rata-rata	Kecepatan (RTFx)
Parakeet TDT 0.6B v3	0.6B	6.32%	3,333x
Canary 1B v2	1.0B	7.15%	749x
Whisper Large V3	1.55B	7.44%	146x
Whisper Large V3 Turbo	0.8B	7.83%	350x

WER lebih rendah = lebih sedikit error. RTFx lebih tinggi = lebih cepat. Parakeet menang di keduanya. Dengan 600M parameter, ia juga model terkecil di daftar itu — artinya ia berjalan mulus di Apple Silicon dengan konsumsi memori dan baterai yang minimal.

WER Multibahasa: Semua 25 Bahasa

Leaderboard di atas hanya mencakup bahasa Inggris. Ini gambaran lengkapnya — bagaimana tiga model yang tersedia di Whisper Notes dibandingkan di semua 25 bahasa yang didukung Parakeet, diukur pada benchmark FLEURS. WER lebih rendah = lebih sedikit error transkripsi. Nilai terbaik antara Large V3 dan Parakeet di-highlight per baris:

Bahasa	Whisper Small	Whisper Large V3	Parakeet V3
Bulgaria	37.3	12.9	12.6
Kroasia	33.4	11.1	12.5
Ceko	37.6	11.3	11.0
Denmark	32.8	12.6	18.4
Belanda	16.4	5.6	7.5
Inggris	6.1	4.3	4.9
Estonia	51.3	19.1	17.7
Finlandia	24.0	7.7	13.2
Prancis	15.0	6.3	5.2
Jerman	10.2	4.3	5.0
Yunani	30.8	27.0	20.7
Hungaria	38.9	14.1	15.7
Italia	9.8	2.3	3.0
Latvia	53.2	18.3	22.8
Lituania	65.6	22.3	20.4
Malta	92.2	68.9	20.5
Polandia	14.7	4.7	7.3
Portugis	7.3	3.7	4.8
Rumania	29.8	8.2	12.4
Rusia	11.4	4.2	5.5
Slovakia	33.3	8.4	8.8
Slovenia	49.3	19.9	24.0
Spanyol	5.6	3.1	3.5
Swedia	20.8	7.9	15.1
Ukraina	19.3	6.5	6.8
Rata-rata	29.8	12.6	12.0

WER (%) pada FLEURS. Data Whisper Small dari Radford et al.; data Large V3 dan Parakeet V3 dari paper NVIDIA Canary-1B-v2.

Whisper Large V3 unggul tipis di sebagian besar bahasa secara individual, tapi Parakeet V3 hampir setara secara rata-rata (12,0% vs 12,6%), memimpin di bahasa Yunani, Prancis, Estonia, dan Malta, serta memangkas rata-rata tingkat kesalahan Whisper Small sekitar 60%. Keunggulan praktisnya ada pada kombinasinya: akurasi multibahasa setara Large V3 dengan kecepatan sekitar 23×, jejak memori yang lebih kecil saat berjalan, dan penanganan keheningan yang jauh lebih andal dalam pengujian dikte kami.

Kenapa Halusinasinya Lebih Jarang Saat Hening

Kalau Anda pernah memakai Whisper untuk dikte, Anda mungkin pernah melihatnya berhalusinasi saat hening — mengulang frasa, mengarang kata, atau tiba-tiba memunculkan "Subtitles by Amara.org" entah dari mana. Ini terjadi karena decoder autoregressive Whisper selalu berekspektasi menghasilkan teks, meskipun tidak ada yang perlu ditranskripsi.

Arsitektur transducer Parakeet bisa mengeluarkan output kosong alih-alih memaksakan token teks. Dalam pengujian dikte seluruh sistem kami, itu membuatnya jauh lebih kecil kemungkinannya dibanding Whisper untuk mengisi jeda dengan teks berulang atau tidak relevan. Ia tetaplah model suara, jadi klaim yang akurat adalah “lebih jarang”, bukan “tidak pernah”.

Bahasa yang Didukung Parakeet

Parakeet v3 mendukung 25 bahasa: Bulgaria, Kroasia, Ceko, Denmark, Belanda, Inggris, Estonia, Finlandia, Prancis, Jerman, Yunani, Hungaria, Italia, Latvia, Lituania, Malta, Polandia, Portugis, Rumania, Rusia, Slovakia, Slovenia, Spanyol, Swedia, dan Ukraina.

Itu mencakup hampir seluruh Eropa, tapi tidak termasuk bahasa Mandarin, Jepang, Korea, Arab, atau Hindi. Untuk bahasa Mandarin, Jepang, Korea, dan Kanton, pilih SenseVoice; untuk bahasa Arab, Hindi, Indonesia, dan bahasa lain di luar cakupan Parakeet, gunakan Whisper Large V3 Turbo.

Pemilih model Whisper Notes Mac menampilkan Parakeet V3, SenseVoice Small, Whisper Small, dan Whisper Large V3 Turbo

Pemilih model: Parakeet V3 (default), SenseVoice Small, Whisper Small, dan Whisper Large V3 Turbo — semuanya berjalan lokal

Pemilih Model di Whisper Notes

Buka Pengaturan untuk beralih antar model:

Parakeet V3 (default) — Tercepat, terbaik untuk bahasa Inggris & bahasa Eropa
SenseVoice Small — Tercepat untuk bahasa Mandarin, Jepang, Korea, dan Kanton
Whisper Small — Ringan, 100+ bahasa
Whisper Large V3 Turbo — Cakupan luas 100+ bahasa

Semua model berjalan 100% lokal di Mac Anda. Tanpa internet, tanpa cloud, tidak ada data yang keluar dari perangkat.

Bagaimana dengan Parakeet V2?

Kalau Anda pernah memakai V2, mungkin penasaran bagaimana perbandingannya. V2 adalah model khusus Bahasa Inggris — dan akurasi Bahasa Inggrisnya sebenarnya sedikit lebih baik dari V3 (WER 6,05% vs 6,32%). V3 menukar selisih kecil itu dengan dukungan 25 bahasa. Keduanya jauh lebih akurat dari Whisper.

	Parakeet V2	Parakeet V3	Whisper Large V3
WER Inggris	6.05%	6.32%	7.44%
Bahasa	Hanya Inggris	25	100+

Singkatnya: kalau Anda hanya butuh bahasa Inggris, V2 dan V3 sama-sama bagus. V3 jadi default di Whisper Notes karena dukungan multibahasa penting bagi kebanyakan pengguna — dan perbedaan akurasi bahasa Inggrisnya bisa diabaikan.

Bagaimana dengan WhisperKit?

WhisperKit adalah framework Swift open-source dari Argmax untuk menjalankan model Whisper di perangkat Apple. Ia adalah toolkit untuk developer, bukan aplikasi untuk pengguna akhir — dan ia menjalankan Whisper, bukan Parakeet (yang merupakan keluarga model NVIDIA). Kalau Anda ingin transkripsi on-device ala WhisperKit tanpa menulis Swift sendiri, Whisper Notes mengemas ide yang sama sebagai aplikasi siap pakai: Parakeet V3, Whisper Large V3 Turbo, dan SenseVoice, semuanya berjalan lokal di Mac dan iPhone.

Sedang membandingkan semua opsi lokal? Setiap model speech-to-text on-device — varian Whisper, Parakeet V3, SenseVoice, dan Voxtral — dibandingkan berdampingan di halaman perbandingan model Whisper kami. Baru mengenal Whisper? Mulailah dari Panduan Transkripsi Whisper — apa itu modelnya, semua cara menjalankannya, dan berapa biayanya.

Pertanyaan yang Sering Diajukan

Apakah Parakeet V3 lebih baik dari Whisper?

Untuk bahasa Inggris dan bahasa-bahasa Eropa, sering kali ya. Dalam pengujian 35 menit kami, Parakeet 10× lebih cepat dari Whisper Turbo, dan Open ASR Leaderboard melaporkan WER bahasa Inggris 6,32% untuk Parakeet versus 7,83% untuk Turbo. Whisper tetap mencakup jauh lebih banyak bahasa: lebih dari 100 bahasa dibanding 25 milik Parakeet.

Bahasa apa saja yang didukung Parakeet V3?

Parakeet V3 mendukung 25 bahasa: Bulgaria, Kroasia, Ceko, Denmark, Belanda, Inggris, Estonia, Finlandia, Prancis, Jerman, Yunani, Hungaria, Italia, Latvia, Lituania, Malta, Polandia, Portugis, Rumania, Rusia, Slovakia, Slovenia, Spanyol, Swedia, dan Ukraina.

Bisakah saya menjalankan Parakeet V3 di Mac?

Bisa. Whisper Notes untuk Mac menyertakan Parakeet V3 sebagai engine default. Ia berjalan 100% lokal di Apple Silicon — tanpa internet, tanpa cloud, tidak ada data yang keluar dari perangkat Anda. Unduh DMG uji coba gratis untuk mencobanya.

Apakah Parakeet V3 berhalusinasi seperti Whisper?

Jauh lebih jarang dalam pengujian hening kami, tapi tidak ada model suara yang pantas diberi klaim “tidak pernah”. Parakeet bisa mengeluarkan output kosong selama jeda, sementara decoder autoregressive Whisper lebih rentan menghasilkan frasa berulang atau teks yang tidak relevan saat inputnya hening.

Parakeet V2 vs V3 — mana yang sebaiknya saya pakai?

Parakeet V2 hanya mendukung bahasa Inggris dengan akurasi bahasa Inggris yang sedikit lebih baik (WER 6,05% vs 6,32%). V3 menukar selisih kecil itu dengan 25 bahasa Eropa dan menjadi default di Whisper Notes. Kecuali Anda hanya mentranskripsi bahasa Inggris dan mengejar pecahan persen terakhir, gunakan V3.

Apakah Parakeet V3 mendukung bahasa Jepang, Mandarin, atau Korea?

Tidak — 25 bahasanya semuanya bahasa Eropa. Untuk bahasa Mandarin, Jepang, Korea, atau Kanton, Whisper Notes menyertakan SenseVoice (52x lebih cepat dari Whisper untuk bahasa CJK) dan model Whisper. Semuanya berjalan offline baik di Mac maupun iPhone.

Seberapa besar Parakeet V3?

600 juta parameter — unduhan 465 MB yang memakai sekitar 800 MB memori saat mentranskripsi di build Mac kami. Whisper Large V3 Turbo berukuran unduhan sekitar 1,6 GB dan memakai sekitar 1,6 GB memori di aplikasi yang sama.

Coba Sekarang

Parakeet v3 sudah tersedia di versi Mac — tinggal download DMG terbaru. (Update: Parakeet sekarang juga tersedia di versi iOS terbaru.)

Ada pertanyaan atau feedback? Email ke support@whispernotes.app.

Download untuk iOS

Download untuk macOS