Parakeet V3 vs Whisper: 10x lebih pantas, ketepatan lebih baik (Benchmark)

TL;DR

	Parakeet V3	Perbandingan dengan Whisper
Kelajuan	10× berbanding Turbo; ~23× berbanding V3	Garis asas: Turbo / Large V3
Bahasa yang disokong	25	100+
Kadar ralat Inggeris (WER)	6.32%	Turbo 7.83%; V3 7.44%
Purata kadar ralat 25 bahasa (WER)	12.0%	12.6%
Halusinasi	Hampir tiada semasa senyap dalam ujian kami	Boleh muncul semasa senyap
Terbaik untuk	Inggeris & Eropah	Asia, Arab, 100+

* Kelajuan: audio 35 minit yang sama pada Apple Silicon. WER Inggeris: Hugging Face Open ASR Leaderboard. Purata 25 bahasa: penanda aras FLEURS. Kelakuan semasa senyap ialah pemerhatian produk kami, bukan jaminan bebas ralat sepenuhnya.

Bermula dari versi 1.3.2 (Direct Download / DMG), Whisper Notes untuk Mac menggunakan NVIDIA Parakeet TDT 0.6B sebagai enjin pengecaman suara lalai. Ia 10x lebih pantas daripada Whisper Large V3 Turbo untuk bahasa Inggeris, dan lebih tepat juga. Model Whisper masih boleh digunakan kalau anda perlukan bahasa lain.

Kenapa Kami Tukar Model Lalai

Whisper memang bagus, tapi ia direka sebagai model serba guna. Ia boleh mengendalikan 100+ bahasa, menterjemah, menjana timestamp — macam pisau Swiss Army. Tukarannya ialah kelajuan. Untuk dikte bahasa Inggeris, di mana anda cuma nak perkataan muncul di skrin dengan pantas, ia berlebihan.

Ada satu benda yang mengganggu saya: bila guna dikte seluruh sistem melalui kekunci Fn dengan Whisper, habis bercakap ~1 minit kena tunggu 3–5 saat baru transkrip muncul. Jeda tu merosakkan aliran kerja. Berhenti bercakap, tunggu, tengok kursor — ia membunuh keajaiban voice typing.

Parakeet ubah semua tu. Kelajuannya begitu pantas sehingga transkrip muncul serta-merta bila anda berhenti bercakap. Bercakap, dan perkataan terus ada di situ. Sekali anda rasa pengalaman tu — aliran lancar tanpa menunggu — memang susah nak balik ke Whisper.

Berapa Pantas Parakeet V3?

Nombor bercakap lebih kuat daripada kata-kata. Ini perbandingan sebenar menggunakan fail audio 35 minit pada Mac yang sama:

Model	Audio 35 minit
Whisper Large V3 Turbo	3 minit
Parakeet TDT 0.6B v3	18 saat

10x lebih pantas. Dan kerana model lebih kecil (600M berbanding 800M parameter), ia guna memori dan bateri yang lebih sedikit juga.

Apa yang Buat Parakeet v3 Begitu Pantas

Whisper mendengar audio macam anda membaca buku dengan kuat — perkataan demi perkataan, frame demi frame, tak pernah melompat ke hadapan. Walaupun masa senyap, ia masih memproses, masih meneka apa yang datang seterusnya. Teliti memang teliti, tapi lambat.

Parakeet guna pendekatan yang berbeza secara asas. Ia memampatkan isyarat audio 8x sebelum memproses, jadi model hanya nampak apa yang penting. Kemudian, daripada mengisar setiap frame satu per satu, ia meramal bukan sahaja perkataan apa yang anda sebut, tapi juga berapa lama perkataan itu berlangsung — dan terus melompat ke hadapan. Senyap? Dilangkau terus. Vokal yang panjang? Satu ramalan sahaja, bukan berpuluh-puluh.

Hasilnya ialah model yang memproses pertuturan macam cara otak anda bekerja — fokus pada perkataan, abaikan ruang kosong. Itulah sebabnya ia 10x lebih pantas dengan parameter lebih sedikit dan ketepatan lebih tinggi.

Penanda Aras: Parakeet v3 vs Whisper

Perbandingan Kadar Ralat Perkataan: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T merentasi beberapa set data penanda aras

Parakeet v3 menyamai atau mengatasi model 2-4x lebih besar merentasi penanda aras FLEURS, CoVoST dan MLS

Di Hugging Face Open ASR Leaderboard, Parakeet v3 menduduki puncak carta dengan hanya 600M parameter — kurang daripada separuh 1.55B Whisper Large V3:

Model	Parameter	WER Purata	Kelajuan (RTFx)
Parakeet TDT 0.6B v3	0.6B	6.32%	3,333x
Canary 1B v2	1.0B	7.15%	749x
Whisper Large V3	1.55B	7.44%	146x
Whisper Large V3 Turbo	0.8B	7.83%	350x

WER lebih rendah = kurang ralat. RTFx lebih tinggi = lebih pantas. Parakeet menang kedua-duanya. Dengan 600M parameter, ia juga model paling kecil dalam senarai tu — bermakna ia berjalan dengan cantik di Apple Silicon dengan penggunaan memori dan bateri yang minimum.

WER Pelbagai Bahasa: Kesemua 25 Bahasa

Carta kedudukan di atas hanya meliputi bahasa Inggeris. Ini gambaran penuh — bagaimana tiga model yang tersedia dalam Whisper Notes dibandingkan merentasi kesemua 25 bahasa yang disokong Parakeet, diukur pada penanda aras FLEURS. WER lebih rendah = kurang ralat transkripsi. Nilai terbaik antara Large V3 dan Parakeet disorot setiap baris:

Bahasa	Whisper Small	Whisper Large V3	Parakeet V3
Bulgaria	37.3	12.9	12.6
Croatia	33.4	11.1	12.5
Czech	37.6	11.3	11.0
Denmark	32.8	12.6	18.4
Belanda	16.4	5.6	7.5
Inggeris	6.1	4.3	4.9
Estonia	51.3	19.1	17.7
Finland	24.0	7.7	13.2
Perancis	15.0	6.3	5.2
Jerman	10.2	4.3	5.0
Greek	30.8	27.0	20.7
Hungary	38.9	14.1	15.7
Itali	9.8	2.3	3.0
Latvia	53.2	18.3	22.8
Lithuania	65.6	22.3	20.4
Malta	92.2	68.9	20.5
Poland	14.7	4.7	7.3
Portugis	7.3	3.7	4.8
Romania	29.8	8.2	12.4
Rusia	11.4	4.2	5.5
Slovakia	33.3	8.4	8.8
Slovenia	49.3	19.9	24.0
Sepanyol	5.6	3.1	3.5
Sweden	20.8	7.9	15.1
Ukraine	19.3	6.5	6.8
Purata	29.8	12.6	12.0

WER (%) pada FLEURS. Data Whisper Small daripada Radford et al.; data Large V3 dan Parakeet V3 daripada kertas kerja NVIDIA Canary-1B-v2.

Whisper Large V3 mendahului sedikit dalam kebanyakan bahasa secara individu, tetapi Parakeet V3 hampir setanding secara purata (12.0% berbanding 12.6%), mendahului dalam bahasa Greek, Perancis, Estonia dan Malta, serta memangkas purata kadar ralat Whisper Small kira-kira 60%. Kelebihan praktikalnya ialah gabungan semuanya: ketepatan pelbagai bahasa setara Large V3 pada kelajuan kira-kira 23×, jejak memori yang lebih kecil semasa berjalan, dan pengendalian senyap yang jauh lebih boleh dipercayai dalam ujian dikte kami.

Kenapa Ia Kurang Berhalusinasi Semasa Senyap

Kalau anda pernah guna Whisper untuk dikte, anda mungkin pernah nampak ia berhalusinasi masa senyap — mengulang frasa, mereka-reka perkataan, atau tiba-tiba mengeluarkan "Subtitles by Amara.org" entah dari mana. Ini berlaku kerana decoder autoregressive Whisper sentiasa menjangka untuk menghasilkan teks, walaupun tiada apa-apa untuk ditranskripsi.

Seni bina transducer Parakeet boleh mengeluarkan output kosong dan tidak memaksa dirinya menghasilkan token teks. Dalam ujian dikte seluruh sistem kami, ini menjadikannya jauh kurang cenderung berbanding Whisper untuk mengisi jeda dengan teks berulang atau tidak berkaitan. Namun ia tetap sebuah model pertuturan, jadi dakwaan yang tepat ialah “kurang cenderung”, bukan “tidak pernah”.

Bahasa yang Disokong Parakeet

Parakeet v3 menyokong 25 bahasa: Bulgaria, Croatia, Czech, Denmark, Belanda, Inggeris, Estonia, Finland, Perancis, Jerman, Greek, Hungary, Itali, Latvia, Lithuania, Malta, Poland, Portugis, Romania, Rusia, Slovakia, Slovenia, Sepanyol, Sweden dan Ukraine.

Itu meliputi hampir seluruh Eropah, tapi tidak termasuk bahasa Mandarin, Jepun, Korea, Arab atau Hindi. Untuk bahasa Mandarin, Jepun, Korea dan Kantonis, pilih SenseVoice; untuk bahasa Arab, Hindi, Melayu dan bahasa lain di luar liputan Parakeet, gunakan Whisper Large V3 Turbo.

Pemilih model Whisper Notes Mac menunjukkan Parakeet V3, SenseVoice Small, Whisper Small dan Whisper Large V3 Turbo

Pemilih model: Parakeet V3 (lalai), SenseVoice Small, Whisper Small dan Whisper Large V3 Turbo — semuanya berjalan secara tempatan

Pemilih Model dalam Whisper Notes

Buka Tetapan untuk bertukar antara model:

Parakeet V3 (lalai) — Paling pantas, terbaik untuk bahasa Inggeris & bahasa Eropah
SenseVoice Small — Paling pantas untuk bahasa Mandarin, Jepun, Korea dan Kantonis
Whisper Small — Ringan, 100+ bahasa
Whisper Large V3 Turbo — Liputan luas 100+ bahasa

Semua model berjalan 100% secara tempatan di Mac anda. Tanpa internet, tanpa awan, tiada data meninggalkan peranti anda.

Bagaimana dengan Parakeet V2?

Jika anda pernah menggunakan V2, mungkin anda tertanya-tanya bagaimana perbandingannya. V2 adalah model untuk Bahasa Inggeris sahaja — dan ketepatan Bahasa Inggerisnya sebenarnya sedikit lebih baik daripada V3 (WER 6.05% vs 6.32%). V3 menukar perbezaan kecil itu dengan sokongan 25 bahasa. Kedua-duanya jauh lebih tepat daripada Whisper.

	Parakeet V2	Parakeet V3	Whisper Large V3
WER Inggeris	6.05%	6.32%	7.44%
Bahasa	Inggeris sahaja	25	100+

Ringkasnya: jika anda hanya perlukan bahasa Inggeris, V2 dan V3 kedua-duanya cemerlang. V3 adalah lalai dalam Whisper Notes kerana sokongan berbilang bahasa penting bagi kebanyakan pengguna — dan perbezaan ketepatan bahasa Inggeris boleh diabaikan.

Bagaimana pula dengan WhisperKit?

WhisperKit ialah rangka kerja Swift sumber terbuka daripada Argmax untuk menjalankan model Whisper pada peranti Apple. Ia kit alat untuk pembangun, bukan aplikasi untuk pengguna akhir — dan ia menjalankan Whisper, bukan Parakeet (yang merupakan keluarga model NVIDIA). Kalau anda mahu transkripsi pada peranti gaya WhisperKit tanpa perlu menulis Swift sendiri, Whisper Notes membungkus idea yang sama sebagai aplikasi sedia guna: Parakeet V3, Whisper Large V3 Turbo dan SenseVoice, semuanya berjalan secara tempatan di Mac dan iPhone.

Sedang membandingkan semua pilihan tempatan? Setiap model penukaran suara kepada teks pada peranti — varian Whisper, Parakeet V3, SenseVoice dan Voxtral — dibandingkan sebelah-menyebelah di halaman perbandingan model Whisper kami. Baru mengenali Whisper? Mulakan dengan Panduan Transkripsi Whisper — apa itu model ini, semua cara untuk menjalankannya, dan berapa kosnya.

Soalan Lazim

Adakah Parakeet V3 lebih baik daripada Whisper?

Untuk bahasa Inggeris dan bahasa-bahasa Eropah, selalunya ya. Dalam ujian 35 minit kami, Parakeet 10× lebih pantas daripada Whisper Turbo, dan Open ASR Leaderboard melaporkan WER bahasa Inggeris 6.32% untuk Parakeet berbanding 7.83% untuk Turbo. Whisper masih meliputi jauh lebih banyak bahasa: lebih 100 bahasa berbanding 25 bahasa Parakeet.

Apakah bahasa yang disokong Parakeet V3?

Parakeet V3 menyokong 25 bahasa: Bulgaria, Croatia, Czech, Denmark, Belanda, Inggeris, Estonia, Finland, Perancis, Jerman, Greek, Hungary, Itali, Latvia, Lithuania, Malta, Poland, Portugis, Romania, Rusia, Slovakia, Slovenia, Sepanyol, Sweden dan Ukraine.

Bolehkah saya menjalankan Parakeet V3 di Mac?

Boleh. Whisper Notes untuk Mac dilengkapi Parakeet V3 sebagai enjin lalai. Ia berjalan 100% secara tempatan pada Apple Silicon — tanpa internet, tanpa awan, tiada data meninggalkan peranti anda. Muat turun DMG percubaan percuma untuk mencubanya.

Adakah Parakeet V3 berhalusinasi seperti Whisper?

Jauh lebih jarang dalam ujian senyap kami, tetapi tiada model pertuturan yang layak diberi dakwaan “tidak pernah”. Parakeet boleh mengeluarkan output kosong semasa jeda, manakala decoder autoregressive Whisper lebih cenderung menghasilkan frasa berulang atau teks tidak berkaitan apabila inputnya senyap.

Parakeet V2 vs V3 — yang mana patut saya guna?

Parakeet V2 hanya untuk bahasa Inggeris dengan ketepatan bahasa Inggeris yang sedikit lebih baik (WER 6.05% berbanding 6.32%). V3 menukar perbezaan kecil itu dengan 25 bahasa Eropah dan menjadi lalai dalam Whisper Notes. Melainkan anda mentranskripsi bahasa Inggeris semata-mata dan mengejar pecahan peratus terakhir, gunakan V3.

Adakah Parakeet V3 menyokong bahasa Jepun, Mandarin atau Korea?

Tidak — kesemua 25 bahasanya ialah bahasa Eropah. Untuk bahasa Mandarin, Jepun, Korea atau Kantonis, Whisper Notes menyertakan SenseVoice (52x lebih pantas daripada Whisper untuk bahasa CJK) dan model Whisper. Semuanya berjalan luar talian di Mac dan iPhone.

Berapa besar Parakeet V3?

600 juta parameter — muat turun 465 MB yang menggunakan kira-kira 800 MB memori semasa mentranskripsi dalam binaan Mac kami. Whisper Large V3 Turbo pula muat turun kira-kira 1.6 GB dan menggunakan kira-kira 1.6 GB memori dalam aplikasi yang sama.

Cuba Sekarang

Parakeet v3 sudah tersedia dalam versi Mac — cuma muat turun DMG terkini. (Kemas kini: Parakeet kini turut tersedia dalam versi iOS terkini.)

Ada soalan atau maklum balas? Emel ke support@whispernotes.app.

Muat Turun untuk iOS

Muat Turun untuk macOS