Parakeet V3 vs Whisper: Nhanh hơn 10 lần, chính xác hơn (Benchmark)

TL;DR

	Parakeet V3	So sánh với Whisper
Tốc độ	10× so với Turbo; ~23× so với V3	Mốc chuẩn Turbo / Large V3
Ngôn ngữ hỗ trợ	25	100+
Tỷ lệ lỗi tiếng Anh (WER)	6,32%	Turbo 7,83%; V3 7,44%
Tỷ lệ lỗi TB 25 ngôn ngữ (WER)	12,0%	12,6%
Ảo giác	Gần như không gặp khi im lặng trong thử nghiệm của mình	Có thể xuất hiện khi im lặng
Phù hợp nhất	Tiếng Anh & châu Âu	Châu Á, Ả Rập, 100+

* Tốc độ: cùng file âm thanh 35 phút trên Apple Silicon. WER tiếng Anh: Hugging Face Open ASR Leaderboard. Trung bình 25 ngôn ngữ: benchmark FLEURS. Hành vi khi im lặng là quan sát từ sản phẩm của mình, không phải cam kết không bao giờ sai.

Bắt đầu từ phiên bản 1.3.2 (Direct Download / DMG), Whisper Notes cho Mac sử dụng NVIDIA Parakeet TDT 0.6B làm engine nhận dạng giọng nói mặc định. Nó nhanh hơn 10 lần so với Whisper Large V3 Turbo cho tiếng Anh, và còn chính xác hơn nữa. Các model Whisper vẫn có sẵn nếu bạn cần dùng cho ngôn ngữ khác.

Tại sao mình đổi model mặc định

Whisper rất tốt, nhưng nó được thiết kế như một model đa năng. Nó xử lý hơn 100 ngôn ngữ, dịch thuật, tạo timestamp — kiểu như dao Thụy Sĩ vậy. Đánh đổi lại là tốc độ. Với việc đọc chính tả tiếng Anh, khi bạn chỉ cần chữ hiện lên màn hình thật nhanh thì nó hơi thừa.

Có một điều làm mình khá bực: khi dùng phím tắt Fn để đọc chính tả toàn hệ thống với Whisper, nói xong khoảng 1 phút thì phải chờ 3–5 giây mới thấy văn bản hiện ra. Khoảng chờ đó phá vỡ nhịp làm việc. Bạn ngừng nói, chờ đợi, nhìn con trỏ chuột — cảm giác "phép thuật" của gõ bằng giọng nói biến mất hoàn toàn.

Parakeet thay đổi hoàn toàn chuyện này. Tốc độ nhanh đến mức văn bản hiện ra ngay lập tức khi bạn ngừng nói. Nói xong, chữ đã ở đó rồi. Khi bạn trải nghiệm cảm giác đó — dòng chảy liền mạch, không phải chờ đợi — thì rất khó quay lại Whisper.

Parakeet V3 nhanh cỡ nào?

Con số nói lên tất cả. Đây là so sánh thực tế với file âm thanh 35 phút trên cùng một chiếc Mac:

Model	Âm thanh 35 phút
Whisper Large V3 Turbo	3 phút
Parakeet TDT 0.6B v3	18 giây

Nhanh gấp 10 lần. Và vì model nhỏ hơn (600M so với 800M tham số), nó tốn ít bộ nhớ và ít pin hơn.

Điều gì giúp Parakeet v3 nhanh đến vậy

Whisper nghe âm thanh giống như bạn đọc sách thành tiếng vậy — từng từ một, từng frame một, không bao giờ nhảy cóc. Ngay cả khi im lặng, nó vẫn xử lý, vẫn đoán xem tiếp theo là gì. Kỹ lưỡng thì có kỹ lưỡng, nhưng chậm.

Parakeet tiếp cận theo cách hoàn toàn khác. Nó nén tín hiệu âm thanh 8 lần trước khi xử lý, nên model chỉ nhìn vào những gì quan trọng. Sau đó, thay vì xử lý từng frame một, nó dự đoán không chỉ bạn nói từ gì, mà còn từ đó kéo dài bao lâu — rồi nhảy thẳng sang phần tiếp theo. Im lặng? Bỏ qua luôn. Nguyên âm kéo dài? Một lần dự đoán thay vì hàng chục lần.

Kết quả là một model xử lý giọng nói giống cách não bạn làm — tập trung vào từ ngữ, bỏ qua khoảng trống. Đó là lý do nó nhanh gấp 10 lần với ít tham số hơn mà độ chính xác lại cao hơn.

Benchmark: Parakeet v3 so với Whisper

So sánh tỷ lệ lỗi từ (WER): Parakeet TDT 0.6B v3 so với Whisper Large V3 và Seamless M4T trên nhiều bộ dữ liệu benchmark

Parakeet v3 ngang bằng hoặc vượt qua các model lớn gấp 2-4 lần trên các benchmark FLEURS, CoVoST và MLS

Trên Hugging Face Open ASR Leaderboard, Parakeet v3 đứng đầu bảng xếp hạng chỉ với 600M tham số — chưa bằng một nửa so với 1,55B của Whisper Large V3:

Model	Tham số	WER trung bình	Tốc độ (RTFx)
Parakeet TDT 0.6B v3	0,6B	6,32%	3.333x
Canary 1B v2	1,0B	7,15%	749x
Whisper Large V3	1,55B	7,44%	146x
Whisper Large V3 Turbo	0,8B	7,83%	350x

WER thấp hơn = ít lỗi hơn. RTFx cao hơn = nhanh hơn. Parakeet thắng cả hai. Với 600M tham số, nó cũng là model nhỏ nhất trong danh sách — nghĩa là nó chạy rất mượt trên Apple Silicon với mức tiêu hao bộ nhớ và pin tối thiểu.

WER đa ngôn ngữ: Toàn bộ 25 ngôn ngữ

Bảng xếp hạng ở trên chỉ tính tiếng Anh. Đây là bức tranh toàn cảnh — ba model có trong Whisper Notes so sánh trên toàn bộ 25 ngôn ngữ mà Parakeet hỗ trợ, đo trên benchmark FLEURS. WER thấp hơn = ít lỗi phiên âm hơn. Giá trị tốt nhất giữa Large V3 và Parakeet được tô đậm theo từng hàng:

Ngôn ngữ	Whisper Small	Whisper Large V3	Parakeet V3
Tiếng Bulgaria	37,3	12,9	12,6
Tiếng Croatia	33,4	11,1	12,5
Tiếng Séc	37,6	11,3	11,0
Tiếng Đan Mạch	32,8	12,6	18,4
Tiếng Hà Lan	16,4	5,6	7,5
Tiếng Anh	6,1	4,3	4,9
Tiếng Estonia	51,3	19,1	17,7
Tiếng Phần Lan	24,0	7,7	13,2
Tiếng Pháp	15,0	6,3	5,2
Tiếng Đức	10,2	4,3	5,0
Tiếng Hy Lạp	30,8	27,0	20,7
Tiếng Hungary	38,9	14,1	15,7
Tiếng Ý	9,8	2,3	3,0
Tiếng Latvia	53,2	18,3	22,8
Tiếng Lithuania	65,6	22,3	20,4
Tiếng Malta	92,2	68,9	20,5
Tiếng Ba Lan	14,7	4,7	7,3
Tiếng Bồ Đào Nha	7,3	3,7	4,8
Tiếng Romania	29,8	8,2	12,4
Tiếng Nga	11,4	4,2	5,5
Tiếng Slovakia	33,3	8,4	8,8
Tiếng Slovenia	49,3	19,9	24,0
Tiếng Tây Ban Nha	5,6	3,1	3,5
Tiếng Thụy Điển	20,8	7,9	15,1
Tiếng Ukraine	19,3	6,5	6,8
Trung bình	29,8	12,6	12,0

WER (%) trên FLEURS. Dữ liệu Whisper Small từ Radford và cộng sự; dữ liệu Large V3 và Parakeet V3 từ bài báo NVIDIA Canary-1B-v2.

Whisper Large V3 nhỉnh hơn ở phần lớn từng ngôn ngữ riêng lẻ, nhưng Parakeet V3 bám rất sát về trung bình (12,0% so với 12,6%), dẫn trước ở tiếng Hy Lạp, Pháp, Estonia và Malta, đồng thời giảm khoảng 60% tỷ lệ lỗi trung bình so với Whisper Small. Lợi thế thực tế nằm ở sự kết hợp: độ chính xác đa ngôn ngữ ngang tầm Large V3 với tốc độ nhanh hơn khoảng 23 lần, chiếm ít tài nguyên hơn khi chạy, và xử lý khoảng im lặng ổn định hơn hẳn trong các bài thử đọc chính tả của mình.

Vì sao nó ít ảo giác hơn khi im lặng

Nếu bạn từng dùng Whisper để đọc chính tả, chắc bạn đã thấy nó "ảo giác" khi im lặng — lặp lại cụm từ, bịa ra từ, hoặc bỗng dưng xuất hiện dòng "Subtitles by Amara.org" từ đâu không biết. Chuyện này xảy ra vì bộ giải mã autoregressive của Whisper luôn muốn tạo ra văn bản, ngay cả khi không có gì để phiên âm.

Kiến trúc transducer của Parakeet có thể phát ra đầu ra trống thay vì buộc phải sinh một token văn bản. Trong các bài thử đọc chính tả toàn hệ thống của mình, điều đó khiến nó ít có nguy cơ lấp khoảng dừng bằng văn bản lặp lại hoặc chẳng liên quan hơn hẳn so với Whisper. Nó vẫn là một model giọng nói, nên tuyên bố chính xác là "ít khả năng hơn", chứ không phải "không bao giờ".

Parakeet hỗ trợ những ngôn ngữ nào

Parakeet v3 hỗ trợ 25 ngôn ngữ: tiếng Bulgaria, Croatia, Séc, Đan Mạch, Hà Lan, Anh, Estonia, Phần Lan, Pháp, Đức, Hy Lạp, Hungary, Ý, Latvia, Lithuania, Malta, Ba Lan, Bồ Đào Nha, Romania, Nga, Slovakia, Slovenia, Tây Ban Nha, Thụy Điển và Ukraine.

Vậy là phủ gần hết châu Âu, nhưng không có tiếng Trung, Nhật, Hàn, Ả Rập hay Hindi. Với tiếng Trung, Nhật, Hàn và Quảng Đông, hãy chọn SenseVoice; với tiếng Ả Rập, Hindi và các ngôn ngữ khác nằm ngoài danh sách của Parakeet, hãy dùng Whisper Large V3 Turbo.

Bảng chọn model của Whisper Notes trên Mac hiển thị Parakeet V3, SenseVoice Small, Whisper Small và Whisper Large V3 Turbo

Bảng chọn model: Parakeet V3 (mặc định), SenseVoice Small, Whisper Small và Whisper Large V3 Turbo — tất cả chạy cục bộ

Bảng chọn Model trong Whisper Notes

Mở Cài đặt để chuyển đổi giữa các model:

Parakeet V3 (mặc định) — Nhanh nhất, tốt nhất cho tiếng Anh và các ngôn ngữ châu Âu
SenseVoice Small — Nhanh nhất cho tiếng Trung, Nhật, Hàn và Quảng Đông
Whisper Small — Nhẹ, hỗ trợ hơn 100 ngôn ngữ
Whisper Large V3 Turbo — Phủ rộng hơn 100 ngôn ngữ

Tất cả model chạy 100% cục bộ trên Mac của bạn. Không cần internet, không đám mây, không dữ liệu nào rời khỏi thiết bị.

Còn Parakeet V2 thì sao?

Nếu bạn từng dùng V2, có thể bạn tò mò nó so với V3 thế nào. V2 là model chỉ dành cho tiếng Anh — và độ chính xác tiếng Anh của nó thực ra nhỉnh hơn V3 một chút (WER 6,05% so với 6,32%). V3 đánh đổi chênh lệch nhỏ đó lấy khả năng hỗ trợ 25 ngôn ngữ. Cả hai đều chính xác hơn Whisper đáng kể.

	Parakeet V2	Parakeet V3	Whisper Large V3
WER tiếng Anh	6,05%	6,32%	7,44%
Ngôn ngữ	Chỉ tiếng Anh	25	100+

Tóm lại: nếu bạn chỉ cần tiếng Anh, cả V2 và V3 đều rất tốt. V3 là mặc định trong Whisper Notes vì hỗ trợ đa ngôn ngữ quan trọng với phần lớn người dùng — và sự khác biệt về độ chính xác tiếng Anh là không đáng kể.

Còn WhisperKit thì sao?

WhisperKit là framework Swift mã nguồn mở của Argmax để chạy các model Whisper trên thiết bị Apple. Đây là bộ công cụ dành cho lập trình viên, không phải ứng dụng cho người dùng cuối — và nó chạy Whisper, chứ không phải Parakeet (vốn là họ model của NVIDIA). Nếu bạn muốn phiên âm trên thiết bị kiểu WhisperKit mà không phải tự viết Swift, Whisper Notes đóng gói đúng ý tưởng đó thành một ứng dụng dùng ngay: Parakeet V3, Whisper Large V3 Turbo và SenseVoice, tất cả chạy cục bộ trên Mac và iPhone.

Muốn so sánh tất cả các lựa chọn chạy cục bộ? Mọi model chuyển giọng nói thành văn bản trên thiết bị — các biến thể Whisper, Parakeet V3, SenseVoice và Voxtral — được đặt cạnh nhau trên trang so sánh các model Whisper của bọn mình. Mới làm quen với Whisper? Hãy bắt đầu từ Cẩm nang phiên âm với Whisper — model này là gì, mọi cách để chạy nó, và chi phí ra sao.

Câu hỏi thường gặp

Parakeet V3 có tốt hơn Whisper không?

Với tiếng Anh và các ngôn ngữ châu Âu thì thường là có. Trong bài thử 35 phút của mình, Parakeet nhanh gấp 10 lần Whisper Turbo, và Open ASR Leaderboard ghi nhận WER tiếng Anh 6,32% cho Parakeet so với 7,83% của Turbo. Whisper vẫn phủ nhiều ngôn ngữ hơn hẳn: hơn 100 so với 25 của Parakeet.

Parakeet V3 hỗ trợ những ngôn ngữ nào?

Parakeet V3 hỗ trợ 25 ngôn ngữ: tiếng Bulgaria, Croatia, Séc, Đan Mạch, Hà Lan, Anh, Estonia, Phần Lan, Pháp, Đức, Hy Lạp, Hungary, Ý, Latvia, Lithuania, Malta, Ba Lan, Bồ Đào Nha, Romania, Nga, Slovakia, Slovenia, Tây Ban Nha, Thụy Điển và Ukraine.

Có chạy được Parakeet V3 trên Mac không?

Có. Whisper Notes cho Mac dùng Parakeet V3 làm engine mặc định. Model chạy 100% cục bộ trên Apple Silicon — không internet, không đám mây, không dữ liệu nào rời khỏi thiết bị. Tải bản DMG dùng thử miễn phí để trải nghiệm.

Parakeet V3 có ảo giác như Whisper không?

Ít hơn nhiều trong các bài thử im lặng của mình, nhưng không model giọng nói nào xứng đáng với tuyên bố "không bao giờ". Parakeet có thể phát ra đầu ra trống trong các khoảng dừng, trong khi bộ giải mã autoregressive của Whisper dễ sinh ra cụm từ lặp lại hoặc văn bản chẳng liên quan khi đầu vào là im lặng.

Parakeet V2 hay V3 — nên dùng bản nào?

Parakeet V2 chỉ hỗ trợ tiếng Anh với độ chính xác tiếng Anh nhỉnh hơn một chút (WER 6,05% so với 6,32%). V3 đánh đổi chênh lệch nhỏ đó lấy 25 ngôn ngữ châu Âu và là mặc định trong Whisper Notes. Trừ khi bạn chỉ phiên âm tiếng Anh và muốn giành giật đến phần trăm cuối cùng, hãy dùng V3.

Parakeet V3 có hỗ trợ tiếng Nhật, Trung hay Hàn không?

Không — 25 ngôn ngữ của nó đều là ngôn ngữ châu Âu. Với tiếng Trung, Nhật, Hàn hay Quảng Đông, Whisper Notes có sẵn SenseVoice (nhanh gấp 52 lần Whisper cho nhóm ngôn ngữ CJK) và các model Whisper. Tất cả đều chạy offline trên cả Mac lẫn iPhone.

Parakeet V3 nặng bao nhiêu?

600 triệu tham số — gói tải về 465 MB, chiếm khoảng 800 MB bộ nhớ khi phiên âm trong bản Mac của bọn mình. Whisper Large V3 Turbo có gói tải về khoảng 1,6 GB và chiếm khoảng 1,6 GB bộ nhớ trong cùng ứng dụng.

Dùng thử

Parakeet v3 đã có sẵn trong phiên bản Mac — chỉ cần tải DMG mới nhất. Cập nhật: Parakeet giờ cũng đã có trong phiên bản iOS mới nhất.

Có câu hỏi hay góp ý? Gửi email đến support@whispernotes.app.

Tải cho iOS

Tải cho macOS