Parakeet V3 vs Whisper: Nhanh hơn 10 lần, chính xác hơn (Benchmark)

7 tháng 3, 2026
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
Tốc độ 10×
Ngôn ngữ hỗ trợ 25 100+
Tỷ lệ lỗi tiếng Anh (WER) 6.32% 7.44%
Tỷ lệ lỗi TB 25 ngôn ngữ (WER) 12.0% 12.6%
Ảo giác Không Khi im lặng
Phù hợp Tiếng Anh & châu Âu Châu Á, Ả Rập, 100+

* Tốc độ: âm thanh 35 phút, Apple Silicon. WER tiếng Anh: Open ASR Leaderboard. TB 25 ngôn ngữ: chuẩn FLEURS.

Bắt đầu từ phiên bản 1.3.2, Whisper Notes cho Mac sử dụng NVIDIA Parakeet TDT 0.6B làm engine nhận dạng giọng nói mặc định. Nó nhanh hơn 10 lần so với Whisper Large V3 Turbo cho tiếng Anh, và còn chính xác hơn nữa. Các model Whisper vẫn có sẵn nếu bạn cần dùng cho ngôn ngữ khác.

Tại sao mình đổi model mặc định

Whisper rất tốt, nhưng nó được thiết kế như một model đa năng. Nó xử lý hơn 100 ngôn ngữ, dịch thuật, tạo timestamp — kiểu như dao Thụy Sĩ vậy. Đánh đổi lại là tốc độ. Với việc đọc chính tả tiếng Anh, khi bạn chỉ cần chữ hiện lên màn hình thật nhanh thì nó hơi thừa.

Có một điều làm mình khá bực: khi dùng phím tắt Fn để đọc chính tả toàn hệ thống với Whisper, nói xong khoảng 1 phút thì phải chờ 3–5 giây mới thấy văn bản hiện ra. Khoảng chờ đó phá vỡ nhịp làm việc. Bạn ngừng nói, chờ đợi, nhìn con trỏ chuột — cảm giác "phép thuật" của gõ bằng giọng nói biến mất hoàn toàn.

Parakeet thay đổi hoàn toàn chuyện này. Tốc độ nhanh đến mức văn bản hiện ra ngay lập tức khi bạn ngừng nói. Nói xong, chữ đã ở đó rồi. Khi bạn trải nghiệm cảm giác đó — dòng chảy liền mạch, không phải chờ đợi — thì rất khó quay lại Whisper.

Parakeet V3 nhanh cỡ nào?

Con số nói lên tất cả. Đây là so sánh thực tế với file âm thanh 35 phút trên cùng một chiếc Mac:

Model Âm thanh 35 phút
Whisper Large V3 Turbo 3 phút
Parakeet TDT 0.6B v3 18 giây

Nhanh gấp 10 lần. Và vì model nhỏ hơn (600M so với 800M tham số), nó tốn ít bộ nhớ và ít pin hơn.

Điều gì giúp Parakeet v3 nhanh đến vậy

Whisper nghe âm thanh giống như bạn đọc sách thành tiếng vậy — từng từ một, từng frame một, không bao giờ nhảy cóc. Ngay cả khi im lặng, nó vẫn xử lý, vẫn đoán xem tiếp theo là gì. Kỹ lưỡng thì có kỹ lưỡng, nhưng chậm.

Parakeet tiếp cận theo cách hoàn toàn khác. Nó nén tín hiệu âm thanh 8 lần trước khi xử lý, nên model chỉ nhìn vào những gì quan trọng. Sau đó, thay vì xử lý từng frame một, nó dự đoán không chỉ bạn nói từ gì, mà còn từ đó kéo dài bao lâu — rồi nhảy thẳng sang phần tiếp theo. Im lặng? Bỏ qua luôn. Nguyên âm kéo dài? Một lần dự đoán thay vì hàng chục lần.

Kết quả là một model xử lý giọng nói giống cách não bạn làm — tập trung vào từ ngữ, bỏ qua khoảng trống. Đó là lý do nó nhanh gấp 10 lần với ít tham số hơn mà độ chính xác lại cao hơn.

Benchmark: Parakeet v3 so với Whisper

So sánh Tỷ lệ Lỗi Từ: Parakeet TDT 0.6B v3 so với Whisper Large V3 so với Seamless M4T trên nhiều bộ dữ liệu benchmark

Parakeet v3 ngang bằng hoặc vượt qua các model lớn gấp 2-4 lần trên các benchmark FLEURS, CoVoST và MLS

Trên Hugging Face Open ASR Leaderboard, Parakeet v3 đứng đầu bảng xếp hạng chỉ với 600M tham số — chưa bằng một nửa so với 1.55B của Whisper Large V3:

Model Tham số WER trung bình Tốc độ (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER thấp hơn = ít lỗi hơn. RTFx cao hơn = nhanh hơn. Parakeet thắng cả hai. Với 600M tham số, nó cũng là model nhỏ nhất trong danh sách — nghĩa là nó chạy rất mượt trên Apple Silicon với bộ nhớ và pin tiêu hao tối thiểu.

WER đa ngôn ngữ: Toàn bộ 25 ngôn ngữ

Bảng xếp hạng ở trên chỉ tính tiếng Anh. Đây là bức tranh toàn cảnh — ba model có trong Whisper Notes so sánh trên toàn bộ 25 ngôn ngữ mà Parakeet hỗ trợ, đo trên benchmark FLEURS. WER thấp hơn = ít lỗi phiên âm hơn. Giá trị tốt nhất giữa Large V3 và Parakeet được tô đậm theo từng hàng:

Ngôn ngữ Whisper Small Whisper Large V3 Parakeet V3
Tiếng Bulgaria 37.3 12.9 12.6
Tiếng Croatia 33.4 11.1 12.5
Tiếng Séc 37.6 11.3 11.0
Tiếng Đan Mạch 32.8 12.6 18.4
Tiếng Hà Lan 16.4 5.6 7.5
Tiếng Anh 6.1 4.3 4.9
Tiếng Estonia 51.3 19.1 17.7
Tiếng Phần Lan 24.0 7.7 13.2
Tiếng Pháp 15.0 6.3 5.2
Tiếng Đức 10.2 4.3 5.0
Tiếng Hy Lạp 30.8 27.0 20.7
Tiếng Hungary 38.9 14.1 15.7
Tiếng Ý 9.8 2.3 3.0
Tiếng Latvia 53.2 18.3 22.8
Tiếng Lithuania 65.6 22.3 20.4
Tiếng Malta 92.2 68.9 20.5
Tiếng Ba Lan 14.7 4.7 7.3
Tiếng Bồ Đào Nha 7.3 3.7 4.8
Tiếng Romania 29.8 8.2 12.4
Tiếng Nga 11.4 4.2 5.5
Tiếng Slovakia 33.3 8.4 8.8
Tiếng Slovenia 49.3 19.9 24.0
Tiếng Tây Ban Nha 5.6 3.1 3.5
Tiếng Thụy Điển 20.8 7.9 15.1
Tiếng Ukraine 19.3 6.5 6.8
Trung bình 29.8 12.6 12.0

WER (%) trên FLEURS. Dữ liệu Whisper Small từ Radford và cộng sự; dữ liệu Large V3 và Parakeet V3 từ bài báo NVIDIA Canary-1B-v2.

Whisper Large V3 nhỉnh hơn ở hầu hết các ngôn ngữ riêng lẻ — nó lớn gấp 2.5 lần mà. Nhưng Parakeet V3 ngang bằng về trung bình (12.0% so với 12.6%), thắng áp đảo ở tiếng Hy Lạp, Pháp, Estonia và Malta, đồng thời vượt trội hoàn toàn so với Whisper Small (giảm 60% lỗi trung bình). Điều quan trọng không phải vài phần trăm WER — mà là tổng thể: độ chính xác ngang Large V3 với tốc độ gấp 23 lần, chỉ dùng 40% bộ nhớ, không ảo giác, và mọi thứ chạy cục bộ trên Mac của bạn.

Hết ảo giác

Nếu bạn từng dùng Whisper để đọc chính tả, chắc bạn đã thấy nó "ảo giác" khi im lặng — lặp lại cụm từ, bịa ra từ, hoặc bỗng dưng xuất hiện dòng "Subtitles by Amara.org" từ đâu không biết. Chuyện này xảy ra vì bộ giải mã autoregressive của Whisper luôn muốn tạo ra văn bản, ngay cả khi không có gì để phiên âm.

NVIDIA đã huấn luyện Parakeet với 36,000 giờ âm thanh thuần không-giọng-nói (tiếng ồn nền, tiếng ho, im lặng) kết hợp với chuỗi trống. Model đã học được im lặng nghe như thế nào và giữ yên lặng. Với chế độ đọc chính tả toàn hệ thống luôn bật, đây là bước ngoặt — không còn văn bản rác xuất hiện mỗi khi bạn dừng lại suy nghĩ.

Parakeet hỗ trợ những ngôn ngữ nào

Parakeet v3 hỗ trợ 25 ngôn ngữ: tiếng Bulgaria, Croatia, Séc, Đan Mạch, Hà Lan, Anh, Estonia, Phần Lan, Pháp, Đức, Hy Lạp, Hungary, Ý, Latvia, Lithuania, Malta, Ba Lan, Bồ Đào Nha, Romania, Nga, Slovakia, Slovenia, Tây Ban Nha, Thụy Điển và Ukraine.

Vậy là phủ gần hết châu Âu, nhưng không hỗ trợ tiếng Trung, Nhật, Hàn, Ả Rập hay Hindi. Đó là lý do mình vẫn giữ các model Whisper để tải xuống. Nếu bạn đọc chính tả bằng tiếng Nhật hay tiếng Phổ thông, hãy chọn Whisper Large V3 Turbo từ bảng chọn model. Với tiếng Anh và các ngôn ngữ châu Âu, Parakeet v3 đơn giản là engine tốt hơn.

Bảng chọn model trên Whisper Notes Mac hiển thị Parakeet V3 là mặc định, cùng Whisper Small và Whisper Large V3 Turbo có thể tải xuống

Bảng chọn model: Parakeet V3 (mặc định), Whisper Small và Whisper Large V3 Turbo — tất cả chạy cục bộ

Bảng chọn Model trong Whisper Notes

Mở Cài đặt để chuyển đổi giữa các model:

  • Parakeet V3 (mặc định) — Nhanh nhất, tốt nhất cho tiếng Anh và các ngôn ngữ châu Âu
  • Whisper Small — Nhẹ, hỗ trợ hơn 100 ngôn ngữ
  • Whisper Large V3 Turbo — Model đa ngôn ngữ chính xác nhất

Tất cả model chạy 100% cục bộ trên Mac của bạn. Không cần internet, không đám mây, không dữ liệu nào rời khỏi thiết bị.

Còn Parakeet V2 thì sao?

Nếu bạn từng dùng V2, có thể bạn tò mò nó so với V3 thế nào. V2 là mô hình chỉ dành cho tiếng Anh — và độ chính xác tiếng Anh thực ra nhỉnh hơn V3 một chút (WER 6,05 % vs 6,32 %). V3 đánh đổi chênh lệch nhỏ đó để hỗ trợ 25 ngôn ngữ. Cả hai đều chính xác hơn nhiều so với Whisper.

Parakeet V2 Parakeet V3 Whisper Large V3
WER tiếng Anh 6.05% 6.32% 7.44%
Ngôn ngữ Chỉ tiếng Anh 25 100+

Tóm lại: nếu bạn chỉ cần tiếng Anh, cả V2 và V3 đều rất tốt. V3 là mặc định trong Whisper Notes vì hỗ trợ đa ngôn ngữ quan trọng với phần lớn người dùng — và sự khác biệt về độ chính xác tiếng Anh là không đáng kể.

Dùng thử

Parakeet v3 đã có sẵn trong phiên bản Mac — chỉ cần tải DMG mới nhất. (Cập nhật: Parakeet đã có sẵn trong phiên bản iOS mới nhất.)

Có câu hỏi hay góp ý? Gửi email đến support@whispernotes.app.