Bắt đầu từ phiên bản 1.3.2, Whisper Notes cho Mac sử dụng NVIDIA Parakeet TDT 0.6B làm engine nhận dạng giọng nói mặc định. Nó nhanh hơn 10 lần so với Whisper Large V3 Turbo cho tiếng Anh, và còn chính xác hơn nữa. Các model Whisper vẫn có sẵn nếu bạn cần dùng cho ngôn ngữ khác.
Tại sao mình đổi model mặc định
Whisper rất tốt, nhưng nó được thiết kế như một model đa năng. Nó xử lý hơn 100 ngôn ngữ, dịch thuật, tạo timestamp — kiểu như dao Thụy Sĩ vậy. Đánh đổi lại là tốc độ. Với việc đọc chính tả tiếng Anh, khi bạn chỉ cần chữ hiện lên màn hình thật nhanh thì nó hơi thừa.
Có một điều làm mình khá bực: khi dùng phím tắt Fn để đọc chính tả toàn hệ thống với Whisper, nói xong khoảng 1 phút thì phải chờ 3–5 giây mới thấy văn bản hiện ra. Khoảng chờ đó phá vỡ nhịp làm việc. Bạn ngừng nói, chờ đợi, nhìn con trỏ chuột — cảm giác "phép thuật" của gõ bằng giọng nói biến mất hoàn toàn.
Parakeet thay đổi hoàn toàn chuyện này. Tốc độ nhanh đến mức văn bản hiện ra ngay lập tức khi bạn ngừng nói. Nói xong, chữ đã ở đó rồi. Khi bạn trải nghiệm cảm giác đó — dòng chảy liền mạch, không phải chờ đợi — thì rất khó quay lại Whisper.
Parakeet V3 nhanh cỡ nào?
Con số nói lên tất cả. Đây là so sánh thực tế với file âm thanh 35 phút trên cùng một chiếc Mac:
| Model | Âm thanh 35 phút |
|---|---|
| Whisper Large V3 Turbo | 3 phút |
| Parakeet TDT 0.6B v3 | 18 giây |
Nhanh gấp 10 lần. Và vì model nhỏ hơn (600M so với 800M tham số), nó tốn ít bộ nhớ và ít pin hơn.
Điều gì giúp Parakeet v3 nhanh đến vậy
Whisper nghe âm thanh giống như bạn đọc sách thành tiếng vậy — từng từ một, từng frame một, không bao giờ nhảy cóc. Ngay cả khi im lặng, nó vẫn xử lý, vẫn đoán xem tiếp theo là gì. Kỹ lưỡng thì có kỹ lưỡng, nhưng chậm.
Parakeet tiếp cận theo cách hoàn toàn khác. Nó nén tín hiệu âm thanh 8 lần trước khi xử lý, nên model chỉ nhìn vào những gì quan trọng. Sau đó, thay vì xử lý từng frame một, nó dự đoán không chỉ bạn nói từ gì, mà còn từ đó kéo dài bao lâu — rồi nhảy thẳng sang phần tiếp theo. Im lặng? Bỏ qua luôn. Nguyên âm kéo dài? Một lần dự đoán thay vì hàng chục lần.
Kết quả là một model xử lý giọng nói giống cách não bạn làm — tập trung vào từ ngữ, bỏ qua khoảng trống. Đó là lý do nó nhanh gấp 10 lần với ít tham số hơn mà độ chính xác lại cao hơn.
Benchmark: Parakeet v3 so với Whisper
Parakeet v3 ngang bằng hoặc vượt qua các model lớn gấp 2-4 lần trên các benchmark FLEURS, CoVoST và MLS
Trên Hugging Face Open ASR Leaderboard, Parakeet v3 đứng đầu bảng xếp hạng chỉ với 600M tham số — chưa bằng một nửa so với 1.55B của Whisper Large V3:
| Model | Tham số | WER trung bình | Tốc độ (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
WER thấp hơn = ít lỗi hơn. RTFx cao hơn = nhanh hơn. Parakeet thắng cả hai. Với 600M tham số, nó cũng là model nhỏ nhất trong danh sách — nghĩa là nó chạy rất mượt trên Apple Silicon với bộ nhớ và pin tiêu hao tối thiểu.
Hết ảo giác
Nếu bạn từng dùng Whisper để đọc chính tả, chắc bạn đã thấy nó "ảo giác" khi im lặng — lặp lại cụm từ, bịa ra từ, hoặc bỗng dưng xuất hiện dòng "Subtitles by Amara.org" từ đâu không biết. Chuyện này xảy ra vì bộ giải mã autoregressive của Whisper luôn muốn tạo ra văn bản, ngay cả khi không có gì để phiên âm.
NVIDIA đã huấn luyện Parakeet với 36,000 giờ âm thanh thuần không-giọng-nói (tiếng ồn nền, tiếng ho, im lặng) kết hợp với chuỗi trống. Model đã học được im lặng nghe như thế nào và giữ yên lặng. Với chế độ đọc chính tả toàn hệ thống luôn bật, đây là bước ngoặt — không còn văn bản rác xuất hiện mỗi khi bạn dừng lại suy nghĩ.
Parakeet hỗ trợ những ngôn ngữ nào
Parakeet v3 hỗ trợ 25 ngôn ngữ: tiếng Bulgaria, Croatia, Séc, Đan Mạch, Hà Lan, Anh, Estonia, Phần Lan, Pháp, Đức, Hy Lạp, Hungary, Ý, Latvia, Lithuania, Malta, Ba Lan, Bồ Đào Nha, Romania, Nga, Slovakia, Slovenia, Tây Ban Nha, Thụy Điển và Ukraine.
Vậy là phủ gần hết châu Âu, nhưng không hỗ trợ tiếng Trung, Nhật, Hàn, Ả Rập hay Hindi. Đó là lý do mình vẫn giữ các model Whisper để tải xuống. Nếu bạn đọc chính tả bằng tiếng Nhật hay tiếng Phổ thông, hãy chọn Whisper Large V3 Turbo từ bảng chọn model. Với tiếng Anh và các ngôn ngữ châu Âu, Parakeet v3 đơn giản là engine tốt hơn.
Bảng chọn model: Parakeet V3 (mặc định), Whisper Small và Whisper Large V3 Turbo — tất cả chạy cục bộ
Bảng chọn Model trong Whisper Notes
Mở Cài đặt để chuyển đổi giữa các model:
- Parakeet V3 (mặc định) — Nhanh nhất, tốt nhất cho tiếng Anh và các ngôn ngữ châu Âu
- Whisper Small — Nhẹ, hỗ trợ hơn 100 ngôn ngữ
- Whisper Large V3 Turbo — Model đa ngôn ngữ chính xác nhất
Tất cả model chạy 100% cục bộ trên Mac của bạn. Không cần internet, không đám mây, không dữ liệu nào rời khỏi thiết bị.
Dùng thử
Parakeet v3 đã có sẵn trong phiên bản Mac — chỉ cần tải DMG mới nhất. Nếu phản hồi tích cực, mình sẽ đưa Parakeet lên phiên bản iOS trong bản cập nhật tương lai.
Có câu hỏi hay góp ý? Gửi email đến support@whispernotes.app.