TL;DR — So sánh ba mô hình trên Mac
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 phút tiếng Anh | 2.91s (103×) | 5.8s (52×) | 20.92s (14.3×) |
| 27 phút tiếng Trung | 10.10s (161×) | 13.83s (118×) | 2 min 4s (13.1×) |
| Ngôn ngữ | 25 (châu Âu) | 5 (zh, en, ja, ko, yue) | 99+ |
| Tải xuống | 465 MB | 827 MB | 1.5 GB |
| Bộ nhớ | ~800 MB | ~700 MB | ~1.6 GB |
| Phù hợp nhất | Tiếng Anh & châu Âu | Tiếng Trung, Nhật, Hàn, Quảng Đông | Tất cả ngôn ngữ khác (99+) |
* Benchmark tốc độ trên Apple M4 Pro, 32 GB. Podcast 5 phút tiếng Anh và podcast 27 phút tiếng Trung. Hệ số thời gian thực = thời lượng âm thanh ÷ thời gian xử lý (cao hơn = nhanh hơn). SenseVoice chỉ dành cho macOS. iOS sử dụng Parakeet (qua ANE) và Whisper.
Bắt đầu từ phiên bản 1.4.8, Whisper Notes cho Mac tích hợp SenseVoice Small làm engine chuyên dụng cho chuyển đổi giọng nói tiếng Trung, Nhật, Hàn và Quảng Đông. Nó thay thế Qwen3-ASR và chạy trên GPU của Apple thông qua MLX thay vì CPU — xử lý podcast tiếng Trung 27 phút trong 13.83 giây thay vì 3 phút 44 giây.
Tại sao chúng tôi thay thế Qwen3-ASR
Qwen3-ASR là một mô hình tốt. Nó hỗ trợ 30 ngôn ngữ cùng 22 phương ngữ tiếng Trung, và độ chính xác tiếng Trung gần đạt mức hàng đầu. Nhưng nó có một vấn đề ngày càng tệ khi âm thanh dài hơn: tốc độ.
Qwen3 sử dụng kiến trúc tự hồi quy — cùng cách tiếp cận như Whisper, xử lý âm thanh từng khung hình, không bao giờ nhảy qua. Với podcast tiếng Trung 27 phút, mất 73 giây. Dùng được, nhưng không phải trải nghiệm kết quả tức thì mà Parakeet V3 mang lại cho tiếng Anh.
Vấn đề sâu hơn nằm ở cơ sở hạ tầng. Tích hợp Qwen3 của chúng tôi sử dụng sherpa-onnx, một thư viện C với 2.249 dòng Swift wrapper, đẩy mọi thứ qua CPU. GPU của Mac hoàn toàn nhàn rỗi.
SenseVoice giải quyết cả hai vấn đề. Kiến trúc phi tự hồi quy cho tốc độ. Apple MLX cho tăng tốc GPU. Kết quả: tăng tốc 16.2 lần trên cùng phần cứng, codebase giảm từ 2.249 dòng xuống 288.
Benchmark
Cả ba mô hình chạy trên cùng Apple M4 Pro, cùng file âm thanh, cùng điều kiện. Không cloud. Không internet. Chỉ có silicon.
| Mô hình | 5 phút tiếng Anh | 27 phút tiếng Trung | Tốc độ (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2.91s | 10.10s | 103–161× |
| SenseVoice Small | 5.8s | 13.83s | 52–118× |
| Whisper Large V3 Turbo | 20.92s | 2 min 4s | 13–14× |
| Qwen3-ASR (đã loại bỏ) | — | 73s | 4.7× |
SenseVoice nhanh bằng khoảng một nửa Parakeet V3 — vẫn cực kỳ nhanh. Podcast 27 phút hoàn thành trong chưa đầy 14 giây. Bạn nhấn nút chuyển đổi, chờ một nhịp thở, và văn bản đã sẵn sàng.
So sánh với 2 phút 4 giây của Whisper hay 73 giây của Qwen3 cũ. Kiến trúc quan trọng hơn số lượng tham số.
Benchmark suy luận chính thức từ bài báo FunAudioLLM: SenseVoice-Small xử lý 10s âm thanh trong 70ms (A800 GPU). Whisper-Large-V3 mất 1.281ms. Chênh lệch 18 lần về độ trễ suy luận thô.
| Mô hình | Thời gian tải | Bộ nhớ | Kích thước tải |
|---|---|---|---|
| Parakeet V3 | 0.77s | ~800 MB | 465 MB |
| SenseVoice Small | 0.81s | ~700 MB | 827 MB |
| Whisper Small | 1.03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3.18s | ~1.6 GB | 3 GB |
* Thời gian tải và bộ nhớ đo trên Apple M4 Pro, 32 GB.
SenseVoice tải trong chưa đầy một giây và dùng ít bộ nhớ hơn Parakeet. Trên Mac 8 GB, nó chạy thoải mái bên cạnh các ứng dụng khác.
Tại sao SenseVoice nhanh hơn: Kiến trúc + Runtime
Khoảng cách tốc độ giữa Qwen3-ASR và SenseVoice đến từ hai yếu tố độc lập.
Yếu tố 1: Kiến trúc mô hình. Qwen3-ASR là tự hồi quy — tạo token từng cái một, mỗi cái phụ thuộc vào cái trước. SenseVoice sử dụng bộ mã hóa phi tự hồi quy (NAR) xử lý toàn bộ âm thanh song song. Chỉ riêng sự khác biệt kiến trúc này đã khiến SenseVoice nhanh hơn về cơ bản, bất kể phần cứng nào.
Yếu tố 2: Runtime. Tích hợp Qwen3-ASR sử dụng sherpa-onnx, chạy trên CPU. SenseVoice chạy qua Apple MLX, đẩy tính toán sang GPU. Qwen3 có thể chạy trên MLX không? Có — nhưng vẫn sẽ chậm hơn SenseVoice vì nút thắt tự hồi quy nằm ở kiến trúc, không phải runtime.
| Qwen3-ASR (cũ) | SenseVoice (mới) | |
|---|---|---|
| Kiến trúc | Tự hồi quy (từng token) | Phi tự hồi quy (song song) |
| Runtime | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 phút tiếng Trung | 224 giây | 13.83 giây |
| Tăng tốc tổng hợp | cơ sở | Nhanh hơn 16.2 lần |
| Codebase | Framework C 168 MB + 2.249 dòng Swift | 288 dòng Swift Actor |
* Cùng podcast tiếng Trung 27 phút, Apple M4 Pro. Tăng tốc 16.2 lần kết hợp cả cải tiến kiến trúc (NAR vs AR) và runtime (GPU vs CPU).
Code cũng đơn giản hơn. Triển khai SenseVoice mới là một Swift Actor 288 dòng giao tiếp trực tiếp với MLX, thay thế framework C 168 MB. Ít code hơn, ít bug hơn, ứng dụng nhỏ hơn.
Năm ngôn ngữ, làm thật tốt
SenseVoice không cố gắng làm tất cả. Nó xử lý năm ngôn ngữ:
| Ngôn ngữ | SenseVoice-Small | Whisper-Large-V3 | Thắng |
|---|---|---|---|
| Tiếng Trung (zh-CN) | 10.78% CER | 12.55% CER | SenseVoice (-14%) |
| Tiếng Quảng Đông (yue) | 7.09% CER | 10.41% CER | SenseVoice (-32%) |
| Tiếng Nhật (ja) | 11.96% CER | 10.34% CER | Whisper (nhỉnh hơn) |
| Tiếng Hàn (ko) | 8.28% CER | 5.59% CER | Whisper |
| Tiếng Anh (en) | 14.71% WER | 9.39% WER | Whisper (nên dùng Parakeet) |
* Benchmark CommonVoice, CER = Tỷ lệ lỗi ký tự, WER = Tỷ lệ lỗi từ. Thấp hơn là tốt hơn. Nguồn: bài báo FunAudioLLM (2024). Độ trễ suy luận SenseVoice-Small: 70ms cho 10s âm thanh (A800 GPU), nhanh hơn 15 lần so với Whisper-Large-V3.
Benchmark CommonVoice: SenseVoice-Small (vàng) vs Whisper-Small (xanh dương) vs Whisper-Large-V3 (cam). Thấp hơn là tốt hơn. Nguồn: bài báo FunAudioLLM
Con số kể một câu chuyện trung thực. SenseVoice vượt Whisper về độ chính xác tiếng Trung và Quảng Đông với biên độ đáng kể, trong khi Whisper chính xác hơn cho tiếng Nhật, Hàn và Anh. Nhưng SenseVoice nhanh hơn 15 lần so với Whisper-Large-V3. Trong thực tế, sự chênh lệch tốc độ quan trọng hơn vài phần trăm độ chính xác.
Kết quả tiếng Quảng Đông đáng được nhấn mạnh riêng. Whisper-Small đạt 38.97% CER cho tiếng Quảng Đông — gần như không dùng được. Ngay cả Whisper-Large-V3 cũng chỉ đạt 10.41%. SenseVoice đạt 7.09%. Trước SenseVoice, không có cách tốt nào để chuyển đổi giọng nói tiếng Quảng Đông cục bộ trên Mac. Nếu bạn nói tiếng Quảng Đông, mô hình này dành cho bạn.
Chuyển đổi giọng nói tiếng Hàn với SenseVoice: nhập video với phụ đề có mốc thời gian
Thử nghiệm thực tế: Podcast tiếng Trung 27 phút
Chúng tôi chuyển đổi một tập 27 phút của Thirteen Invitations (十三邀), một podcast phỏng vấn tiếng Trung, bằng cả SenseVoice và Whisper Large V3 Turbo trên cùng M4 Pro. ElevenLabs Scribe (cloud) làm tham chiếu. Cả hai mô hình on-device có số lỗi tương đương nhưng loại lỗi khác nhau:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Thời gian | 13.83s | 2 min 4s |
| Số lỗi (mẫu 5 phút) | ~15–20 | ~12–15 |
| Lỗi tệ nhất | 时差→食堂 (múi giờ→nhà ăn) | 西昌→西藏 (thành phố Xīchāng→Tây Tạng, lệch 4.000 km) |
| Kiểu lỗi | Hoán đổi từ đồng âm | Lỗi địa lý/thực tế |
* So sánh thủ công với ElevenLabs Scribe (tham chiếu cloud, cũng không hoàn hảo). Cả hai mô hình on-device đều viết đúng "根深蒂固" trong khi Scribe viết sai.
Độ chính xác tương đương. Nhanh hơn 9 lần. Trong thực tế chuyển đổi giọng nói tiếng Trung, SenseVoice cho bạn bản ghi sử dụng được trước khi Whisper tải xong.
Khi nào dùng mô hình nào
Whisper Notes cho Mac hiện có bốn mô hình giọng nói. Mỗi mô hình được tối ưu cho các tình huống khác nhau:
| Bạn cần... | Dùng mô hình này | Lý do |
|---|---|---|
| Tiếng Anh hoặc châu Âu, tốc độ tối đa | Parakeet V3 | 103× thời gian thực, tỷ lệ lỗi thấp nhất. Mặc định. |
| Tiếng Trung, Nhật, Hàn hoặc Quảng Đông | SenseVoice Small | 52–118× thời gian thực. Mô hình duy nhất hỗ trợ Quảng Đông. |
| Bất kỳ trong 99+ ngôn ngữ (tiếng Ả Rập, Thái, Nga, v.v.) | Whisper Large V3 Turbo | Hỗ trợ ngôn ngữ rộng nhất. Chậm hơn nhưng đa năng. |
| Ít bộ nhớ (Mac đời cũ) | Whisper Small | 487 MB bộ nhớ. Phù hợp Mac 8 GB. |
Cài đặt → Mô hình chuyển đổi: chọn engine phù hợp với ngôn ngữ của bạn
Bộ chọn mô hình trong Cài đặt hiển thị cả bốn tùy chọn với kích thước tải, số ngôn ngữ và yêu cầu bộ nhớ. SenseVoice tải xuống khi sử dụng lần đầu (~827 MB) và lưu trên thiết bị.
Đánh đổi
SenseVoice không phải mô hình vạn năng. Đây là những gì nó không làm được:
• Chỉ 5 ngôn ngữ. Nếu bạn cần tiếng Thái, Nga, Ả Rập, Hindi, hoặc bất kỳ ngôn ngữ nào trong 90+ ngôn ngữ Whisper hỗ trợ, hãy dùng Whisper.
• Chỉ dành cho Mac. SenseVoice chạy qua Apple MLX, yêu cầu macOS. Không khả dụng trên iPhone. Người dùng iOS có Parakeet (cho ngôn ngữ châu Âu) và Whisper.
• Hiện tượng lạ với âm thanh nhỏ. Trong các đoạn rất ngắn hoặc rất nhỏ, SenseVoice đôi khi xuất ra tiếng Trung bất kể ngôn ngữ đã chọn. Đặt ngôn ngữ thủ công (thay vì "Tự động") giảm thiểu hiện tượng này.
• Không hỗ trợ streaming. Khác với chế độ streaming của Whisper, SenseVoice xử lý toàn bộ âm thanh sau khi ghi. Với file dài, nó tự động chia đoạn tại điểm im lặng và hiển thị kết quả dần dần.
Đây là giới hạn kiến trúc, không phải bug. Một mô hình được huấn luyện trên 5 ngôn ngữ xử lý 5 ngôn ngữ đó cực kỳ tốt. Khả năng hỗ trợ 99+ ngôn ngữ của Whisper đi kèm tốc độ chậm hơn và tỷ lệ lỗi cao hơn trên từng ngôn ngữ.
Dùng thử
SenseVoice có sẵn trong Whisper Notes cho Mac v1.4.8 trở lên. Tải từ Cài đặt → Mô hình chuyển đổi → SenseVoice Small (~827 MB). Yêu cầu Mac Apple Silicon (M1 trở lên).
Nếu bạn đang dùng Parakeet V3 và chủ yếu nhập liệu bằng tiếng Anh, không cần chuyển đổi. SenseVoice dành cho khi bạn cần tiếng Trung, Nhật, Hàn hoặc Quảng Đông — và muốn xử lý nhanh.
Nhật ký thay đổi: whispernotes.app/changelog
Câu hỏi hoặc phản hồi: mac@whispernotes.app