SenseVoice: Phiên âm tiếng Trung, Nhật & Hàn nhanh hơn 52× trên Mac

TL;DR — So sánh ba mô hình trên Mac

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 phút tiếng Anh	2.91s (103×)	5.8s (52×)	20.92s (14.3×)
27 phút tiếng Trung	10.10s (161×)	13.83s (118×)	2 min 4s (13.1×)
Ngôn ngữ	25 (châu Âu)	5 (zh, en, ja, ko, yue)	99+
Tải xuống	465 MB	827 MB	1.5 GB
Bộ nhớ	~800 MB	~700 MB	~1.6 GB
Phù hợp nhất	Tiếng Anh & châu Âu	Tiếng Trung, Nhật, Hàn, Quảng Đông	Tất cả ngôn ngữ khác (99+)

* Benchmark tốc độ trên Apple M4 Pro, 32 GB. Podcast 5 phút tiếng Anh và podcast 27 phút tiếng Trung. Hệ số thời gian thực = thời lượng âm thanh ÷ thời gian xử lý (cao hơn = nhanh hơn). SenseVoice chỉ dành cho macOS. iOS sử dụng Parakeet (qua ANE) và Whisper.

Bắt đầu từ phiên bản 1.4.8, Whisper Notes cho Mac tích hợp SenseVoice Small làm engine chuyên dụng cho chuyển đổi giọng nói tiếng Trung, Nhật, Hàn và Quảng Đông. Nó thay thế Qwen3-ASR và chạy trên GPU của Apple thông qua MLX thay vì CPU — xử lý podcast tiếng Trung 27 phút trong 13.83 giây thay vì 3 phút 44 giây.

Tại sao chúng tôi thay thế Qwen3-ASR

Qwen3-ASR là một mô hình tốt. Nó hỗ trợ 30 ngôn ngữ cùng 22 phương ngữ tiếng Trung, và độ chính xác tiếng Trung gần đạt mức hàng đầu. Nhưng nó có một vấn đề ngày càng tệ khi âm thanh dài hơn: tốc độ.

Qwen3 sử dụng kiến trúc tự hồi quy — cùng cách tiếp cận như Whisper, xử lý âm thanh từng khung hình, không bao giờ nhảy qua. Với podcast tiếng Trung 27 phút, mất 73 giây. Dùng được, nhưng không phải trải nghiệm kết quả tức thì mà Parakeet V3 mang lại cho tiếng Anh.

Vấn đề sâu hơn nằm ở cơ sở hạ tầng. Tích hợp Qwen3 của chúng tôi sử dụng sherpa-onnx, một thư viện C với 2.249 dòng Swift wrapper, đẩy mọi thứ qua CPU. GPU của Mac hoàn toàn nhàn rỗi.

SenseVoice giải quyết cả hai vấn đề. Kiến trúc phi tự hồi quy cho tốc độ. Apple MLX cho tăng tốc GPU. Kết quả: tăng tốc 16.2 lần trên cùng phần cứng, codebase giảm từ 2.249 dòng xuống 288.

Benchmark

Cả ba mô hình chạy trên cùng Apple M4 Pro, cùng file âm thanh, cùng điều kiện. Không cloud. Không internet. Chỉ có silicon.

Mô hình	5 phút tiếng Anh	27 phút tiếng Trung	Tốc độ (RTFx)
Parakeet V3	2.91s	10.10s	103–161×
SenseVoice Small	5.8s	13.83s	52–118×
Whisper Large V3 Turbo	20.92s	2 min 4s	13–14×
Qwen3-ASR (đã loại bỏ)	—	73s	4.7×

SenseVoice nhanh bằng khoảng một nửa Parakeet V3 — vẫn cực kỳ nhanh. Podcast 27 phút hoàn thành trong chưa đầy 14 giây. Bạn nhấn nút chuyển đổi, chờ một nhịp thở, và văn bản đã sẵn sàng.

So sánh với 2 phút 4 giây của Whisper hay 73 giây của Qwen3 cũ. Kiến trúc quan trọng hơn số lượng tham số.

Bảng so sánh tốc độ suy luận chính thức từ bài báo FunAudioLLM: SenseVoice-Small (70ms cho 10s âm thanh) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - hiển thị kiến trúc mô hình, tham số, ngôn ngữ hỗ trợ, RTF và độ trễ

Benchmark suy luận chính thức từ bài báo FunAudioLLM: SenseVoice-Small xử lý 10s âm thanh trong 70ms (A800 GPU). Whisper-Large-V3 mất 1.281ms. Chênh lệch 18 lần về độ trễ suy luận thô.

Mô hình	Thời gian tải	Bộ nhớ	Kích thước tải
Parakeet V3	0.77s	~800 MB	465 MB
SenseVoice Small	0.81s	~700 MB	827 MB
Whisper Small	1.03s	~487 MB	600 MB
Whisper Large V3 Turbo	3.18s	~1.6 GB	3 GB

* Thời gian tải và bộ nhớ đo trên Apple M4 Pro, 32 GB.

SenseVoice tải trong chưa đầy một giây và dùng ít bộ nhớ hơn Parakeet. Trên Mac 8 GB, nó chạy thoải mái bên cạnh các ứng dụng khác.

Tại sao SenseVoice nhanh hơn: Kiến trúc + Runtime

Khoảng cách tốc độ giữa Qwen3-ASR và SenseVoice đến từ hai yếu tố độc lập.

Yếu tố 1: Kiến trúc mô hình. Qwen3-ASR là tự hồi quy — tạo token từng cái một, mỗi cái phụ thuộc vào cái trước. SenseVoice sử dụng bộ mã hóa phi tự hồi quy (NAR) xử lý toàn bộ âm thanh song song. Chỉ riêng sự khác biệt kiến trúc này đã khiến SenseVoice nhanh hơn về cơ bản, bất kể phần cứng nào.

Yếu tố 2: Runtime. Tích hợp Qwen3-ASR sử dụng sherpa-onnx, chạy trên CPU. SenseVoice chạy qua Apple MLX, đẩy tính toán sang GPU. Qwen3 có thể chạy trên MLX không? Có — nhưng vẫn sẽ chậm hơn SenseVoice vì nút thắt tự hồi quy nằm ở kiến trúc, không phải runtime.

	Qwen3-ASR (cũ)	SenseVoice (mới)
Kiến trúc	Tự hồi quy (từng token)	Phi tự hồi quy (song song)
Runtime	sherpa-onnx (CPU)	Apple MLX (GPU)
27 phút tiếng Trung	224 giây	13.83 giây
Tăng tốc tổng hợp	cơ sở	Nhanh hơn 16.2 lần
Codebase	Framework C 168 MB + 2.249 dòng Swift	288 dòng Swift Actor

* Cùng podcast tiếng Trung 27 phút, Apple M4 Pro. Tăng tốc 16.2 lần kết hợp cả cải tiến kiến trúc (NAR vs AR) và runtime (GPU vs CPU).

Code cũng đơn giản hơn. Triển khai SenseVoice mới là một Swift Actor 288 dòng giao tiếp trực tiếp với MLX, thay thế framework C 168 MB. Ít code hơn, ít bug hơn, ứng dụng nhỏ hơn.

Năm ngôn ngữ, làm thật tốt

SenseVoice không cố gắng làm tất cả. Nó xử lý năm ngôn ngữ:

Ngôn ngữ	SenseVoice-Small	Whisper-Large-V3	Thắng
Tiếng Trung (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
Tiếng Quảng Đông (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
Tiếng Nhật (ja)	11.96% CER	10.34% CER	Whisper (nhỉnh hơn)
Tiếng Hàn (ko)	8.28% CER	5.59% CER	Whisper
Tiếng Anh (en)	14.71% WER	9.39% WER	Whisper (nên dùng Parakeet)

* Benchmark CommonVoice, CER = Tỷ lệ lỗi ký tự, WER = Tỷ lệ lỗi từ. Thấp hơn là tốt hơn. Nguồn: bài báo FunAudioLLM (2024). Độ trễ suy luận SenseVoice-Small: 70ms cho 10s âm thanh (A800 GPU), nhanh hơn 15 lần so với Whisper-Large-V3.

So sánh độ chính xác SenseVoice vs Whisper trên benchmark CommonVoice cho tiếng Trung, Quảng Đông, Anh, Nhật, Hàn và 25 ngôn ngữ khác - biểu đồ thanh WER/CER

Benchmark CommonVoice: SenseVoice-Small (vàng) vs Whisper-Small (xanh dương) vs Whisper-Large-V3 (cam). Thấp hơn là tốt hơn. Nguồn: bài báo FunAudioLLM

Con số kể một câu chuyện trung thực. SenseVoice vượt Whisper về độ chính xác tiếng Trung và Quảng Đông với biên độ đáng kể, trong khi Whisper chính xác hơn cho tiếng Nhật, Hàn và Anh. Nhưng SenseVoice nhanh hơn 15 lần so với Whisper-Large-V3. Trong thực tế, sự chênh lệch tốc độ quan trọng hơn vài phần trăm độ chính xác.

Kết quả tiếng Quảng Đông đáng được nhấn mạnh riêng. Whisper-Small đạt 38.97% CER cho tiếng Quảng Đông — gần như không dùng được. Ngay cả Whisper-Large-V3 cũng chỉ đạt 10.41%. SenseVoice đạt 7.09%. Trước SenseVoice, không có cách tốt nào để chuyển đổi giọng nói tiếng Quảng Đông cục bộ trên Mac. Nếu bạn nói tiếng Quảng Đông, mô hình này dành cho bạn.

Kết quả chuyển đổi giọng nói tiếng Hàn bằng SenseVoice trong Whisper Notes cho Mac, hiển thị văn bản tiếng Hàn chính xác từ video

Chuyển đổi giọng nói tiếng Hàn với SenseVoice: nhập video với phụ đề có mốc thời gian

Thử nghiệm thực tế: Podcast tiếng Trung 27 phút

Chúng tôi chuyển đổi một tập 27 phút của Thirteen Invitations (十三邀), một podcast phỏng vấn tiếng Trung, bằng cả SenseVoice và Whisper Large V3 Turbo trên cùng M4 Pro. ElevenLabs Scribe (cloud) làm tham chiếu. Cả hai mô hình on-device có số lỗi tương đương nhưng loại lỗi khác nhau:

	SenseVoice	Whisper Large V3
Thời gian	13.83s	2 min 4s
Số lỗi (mẫu 5 phút)	~15–20	~12–15
Lỗi tệ nhất	时差→食堂 (múi giờ→nhà ăn)	西昌→西藏 (thành phố Xīchāng→Tây Tạng, lệch 4.000 km)
Kiểu lỗi	Hoán đổi từ đồng âm	Lỗi địa lý/thực tế

* So sánh thủ công với ElevenLabs Scribe (tham chiếu cloud, cũng không hoàn hảo). Cả hai mô hình on-device đều viết đúng "根深蒂固" trong khi Scribe viết sai.

Độ chính xác tương đương. Nhanh hơn 9 lần. Trong thực tế chuyển đổi giọng nói tiếng Trung, SenseVoice cho bạn bản ghi sử dụng được trước khi Whisper tải xong.

Khi nào dùng mô hình nào

Whisper Notes cho Mac hiện có bốn mô hình giọng nói. Mỗi mô hình được tối ưu cho các tình huống khác nhau:

Bạn cần...	Dùng mô hình này	Lý do
Tiếng Anh hoặc châu Âu, tốc độ tối đa	Parakeet V3	103× thời gian thực, tỷ lệ lỗi thấp nhất. Mặc định.
Tiếng Trung, Nhật, Hàn hoặc Quảng Đông	SenseVoice Small	52–118× thời gian thực. Mô hình duy nhất hỗ trợ Quảng Đông.
Bất kỳ trong 99+ ngôn ngữ (tiếng Ả Rập, Thái, Nga, v.v.)	Whisper Large V3 Turbo	Hỗ trợ ngôn ngữ rộng nhất. Chậm hơn nhưng đa năng.
Ít bộ nhớ (Mac đời cũ)	Whisper Small	487 MB bộ nhớ. Phù hợp Mac 8 GB.

Bộ chọn mô hình Whisper Notes Mac hiển thị Parakeet V3, SenseVoice Small, Whisper Small và Whisper Large V3 Turbo với kích thước tải và ngôn ngữ hỗ trợ

Cài đặt → Mô hình chuyển đổi: chọn engine phù hợp với ngôn ngữ của bạn

Bộ chọn mô hình trong Cài đặt hiển thị cả bốn tùy chọn với kích thước tải, số ngôn ngữ và yêu cầu bộ nhớ. SenseVoice tải xuống khi sử dụng lần đầu (~827 MB) và lưu trên thiết bị.

Đánh đổi

SenseVoice không phải mô hình vạn năng. Đây là những gì nó không làm được:

• Chỉ 5 ngôn ngữ. Nếu bạn cần tiếng Thái, Nga, Ả Rập, Hindi, hoặc bất kỳ ngôn ngữ nào trong 90+ ngôn ngữ Whisper hỗ trợ, hãy dùng Whisper.

• Chỉ dành cho Mac. SenseVoice chạy qua Apple MLX, yêu cầu macOS. Không khả dụng trên iPhone. Người dùng iOS có Parakeet (cho ngôn ngữ châu Âu) và Whisper.

• Hiện tượng lạ với âm thanh nhỏ. Trong các đoạn rất ngắn hoặc rất nhỏ, SenseVoice đôi khi xuất ra tiếng Trung bất kể ngôn ngữ đã chọn. Đặt ngôn ngữ thủ công (thay vì "Tự động") giảm thiểu hiện tượng này.

• Không hỗ trợ streaming. Khác với chế độ streaming của Whisper, SenseVoice xử lý toàn bộ âm thanh sau khi ghi. Với file dài, nó tự động chia đoạn tại điểm im lặng và hiển thị kết quả dần dần.

Đây là giới hạn kiến trúc, không phải bug. Một mô hình được huấn luyện trên 5 ngôn ngữ xử lý 5 ngôn ngữ đó cực kỳ tốt. Khả năng hỗ trợ 99+ ngôn ngữ của Whisper đi kèm tốc độ chậm hơn và tỷ lệ lỗi cao hơn trên từng ngôn ngữ.

Dùng thử

SenseVoice có sẵn trong Whisper Notes cho Mac v1.4.8 trở lên. Tải từ Cài đặt → Mô hình chuyển đổi → SenseVoice Small (~827 MB). Yêu cầu Mac Apple Silicon (M1 trở lên).

Nếu bạn đang dùng Parakeet V3 và chủ yếu nhập liệu bằng tiếng Anh, không cần chuyển đổi. SenseVoice dành cho khi bạn cần tiếng Trung, Nhật, Hàn hoặc Quảng Đông — và muốn xử lý nhanh.

Tải cho Mac

Nhật ký thay đổi: whispernotes.app/changelog

Câu hỏi hoặc phản hồi: mac@whispernotes.app