Phiên âm Whisper: mô hình, tốc độ và cách chạy ngoại tuyến (Hướng dẫn 2026)

2 tháng 7, 2026
·
9 min read
·Whisper Notes Team

Phiên âm Whisper nghĩa là chuyển giọng nói thành văn bản bằng Whisper của OpenAI — một mô hình AI mã nguồn mở có thể chạy trên đám mây, trên máy chủ hoặc hoàn toàn trên thiết bị của bạn. Hướng dẫn này giải thích Whisper hoạt động ra sao, nên chọn kích thước mô hình nào, độ chính xác thực tế đến đâu và cách nhanh nhất để chạy nó ngoại tuyến trên Mac hay iPhone.

Whisper thực chất là gì?

Whisper là mô hình nhận dạng giọng nói tự động (ASR) được OpenAI phát hành vào tháng 9 năm 2022 theo giấy phép MIT. Đây là một transformer kiểu encoder-decoder được huấn luyện trên hơn 680.000 giờ âm thanh đa ngôn ngữ, có thể phiên âm khoảng 100 ngôn ngữ và dịch sang tiếng Anh.

Điều quan trọng nhất với bạn: trọng số của mô hình là mở. Khác với API giọng nói của Google hay Amazon, Whisper không bắt buộc phải chạy trên máy chủ của ai đó. Cả một hệ sinh thái đã ra đời để chạy nó cục bộ — whisper.cpp, faster-whisper và các ứng dụng gốc như Whisper Notes. Chính điều đó khiến việc phiên âm ngoại tuyến, riêng tư thực sự trở nên khả thi.

Các kích thước mô hình Whisper: nên dùng bản nào

Whisper có sáu kích thước chính. Càng lớn càng chính xác nhưng càng chậm:

Mô hình Tham số Tốc độ Phù hợp nhất cho
tiny 39M Nhanh nhất Bản nháp nhanh, phần cứng yếu
base 74M Rất nhanh Âm thanh đơn giản, rõ ràng
small 244M Nhanh Cân bằng tốt giữa tốc độ và độ chính xác trên di động
medium 769M Trung bình Ngày nay hiếm khi là lựa chọn đúng
large-v3 1.55B Chậm nhất Độ chính xác tối đa, âm thanh khó
large-v3-turbo 809M Nhanh hơn large-v3 ~5 lần Lựa chọn mặc định năm 2026

Với hầu hết mọi người, large-v3-turbo là câu trả lời: nó giữ nguyên encoder của large-v3 nhưng cắt số lớp decoder từ 32 xuống 4, cho độ chính xác gần như tương đương với chỉ một phần nhỏ sức tính toán. Chúng tôi đã benchmark chi tiết trong bài Whisper Large V3 Turbo vs V3.

Phiên âm Whisper chính xác đến mức nào?

Với âm thanh tiếng Anh sạch, các mô hình lớn đạt tỷ lệ lỗi từ (WER) khoảng 5-8% — tương đương phiên âm chuyên nghiệp của con người trong hầu hết mục đích thực tế. Độ chính xác giảm khi có tiếng ồn nền, giọng vùng miền nặng, nhiều người nói chồng lên nhau và các ngôn ngữ ít dữ liệu.

Điểm yếu nổi tiếng nhất của Whisper: ảo giác trong khoảng lặng. Bộ decoder tự hồi quy của nó đôi khi bịa ra các cụm từ lặp lại hoặc dòng credit phụ đề khi không ai nói. Các mô hình mới hơn đã khắc phục điều này — Parakeet V3 của NVIDIA được huấn luyện riêng trên âm thanh không có giọng nói và không tạo ra bất kỳ ảo giác nào trong các bài test của chúng tôi (benchmark đầy đủ Parakeet V3 vs Whisper).

Với tiếng Trung, Nhật, Hàn và tiếng Quảng Đông, một mô hình chuyên biệt vượt Whisper cả về tốc độ lẫn dấu câu: xem SenseVoice vs Whisper cho các ngôn ngữ CJK.

5 cách chạy phiên âm Whisper

Phương pháp Chi phí Quyền riêng tư Cài đặt
OpenAI API Trả tiền theo phút âm thanh Âm thanh bị tải lên API key + code
openai-whisper (bản Python tham chiếu) Miễn phí 100% cục bộ Môi trường Python, nên có GPU
whisper.cpp / faster-whisper Miễn phí 100% cục bộ Dòng lệnh
Ứng dụng gốc (Whisper Notes) $6.99 một lần, dùng thử miễn phí trên Mac 100% trên thiết bị Không cần
Công cụ demo trên web Có gói miễn phí Âm thanh bị tải lên Không cần

Quy tắc đơn giản: nếu bạn sống trong terminal, faster-whisper rất tuyệt. Nếu bạn đang xây sản phẩm, API là hợp lý. Còn nếu bạn chỉ muốn phiên âm các bản ghi một cách riêng tư mà không phải động vào Python, hãy dùng ứng dụng gốc — đó chính là lý do các ứng dụng Whisper cho Mac tồn tại.

Muốn nhìn rộng hơn về các công cụ ngoại tuyến — kể cả lựa chọn cho Windows và Android? Xem hướng dẫn đầy đủ về chuyển giọng nói thành văn bản ngoại tuyến của chúng tôi.

Whisper vs các mô hình cục bộ mới hơn (2026)

Whisper mở ra kỷ nguyên phiên âm cục bộ, nhưng giờ nó không còn đơn độc. Tốc độ dưới đây đo trên Mac M4 Pro:

Mô hình Ngôn ngữ Tốc độ Điểm nổi bật
Whisper Large V3 Turbo 100+ ~12x thời gian thực Phủ ngôn ngữ rộng nhất
Parakeet V3 25 (châu Âu) ~100x thời gian thực WER 6,32%, không ảo giác khoảng lặng
SenseVoice Small zh, ja, ko, yue, en ~52x thời gian thực Tốt nhất cho tiếng Trung, Nhật, Hàn

Cả ba mô hình đều chạy cục bộ trong Whisper Notes và bạn có thể chuyển đổi cho từng bản ghi. Benchmark so sánh trực tiếp nằm trên trang so sánh các mô hình Whisper của chúng tôi.

Cách chạy phiên âm Whisper ngoại tuyến trên Mac & iPhone

Không dòng lệnh, không Python, không đám mây:

  1. Tải Whisper Notes cho Mac (dùng thử miễn phí) hoặc cho iPhone ($6.99 một lần).
  2. Chọn mô hình: Whisper Large V3 Turbo để phủ nhiều ngôn ngữ (bao gồm tiếng Việt), Parakeet V3 cho tốc độ với tiếng Anh, SenseVoice cho CJK. Mô hình chỉ tải một lần rồi hoạt động ngoại tuyến mãi mãi.
  3. Ghi âm trực tiếp, đọc chính tả trên toàn hệ thống bằng cách giữ phím Fn, hoặc kéo thả file âm thanh và video (MP3, WAV, M4A, MP4).
  4. Văn bản hiện ra ngay trong lúc xử lý. Xuất ra TXT hoặc SRT.

Chưa tin vào chữ "ngoại tuyến"? Hãy bật chế độ máy bay trước. Phiên âm vẫn chạy hết tốc lực — không có gì bị tải lên, không bao giờ.

Phiên âm Whisper tiếng Việt chính xác đến đâu? Nên chọn mô hình nào?

Với tiếng Việt, hãy chọn Whisper Large V3 Turbo — mô hình phủ hơn 100 ngôn ngữ, trong đó có tiếng Việt, với dung lượng khoảng 1,5GB. Parakeet V3 (mặc định, 25 ngôn ngữ châu Âu) và SenseVoice (chuyên tiếng Trung, Nhật, Hàn) không hỗ trợ tiếng Việt, nên Turbo là lựa chọn đúng. Trong Whisper Notes, bạn chỉ cần tải mô hình một lần rồi phiên âm hoàn toàn ngoại tuyến trên Mac hay iPhone — bản ghi tiếng Việt của bạn không bao giờ rời khỏi thiết bị. Nói rõ ràng và hạn chế tiếng ồn nền để đạt kết quả tốt nhất.

Câu hỏi thường gặp

Phiên âm Whisper có miễn phí không?

Bản thân mô hình miễn phí và mã nguồn mở (giấy phép MIT). Chạy qua các công cụ dòng lệnh như whisper.cpp không tốn gì nhưng cần cài đặt. API của OpenAI tính phí theo phút âm thanh. Các ứng dụng gốc đóng gói mô hình với một khoản phí nhỏ — Whisper Notes giá $6.99 một lần, kèm bản dùng thử miễn phí trên Mac.

Phiên âm Whisper chạy ngoại tuyến được không?

Được — đó chính là ý nghĩa của trọng số mở. Khi file mô hình đã nằm trên thiết bị, bạn không cần internet nữa. Whisper Notes chạy Whisper Large V3 Turbo trên Apple Silicon qua CoreML/Metal, hoàn toàn ngoại tuyến. Bạn có thể kiểm chứng bằng chế độ máy bay.

Mô hình Whisper nào chính xác nhất?

large-v3 có độ chính xác thô tốt nhất. large-v3-turbo bám sát với khoảng cách WER chỉ một phần nhỏ của phần trăm nhưng chạy nhanh hơn khoảng 5 lần — vì thế nó là mặc định trong hầu hết công cụ hiện nay.

Whisper có hỗ trợ ngôn ngữ của tôi không?

Whisper phủ khoảng 100 ngôn ngữ, mạnh nhất với các ngôn ngữ nhiều dữ liệu (tiếng Anh, Tây Ban Nha, Đức, Pháp...). Với tiếng Trung, Nhật, Hàn và Quảng Đông, SenseVoice cho dấu câu tốt hơn và tốc độ cao hơn nhiều trên Apple Silicon.

Có ứng dụng phiên âm Whisper cho iPhone không?

Có. Whisper Notes chạy các mô hình Whisper được tối ưu cho Neural Engine của iPhone (iPhone 12 trở lên) — ghi âm, nhập từ Voice Memos hoặc Files, và phiên âm hoàn toàn trên thiết bị với giá $6.99, không thuê bao.