Bạn có một bản ghi âm từ máy ghi âm — một ghi chú đọc miệng, một cuộc phỏng vấn, hồ sơ khám bệnh — và cần chuyển nó thành văn bản. Đây là cách gỡ băng mà không tải lên dù chỉ một giây âm thanh: xuất file từ máy ghi âm, kéo thả vào Whisper Notes, và Whisper Large V3 Turbo sẽ phiên âm hoàn toàn ngay trên iPhone hoặc Mac của bạn. Không cloud, không tài khoản, không tính phí theo phút. Chỉ $6.99 một lần.
Ai vẫn còn dùng máy ghi âm — và vì sao điều đó quan trọng
Máy ghi âm chưa bao giờ biến mất. Nó chỉ chuyển sang những nghề mà nói nhanh hơn gõ phím, và nội dung thì quá nhạy cảm để có thể làm mất — hay để lộ ra ngoài.
- •Luật sư đọc miệng bản luận cứ, ghi chú buổi làm việc và thư từ giữa các cuộc hẹn. Một bản ghi như vậy có thể chứa tên thân chủ, chiến lược tố tụng và những chi tiết được bảo mật, tuyệt đối không được chạm vào máy chủ của bên thứ ba.
- •Bác sĩ đọc bệnh án và giấy chuyển viện sau mỗi lượt khám. Đoạn âm thanh đó chính là dữ liệu y tế ở dạng thô nhất.
- •Nhà báo ghi âm phỏng vấn bằng máy ghi âm và điện thoại. Bảo vệ nguồn tin bắt đầu từ việc không tải giọng nói của họ lên cloud của người khác.
- •Nhà nghiên cứu thu thập hàng giờ phỏng vấn thực địa và ghi chép quan sát, thường theo các cam kết đạo đức nghiên cứu quy định rõ bản ghi được phép xử lý ở đâu.
Với cả bốn nhóm này, điểm nghẽn đều giống nhau: biến hàng giờ ghi âm thành văn bản. Trước đây, điều đó có nghĩa là thuê người đánh máy, gửi cho dịch vụ gỡ băng bên ngoài, hoặc dùng dịch vụ cloud — mỗi lựa chọn là một con người hoặc một máy chủ nghe được toàn bộ những gì bạn nói. Phiên âm offline loại bỏ hoàn toàn khâu trung gian đó.
Từ bản ghi âm thành văn bản trong ba bước
1. Xuất file từ máy ghi âm
Kết nối máy ghi âm qua USB (hoặc dùng ứng dụng đi kèm) rồi sao chép bản ghi sang Mac hoặc iPhone. Hầu hết máy ghi âm kỹ thuật số — Olympus, Philips, Sony, Zoom, hay ứng dụng Ghi âm trên điện thoại — đều lưu file dưới dạng MP3, WAV hoặc M4A. Tất cả đều dùng được ngay, không cần chuyển đổi.
2. Nhập vào Whisper Notes
Kéo file vào Whisper Notes trên Mac, hoặc chia sẻ file vào ứng dụng trên iPhone. Không có giới hạn độ dài — một ghi chú hai phút hay một cuộc phỏng vấn ba tiếng đều xử lý được. File video cũng vậy: nhập MP4 hoặc MOV và ứng dụng sẽ phiên âm phần âm thanh.
| Định dạng | Loại | Hỗ trợ |
|---|---|---|
| MP3 | Âm thanh — hầu hết máy ghi âm kỹ thuật số | Có, mọi độ dài |
| WAV | Âm thanh — máy ghi âm không nén | Có, mọi độ dài |
| M4A | Âm thanh — ứng dụng Ghi âm trên iPhone | Có, mọi độ dài |
| MP4 | Video — phiên âm phần âm thanh | Có, mọi độ dài |
| MOV | Video — phiên âm phần âm thanh | Có, mọi độ dài |
3. Phiên âm trên thiết bị, xuất ra bất cứ đâu
Nhấn phiên âm là xong. Với tiếng Việt, chọn Whisper Large V3 Turbo — hỗ trợ hơn 100 ngôn ngữ; với tiếng Anh và các ngôn ngữ châu Âu, mô hình mặc định Parakeet V3 xử lý nhanh gấp khoảng 10 lần Whisper, với tỷ lệ lỗi từ 6,32% trên âm thanh rõ. Dù chọn mô hình nào, toàn bộ việc xử lý đều diễn ra trên chính con chip của thiết bị. Kết quả là bản gỡ băng chia đoạn kèm dấu thời gian: nhấp vào bất kỳ đoạn nào để nhảy đến đúng thời điểm đó trong bản ghi — kiểm chứng một câu trích dẫn hay một chỉ định liều thuốc chỉ mất vài giây thay vì vài phút.
Một bản ghi được nhập vào, phiên âm kèm dấu thời gian — nhấp vào đoạn bất kỳ để nghe lại âm thanh gốc
Khi hoàn tất, xuất ra TXT để làm tài liệu, hoặc SRT/VTT kèm dấu thời gian nếu bản ghi đến từ video. Bạn cũng có thể chỉnh sửa trực tiếp trước — các sửa đổi luôn được đồng bộ với âm thanh.
Vì sao offline thắng cloud khi gỡ băng ghi âm
Dịch vụ phiên âm cloud hoạt động bằng cách tải âm thanh của bạn lên máy chủ của họ, xử lý ở đó, và lưu trữ theo chính sách của họ. Với một tập podcast thì không sao. Nhưng với một bản luận cứ đọc cho thân chủ hay một hồ sơ bệnh án, đó là rủi ro bảo mật mà bạn hoàn toàn không cần phải gánh.
Với phiên âm ngay trên thiết bị, chẳng có gì cần bảo vệ, vì chẳng có gì rời khỏi máy. Không tải lên, không tài khoản, không log máy chủ, không hợp đồng xử lý dữ liệu phải đàm phán. Quyền riêng tư được bảo đảm ngay từ kiến trúc: bạn không chuyển dữ liệu cá nhân cho bên xử lý nào cả, vì bên xử lý đó không tồn tại.
| Ứng dụng offline (Whisper Notes) | Dịch vụ phiên âm cloud | |
|---|---|---|
| Âm thanh được xử lý ở đâu | Trên chính thiết bị của bạn | Máy chủ của nhà cung cấp |
| Tính bảo mật | Âm thanh không bao giờ rời khỏi thiết bị | Phụ thuộc chính sách của nhà cung cấp |
| Quyền riêng tư / GDPR | An toàn từ kiến trúc — không có chuyển giao dữ liệu | Cần hợp đồng xử lý dữ liệu |
| Chi phí | $6.99 một lần | Thuê bao hàng tháng hoặc tính phí theo phút |
| Dùng được khi không có mạng | Có — tòa án, phòng khám, máy bay, thực địa | Không |
| Yêu cầu tài khoản | Không | Có |
Bài toán chi phí cũng đáng kể với người ghi âm nhiều. Nếu bạn đọc ghi âm một giờ mỗi ngày, phí cloud tính theo phút sẽ đội lên rất nhanh, còn thuê bao thì tháng nào cũng thu tiền dù bạn có dùng hay không. Mua một lần thì chi phí vẫn vậy, dù bạn phiên âm mười phút mỗi tháng hay mười giờ mỗi tuần.
Làm sao để có bản gỡ băng chính xác nhất
Hai thiết lập tạo ra khác biệt lớn nhất khi gỡ băng chuyên nghiệp:
Từ vựng tùy chỉnh. Các mô hình nhận dạng giọng nói được huấn luyện trên ngôn ngữ phổ thông, nên chúng vấp đúng vào những từ quan trọng nhất trong lĩnh vực của bạn — họ tên thân chủ, tên thuốc, số hiệu điều luật, thuật ngữ chuyên ngành. Whisper Notes cho phép bạn thêm các từ này vào danh sách từ vựng tùy chỉnh, và mô hình sẽ dùng chúng để phân giải những đoạn âm thanh khó nghe. Thêm mười danh từ riêng bạn hay dùng nhất là loại bỏ được phần lớn lỗi lặp đi lặp lại.
Chọn mô hình theo ngôn ngữ. Hãy chọn mô hình phù hợp với ngôn ngữ bạn ghi âm:
| Tiếng Việt / ngôn ngữ khác | Whisper Large V3 Turbo — hơn 100 ngôn ngữ trong đó có tiếng Việt, ~1,5GB, độ phủ rộng nhất |
| Tiếng Anh / châu Âu | Parakeet V3 — 25 ngôn ngữ châu Âu, tỷ lệ lỗi từ 6,32%, nhanh gấp 10 lần Whisper, chỉ 465MB |
| Tiếng Trung / Nhật / Hàn | SenseVoice — nhanh nhất cho tiếng Trung, Nhật, Hàn và Quảng Đông, gấp 52 lần thời gian thực |
Và một thói quen từ thời ghi âm băng từ vẫn còn nguyên giá trị: đưa máy ghi âm lại gần, nói với nhịp độ đều, và đọc thành câu hoàn chỉnh dễ chấm câu. Âm thanh sạch đi vào, văn bản sạch đi ra.
Câu hỏi thường gặp
Tôi có thể gỡ băng các file ghi âm cũ không?
Có. Sao chép file từ máy ghi âm rồi nhập vào Whisper Notes — MP3, WAV và M4A đều dùng được, mọi độ dài. Một bản ghi từ mười năm trước phiên âm y hệt bản ghi sáng nay; độ chính xác phụ thuộc vào chất lượng âm thanh, không phải tuổi của file.
Ứng dụng nào tốt nhất để chuyển ghi âm thành văn bản?
Hãy đánh giá bất kỳ ứng dụng nào theo bốn tiêu chí: âm thanh được xử lý ở đâu, chấp nhận những định dạng nào, có xử lý được thuật ngữ chuyên ngành không, và tổng chi phí sau một năm sử dụng là bao nhiêu. Nếu nội dung ghi âm của bạn là bí mật — pháp lý, y tế, báo chí — chúng tôi cho rằng xử lý ngay trên thiết bị là điều không thể nhân nhượng, và đó chính là lý do chúng tôi xây dựng Whisper Notes: phiên âm cục bộ, nhập MP3/WAV/M4A/MP4/MOV mọi độ dài, từ vựng tùy chỉnh, $6.99 một lần.
Gỡ băng ghi âm có hoạt động khi không có Internet không?
Với Whisper Notes thì có — hoàn toàn offline. Các mô hình giọng nói chỉ cần tải về một lần rồi chạy trên chính con chip của iPhone hoặc Mac, nên bạn có thể phiên âm ở tầng hầm tòa án, trên máy bay, hay ngoài thực địa không có sóng. Việc phiên âm không bao giờ cần kết nối mạng.
Phiên âm offline chính xác đến mức nào?
Parakeet V3 đạt tỷ lệ lỗi từ 6,32% trên âm thanh rõ — ngang ngửa các dịch vụ cloud; với tiếng Việt, Whisper Large V3 Turbo cho độ phủ ngôn ngữ rộng nhất. Các lỗi còn lại tập trung vào danh từ riêng và thuật ngữ chuyên ngành — đúng chỗ mà tính năng từ vựng tùy chỉnh phát huy tác dụng: thêm các tên và thuật ngữ bạn hay dùng, độ chính xác trên chính những từ đó sẽ cải thiện rõ rệt.