Phiên Âm Offline
Tại Sao Cuối Cùng Cũng Hoạt Động
Nhiều năm qua, phiên âm cục bộ có nghĩa là chậm hơn và tệ hơn. Điều đó đã thay đổi.

Một Chút Bối Cảnh
Vài năm trước, nếu bạn muốn phiên âm chính xác, bạn phải tải âm thanh lên máy chủ của ai đó. Các tùy chọn cục bộ tồn tại, nhưng chúng rõ ràng tệ hơn. Sự đánh đổi là có thật.
Sau đó một vài điều xảy ra. OpenAI phát hành Whisper như một mô hình mở. Apple bắt đầu sản xuất chip với phần cứng AI chuyên dụng. Đột nhiên các mô hình giống như những gì vận hành dịch vụ đám mây có thể chạy trên laptop.
Chúng tôi bắt đầu xây dựng Whisper Notes vào khoảng thời gian đó, chủ yếu vì bản thân chúng tôi cần nó. Hóa ra rất nhiều người cũng đang tìm kiếm điều tương tự.
Điều Gì Đã Thay Đổi
Ba điều từng khiến phiên âm đám mây là lựa chọn hiển nhiên. Cả ba đều đã thay đổi.
Sức Mạnh Tính Toán
Các mô hình AI thực hiện phiên âm rất lớn—hàng trăm triệu tham số. Chạy chúng từng chậm và tốn pin trên phần cứng tiêu dùng.
Neural Engine của Apple đã thay đổi điều đó. Đó là chip chuyên dụng cho khối lượng công việc AI, và nó có trong mọi Mac dòng M và iPhone mới. Whisper Large v3 Turbo giờ chạy thoải mái trên MacBook Air.
Trên điện thoại, chúng tôi sử dụng các mô hình nhỏ hơn được tối ưu hóa cho chip di động. Chúng không chính xác bằng mô hình lớn, nhưng vẫn tốt hơn hầu hết tính năng đọc chính tả tích hợp.
Độ Chính Xác
Điều này làm chúng tôi ngạc nhiên. Chúng tôi kỳ vọng các mô hình cục bộ sẽ "đủ tốt". Thực ra chúng khá tốt.
Whisper Large v3 có tỷ lệ lỗi từ thấp hơn hầu hết đọc chính tả hệ thống. Và khoảng cách giữa API cục bộ và đám mây đã trở nên khá nhỏ. Đối với hầu hết trường hợp sử dụng, bạn có lẽ sẽ không nhận ra sự khác biệt.
Điều đó thay đổi phép tính. Nếu độ chính xác tương đương, lý do chính để tải âm thanh lên biến mất.
Quyền Riêng Tư
Chúng tôi không ở đây để dọa bạn về dịch vụ đám mây. Hầu hết họ xử lý dữ liệu có trách nhiệm.
Nhưng có sự khác biệt giữa "họ hứa không lạm dụng" và "họ chưa bao giờ có nó". Giọng nói của bạn là sinh trắc học—không giống mật khẩu, bạn không thể thay đổi nó nếu có điều gì đó sai.
Với phiên âm cục bộ, âm thanh của bạn ở lại trên thiết bị. Không mã hóa-rồi-tải-lên. Chỉ đơn giản... ở lại. Đối với một số người điều đó rất quan trọng. Đối với người khác, có thể không. Chúng tôi xây dựng cho nhóm đầu tiên.
Khi Nào Dùng Gì
Cục bộ không phải lúc nào cũng là lựa chọn đúng. Đây là cách chúng tôi nghĩ về nó.
Cần cộng tác thời gian thực?
Các công cụ đám mây như Otter được xây dựng cho điều đó. Nhiều người chỉnh sửa cùng một bản phiên âm cần máy chủ trung tâm. Đó là cách sử dụng tốt của đám mây.
Dùng Windows hoặc Android?
AI cục bộ khó hơn trên những nền tảng đó—hỗ trợ phần cứng chưa trưởng thành. Dragon hoạt động cho Windows. Trên Android, dịch vụ đám mây thường là lựa chọn thực tế.
Cần nhận dạng người nói?
Biết ai nói gì (phân tách người nói) cần các mô hình bổ sung. Dịch vụ đám mây như Rev xử lý tốt điều này. Công cụ cục bộ đang bắt kịp, nhưng đây vẫn là lĩnh vực mà đám mây có lợi thế.
Chỉ cần phiên âm riêng tư, chính xác?
Đó là điều chúng tôi tập trung vào. Nếu mối quan tâm chính của bạn là quyền riêng tư và độ chính xác, và bạn dùng phần cứng Apple, cục bộ giờ hoạt động tốt.
Whisper Notes Làm Gì
Nó chạy Whisper Large v3 Turbo trên Mac của bạn, hoặc mô hình tối ưu nhỏ hơn trên iPhone của bạn. Âm thanh của bạn không bao giờ rời khỏi thiết bị.
Trên Mac, phiên âm chạy với tốc độ khoảng 10-15 lần thời gian thực sử dụng Neural Engine. Một bản ghi một giờ mất vài phút. Trên iPhone chậm hơn, nhưng vẫn thực tế cho hầu hết bản ghi.
$4.99 một lần, cho cả hai nền tảng. Chúng tôi không chạy máy chủ, nên không cần đăng ký. Chỉ vậy thôi.
Tóm Lại
Phiên âm cục bộ từng là sự thỏa hiệp. Giờ nó là mặc định hợp lý cho nhiều người.
Nếu bạn cần cộng tác hoặc làm việc trên nền tảng không phải Apple, dịch vụ đám mây vẫn có ý nghĩa. Nếu bạn chủ yếu muốn phiên âm chính xác, riêng tư trên Mac hoặc iPhone, tùy chọn cục bộ đã trở nên khá tốt.
Chúng tôi sử dụng Whisper Notes mỗi ngày. Nó làm những gì chúng tôi cần.
Thử Ngay
Bạn có thể thử trong chế độ máy bay nếu muốn xác minh không có gì được tải lên. Mọi thứ hoạt động giống nhau.
App Store • $4.99 • Mac và iPhone
Một lần mua bao gồm cả hai nền tảng.