Quyền riêng tư của giọng nói: Tại sao chúng tôi chọn kiến trúc cục bộ
Bạn không cần phải chọn giữa tiện lợi và kiểm soát.
Ghi chú giọng nói thì khác
Ghi chú giọng nói thường lộn xộn, không qua lọc và rất cá nhân. Chúng ghi lại những suy nghĩ đang hình thành—ý tưởng trước khi được trau chuốt, bực bội trước khi được tiêu hóa, quan sát trước khi được cấu trúc. Sự chân thực thô sơ này chính là điều làm cho chúng có giá trị.
Chúng mang cảm giác khác với một tài liệu đã được trau chuốt. Cảm giác đó quan trọng.
Khi bạn ghi âm một ghi chú giọng nói, bạn thường đang nói chuyện với chính mình. Sự riêng tư của khoảnh khắc đó—những câu chưa hoàn chỉnh, những suy nghĩ lan man, sự thành thật không che đậy—xứng đáng được tôn trọng trong cách xử lý kỹ thuật.
Vấn đề vệ sinh số
Giọng nói của bạn là một định danh sinh trắc học độc nhất. Không giống mật khẩu, bạn không thể đặt lại nó. Không giống số thẻ tín dụng, bạn không thể yêu cầu cấp mới. Điều này không nhằm gây hoảng sợ—đây chỉ đơn giản là một đặc điểm của dữ liệu giọng nói đáng được nhận ra.
Với hầu hết các bản ghi hàng ngày, xử lý đám mây hoàn toàn chấp nhận được. Nhưng với nội dung nhạy cảm—suy nghĩ cá nhân, ghi chú chuyên môn, cuộc trò chuyện với khách hàng—giữ các tệp âm thanh thô ngoài đám mây đơn giản là vệ sinh số tốt. Đó là nguyên tắc giống như không lưu mật khẩu ở dạng văn bản thuần: không phải vì thảm họa sắp xảy ra, mà vì kiến trúc được suy nghĩ kỹ ngăn ngừa vấn đề trước khi chúng phát sinh.
Chúng tôi xây dựng Whisper Notes dựa trên nguyên tắc này. Âm thanh của bạn ở lại trên thiết bị của bạn—không phải vì chúng tôi nghĩ dịch vụ đám mây nguy hiểm, mà vì bạn nên có quyền lựa chọn.
Kiến trúc
Whisper Notes chạy mô hình nhận dạng giọng nói Whisper của OpenAI trực tiếp trên phần cứng của bạn. Không có thành phần máy chủ. Các bản ghi của bạn được xử lý cục bộ và không bao giờ được truyền đi đâu cả.
Cách triển khai khác nhau giữa các nền tảng để tối ưu hóa khả năng của từng thiết bị:
Mac: Whisper Large-v3 Turbo
Trên Mac, chúng tôi chạy Whisper Large-v3 Turbo—một mô hình với 1,5 tỷ tham số được tối ưu hóa cho Apple Silicon. Điều này mang lại độ chính xác tương đương với các dịch vụ phiên âm đám mây, với dấu câu chính xác và định dạng đoạn văn thông minh.
Tốc độ xử lý tăng theo chip của bạn: máy M4 đạt khoảng 12x thời gian thực, trong khi chip M1 hoạt động ở khoảng 8x thời gian thực.
iPhone: Mô hình Whisper được tối ưu cho di động
Thiết bị di động có những hạn chế khác—giới hạn nhiệt, thời lượng pin, băng thông bộ nhớ. Chúng tôi sử dụng mô hình Whisper được tối ưu cho di động, được điều chỉnh cho Neural Engine trên các chip A và M.
Mặc dù nhỏ hơn mô hình Mac, nó tạo ra văn bản có cấu trúc với dấu câu vượt trội hơn đọc chính tả tiêu chuẩn. Sự đánh đổi rất rõ ràng: để có độ chính xác tối đa cho các bản ghi dài, hãy xử lý trên Mac. Để ghi nhanh, mô hình di động hoạt động tốt.
Thiết kế cho tốc độ
Ý tưởng hay không chờ đợi. Chúng đến khi bạn đang lái xe, đi bộ, hoặc ngay trước khi ngủ. Widget màn hình khóa được thiết kế để giảm thiểu ma sát giữa suy nghĩ và ghi âm.
Widget màn hình khóa với Live Activity
- • Kích hoạt một chạm: Bắt đầu ghi âm trực tiếp từ màn hình khóa
- • Live Activity: Xác nhận trực quan về thời lượng ghi âm trên Dynamic Island
- • Tích hợp Face ID: Widget hoạt động trơn tru với xác thực Face ID
- • Thân thiện với rảnh tay: Hoạt động với găng tay, tay ướt hoặc cử chỉ chạm AirPods
Quy trình ghi-xem lại
Quy trình làm việc hiệu quả nhất cho ghi chú giọng nói tách biệt việc ghi với việc xem lại. Thiết bị di động xuất sắc trong ghi nhanh; môi trường desktop trong chỉnh sửa sâu.
iPhone: Ghi
Sử dụng iPhone để ghi lại suy nghĩ khi chúng xuất hiện. Widget màn hình khóa giảm ma sát xuống còn một chạm. Mô hình di động phiên âm ngay lập tức, cung cấp văn bản có thể sử dụng được tại chỗ.
Mac: Xem lại
Trên Mac, Whisper Notes cung cấp các công cụ cho công việc chuyên sâu:
- • Xử lý Large-v3 Turbo: Phiên âm lại các bản ghi với độ chính xác tối đa
- • Đoạn văn có dấu thời gian: Nhấp vào bất kỳ đoạn nào để nhảy đến thời điểm đó trong âm thanh
- • Phát lại đồng bộ: Văn bản được đánh dấu khi âm thanh phát
- • Xuất linh hoạt: Văn bản thuần, định dạng dấu thời gian, hoặc phụ đề SRT
- • Đọc chính tả hệ thống: Giữ Fn để đọc chính tả trực tiếp vào bất kỳ ứng dụng nào
Phiên âm với dấu thời gian và phát lại âm thanh đồng bộ
Sự yên tâm
Lợi ích thực sự không chỉ là bảo mật kỹ thuật—mà còn là tâm lý.
Biết rằng âm thanh của bạn không bao giờ rời khỏi thiết bị cho bạn sự tự do nói hoàn toàn thoải mái, không tự kiểm duyệt. Bạn có thể ghi lại những suy nghĩ mới hình thành một nửa, xả bực bội, động não hoang dại, hoặc ghi chép các vấn đề chuyên môn nhạy cảm—tất cả mà không thắc mắc ai có thể cuối cùng truy cập âm thanh đó.
Đó là lý do tương tự tại sao một số người thích viết vào sổ tay giấy: không phải vì ghi chú số nguy hiểm, mà vì cảm giác riêng tư thay đổi cách bạn tự do suy nghĩ.
Mô hình kinh tế
Vì tất cả xử lý diễn ra trên thiết bị của bạn, không có chi phí máy chủ tăng theo sử dụng. Điều này cho phép mô hình mua một lần: $4.99 cho iPhone và Mac, mãi mãi.
Không đăng ký. Không phí theo phút. Không giới hạn sử dụng.
Những đánh đổi thành thật
Xử lý cục bộ đi kèm với những đánh đổi thực sự đáng hiểu:
Cân nhắc
- • Tốc độ xử lý: Suy luận trên thiết bị chậm hơn API đám mây. Bản ghi 10 phút mất 1-2 phút trên iPhone 15. Dịch vụ đám mây phản hồi trong vài giây.
- • Giới hạn độ chính xác: Whisper đạt 95%+ độ chính xác trên giọng nói rõ ràng. Giọng nặng hoặc tiếng ồn nền đáng kể có thể cần một số chỉnh sửa.
- • Nền tảng: Chỉ Apple Silicon—Mac M1 trở lên, iPhone với iOS 18+. Không có Android hoặc Windows.
- • Phiên âm sau ghi: Whisper Notes phiên âm sau khi ghi, không phải trong khi ghi. Điều này tạo ra kết quả chính xác hơn.
Khi nào cách tiếp cận này phù hợp
Whisper Notes phù hợp cho:
- • Chuyên gia quan tâm đến quyền riêng tư: Pháp luật, y tế, báo chí, trị liệu
- • Suy ngẫm cá nhân: Nhật ký, ghi ý tưởng, xử lý suy nghĩ
- • Môi trường ngoại tuyến: Máy bay, cơ sở an toàn, kết nối không ổn định
- • Người dùng mệt mỏi với đăng ký: Một lần thanh toán, truy cập vĩnh viễn
Khi nào cân nhắc phương án khác
Dịch vụ đám mây có thể phù hợp hơn nếu bạn cần:
- • Phiên âm thời gian thực được chia sẻ với nhóm
- • Xử lý tức thì cho các bản ghi rất dài
- • Hỗ trợ Android hoặc Windows
Tóm tắt
Whisper Notes được xây dựng trên một tiền đề đơn giản: ghi chú giọng nói là cá nhân, và bạn nên kiểm soát nơi âm thanh đó tồn tại. Chúng tôi chọn kiến trúc ưu tiên cục bộ không phải vì dịch vụ đám mây tệ, mà vì một số nội dung xứng đáng ở lại trên thiết bị của bạn.
Whisper Large-v3 Turbo trên Mac cho độ chính xác. Mô hình tối ưu cho di động trên iPhone để ghi nhanh. Cả hai nền tảng xử lý hoàn toàn ngoại tuyến.
$4.99 một lần. iPhone và Mac. Âm thanh của bạn là của bạn.