Giọng Nói Thành Văn Bản: Tại Sao Gõ Phím Làm Chậm Suy Nghĩ

Bạn nghĩ với tốc độ 150 từ mỗi phút. Bạn gõ 40. Khoảng cách đó có thật, và nó khiến bạn mất ý tưởng mỗi ngày.

Voice to Text Offline

Tại Sao Gõ Phím Làm Chậm Suy Nghĩ

Não bạn hoạt động với tốc độ nói. Bàn phím buộc bạn phải dịch suy nghĩ thành chuyển động ngón tay. Giọng nói bỏ qua bước dịch đó. Whisper Notes chuyển giọng nói thành văn bản cục bộ—trên Mac với Whisper Large-v3 Turbo, trên iPhone với các mô hình tối ưu cho Neural Engine. Âm thanh của bạn không bao giờ chạm vào máy chủ.

  • Mac: Giữ Fn để đọc chính tả ở bất kỳ đâu—Claude, ChatGPT, Slack, VS Code, bất cứ đâu bạn muốn
  • iPhone: Widget màn hình khóa bắt đầu ghi âm trong 1 giây
  • Mọi thứ diễn ra trên thiết bị của bạn. Không gì được tải lên. Không bao giờ.
  • $4.99 một lần. Cả hai nền tảng. Không đăng ký.

Mac (macOS 14+, Apple Silicon) · iPhone (iOS 18+)

Desktop: Nói Chuyện Với Bất Kỳ Ứng Dụng Nào

Mọi ô nhập văn bản trên Mac của bạn giờ là giao diện giọng nói. Soạn email, trả lời Slack, bình luận code, prompt AI—ở đâu bạn gõ được, giờ bạn nói được. Giữ Fn, nói, thả. Chữ xuất hiện tại con trỏ. Không chuyển app. Không chờ đợi.

Nhập Giọng Nói Toàn Hệ Thống

Whisper Notes cài đặt phím tắt toàn cục. Trong bất kỳ app nào—Claude, ChatGPT, Gemini, Gmail, Notion, VS Code, cả Terminal—giữ Fn và nói. Khi bạn thả, Whisper Large-v3 Turbo xử lý âm thanh cục bộ. Văn bản xuất hiện tại vị trí con trỏ. Không có độ trễ cloud.

  • Hoạt động trong mọi app Mac. Không có ngoại lệ.
  • Văn bản xuất hiện ngay lập tức tại vị trí con trỏ
  • Whisper Large-v3 Turbo: 1.5 tỷ tham số, chạy cục bộ
  • Thiết lập 30 giây: Cài đặt → Phím Tắt → Bật

Works in: Claude, ChatGPT, Gemini, Gmail, Slack, VS Code, Terminal, Notion

Kết Quả Streaming

Bạn không phải chờ cả file được xử lý. Kết quả xuất hiện từng đoạn một. Bắt đầu đọc và chỉnh sửa trong khi phiên âm tiếp tục.

Từ Vựng Tùy Chỉnh

Các mô hình AI hay vấp ở tên riêng và thuật ngữ chuyên ngành. Thêm từ vựng của bạn—tên công ty, sản phẩm, thuật ngữ kỹ thuật. Chữ hoa được giữ nguyên ("Claude Opus 4.5" vẫn là "Claude Opus 4.5", không phải "claude opus").

Claude, GPT-4, Gemini, Whisper · OAuth, TypeScript, Kubernetes · HIPAA, GDPR, SOC2

Xử Lý Khoảng Im Lặng

Whisper hay ảo giác trong những khoảng im lặng dài—lặp lại cụm từ hoặc bịa từ. Phát Hiện Hoạt Động Giọng Nói bắt những khoảng im này và xử lý đúng cách. Ảo giác giảm 70% trong âm thanh có khoảng dừng tự nhiên.

Nhanh Cỡ Nào?

M4: 12x thời gian thực (2 giờ âm thanh → 10 phút)

M3/M2: 10x thời gian thực

M1: 8x thời gian thực

Ứng Dụng Killer: Nói Chuyện Với AI

Nói Chuyện Với Claude

Giữ Fn, mô tả vấn đề của bạn chi tiết. Nói tự nhiên tạo ra prompt tốt hơn bất kỳ lần gõ phím nào. Thả, gửi. Không copy-paste từ app khác. Chỉ là bạn và AI, trong cuộc trò chuyện.

Slack và Email

Trả lời dài là ma sát. Giọng nói loại bỏ ma sát. Giữ Fn trong ô nhập, nói những gì bạn nghĩ, thả. Xong trong 20 giây thay vì 3 phút gõ phím.

Bản Nháp Đầu Tiên

Các nhà văn liên tục báo cáo rằng bản nháp đầu tiên được đọc chính tả ra thoải mái và chân thực hơn. Bàn phím tạo ra một lớp chỉnh sửa vô thức. Giọng nói bỏ qua nó. Đưa ý tưởng ra trước, chỉnh sửa sau.

Di Động: Bắt Ý Tưởng Khi Chúng Xuất Hiện

Ý tưởng hay không chờ bạn ngồi vào bàn. Chúng đến khi đi bộ, khi tắm, lúc 2 giờ sáng, khi xếp hàng. Widget màn hình khóa giảm ma sát ghi lại xuống gần bằng không. Một chạm, nói, xong. Suy nghĩ được lưu trước khi nó phai mờ.

Widget Màn Hình Khóa

  • 1 giây từ điện-thoại-trong-túi đến đang-ghi-âm
  • Live Activity hiện thời lượng khi bạn nói
  • Dynamic Island hiện trạng thái ghi âm
  • Không mở app, không gõ mật khẩu

Ghi Lại Rảnh Tay

  • Găng tay, tay ướt, tay đầy đồ—đều hoạt động
  • AirPods bắt đầu/dừng bằng cử chỉ chạm
  • Độ nhạy mức thì thầm cho phòng yên tĩnh
  • Xử lý gió và tiếng ồn môi trường cho ngoài trời

Xuất Đi Bất Kỳ Đâu

  • Sao chép vào clipboard để dán ngay
  • Chia sẻ đến Ghi chú, Tin nhắn, email, bất kỳ app nào
  • Xuất với dấu thời gian để xem lại
  • Định dạng SRT cho phụ đề video

Vấn Đề Ý Tưởng Lúc 2 Giờ Sáng

Trước Khi Ngủ

"Thiết kế API này sai rồi. Events phải bất biến. Refactor sang event sourcing pattern sáng mai đầu tiên."

Chạy Bộ Buổi Sáng

"Ý tưởng bài viết: bàn phím như thuật toán nén suy nghĩ. Chúng ta viết khác với cách chúng ta nghĩ vì gõ phím chậm."

Đi Dạo

"Cuộc họp bế tắc vì chúng ta đang tối ưu sai chỉ số. Tập trung lại vào retention, không phải engagement."

Tại Sao Offline Quan Trọng

Âm Thanh Của Bạn Không Bao Giờ Rời Thiết Bị

  • Không upload lên server—xử lý diễn ra trên Neural Engine (iPhone) hoặc Metal (Mac)
  • Không có chính sách lưu giữ dữ liệu vì không có truyền dữ liệu
  • An toàn cho các cuộc trò chuyện bảo mật, ghi chú nhạy cảm HIPAA, công việc pháp lý
  • Bản ghi giọng nói của bạn chỉ tồn tại trên phần cứng bạn sở hữu

Hoạt Động Không Cần Internet

  • Chế độ máy bay, đường hầm tàu điện, Wi-Fi không ổn định—đều hoạt động
  • Cơ sở bảo mật chặn truy cập mạng—hoạt động
  • Độ trễ chỉ là thời gian xử lý, không có roundtrip mạng
  • Hiệu suất không giảm khi server quá tải

Trả Một Lần, Dùng Mãi Mãi

  • $4.99 một lần cho iPhone và Mac. Cả hai.
  • Không tính phí theo phút, không giới hạn sử dụng, không hạn chế "phiên bản miễn phí"
  • Người dùng giọng nói nhiều trả $120-180/năm ở nơi khác
  • Bạn hoàn vốn trong tháng đầu tiên

So Sánh

Tính NăngWhisper NotesApple DictationSuperWhisperWispr Flow
Xử Lý100% trên thiết bịServer Apple100% trên thiết bịServer cloud
iPhone + Mac$4.99 cả haiMiễn phíChỉ MacChỉ Mac
Widget Màn Hình KhóaKhôngKhông có app iPhoneKhông có app iPhone
Phím Fn Hệ Thống
Mô Hình Giá$4.99 một lầnMiễn phí$8.49/tháng hoặc $249$10-15/tháng
Mô Hình AIWhisper Large-v3 TurboApple độc quyềnCác biến thể WhisperGPT-4 + Whisper
Từ Vựng Tùy ChỉnhKhông
Chi Phí Hàng Năm$4.99 tổng cộngMiễn phí$102/năm$120-180/năm

Whisper Notes là lựa chọn duy nhất kết hợp: cả hai nền tảng + 100% offline + ghi màn hình khóa + thanh toán một lần.

Những Đánh Đổi Thật Lòng

Xử lý cục bộ có những đánh đổi thực sự. Chúng tôi nghĩ nó đáng với hầu hết mọi người, nhưng bạn nên biết mình đang bước vào gì:

Tải Mô Hình

Mac đi kèm mô hình đa năng 580 MB hoạt động trên mọi Mac Apple Silicon. Nếu máy bạn mạnh hơn, bạn có thể tải Whisper Large V3 Turbo (~3 GB) trong app để độ chính xác cao hơn. Chúng tôi đang tích cực thử nghiệm các kiến trúc mới như Parakeet để đẩy phiên âm trên thiết bị đi xa hơn nữa.

Chỉ Apple

Đây là app Apple Silicon. Mac M1 trở lên, iPhone iOS 18+. Không có Android. Không có Windows. Không có Mac Intel. Nếu bạn không ở trong hệ sinh thái Apple, đây không phải cho bạn.

Tốc Độ vs Cloud

Suy luận cục bộ chậm hơn API cloud. 10 phút âm thanh mất 1-2 phút xử lý trên iPhone 15. Dịch vụ cloud trả về trong vài giây. Nếu bạn cần kết quả tức thì cho bản ghi một tiếng, cloud có thể tốt hơn.

Giới Hạn Độ Chính Xác

Whisper đạt 95%+ độ chính xác với giọng nói rõ ràng. Giọng nặng, tiếng ồn nền lớn, hoặc nói lầm bầm cần chỉnh sửa chút. Nếu bạn cần 99.9% độ chính xác cho phiên âm y tế, hãy thuê người. Nếu bạn cần 95% độ chính xác ngay lập tức và riêng tư, cái này hoạt động.

Bắt Đầu

iPhone

  1. 1.Tải Whisper Notes từ App Store ($4.99)
  2. 2.Mở một lần—mô hình tự động tải xuống
  3. 3.Nhấn giữ màn hình chính → chạm '+' → tìm 'Whisper Notes' → thêm widget
  4. 4.Chạm widget từ màn hình khóa. Bạn đang ghi âm.

Mac

  1. 1.Tải Whisper Notes (đi kèm với mua iPhone)
  2. 2.Mở một lần—mô hình tự động tải xuống
  3. 3.Cài đặt → Phím Tắt → Bật Đọc Chính Tả Toàn Cục
  4. 4.Cấp quyền Trợ năng khi được yêu cầu
  5. 5.Giữ Fn ở bất kỳ đâu và bắt đầu nói

Thu Hẹp Khoảng Cách

Mua Toàn Cầu: $4.99 một lần cho iPhone và Mac. Không đăng ký. Không tính phí theo phút. Chỉ cần nói.

Đọc Chính Tả Phím Fn · Widget Màn Hình Khóa · 100+ ngôn ngữ · 100% offline · Mua một lần