Chúng tôi đã xây dựng tính năng phiên âm cuộc họp offline cho Mac. Ghi lại cuộc gọi Zoom, Teams và Google Meet, phiên âm cục bộ bằng Parakeet V3, và tóm tắt bằng Gemma 4. Không cloud, không bot trong cuộc gọi. $6.99 một lần.
Ghi lại cuộc gọi Zoom trong Whisper Notes — "Tôi" và "Người khác" được gắn nhãn theo nguồn âm thanh
Một Ngày Thứ Hai Bình Thường
10 giờ sáng, cuộc gọi Zoom với khách hàng. Bạn mở Whisper Notes, nhấn ghi âm. Ứng dụng thu âm thanh hệ thống và micro cùng lúc — không ai trong cuộc họp thấy bot, không ai nhận được thông báo, không có gì xuất hiện trong danh sách người tham gia.
Một giờ sau, cuộc gọi kết thúc. Bạn dừng ghi âm. Parakeet V3 phiên âm 60 phút âm thanh trong khoảng một phút, hoàn toàn trên Neural Engine của Mac. Bạn nhấn Tóm tắt — Gemma 4 trích xuất các điểm chính. Bạn nhấn Công việc cần làm — nó liệt kê mọi nhiệm vụ và hạn chót được đề cập. Bạn gửi biên bản họp cho khách hàng. Âm thanh chưa bao giờ rời khỏi máy bạn.
Đó là toàn bộ quy trình. Ghi âm, phiên âm, tóm tắt. Tất cả cục bộ.
Tính Năng
Ghi Âm
Whisper Notes thu âm thanh hệ thống — âm thanh phát ra từ loa hoặc tai nghe của bạn. Nếu bạn nghe được trên Mac, chúng tôi có thể phiên âm. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcast, hoặc bất kỳ ứng dụng nào khác. Đồng thời cũng ghi âm micro của bạn, nên cả hai bên cuộc trò chuyện đều được ghi lại.
Không có bot nào tham gia cuộc gọi. Điều này quan trọng hơn bạn nghĩ. Nếu bạn đã từng thấy "Otter.ai Notetaker has joined the meeting" xuất hiện trong cuộc gọi Zoom, bạn biết chuyện gì xảy ra tiếp theo — ai đó hỏi đó là gì, ai đó khác cảm thấy không thoải mái, và cuộc trò chuyện thay đổi. Với thu âm thanh hệ thống, không ai biết bạn đang ghi âm ngoài bạn.
Phiên Âm
Parakeet V3 chạy trên Apple Silicon qua CoreML. Xử lý tiếng Anh và 24 ngôn ngữ châu Âu với tốc độ khoảng 60× thời gian thực — cuộc họp 60 phút hoàn thành trong khoảng một phút. Với tiếng Trung, tiếng Nhật hoặc tiếng Hàn, SenseVoice xử lý CJK ở tốc độ 52×. Pyannote VAD loại bỏ khoảng lặng trước khi phiên âm, nên mô hình chỉ xử lý giọng nói thực sự.
Bản phiên âm với dấu thời gian và chỉnh sửa trực tiếp — nhấp vào bất kỳ đoạn nào để chuyển đến thời điểm đó trong âm thanh
Tính Năng AI — Tất Cả Cục Bộ
Gemma 4 chạy trên Mac của bạn. Không cần API key, không gọi cloud, không giới hạn sử dụng. Sau khi phiên âm:
- •Tóm tắt — các điểm chính của cuộc họp 60 phút, trong vài giây
- •Công việc cần làm — nhiệm vụ và hạn chót, được trích xuất tự động
- •Dịch — Apple Intelligence dịch bản phiên âm sang ngôn ngữ khác
- •Trò chuyện — hỏi "chúng ta đã thống nhất gì về giá?" và nhận câu trả lời dựa trên bản phiên âm
Thanh bên AI Gemma 4 — Tóm tắt, Công việc cần làm, Dịch, và trò chuyện tự do, tất cả chạy cục bộ
Tại Sao Chúng Tôi Xây Dựng Theo Cách Này
Âm thanh cuộc họp là một trong những dữ liệu nhạy cảm nhất mà công ty tạo ra. Đàm phán khách hàng, đánh giá HR, thảo luận hội đồng quản trị, tư vấn pháp lý — loại cuộc trò chuyện mà một lần rò rỉ sai có thể kết thúc sự nghiệp.
Hầu hết các công cụ phiên âm tải âm thanh này lên máy chủ cloud, xử lý ở đó, và lưu trữ theo chính sách lưu giữ dữ liệu của họ. Một số thêm bot vào cuộc gọi mà mọi người đều thấy. Một số giữ bản ghi âm của bạn vô thời hạn để "cải thiện mô hình."
Chúng tôi chọn cách tiếp cận khác: mọi thứ chạy trên Mac của bạn. Mô hình ASR, LLM, lưu trữ âm thanh — tất cả cục bộ. Không có máy chủ nào để bị xâm nhập, không có chính sách lưu giữ dữ liệu nào để đọc, không có rủi ro trát đòi hầu tòa từ bên thứ ba. Đối với các nhóm chịu sự điều chỉnh của GDPR, HIPAA, hoặc đặc quyền luật sư-khách hàng, kiến trúc này chính là điểm mấu chốt.
So Sánh
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Xử lý | 100% trên thiết bị | Cloud | Cloud | Hybrid |
| Bot trong cuộc gọi | Không | Có | Có | Không |
| Giá | $6.99 một lần | $16.99/tháng (Pro) | từ $18/tháng | $24/tháng |
| Hoạt động offline | Có | Không | Không | Một phần |
| Tóm tắt AI | Cục bộ (Gemma 4) | Cloud | Cloud | Cloud |
| Phân biệt người nói | Chưa có | Có | Có | Có |
Cuộc Họp Khác Nhau, Ngôn Ngữ Khác Nhau
Chọn mô hình phù hợp với ngôn ngữ cuộc họp:
| Tiếng Anh / Châu Âu | Parakeet V3 — ~60× thời gian thực, 6.32% WER, không ảo giác khi im lặng |
| Tiếng Trung / Nhật / Hàn | SenseVoice — tốc độ 52×, hỗ trợ tiếng Quảng Đông, tăng tốc GPU qua MLX |
| Ngôn ngữ khác | Whisper Large V3 Turbo — 99 ngôn ngữ, độ chính xác cao, chậm hơn |
Những Gì Còn Thiếu
Chúng tôi chưa có tính năng phân biệt người nói. Hiện tại, Whisper Notes gắn nhãn âm thanh là "Tôi" (micro của bạn) và "Người khác" (âm thanh hệ thống) — đủ dùng cho hầu hết cuộc họp một-một và nhóm nhỏ. Nhưng với cuộc gọi 10 người mà bạn cần biết ai nói gì, thì chưa đủ.
Đó là bước tiếp theo hiển nhiên và chúng tôi đang phát triển. Mục tiêu là phân biệt người nói cục bộ chạy cùng Parakeet V3 và SenseVoice, không gửi âm thanh đi đâu cả.