Phiên âm cuộc họp ngoại tuyến trên Mac: Ghi âm Zoom, Teams và Meet cục bộ

Chúng tôi đã xây dựng tính năng phiên âm cuộc họp offline cho Mac. Ghi lại cuộc gọi Zoom, Teams và Google Meet, phiên âm cục bộ bằng Parakeet V3, và tóm tắt bằng Gemma 4. Không cloud, không bot trong cuộc gọi. $6.99 một lần.

Whisper Notes ghi lại cuộc họp Zoom trên Mac với phiên âm thời gian thực hiển thị nhãn Tôi và Người khác

Ghi lại cuộc gọi Zoom trong Whisper Notes — "Tôi" và "Người khác" được gắn nhãn theo nguồn âm thanh

Một Ngày Thứ Hai Bình Thường

10 giờ sáng, cuộc gọi Zoom với khách hàng. Bạn mở Whisper Notes, nhấn ghi âm. Ứng dụng thu âm thanh hệ thống và micro cùng lúc — không ai trong cuộc họp thấy bot, không ai nhận được thông báo, không có gì xuất hiện trong danh sách người tham gia.

Một giờ sau, cuộc gọi kết thúc. Bạn dừng ghi âm. Parakeet V3 phiên âm 60 phút âm thanh trong khoảng một phút, hoàn toàn trên Neural Engine của Mac. Bạn nhấn Tóm tắt — Gemma 4 trích xuất các điểm chính. Bạn nhấn Công việc cần làm — nó liệt kê mọi nhiệm vụ và hạn chót được đề cập. Bạn gửi biên bản họp cho khách hàng. Âm thanh chưa bao giờ rời khỏi máy bạn.

Đó là toàn bộ quy trình. Ghi âm, phiên âm, tóm tắt. Tất cả cục bộ.

Tính Năng

Ghi Âm

Whisper Notes thu âm thanh hệ thống — âm thanh phát ra từ loa hoặc tai nghe của bạn. Nếu bạn nghe được trên Mac, chúng tôi có thể phiên âm. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcast, hoặc bất kỳ ứng dụng nào khác. Đồng thời cũng ghi âm micro của bạn, nên cả hai bên cuộc trò chuyện đều được ghi lại.

Không có bot nào tham gia cuộc gọi. Điều này quan trọng hơn bạn nghĩ. Nếu bạn đã từng thấy "Otter.ai Notetaker has joined the meeting" xuất hiện trong cuộc gọi Zoom, bạn biết chuyện gì xảy ra tiếp theo — ai đó hỏi đó là gì, ai đó khác cảm thấy không thoải mái, và cuộc trò chuyện thay đổi. Với thu âm thanh hệ thống, không ai biết bạn đang ghi âm ngoài bạn.

Phiên Âm

Parakeet V3 chạy trên Apple Silicon qua CoreML. Xử lý tiếng Anh và 24 ngôn ngữ châu Âu với tốc độ khoảng 60× thời gian thực — cuộc họp 60 phút hoàn thành trong khoảng một phút. Với tiếng Trung, tiếng Nhật hoặc tiếng Hàn, SenseVoice xử lý CJK ở tốc độ 52×. Pyannote VAD loại bỏ khoảng lặng trước khi phiên âm, nên mô hình chỉ xử lý giọng nói thực sự.

Bản phiên âm với dấu thời gian và chỉnh sửa trực tiếp — nhấp vào bất kỳ đoạn nào để chuyển đến thời điểm đó trong âm thanh

Tính Năng AI — Tất Cả Cục Bộ

Gemma 4 chạy trên Mac của bạn. Không cần API key, không gọi cloud, không giới hạn sử dụng. Sau khi phiên âm:

•Tóm tắt — các điểm chính của cuộc họp 60 phút, trong vài giây
•Công việc cần làm — nhiệm vụ và hạn chót, được trích xuất tự động
•Dịch — Apple Intelligence dịch bản phiên âm sang ngôn ngữ khác
•Trò chuyện — hỏi "chúng ta đã thống nhất gì về giá?" và nhận câu trả lời dựa trên bản phiên âm

Thanh bên Trợ lý AI Whisper Notes với các nút Tóm tắt, Công việc cần làm, Dịch và giao diện trò chuyện

Thanh bên AI Gemma 4 — Tóm tắt, Công việc cần làm, Dịch, và trò chuyện tự do, tất cả chạy cục bộ

Tại Sao Chúng Tôi Xây Dựng Theo Cách Này

Âm thanh cuộc họp là một trong những dữ liệu nhạy cảm nhất mà công ty tạo ra. Đàm phán khách hàng, đánh giá HR, thảo luận hội đồng quản trị, tư vấn pháp lý — loại cuộc trò chuyện mà một lần rò rỉ sai có thể kết thúc sự nghiệp.

Hầu hết các công cụ phiên âm tải âm thanh này lên máy chủ cloud, xử lý ở đó, và lưu trữ theo chính sách lưu giữ dữ liệu của họ. Một số thêm bot vào cuộc gọi mà mọi người đều thấy. Một số giữ bản ghi âm của bạn vô thời hạn để "cải thiện mô hình."

Chúng tôi chọn cách tiếp cận khác: mọi thứ chạy trên Mac của bạn. Mô hình ASR, LLM, lưu trữ âm thanh — tất cả cục bộ. Không có máy chủ nào để bị xâm nhập, không có chính sách lưu giữ dữ liệu nào để đọc, không có rủi ro trát đòi hầu tòa từ bên thứ ba. Đối với các nhóm chịu sự điều chỉnh của GDPR, HIPAA, hoặc đặc quyền luật sư-khách hàng, kiến trúc này chính là điểm mấu chốt.

So Sánh

	Whisper Notes	Otter.ai	Fireflies	Jamie
Xử lý	100% trên thiết bị	Cloud	Cloud	Hybrid
Bot trong cuộc gọi	Không	Có	Có	Không
Giá	$6.99 một lần	$16.99/tháng (Pro)	từ $18/tháng	$24/tháng
Hoạt động offline	Có	Không	Không	Một phần
Tóm tắt AI	Cục bộ (Gemma 4)	Cloud	Cloud	Cloud
Phân biệt người nói	Chưa có	Có	Có	Có

Cuộc Họp Khác Nhau, Ngôn Ngữ Khác Nhau

Chọn mô hình phù hợp với ngôn ngữ cuộc họp:

Tiếng Anh / Châu Âu	Parakeet V3 — ~60× thời gian thực, 6.32% WER, không ảo giác khi im lặng
Tiếng Trung / Nhật / Hàn	SenseVoice — tốc độ 52×, hỗ trợ tiếng Quảng Đông, tăng tốc GPU qua MLX
Ngôn ngữ khác	Whisper Large V3 Turbo — 99 ngôn ngữ, độ chính xác cao, chậm hơn

Những Gì Còn Thiếu

Chúng tôi chưa có tính năng phân biệt người nói. Hiện tại, Whisper Notes gắn nhãn âm thanh là "Tôi" (micro của bạn) và "Người khác" (âm thanh hệ thống) — đủ dùng cho hầu hết cuộc họp một-một và nhóm nhỏ. Nhưng với cuộc gọi 10 người mà bạn cần biết ai nói gì, thì chưa đủ.

Đó là bước tiếp theo hiển nhiên và chúng tôi đang phát triển. Mục tiêu là phân biệt người nói cục bộ chạy cùng Parakeet V3 và SenseVoice, không gửi âm thanh đi đâu cả.

Tải về cho iOS

Tải về cho macOS