Mac 離線會議轉錄:錄製 Zoom、Teams 和 Meet,無需上傳

2026年5月13日
·
8 min read
·Whisper Notes Team

我們為 Mac 打造了離線會議轉錄功能。錄製 Zoom、Teams 和 Google Meet 通話,透過 Parakeet V3 在本機轉錄,並用 Gemma 4 產生摘要。不上雲端,通話中沒有機器人。一次性 $6.99

Whisper Notes 在 Mac 上錄製 Zoom 會議,即時轉錄顯示「我」和「其他人」的發言

在 Whisper Notes 中錄製 Zoom 通話——「我」和「其他人」依音訊來源自動標記

一個典型的週一

上午 10 點,跟客戶的 Zoom 會議。你打開 Whisper Notes,點擊錄製。應用程式同時擷取系統音訊和麥克風——會議裡沒有機器人加入,沒有人收到通知,參與者清單裡什麼都不會出現。

一小時後,通話結束。你停止錄製。Parakeet V3 用大約 1 分鐘轉錄完 60 分鐘的音訊,完全在你 Mac 的 Neural Engine 上完成。點「摘要」——Gemma 4 擷取要點。點「待辦事項」——列出提到的每個任務和截止日期。你把會議紀要發給客戶——音訊從未離開你的電腦。

整個流程就是這樣。錄製,轉錄,摘要。全程本機處理。

它能做什麼

錄製

Whisper Notes 擷取系統音訊——也就是你揚聲器或耳機裡傳出的聲音。只要你在 Mac 上能聽到,我們就能轉錄。Zoom、Teams、Google Meet、Webex、腾讯会议、YouTube,或者任何其他應用程式。同時也錄製你的麥克風,對話雙方都會被記錄。

沒有機器人加入通話。這件事比聽起來重要得多。如果你在 Zoom 裡見過「Otter.ai Notetaker has joined the meeting」彈出來,你知道接下來會發生什麼——有人問這是什麼,有人開始不自在,對話的氣氛就變了。用系統音訊錄製,除了你自己,沒人知道你在錄。

轉錄

Parakeet V3 透過 CoreML 在 Apple Silicon 上執行,處理英語和 24 種歐洲語言,速度大約是即時的 60 倍——60 分鐘的會議約 1 分鐘完成。中文、日語或韓語會議用 SenseVoice,CJK 處理速度達 52 倍。Pyannote VAD 在轉錄前去除靜音,模型只處理實際的人聲。

Whisper Notes Mac 轉錄結果介面,帶時間戳和音訊波形

帶時間戳的轉錄結果與行內編輯——點擊任何片段即可跳轉到音訊中的對應時刻

AI 功能——全部在本機執行

Gemma 4 在你的 Mac 上執行。不需要 API key,不需要連線,沒有用量限制。轉錄完成後:

  • 摘要——幾秒內擷取 60 分鐘會議的要點
  • 待辦事項——自動擷取任務和截止日期
  • 翻譯——Apple Intelligence 將轉錄結果翻譯成其他語言
  • 對話——問「我們在價格上達成了什麼共識?」,得到基於轉錄內容的回答
Whisper Notes AI 助手側邊欄,有摘要、待辦事項、翻譯按鈕和聊天介面

Gemma 4 AI 側邊欄——摘要、待辦事項、翻譯和自由對話,全部在本機執行

為什麼這樣設計

會議音訊是一家公司最敏感的資料之一。客戶談判、HR 面談、董事會討論、法律諮詢——這種對話洩露一次就夠出事的。

大多數轉錄工具把這些音訊上傳到雲端伺服器,在那裡處理,然後按它們的資料保留政策儲存。有些還會在通話中加個機器人,所有人都能看到。有些會把你的錄音無限期保留用於「模型優化」。

我們選了另一條路:所有東西都在你的 Mac 上執行。ASR 模型、LLM、音訊儲存——全部本機。沒有可以被攻破的伺服器,沒有需要去讀的資料保留條款,沒有第三方傳票風險。對於受 GDPR、HIPAA 或律師—委託人特權約束的團隊來說,這個架構本身就是意義。

比較

Whisper Notes Otter.ai Fireflies Jamie
處理方式 100% 本機 雲端 雲端 混合
通話中有機器人
價格 一次性 $6.99 $16.99/月 (Pro) $18 起/月 $24/月
離線可用 部分
AI 摘要 本機 (Gemma 4) 雲端 雲端 雲端
說話人分離 還沒有 支援 支援 支援

不同會議,不同語言

選對模型就行:

英語 / 歐洲語言 Parakeet V3 — ~60 倍即時速度,6.32% WER,靜音時零幻覺
中文 / 日語 / 韓語 SenseVoice — 52 倍速,支援粵語,MLX GPU 加速
其他語言 Whisper Large V3 Turbo — 99 種語言,準確率高,速度慢

還差什麼

我們還沒有說話人分離。目前 Whisper Notes 把音訊標記為「我」(麥克風)和「其他人」(系統音訊)——大多數一對一和小組會議夠用了。但在 10 個人的電話會議裡,你需要知道誰說了什麼,這還不夠。

這是下一步最該做的事,我們正在做。目標是在本機執行的說話人分離,跟 Parakeet V3 和 SenseVoice 搭配,不需要把音訊發到任何地方。