Mac 离线会议转录:录制 Zoom、Teams 和 Meet,无需上传

2026年5月13日
·
8 min read
·Whisper Notes Team

我们给 Mac 做了离线会议转录。录制 Zoom、Teams 和 Google Meet 通话,用 Parakeet V3 本地转录,用 Gemma 4 生成摘要。不上云,通话中没有机器人。一次性 $6.99

Whisper Notes 在 Mac 上录制 Zoom 会议,实时转录显示

在 Whisper Notes 中录制 Zoom 通话——"我"和"其他人"按音频来源自动标注

一个典型的周一

上午 10 点,跟客户的 Zoom 会议。你打开 Whisper Notes,点录制。应用同时捕获系统音频和麦克风——会议里没有机器人加入,没有人收到通知,参与者列表里什么都不会出现。

一小时后,通话结束。你停止录制。Parakeet V3 用大约 1 分钟转录完 60 分钟的音频,完全在你 Mac 的 Neural Engine 上完成。点"摘要"——Gemma 4 提取要点。点"待办事项"——列出提到的每个任务和截止日期。你把会议纪要发给客户——音频从未离开你的电脑。

整个流程就这样。录制,转录,摘要。全程本地。

它能做什么

录制

Whisper Notes 捕获系统音频——也就是你扬声器或耳机里传出的声音。只要你在 Mac 上能听到,我们就能转录。Zoom、Teams、Google Meet、Webex、腾讯会议、YouTube,或者任何其他应用。同时也录你的麦克风,对话双方都会被记录。

没有机器人加入通话。这件事比听起来重要得多。如果你在 Zoom 里见过"Otter.ai Notetaker has joined the meeting"弹出来,你知道接下来会发生什么——有人问这是什么,有人开始不自在,对话的气氛就变了。用系统音频录制,除了你自己,没人知道你在录。

转录

Parakeet V3 通过 CoreML 在 Apple Silicon 上运行,处理英语和 24 种欧洲语言,速度大约是实时的 60 倍——60 分钟的会议约 1 分钟完成。中文、日语或韩语会议用 SenseVoice,CJK 处理速度达 52 倍。Pyannote VAD 在转录前去除静音,模型只处理实际的人声。

Whisper Notes Mac 转录结果界面,带时间戳和音频波形

带时间戳的转录结果——点击任意段落可跳转到对应的音频位置

AI 功能——全部本地运行

Gemma 4 在你的 Mac 上运行。不需要 API key,不需要联网,没有用量限制。转录完成后:

  • 摘要——几秒内提取 60 分钟会议的要点
  • 待办事项——自动提取任务和截止日期
  • 翻译——Apple Intelligence 将转录结果翻译成其他语言
  • 对话——问"我们在价格上达成了什么共识?",得到基于转录内容的回答
Whisper Notes AI 助手侧边栏,有摘要、待办事项、翻译按钮和聊天界面

Gemma 4 AI 侧边栏——摘要、待办事项、翻译和自由对话,全部本地运行

为什么这样设计

会议音频是一家公司最敏感的数据之一。客户谈判、HR 面谈、董事会讨论、法律咨询——这种对话泄露一次就够出事的。

大多数转录工具把这些音频上传到云端服务器,在那里处理,然后按它们的数据保留策略存储。有些还会在通话中加个机器人,所有人都能看到。有些会把你的录音无限期保留用于"模型优化"。

我们选了另一条路:所有东西都在你的 Mac 上运行。ASR 模型、LLM、音频存储——全部本地。没有可以被攻破的服务器,没有需要去读的数据保留条款,没有第三方传票风险。对于受 GDPR、HIPAA 或律师-客户特权约束的团队来说,这个架构本身就是意义。

对比

Whisper Notes Otter.ai Fireflies Jamie
处理方式 100% 本地 云端 云端 混合
通话中有机器人
价格 一次性 $6.99 $16.99/月 (Pro) $18 起/月 $24/月
离线可用 部分
AI 摘要 本地 (Gemma 4) 云端 云端 云端
说话人分离 还没有 支持 支持 支持

不同会议,不同语言

选对模型就行:

英语 / 欧洲语言 Parakeet V3 — ~60 倍实时速度,6.32% WER,静音时零幻觉
中文 / 日语 / 韩语 SenseVoice — 52 倍速,支持粤语,MLX GPU 加速
其他语言 Whisper Large V3 Turbo — 99 种语言,准确率高,速度慢

还差什么

我们还没有说话人分离。目前 Whisper Notes 把音频标记为"我"(麦克风)和"其他人"(系统音频)——大多数一对一和小组会议够用了。但在 10 个人的电话会议里,你需要知道谁说了什么,这还不够。

这是下一步最该做的事,我们正在做。目标是本地运行的说话人分离,跟 Parakeet V3 和 SenseVoice 配合,不需要把音频发到任何地方。