我们给 Mac 做了离线会议转录。录制 Zoom、Teams 和 Google Meet 通话,用 Parakeet V3 本地转录,用 Gemma 4 生成摘要。不上云,通话中没有机器人。一次性 $6.99。
在 Whisper Notes 中录制 Zoom 通话——"我"和"其他人"按音频来源自动标注
一个典型的周一
上午 10 点,跟客户的 Zoom 会议。你打开 Whisper Notes,点录制。应用同时捕获系统音频和麦克风——会议里没有机器人加入,没有人收到通知,参与者列表里什么都不会出现。
一小时后,通话结束。你停止录制。Parakeet V3 用大约 1 分钟转录完 60 分钟的音频,完全在你 Mac 的 Neural Engine 上完成。点"摘要"——Gemma 4 提取要点。点"待办事项"——列出提到的每个任务和截止日期。你把会议纪要发给客户——音频从未离开你的电脑。
整个流程就这样。录制,转录,摘要。全程本地。
它能做什么
录制
Whisper Notes 捕获系统音频——也就是你扬声器或耳机里传出的声音。只要你在 Mac 上能听到,我们就能转录。Zoom、Teams、Google Meet、Webex、腾讯会议、YouTube,或者任何其他应用。同时也录你的麦克风,对话双方都会被记录。
没有机器人加入通话。这件事比听起来重要得多。如果你在 Zoom 里见过"Otter.ai Notetaker has joined the meeting"弹出来,你知道接下来会发生什么——有人问这是什么,有人开始不自在,对话的气氛就变了。用系统音频录制,除了你自己,没人知道你在录。
转录
Parakeet V3 通过 CoreML 在 Apple Silicon 上运行,处理英语和 24 种欧洲语言,速度大约是实时的 60 倍——60 分钟的会议约 1 分钟完成。中文、日语或韩语会议用 SenseVoice,CJK 处理速度达 52 倍。Pyannote VAD 在转录前去除静音,模型只处理实际的人声。
带时间戳的转录结果——点击任意段落可跳转到对应的音频位置
AI 功能——全部本地运行
Gemma 4 在你的 Mac 上运行。不需要 API key,不需要联网,没有用量限制。转录完成后:
- •摘要——几秒内提取 60 分钟会议的要点
- •待办事项——自动提取任务和截止日期
- •翻译——Apple Intelligence 将转录结果翻译成其他语言
- •对话——问"我们在价格上达成了什么共识?",得到基于转录内容的回答
Gemma 4 AI 侧边栏——摘要、待办事项、翻译和自由对话,全部本地运行
为什么这样设计
会议音频是一家公司最敏感的数据之一。客户谈判、HR 面谈、董事会讨论、法律咨询——这种对话泄露一次就够出事的。
大多数转录工具把这些音频上传到云端服务器,在那里处理,然后按它们的数据保留策略存储。有些还会在通话中加个机器人,所有人都能看到。有些会把你的录音无限期保留用于"模型优化"。
我们选了另一条路:所有东西都在你的 Mac 上运行。ASR 模型、LLM、音频存储——全部本地。没有可以被攻破的服务器,没有需要去读的数据保留条款,没有第三方传票风险。对于受 GDPR、HIPAA 或律师-客户特权约束的团队来说,这个架构本身就是意义。
对比
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| 处理方式 | 100% 本地 | 云端 | 云端 | 混合 |
| 通话中有机器人 | 无 | 有 | 有 | 无 |
| 价格 | 一次性 $6.99 | $16.99/月 (Pro) | $18 起/月 | $24/月 |
| 离线可用 | 是 | 否 | 否 | 部分 |
| AI 摘要 | 本地 (Gemma 4) | 云端 | 云端 | 云端 |
| 说话人分离 | 还没有 | 支持 | 支持 | 支持 |
不同会议,不同语言
选对模型就行:
| 英语 / 欧洲语言 | Parakeet V3 — ~60 倍实时速度,6.32% WER,静音时零幻觉 |
| 中文 / 日语 / 韩语 | SenseVoice — 52 倍速,支持粤语,MLX GPU 加速 |
| 其他语言 | Whisper Large V3 Turbo — 99 种语言,准确率高,速度慢 |
还差什么
我们还没有说话人分离。目前 Whisper Notes 把音频标记为"我"(麦克风)和"其他人"(系统音频)——大多数一对一和小组会议够用了。但在 10 个人的电话会议里,你需要知道谁说了什么,这还不够。
这是下一步最该做的事,我们正在做。目标是本地运行的说话人分离,跟 Parakeet V3 和 SenseVoice 配合,不需要把音频发到任何地方。