我們為 Mac 打造了離線會議轉錄功能。錄製 Zoom、Teams 和 Google Meet 通話,透過 Parakeet V3 在本機轉錄,並用 Gemma 4 產生摘要。不上雲端,通話中沒有機器人。一次性 $6.99。
在 Whisper Notes 中錄製 Zoom 通話——「我」和「其他人」依音訊來源自動標記
一個典型的週一
上午 10 點,跟客戶的 Zoom 會議。你打開 Whisper Notes,點擊錄製。應用程式同時擷取系統音訊和麥克風——會議裡沒有機器人加入,沒有人收到通知,參與者清單裡什麼都不會出現。
一小時後,通話結束。你停止錄製。Parakeet V3 用大約 1 分鐘轉錄完 60 分鐘的音訊,完全在你 Mac 的 Neural Engine 上完成。點「摘要」——Gemma 4 擷取要點。點「待辦事項」——列出提到的每個任務和截止日期。你把會議紀要發給客戶——音訊從未離開你的電腦。
整個流程就是這樣。錄製,轉錄,摘要。全程本機處理。
它能做什麼
錄製
Whisper Notes 擷取系統音訊——也就是你揚聲器或耳機裡傳出的聲音。只要你在 Mac 上能聽到,我們就能轉錄。Zoom、Teams、Google Meet、Webex、腾讯会议、YouTube,或者任何其他應用程式。同時也錄製你的麥克風,對話雙方都會被記錄。
沒有機器人加入通話。這件事比聽起來重要得多。如果你在 Zoom 裡見過「Otter.ai Notetaker has joined the meeting」彈出來,你知道接下來會發生什麼——有人問這是什麼,有人開始不自在,對話的氣氛就變了。用系統音訊錄製,除了你自己,沒人知道你在錄。
轉錄
Parakeet V3 透過 CoreML 在 Apple Silicon 上執行,處理英語和 24 種歐洲語言,速度大約是即時的 60 倍——60 分鐘的會議約 1 分鐘完成。中文、日語或韓語會議用 SenseVoice,CJK 處理速度達 52 倍。Pyannote VAD 在轉錄前去除靜音,模型只處理實際的人聲。
帶時間戳的轉錄結果與行內編輯——點擊任何片段即可跳轉到音訊中的對應時刻
AI 功能——全部在本機執行
Gemma 4 在你的 Mac 上執行。不需要 API key,不需要連線,沒有用量限制。轉錄完成後:
- •摘要——幾秒內擷取 60 分鐘會議的要點
- •待辦事項——自動擷取任務和截止日期
- •翻譯——Apple Intelligence 將轉錄結果翻譯成其他語言
- •對話——問「我們在價格上達成了什麼共識?」,得到基於轉錄內容的回答
Gemma 4 AI 側邊欄——摘要、待辦事項、翻譯和自由對話,全部在本機執行
為什麼這樣設計
會議音訊是一家公司最敏感的資料之一。客戶談判、HR 面談、董事會討論、法律諮詢——這種對話洩露一次就夠出事的。
大多數轉錄工具把這些音訊上傳到雲端伺服器,在那裡處理,然後按它們的資料保留政策儲存。有些還會在通話中加個機器人,所有人都能看到。有些會把你的錄音無限期保留用於「模型優化」。
我們選了另一條路:所有東西都在你的 Mac 上執行。ASR 模型、LLM、音訊儲存——全部本機。沒有可以被攻破的伺服器,沒有需要去讀的資料保留條款,沒有第三方傳票風險。對於受 GDPR、HIPAA 或律師—委託人特權約束的團隊來說,這個架構本身就是意義。
比較
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| 處理方式 | 100% 本機 | 雲端 | 雲端 | 混合 |
| 通話中有機器人 | 無 | 有 | 有 | 無 |
| 價格 | 一次性 $6.99 | $16.99/月 (Pro) | $18 起/月 | $24/月 |
| 離線可用 | 是 | 否 | 否 | 部分 |
| AI 摘要 | 本機 (Gemma 4) | 雲端 | 雲端 | 雲端 |
| 說話人分離 | 還沒有 | 支援 | 支援 | 支援 |
不同會議,不同語言
選對模型就行:
| 英語 / 歐洲語言 | Parakeet V3 — ~60 倍即時速度,6.32% WER,靜音時零幻覺 |
| 中文 / 日語 / 韓語 | SenseVoice — 52 倍速,支援粵語,MLX GPU 加速 |
| 其他語言 | Whisper Large V3 Turbo — 99 種語言,準確率高,速度慢 |
還差什麼
我們還沒有說話人分離。目前 Whisper Notes 把音訊標記為「我」(麥克風)和「其他人」(系統音訊)——大多數一對一和小組會議夠用了。但在 10 個人的電話會議裡,你需要知道誰說了什麼,這還不夠。
這是下一步最該做的事,我們正在做。目標是在本機執行的說話人分離,跟 Parakeet V3 和 SenseVoice 搭配,不需要把音訊發到任何地方。