雲端轉錄已死。只是它自己還不知道。
你的手機有神經引擎。用它。
延遲問題
雲端轉錄的流程:你說話,音訊上傳到伺服器,API 處理,結果返回。即使是「即時」服務,10 秒的錄音也需要 2-3 秒的網路往返。
本地轉錄:這些延遲全部消失。音訊不離開你的裝置,處理在晶片上完成,結果即刻呈現。沒有上傳,沒有等待,沒有「處理中」的轉圈。
與此同時,你的 iPhone 有一個每秒 15 兆次運算的神經引擎。它閒著,而你的聲音在太平洋上空來回跳躍。
這在物理上是荒謬的。
2019 年,雲端轉錄是有道理的。你的手機跑不動十億參數的神經網路。這個限制已經不存在了。iPhone 15 Pro 運行 Whisper 模型比大多數雲端服務返回結果還快。M3 MacBook 處理 60 分鐘音訊只需 5 分鐘——本地、離線、無需上傳。
雲端轉錄靠的是慣性,不是技術必要性。
你已經為晶片付過錢了
有件事應該讓你感到困擾。
蘋果的 M3 晶片要收溢價。你付過了。那個神經引擎?你擁有它。180 億個為機器學習優化的電晶體?是你的。
然後你每月付 10 美元給 Otter.ai,讓他們的伺服器來轉錄音訊。
你在租別人的硬體,而你自己的硬體更快。這就像買了跑車卻付錢搭計程車。
雲端轉錄的經濟學在本地推理不可能的時候是有道理的。現在它只是慣性稅。三年下來,每月 10 美元的訂閱要花 360 美元。Whisper Notes 只要 4.99 美元,一次性。同樣的準確率。更快的處理。你的晶片做它被設計來做的事。
| 服務 | 第1年 | 第3年 | 第5年 |
|---|---|---|---|
| 雲端訂閱($10/月) | $120 | $360 | $600 |
| Whisper Notes(一次性) | $4.99 | $4.99 | $4.99 |
我們不收訂閱費,因為我們不運行伺服器。你的音訊從不接觸我們的基礎設施。沒有什麼需要按月計費。
資料外洩是架構問題
關於隱私,我們直說。
當你用雲端轉錄服務時,你的音訊存在別人的伺服器上。那些伺服器有能存取的員工。那些伺服器連著網路。那些網路面臨攻擊。資料外洩不是意外——它們是把敏感資料儲存在第三方基礎設施上的架構必然結果。
語音資料有獨特的風險。不像密碼,你不能重設你的聲音。你的聲紋是永久的生物特徵識別。一旦外洩,就永遠被外洩了。攻擊者可以用聲紋繞過認證、身份詐騙或生成深度偽造。
消除這個風險的唯一方法是消除上傳。從不離開你裝置的音訊不可能成為伺服器端外洩的一部分。這不是功能——這是物理。
想想誰在錄製敏感音訊:
- 律師錄製客戶諮詢
- 心理諮商師記錄個案談話
- 記者保護消息來源
- 高階主管捕捉策略討論
- 醫師記錄病歷
對這些專業人士來說,雲端儲存不只是不方便——是責任隱患。本地轉錄不是偏好。是要求。
準確率:誠實的權衡
我們需要直說本地轉錄做得好什麼、不足在哪裡。
本地 Whisper 更擅長的:逐字轉錄。如果你需要精確記錄說了什麼——每個字、每個停頓、每個「嗯」——本地 Whisper 模型很出色。清晰音訊上 5-8% 的詞錯誤率與人工轉錄員相當。轉錄忠實於所說的話。
雲端 AI 更擅長的:總結和摘取。GPT-4o 可以聽一場會議,產出行動事項、摘要和後續任務。它理解字面意思之外的上下文。如果你想要「告訴我做了什麼決定」,雲端 AI 確實更好。
權衡是真實的。如果你的工作流是「轉錄 → 用 Claude/GPT 總結」,你可以兩全其美:準確的本地轉錄,智能的雲端總結。你的原始音訊保持私密。只有你選擇分享的文字離開你的裝置。
我們不假裝本地 AI 解決一切。我們相信為每項工作使用正確的工具。Whisper 是轉錄的正確工具。LLM 是理解的正確工具。組合它們——隱私重要的地方用本地,智慧重要的地方用雲端——是誠實的方法。
| 任務 | 最佳工具 | 原因 |
|---|---|---|
| 逐字轉錄 | 本地 Whisper | 隱私、速度、準確率 |
| 會議摘要 | 雲端 LLM(基於轉錄文字) | 上下文理解 |
| 行動事項提取 | 雲端 LLM(基於轉錄文字) | 語意推理 |
| 即時協作 | 雲端服務(Otter 等) | 多用戶協調 |
真實速度數據
在 M3 MacBook Pro 上,Whisper Large-v3 Turbo 處理音訊大約是即時速度的 12 倍。60 分鐘錄音大約 5 分鐘完成。
在 iPhone 15 Pro 上,優化模型運行大約是即時速度的 5 倍。同樣 60 分鐘錄音大約 12 分鐘。
與雲端服務對比:
| 錄音時長 | 雲端(典型) | M3 Mac(本地) | iPhone 15 Pro(本地) |
|---|---|---|---|
| 5 分鐘 | 45-90 秒 | ~25 秒 | ~60 秒 |
| 30 分鐘 | 3-6 分鐘 | ~2.5 分鐘 | ~6 分鐘 |
| 60 分鐘 | 6-12 分鐘 | ~5 分鐘 | ~12 分鐘 |
本地處理在大多數錄音長度上與雲端速度持平或更快。而且它在飛機上、地下室、保密設施裡都能工作——任何沒有網路的地方。
我們是怎麼做的
Whisper Notes 是這些原則的實現。幾個值得說明的具體決策:
鎖定畫面小工具
最好的想法總在不方便的時候出現。我們做了鎖定畫面小工具,一點就能開始錄音——不用打開 App,不用認證,不用檢查網路。本地處理意味著即時可用。
一點錄音。零網路依賴。
硬體自適應模型
Mac 有散熱空間和充足電力。iPhone 在口袋裡。我們為各自部署不同的模型配置:Mac 上是 Whisper Large-v3 Turbo(8.09 億參數),iPhone 上是優化的小模型。同樣的隱私保證,合適的資源使用。
你的資料,你的檔案
轉錄是你裝置上的檔案。標準格式,標準位置。沒有私有資料庫,沒有廠商鎖定。如果 Whisper Notes 明天消失,你的錄音仍然可以存取。批次匯出不是進階功能——它是你擁有的資料的自然狀態。
你的資料。你的格式。你的目的地。
自訂詞彙
技術術語、不常見的名字、領域特定的詞——最需要準確轉錄的詞彙往往是你最不想上傳的。初始提示讓你在本地添加上下文。模型調整,而你的術語不會變成訓練資料。
本地個人化。你的詞彙保持私密。
什麼時候雲端更好
我們不假裝本地轉錄普遍更好。雲端有真正的優勢:
即時團隊協作。五個人在會議中同時編輯一份轉錄需要伺服器協調。本地工具天生是單用戶的。
大規模說話人辨識。多人錄音中的「誰說了什麼」受益於雲端規模的訓練資料。裝置端的說話人分離存在,但對大群組準確率較低。
工作流自動化。雲端服務連接 CRM,提取行動事項,發摘要到 Slack。本地工具產出文字檔案——你拿它們做什麼是手動的。
舊硬體。A14 之前的 iPhone、Intel Mac——有些裝置實際上無法運行本地推理。雲端仍是唯一選項。
誠實的評估:如果你的主要需求是會議期間的團隊協作,雲端工具可能更好。如果你的主要需求是帶隱私地轉錄自己的錄音,本地工具是正確的架構。
趨勢
每一代晶片都帶來更多神經引擎效能。每次模型迭代都帶來更好的效率。本地和雲端的差距在縮小,而隱私和延遲優勢保持不變。
雲端轉錄在你的手機做不了這個工作的時候是有道理的。那個時代在 2022 年左右結束了。剩下的是慣性——自動續費的訂閱,圍繞伺服器假設建立的工作流,雲端一定更好的模糊信念。
問題不是本地轉錄是否好用。它好用。問題是你是否想繼續為你已經擁有的硬體付租金。
技術細節
裝置要求:iPhone 12+(A14 晶片)或 M 系列晶片的 Mac。舊裝置技術上可以工作,但處理時間不實用。
模型:Mac 運行 Whisper Large-v3 Turbo(8.09 億參數)。iPhone 運行針對行動約束調優的硬體優化變體。
速度:M3 Mac:~12 倍即時。iPhone 15 Pro:~5 倍即時。
語言:100+ 種,自動偵測。
價格:$4.99 一次性。不收訂閱費因為我們不運行伺服器。