離線 Whisper 語音轉文字指南:為何本地 AI 已超越雲端

2025年5月29日
·
12 min read
·The Whisper Notes Team

雲端轉錄已死。只是它自己還不知道。

Apple Silicon 上運行的本地 AI 轉錄

你的手機有神經引擎。用它。

延遲問題

雲端轉錄的流程:你說話,音訊上傳到伺服器,API 處理,結果返回。即使是「即時」服務,10 秒的錄音也需要 2-3 秒的網路往返。

本地轉錄:這些延遲全部消失。音訊不離開你的裝置,處理在晶片上完成,結果即刻呈現。沒有上傳,沒有等待,沒有「處理中」的轉圈。

與此同時,你的 iPhone 有一個每秒 15 兆次運算的神經引擎。它閒著,而你的聲音在太平洋上空來回跳躍。

這在物理上是荒謬的。

2019 年,雲端轉錄是有道理的。你的手機跑不動十億參數的神經網路。這個限制已經不存在了。iPhone 15 Pro 運行 Whisper 模型比大多數雲端服務返回結果還快。M3 MacBook 處理 60 分鐘音訊只需 5 分鐘——本地、離線、無需上傳。

雲端轉錄靠的是慣性,不是技術必要性。

你已經為晶片付過錢了

有件事應該讓你感到困擾。

蘋果的 M3 晶片要收溢價。你付過了。那個神經引擎?你擁有它。180 億個為機器學習優化的電晶體?是你的。

然後你每月付 10 美元給 Otter.ai,讓他們的伺服器來轉錄音訊。

你在租別人的硬體,而你自己的硬體更快。這就像買了跑車卻付錢搭計程車。

雲端轉錄的經濟學在本地推理不可能的時候是有道理的。現在它只是慣性稅。三年下來,每月 10 美元的訂閱要花 360 美元。Whisper Notes 只要 4.99 美元,一次性。同樣的準確率。更快的處理。你的晶片做它被設計來做的事。

服務 第1年 第3年 第5年
雲端訂閱($10/月) $120 $360 $600
Whisper Notes(一次性) $4.99 $4.99 $4.99

我們不收訂閱費,因為我們不運行伺服器。你的音訊從不接觸我們的基礎設施。沒有什麼需要按月計費。

資料外洩是架構問題

關於隱私,我們直說。

當你用雲端轉錄服務時,你的音訊存在別人的伺服器上。那些伺服器有能存取的員工。那些伺服器連著網路。那些網路面臨攻擊。資料外洩不是意外——它們是把敏感資料儲存在第三方基礎設施上的架構必然結果。

語音資料有獨特的風險。不像密碼,你不能重設你的聲音。你的聲紋是永久的生物特徵識別。一旦外洩,就永遠被外洩了。攻擊者可以用聲紋繞過認證、身份詐騙或生成深度偽造。

消除這個風險的唯一方法是消除上傳。從不離開你裝置的音訊不可能成為伺服器端外洩的一部分。這不是功能——這是物理。

想想誰在錄製敏感音訊:

  • 律師錄製客戶諮詢
  • 心理諮商師記錄個案談話
  • 記者保護消息來源
  • 高階主管捕捉策略討論
  • 醫師記錄病歷

對這些專業人士來說,雲端儲存不只是不方便——是責任隱患。本地轉錄不是偏好。是要求。

準確率:誠實的權衡

我們需要直說本地轉錄做得好什麼、不足在哪裡。

本地 Whisper 更擅長的:逐字轉錄。如果你需要精確記錄說了什麼——每個字、每個停頓、每個「嗯」——本地 Whisper 模型很出色。清晰音訊上 5-8% 的詞錯誤率與人工轉錄員相當。轉錄忠實於所說的話。

雲端 AI 更擅長的:總結和摘取。GPT-4o 可以聽一場會議,產出行動事項、摘要和後續任務。它理解字面意思之外的上下文。如果你想要「告訴我做了什麼決定」,雲端 AI 確實更好。

權衡是真實的。如果你的工作流是「轉錄 → 用 Claude/GPT 總結」,你可以兩全其美:準確的本地轉錄,智能的雲端總結。你的原始音訊保持私密。只有你選擇分享的文字離開你的裝置。

我們不假裝本地 AI 解決一切。我們相信為每項工作使用正確的工具。Whisper 是轉錄的正確工具。LLM 是理解的正確工具。組合它們——隱私重要的地方用本地,智慧重要的地方用雲端——是誠實的方法。

任務 最佳工具 原因
逐字轉錄 本地 Whisper 隱私、速度、準確率
會議摘要 雲端 LLM(基於轉錄文字) 上下文理解
行動事項提取 雲端 LLM(基於轉錄文字) 語意推理
即時協作 雲端服務(Otter 等) 多用戶協調

真實速度數據

在 M3 MacBook Pro 上,Whisper Large-v3 Turbo 處理音訊大約是即時速度的 12 倍。60 分鐘錄音大約 5 分鐘完成。

在 iPhone 15 Pro 上,優化模型運行大約是即時速度的 5 倍。同樣 60 分鐘錄音大約 12 分鐘。

與雲端服務對比:

錄音時長 雲端(典型) M3 Mac(本地) iPhone 15 Pro(本地)
5 分鐘 45-90 秒 ~25 秒 ~60 秒
30 分鐘 3-6 分鐘 ~2.5 分鐘 ~6 分鐘
60 分鐘 6-12 分鐘 ~5 分鐘 ~12 分鐘

本地處理在大多數錄音長度上與雲端速度持平或更快。而且它在飛機上、地下室、保密設施裡都能工作——任何沒有網路的地方。

我們是怎麼做的

Whisper Notes 是這些原則的實現。幾個值得說明的具體決策:

鎖定畫面小工具

最好的想法總在不方便的時候出現。我們做了鎖定畫面小工具,一點就能開始錄音——不用打開 App,不用認證,不用檢查網路。本地處理意味著即時可用。

硬體自適應模型

Mac 有散熱空間和充足電力。iPhone 在口袋裡。我們為各自部署不同的模型配置:Mac 上是 Whisper Large-v3 Turbo(8.09 億參數),iPhone 上是優化的小模型。同樣的隱私保證,合適的資源使用。

你的資料,你的檔案

轉錄是你裝置上的檔案。標準格式,標準位置。沒有私有資料庫,沒有廠商鎖定。如果 Whisper Notes 明天消失,你的錄音仍然可以存取。批次匯出不是進階功能——它是你擁有的資料的自然狀態。

自訂詞彙

技術術語、不常見的名字、領域特定的詞——最需要準確轉錄的詞彙往往是你最不想上傳的。初始提示讓你在本地添加上下文。模型調整,而你的術語不會變成訓練資料。

自訂詞彙設定

本地個人化。你的詞彙保持私密。

什麼時候雲端更好

我們不假裝本地轉錄普遍更好。雲端有真正的優勢:

即時團隊協作。五個人在會議中同時編輯一份轉錄需要伺服器協調。本地工具天生是單用戶的。

大規模說話人辨識。多人錄音中的「誰說了什麼」受益於雲端規模的訓練資料。裝置端的說話人分離存在,但對大群組準確率較低。

工作流自動化。雲端服務連接 CRM,提取行動事項,發摘要到 Slack。本地工具產出文字檔案——你拿它們做什麼是手動的。

舊硬體。A14 之前的 iPhone、Intel Mac——有些裝置實際上無法運行本地推理。雲端仍是唯一選項。

誠實的評估:如果你的主要需求是會議期間的團隊協作,雲端工具可能更好。如果你的主要需求是帶隱私地轉錄自己的錄音,本地工具是正確的架構。

趨勢

每一代晶片都帶來更多神經引擎效能。每次模型迭代都帶來更好的效率。本地和雲端的差距在縮小,而隱私和延遲優勢保持不變。

雲端轉錄在你的手機做不了這個工作的時候是有道理的。那個時代在 2022 年左右結束了。剩下的是慣性——自動續費的訂閱,圍繞伺服器假設建立的工作流,雲端一定更好的模糊信念。

問題不是本地轉錄是否好用。它好用。問題是你是否想繼續為你已經擁有的硬體付租金。

技術細節

裝置要求:iPhone 12+(A14 晶片)或 M 系列晶片的 Mac。舊裝置技術上可以工作,但處理時間不實用。

模型:Mac 運行 Whisper Large-v3 Turbo(8.09 億參數)。iPhone 運行針對行動約束調優的硬體優化變體。

速度:M3 Mac:~12 倍即時。iPhone 15 Pro:~5 倍即時。

語言:100+ 種,自動偵測。

價格:$4.99 一次性。不收訂閱費因為我們不運行伺服器。