離線 Whisper 語音轉文字指南：為何本地 AI 已超越雲端 | Whisper Notes 部落格

雲端轉錄已死。只是它自己還不知道。

你的手機有神經引擎。用它。

延遲問題

雲端轉錄的流程：你說話，音訊上傳到伺服器，API 處理，結果返回。即使是「即時」服務，10 秒的錄音也需要 2-3 秒的網路往返。

本地轉錄：這些延遲全部消失。音訊不離開你的裝置，處理在晶片上完成，結果即刻呈現。沒有上傳，沒有等待，沒有「處理中」的轉圈。

與此同時，你的 iPhone 有一個每秒 15 兆次運算的神經引擎。它閒著，而你的聲音在太平洋上空來回跳躍。

這在物理上是荒謬的。

2019 年，雲端轉錄是有道理的。你的手機跑不動十億參數的神經網路。這個限制已經不存在了。iPhone 15 Pro 運行 Whisper 模型比大多數雲端服務返回結果還快。M3 MacBook 處理 60 分鐘音訊只需 5 分鐘——本地、離線、無需上傳。

雲端轉錄靠的是慣性，不是技術必要性。

你已經為晶片付過錢了

有件事應該讓你感到困擾。

蘋果的 M3 晶片要收溢價。你付過了。那個神經引擎？你擁有它。180 億個為機器學習優化的電晶體？是你的。

然後你每月付 10 美元給 Otter.ai，讓他們的伺服器來轉錄音訊。

你在租別人的硬體，而你自己的硬體更快。這就像買了跑車卻付錢搭計程車。

雲端轉錄的經濟學在本地推理不可能的時候是有道理的。現在它只是慣性稅。三年下來，每月 10 美元的訂閱要花 360 美元。Whisper Notes 只要 4.99 美元，一次性。同樣的準確率。更快的處理。你的晶片做它被設計來做的事。

服務	第1年	第3年	第5年
雲端訂閱（$10/月）	$120	$360	$600
Whisper Notes（一次性）	$4.99	$4.99	$4.99

我們不收訂閱費，因為我們不運行伺服器。你的音訊從不接觸我們的基礎設施。沒有什麼需要按月計費。

資料外洩是架構問題

關於隱私，我們直說。

當你用雲端轉錄服務時，你的音訊存在別人的伺服器上。那些伺服器有能存取的員工。那些伺服器連著網路。那些網路面臨攻擊。資料外洩不是意外——它們是把敏感資料儲存在第三方基礎設施上的架構必然結果。

語音資料有獨特的風險。不像密碼，你不能重設你的聲音。你的聲紋是永久的生物特徵識別。一旦外洩，就永遠被外洩了。攻擊者可以用聲紋繞過認證、身份詐騙或生成深度偽造。

消除這個風險的唯一方法是消除上傳。從不離開你裝置的音訊不可能成為伺服器端外洩的一部分。這不是功能——這是物理。

想想誰在錄製敏感音訊：

律師錄製客戶諮詢
心理諮商師記錄個案談話
記者保護消息來源
高階主管捕捉策略討論
醫師記錄病歷

對這些專業人士來說，雲端儲存不只是不方便——是責任隱患。本地轉錄不是偏好。是要求。

準確率：誠實的權衡

我們需要直說本地轉錄做得好什麼、不足在哪裡。

本地 Whisper 更擅長的：逐字轉錄。如果你需要精確記錄說了什麼——每個字、每個停頓、每個「嗯」——本地 Whisper 模型很出色。清晰音訊上 5-8% 的詞錯誤率與人工轉錄員相當。轉錄忠實於所說的話。

雲端 AI 更擅長的：總結和摘取。GPT-4o 可以聽一場會議，產出行動事項、摘要和後續任務。它理解字面意思之外的上下文。如果你想要「告訴我做了什麼決定」，雲端 AI 確實更好。

權衡是真實的。如果你的工作流是「轉錄 → 用 Claude/GPT 總結」，你可以兩全其美：準確的本地轉錄，智能的雲端總結。你的原始音訊保持私密。只有你選擇分享的文字離開你的裝置。

我們不假裝本地 AI 解決一切。我們相信為每項工作使用正確的工具。Whisper 是轉錄的正確工具。LLM 是理解的正確工具。組合它們——隱私重要的地方用本地，智慧重要的地方用雲端——是誠實的方法。

任務	最佳工具	原因
逐字轉錄	本地 Whisper	隱私、速度、準確率
會議摘要	雲端 LLM（基於轉錄文字）	上下文理解
行動事項提取	雲端 LLM（基於轉錄文字）	語意推理
即時協作	雲端服務（Otter 等）	多用戶協調

真實速度數據

在 M3 MacBook Pro 上，Whisper Large-v3 Turbo 處理音訊大約是即時速度的 12 倍。60 分鐘錄音大約 5 分鐘完成。

在 iPhone 15 Pro 上，優化模型運行大約是即時速度的 5 倍。同樣 60 分鐘錄音大約 12 分鐘。

與雲端服務對比：

錄音時長	雲端（典型）	M3 Mac（本地）	iPhone 15 Pro（本地）
5 分鐘	45-90 秒	~25 秒	~60 秒
30 分鐘	3-6 分鐘	~2.5 分鐘	~6 分鐘
60 分鐘	6-12 分鐘	~5 分鐘	~12 分鐘

本地處理在大多數錄音長度上與雲端速度持平或更快。而且它在飛機上、地下室、保密設施裡都能工作——任何沒有網路的地方。

我們是怎麼做的

Whisper Notes 是這些原則的實現。幾個值得說明的具體決策：

鎖定畫面小工具

最好的想法總在不方便的時候出現。我們做了鎖定畫面小工具，一點就能開始錄音——不用打開 App，不用認證，不用檢查網路。本地處理意味著即時可用。

硬體自適應模型

Mac 有散熱空間和充足電力。iPhone 在口袋裡。我們為各自部署不同的模型配置：Mac 上是 Whisper Large-v3 Turbo（8.09 億參數），iPhone 上是優化的小模型。同樣的隱私保證，合適的資源使用。

你的資料，你的檔案

轉錄是你裝置上的檔案。標準格式，標準位置。沒有私有資料庫，沒有廠商鎖定。如果 Whisper Notes 明天消失，你的錄音仍然可以存取。批次匯出不是進階功能——它是你擁有的資料的自然狀態。

自訂詞彙

技術術語、不常見的名字、領域特定的詞——最需要準確轉錄的詞彙往往是你最不想上傳的。初始提示讓你在本地添加上下文。模型調整，而你的術語不會變成訓練資料。

本地個人化。你的詞彙保持私密。

什麼時候雲端更好

我們不假裝本地轉錄普遍更好。雲端有真正的優勢：

即時團隊協作。五個人在會議中同時編輯一份轉錄需要伺服器協調。本地工具天生是單用戶的。

大規模說話人辨識。多人錄音中的「誰說了什麼」受益於雲端規模的訓練資料。裝置端的說話人分離存在，但對大群組準確率較低。

工作流自動化。雲端服務連接 CRM，提取行動事項，發摘要到 Slack。本地工具產出文字檔案——你拿它們做什麼是手動的。

舊硬體。A14 之前的 iPhone、Intel Mac——有些裝置實際上無法運行本地推理。雲端仍是唯一選項。

誠實的評估：如果你的主要需求是會議期間的團隊協作，雲端工具可能更好。如果你的主要需求是帶隱私地轉錄自己的錄音，本地工具是正確的架構。

趨勢

每一代晶片都帶來更多神經引擎效能。每次模型迭代都帶來更好的效率。本地和雲端的差距在縮小，而隱私和延遲優勢保持不變。

雲端轉錄在你的手機做不了這個工作的時候是有道理的。那個時代在 2022 年左右結束了。剩下的是慣性——自動續費的訂閱，圍繞伺服器假設建立的工作流，雲端一定更好的模糊信念。

問題不是本地轉錄是否好用。它好用。問題是你是否想繼續為你已經擁有的硬體付租金。

技術細節

裝置要求：iPhone 12+（A14 晶片）或 M 系列晶片的 Mac。舊裝置技術上可以工作，但處理時間不實用。

模型：Mac 運行 Whisper Large-v3 Turbo（8.09 億參數）。iPhone 運行針對行動約束調優的硬體優化變體。

速度：M3 Mac：~12 倍即時。iPhone 15 Pro：~5 倍即時。

語言：100+ 種，自動偵測。

價格：$4.99 一次性。不收訂閱費因為我們不運行伺服器。

下載 iOS 版