離線轉錄
為什麼現在終於能用了
很長一段時間,本地轉錄意味著更慢、更差。這個情況變了。

一點背景
幾年前,如果你想要準確的轉錄,就得把音訊上傳到別人的伺服器。本地方案也有,但效果明顯更差。這是個真實的取捨。
後來發生了幾件事。OpenAI把Whisper作為開源模型發布了。Apple開始在晶片裡整合專門的AI硬體。突然之間,那些驅動雲端服務的模型,在筆電上也能跑了。
我們大概就是那時候開始做Whisper Notes的,主要是因為我們自己需要。後來發現很多人也在找類似的東西。
變化在哪
以前有三個理由讓雲端轉錄成為明顯的選擇。這三個都變了。
算力
做轉錄的AI模型很大——幾億個參數。以前在消費級硬體上跑又慢又費電。
Apple的神經引擎改變了這一點。這是一塊專門處理AI任務的晶片,每台M系列Mac和新款iPhone裡都有。Whisper Large v3 Turbo現在在MacBook Air上跑得很順暢。
在手機上,我們用針對行動晶片優化過的小模型。準確率不如大模型,但比大多數系統內建的聽寫還是好不少。
準確率
這個讓我們挺意外的。我們本來預期本地模型「夠用就行」。結果發現其實挺好的。
Whisper Large v3的詞錯誤率比大多數系統聽寫都低。而且本地和雲端API之間的差距已經變得很小了。大多數場景下,你可能感覺不出區別。
這就改變了計算方式。如果準確率差不多,上傳音訊的主要理由就消失了。
隱私
我們不是來嚇唬你說雲端服務多可怕的。大多數雲端服務處理資料還是負責任的。
但「他們承諾不會亂用」和「他們根本沒拿到」還是有區別的。你的聲音是生物特徵——不像密碼,出了問題你沒法改。
用本地轉錄,你的音訊就留在裝置上。不是加密後上傳,是根本不發送。對有些人來說這很重要,對另一些人可能不那麼重要。我們是為前一類人做的。
什麼時候用什麼
本地不是永遠都對。我們是這麼想的。
需要即時協作?
Otter這樣的雲端工具就是為這個做的。多人同時編輯同一份轉錄稿需要中央伺服器。這是雲端的好用途。
用的是Windows或Android?
這些平台上的本地AI比較難——硬體支援還不夠成熟。Windows上Dragon能用。Android上,雲端服務通常是更實際的選擇。
需要知道誰說了什麼?
說話人識別需要額外的模型。Rev這樣的雲端服務做得不錯。本地工具在追趕,但這塊雲端還是有優勢。
只是需要私密、準確的轉錄?
這是我們專注的點。如果你主要關心隱私和準確率,又用的是Apple裝置,本地現在挺好用的。
Whisper Notes做什麼
它在你的Mac上跑Whisper Large v3 Turbo,在iPhone上跑一個優化過的小模型。你的音訊不會離開裝置。
在Mac上,用神經引擎轉錄大概是即時速度的10-15倍。一小時的錄音幾分鐘就完成。在iPhone上慢一些,但對大多數錄音來說夠用。
$4.99,一次性,兩個平台都能用。我們不跑伺服器,所以不需要訂閱。就這樣。
簡單說
本地轉錄以前是一種妥協。現在對很多人來說是個合理的預設選擇了。
如果你需要協作,或者用的不是Apple裝置,雲端服務還是有意義的。如果你主要想要準確、私密的轉錄,又在用Mac或iPhone,本地方案現在挺好的。
我們自己每天都在用Whisper Notes。它做到了我們需要的。
試試看
如果你想驗證確實沒有上傳,可以開飛航模式測試。功能完全一樣。
App Store • $4.99 • Mac和iPhone
一次購買,兩個平台都能用。