Whisper 逐字稿指的是用 OpenAI 的 Whisper 把語音轉成文字——這是一個開源 AI 模型,可以跑在雲端、伺服器上,或完全在你自己的裝置上執行。本指南會說明 Whisper 的運作原理、該選哪個模型大小、實際準確率有多高,以及在 Mac 或 iPhone 上離線產生逐字稿最快的方法。
Whisper 到底是什麼?
Whisper 是 OpenAI 在 2022 年 9 月以 MIT 授權釋出的自動語音辨識(ASR)模型。它是一個 encoder-decoder Transformer,用超過 68 萬小時的多語言音訊訓練而成,能轉錄大約 100 種語言,還能把語音翻譯成英文。
對你來說真正重要的是:模型權重是公開的。不像 Google 或 Amazon 的語音 API,Whisper 不必跑在別人的伺服器上。一整個本機執行的生態系因此誕生——whisper.cpp、faster-whisper,以及像 Whisper Notes 這樣的原生 App。這就是真正離線、私密的逐字稿之所以可能的原因。
Whisper 模型大小:該選哪一個?
Whisper 有六種主要大小。越大越準確,但也越慢:
| 模型 | 參數量 | 速度 | 適合用途 |
|---|---|---|---|
| tiny | 39M | 最快 | 快速草稿、硬體較弱的裝置 |
| base | 74M | 非常快 | 簡單、乾淨的音訊 |
| small | 244M | 快 | 行動裝置上速度與準確率的平衡點 |
| medium | 769M | 中等 | 現在已很少是正確選擇 |
| large-v3 | 1.55B | 最慢 | 最高準確率、困難的音訊 |
| large-v3-turbo | 809M | 比 large-v3 快約 5 倍 | 2026 年的預設選擇 |
對絕大多數人來說,答案就是 large-v3-turbo:它保留了 large-v3 的 encoder,但把 decoder 層數從 32 砍到 4,用一小部分的運算量達到幾乎相同的準確率。我們在 Whisper Large V3 Turbo vs V3 有完整的實測數據。
Whisper 逐字稿的準確率有多高?
在乾淨的英文音訊上,大型模型的字詞錯誤率(WER)約為 5-8%——就大多數實際用途而言,已可媲美專業的人工逐字稿。遇到背景噪音、重口音、多人交談和低資源語言時,準確率會下降。
Whisper 有一個著名的失誤模式:在靜音片段產生幻覺。它的自迴歸 decoder 有時會在沒人說話時憑空生出重複的句子或字幕組署名。較新的模型解決了這個問題——NVIDIA 的 Parakeet V3 特別用非語音音訊訓練過,在我們的測試中零幻覺(完整的 Parakeet V3 vs Whisper 實測)。
至於中文、日文、韓文和粵語,有一個專門的模型在速度和標點上都勝過 Whisper:請見 SenseVoice vs Whisper 中日韓語言比較。
執行 Whisper 逐字稿的 5 種方法
| 方法 | 費用 | 隱私 | 安裝門檻 |
|---|---|---|---|
| OpenAI API | 按音訊分鐘計費($0.006/分鐘) | 音訊會上傳 | API 金鑰+寫程式 |
| openai-whisper(官方 Python 版) | 免費 | 100% 本機 | Python 環境,建議有 GPU |
| whisper.cpp / faster-whisper | 免費 | 100% 本機 | 命令列操作 |
| 原生 App(Whisper Notes) | $6.99 一次買斷,Mac 可免費試用 | 100% 裝置端 | 零門檻 |
| 網頁 Demo 工具 | 有免費額度 | 音訊會上傳 | 零門檻 |
簡單的判斷原則:如果你整天泡在終端機裡,faster-whisper 非常出色。如果你在開發產品,API 是合理選擇(開發者價格為每音訊分鐘 $0.006)。如果你只想把錄音私密地轉成逐字稿、完全不想碰 Python,就用原生 App——這正是 Whisper Mac App 存在的全部理由。
想更全面地比較離線工具——包括 Windows 和 Android 的選項?請看我們的離線語音轉文字完整指南。
Whisper vs 更新的本機模型(2026)
Whisper 開啟了本機轉錄的時代,但它已經不是唯一選擇。以下速度在 M4 Pro Mac 上實測:
| 模型 | 語言 | 速度 | 亮點 |
|---|---|---|---|
| Whisper Large V3 Turbo | 100 多種 | 約 12 倍即時 | 語言覆蓋最廣 |
| Parakeet V3 | 25 種(歐洲語言) | 約 100 倍即時 | 6.32% WER,靜音不產生幻覺 |
| SenseVoice Small | 中、日、韓、粵、英 | 約 52 倍即時 | 中文、日文、韓文的最佳選擇 |
這三個模型都能在 Whisper Notes 裡本機執行,而且每段錄音可以個別切換。並排實測數據請見我們的 Whisper 模型比較頁面。
如何在 Mac 和 iPhone 上離線執行 Whisper 逐字稿
不用命令列、不用 Python、不用雲端:
- 下載 Whisper Notes Mac 版(免費試用)或 iPhone 版($6.99 一次買斷,兩個平台為分開購買)。
- 選一個模型:Whisper Large V3 Turbo 語言覆蓋最廣、Parakeet V3 適合英文求快、SenseVoice 適合中日韓與粵語。下載一次後,永遠可離線使用。
- 直接錄音、按住 Fn 在任何 App 裡全域聽寫,或直接拖入音訊和影片檔案(MP3、WAV、M4A、MP4)。
- 文字會邊處理邊輸出。可匯出為 TXT 或 SRT。
對「離線」半信半疑?先打開飛航模式再試。轉錄照樣全速運作——任何資料都不會被上傳,永遠不會。
SenseVoice:中文(含粵語)逐字稿的準確率與速度
如果你主要轉錄的是中文,Whisper 不一定是最佳答案。SenseVoice 專為中文、日文、韓文和粵語打造,在 Whisper Notes 中透過 Apple MLX 執行,速度約為即時的 52 倍——一小時的會議錄音,大約 70 秒就能產出完整逐字稿,而且中文標點比 Whisper 處理得更自然。
對台灣和香港的使用者來說,這一點特別重要:粵語是原生支援,不是事後補上的。若偶爾需要轉錄歐洲語言,隨時可切回 Whisper Large V3 Turbo(支援 100 多種語言,模型約 1.5GB)——兩個模型都內建在同一個 App 裡,Mac 和 iPhone 皆可用。
| 模型 | 中文/粵語 | 速度 |
|---|---|---|
| SenseVoice | 中文+粵語原生支援,標點更佳 | 約 52 倍即時(Apple MLX) |
| Whisper Large V3 Turbo | 支援中文(100 多種語言之一) | 約 12 倍即時 |
常見問題
Whisper 逐字稿是免費的嗎?
模型本身免費且開源(MIT 授權)。透過 whisper.cpp 之類的命令列工具執行不用花錢,但需要自己安裝設定。OpenAI 的 API 按音訊分鐘收費($0.006/分鐘)。原生 App 把模型打包好,收一筆小額費用——Whisper Notes 是 $6.99 一次買斷,Mac 版可免費試用。
Whisper 逐字稿可以離線使用嗎?
可以——這正是開放權重的意義。模型檔案下載到裝置後,就不再需要網路。Whisper Notes 透過 CoreML/Metal 在 Apple Silicon 上執行 Whisper Large V3 Turbo,完全離線。你可以開飛航模式驗證。
哪個 Whisper 模型最準確?
large-v3 的原始準確率最高。large-v3-turbo 的 WER 只差不到一個百分點,速度卻快約 5 倍,所以它是今天多數工具的預設選擇。
Whisper 逐字稿支援中文和粵語嗎?
Whisper 涵蓋約 100 種語言,在高資源語言(英文、西班牙文、德文、法文等)表現最強,也支援中文。但就中文、日文、韓文和粵語而言,SenseVoice 的標點更好,在 Apple Silicon 上速度也快得多。
iPhone 有 Whisper 逐字稿 App 嗎?
有。Whisper Notes 針對 iPhone 的神經網路引擎優化了 Whisper 模型(iPhone 12 及更新機型)——可以直接錄音、從語音備忘錄或檔案 App 匯入,全部在裝置端完成轉錄。App Store 售價 $6.99 一次買斷,沒有訂閱。