Whisper 逐字稿完全指南：API、App 與離線轉錄（2026）

Whisper 逐字稿指的是用 OpenAI 的 Whisper 把語音轉成文字——這是一個開源 AI 模型，可以跑在雲端、伺服器上，或完全在你自己的裝置上執行。本指南會說明 Whisper 的運作原理、該選哪個模型大小、實際準確率有多高，以及在 Mac 或 iPhone 上離線產生逐字稿最快的方法。

Whisper 到底是什麼？

Whisper 是 OpenAI 在 2022 年 9 月以 MIT 授權釋出的自動語音辨識（ASR）模型。它是一個 encoder-decoder Transformer，用超過 68 萬小時的多語言音訊訓練而成，能轉錄大約 100 種語言，還能把語音翻譯成英文。

對你來說真正重要的是：模型權重是公開的。不像 Google 或 Amazon 的語音 API，Whisper 不必跑在別人的伺服器上。一整個本機執行的生態系因此誕生——whisper.cpp、faster-whisper，以及像 Whisper Notes 這樣的原生 App。這就是真正離線、私密的逐字稿之所以可能的原因。

Whisper 模型大小：該選哪一個？

Whisper 有六種主要大小。越大越準確，但也越慢：

模型	參數量	速度	適合用途
tiny	39M	最快	快速草稿、硬體較弱的裝置
base	74M	非常快	簡單、乾淨的音訊
small	244M	快	行動裝置上速度與準確率的平衡點
medium	769M	中等	現在已很少是正確選擇
large-v3	1.55B	最慢	最高準確率、困難的音訊
large-v3-turbo	809M	比 large-v3 快約 5 倍	2026 年的預設選擇

對絕大多數人來說，答案就是 large-v3-turbo：它保留了 large-v3 的 encoder，但把 decoder 層數從 32 砍到 4，用一小部分的運算量達到幾乎相同的準確率。我們在 Whisper Large V3 Turbo vs V3 有完整的實測數據。

Whisper 逐字稿的準確率有多高？

在乾淨的英文音訊上，大型模型的字詞錯誤率（WER）約為 5-8%——就大多數實際用途而言，已可媲美專業的人工逐字稿。遇到背景噪音、重口音、多人交談和低資源語言時，準確率會下降。

Whisper 有一個著名的失誤模式：在靜音片段產生幻覺。它的自迴歸 decoder 有時會在沒人說話時憑空生出重複的句子或字幕組署名。較新的模型解決了這個問題——NVIDIA 的 Parakeet V3 特別用非語音音訊訓練過，在我們的測試中零幻覺（完整的 Parakeet V3 vs Whisper 實測）。

至於中文、日文、韓文和粵語，有一個專門的模型在速度和標點上都勝過 Whisper：請見 SenseVoice vs Whisper 中日韓語言比較。

執行 Whisper 逐字稿的 5 種方法

方法	費用	隱私	安裝門檻
OpenAI API	按音訊分鐘計費（$0.006/分鐘）	音訊會上傳	API 金鑰＋寫程式
openai-whisper（官方 Python 版）	免費	100% 本機	Python 環境，建議有 GPU
whisper.cpp / faster-whisper	免費	100% 本機	命令列操作
原生 App（Whisper Notes）	$6.99 一次買斷，Mac 可免費試用	100% 裝置端	零門檻
網頁 Demo 工具	有免費額度	音訊會上傳	零門檻

簡單的判斷原則：如果你整天泡在終端機裡，faster-whisper 非常出色。如果你在開發產品，API 是合理選擇（開發者價格為每音訊分鐘 $0.006）。如果你只想把錄音私密地轉成逐字稿、完全不想碰 Python，就用原生 App——這正是 Whisper Mac App 存在的全部理由。

想更全面地比較離線工具——包括 Windows 和 Android 的選項？請看我們的離線語音轉文字完整指南。

Whisper vs 更新的本機模型（2026）

Whisper 開啟了本機轉錄的時代，但它已經不是唯一選擇。以下速度在 M4 Pro Mac 上實測：

模型	語言	速度	亮點
Whisper Large V3 Turbo	100 多種	約 12 倍即時	語言覆蓋最廣
Parakeet V3	25 種（歐洲語言）	約 100 倍即時	6.32% WER，靜音不產生幻覺
SenseVoice Small	中、日、韓、粵、英	約 52 倍即時	中文、日文、韓文的最佳選擇

這三個模型都能在 Whisper Notes 裡本機執行，而且每段錄音可以個別切換。並排實測數據請見我們的 Whisper 模型比較頁面。

如何在 Mac 和 iPhone 上離線執行 Whisper 逐字稿

不用命令列、不用 Python、不用雲端：

下載 Whisper Notes Mac 版（免費試用）或 iPhone 版（$6.99 一次買斷，兩個平台為分開購買）。
選一個模型：Whisper Large V3 Turbo 語言覆蓋最廣、Parakeet V3 適合英文求快、SenseVoice 適合中日韓與粵語。下載一次後，永遠可離線使用。
直接錄音、按住 Fn 在任何 App 裡全域聽寫，或直接拖入音訊和影片檔案（MP3、WAV、M4A、MP4）。
文字會邊處理邊輸出。可匯出為 TXT 或 SRT。

對「離線」半信半疑？先打開飛航模式再試。轉錄照樣全速運作——任何資料都不會被上傳，永遠不會。

SenseVoice：中文（含粵語）逐字稿的準確率與速度

如果你主要轉錄的是中文，Whisper 不一定是最佳答案。SenseVoice 專為中文、日文、韓文和粵語打造，在 Whisper Notes 中透過 Apple MLX 執行，速度約為即時的 52 倍——一小時的會議錄音，大約 70 秒就能產出完整逐字稿，而且中文標點比 Whisper 處理得更自然。

對台灣和香港的使用者來說，這一點特別重要：粵語是原生支援，不是事後補上的。若偶爾需要轉錄歐洲語言，隨時可切回 Whisper Large V3 Turbo（支援 100 多種語言，模型約 1.5GB）——兩個模型都內建在同一個 App 裡，Mac 和 iPhone 皆可用。

模型	中文／粵語	速度
SenseVoice	中文＋粵語原生支援，標點更佳	約 52 倍即時（Apple MLX）
Whisper Large V3 Turbo	支援中文（100 多種語言之一）	約 12 倍即時

常見問題

Whisper 逐字稿是免費的嗎？

模型本身免費且開源（MIT 授權）。透過 whisper.cpp 之類的命令列工具執行不用花錢，但需要自己安裝設定。OpenAI 的 API 按音訊分鐘收費（$0.006/分鐘）。原生 App 把模型打包好，收一筆小額費用——Whisper Notes 是 $6.99 一次買斷，Mac 版可免費試用。

Whisper 逐字稿可以離線使用嗎？

可以——這正是開放權重的意義。模型檔案下載到裝置後，就不再需要網路。Whisper Notes 透過 CoreML／Metal 在 Apple Silicon 上執行 Whisper Large V3 Turbo，完全離線。你可以開飛航模式驗證。

哪個 Whisper 模型最準確？

large-v3 的原始準確率最高。large-v3-turbo 的 WER 只差不到一個百分點，速度卻快約 5 倍，所以它是今天多數工具的預設選擇。

Whisper 逐字稿支援中文和粵語嗎？

Whisper 涵蓋約 100 種語言，在高資源語言（英文、西班牙文、德文、法文等）表現最強，也支援中文。但就中文、日文、韓文和粵語而言，SenseVoice 的標點更好，在 Apple Silicon 上速度也快得多。

iPhone 有 Whisper 逐字稿 App 嗎？

有。Whisper Notes 針對 iPhone 的神經網路引擎優化了 Whisper 模型（iPhone 12 及更新機型）——可以直接錄音、從語音備忘錄或檔案 App 匯入，全部在裝置端完成轉錄。App Store 售價 $6.99 一次買斷，沒有訂閱。

下載 iOS 版

Mac 免費試用