Whisper Large V3 Turbo vs V3：Mac 上快 5 倍（基準測試）

OpenAI 的 Whisper Large-v3 Turbo 將解碼器從 32 層裁剪到 4 層，參數量從 15.5 億降至 8.09 億。結果：轉錄速度提升 2–5 倍，精準度幾乎不變。Whisper Notes 已在 Apple Silicon Mac 上搭載此模型。

V3 Turbo vs V3：改了什麼

Turbo 不是新架構。它就是 Whisper Large-v3，解碼器從 32 層剪枝到 4 層，然後微調恢復精準度。編碼器完全不變。

Turbo 的訓練資料明確排除了翻譯任務。完整版 Large-v3 支援翻譯，但 Whisper Notes 只搭載 Turbo——翻譯功能透過 Apple Intelligence 單獨實現。

在 Mac 版 Whisper Notes 中，Turbo 透過 CoreML 在 Neural Engine 上執行。處理 10 分鐘音訊：

裝置	Whisper V3	V3 Turbo	提速
iPhone 15 Pro	425 秒	82 秒	5.2×
iPad Pro M2	380 秒	71 秒	5.4×
MacBook Pro M2	316 秒	63 秒	5.0×

5 倍提速是 Whisper Notes 在 Apple Silicon 上的實測結果，較小的解碼器在 Neural Engine 上最佳化效果更好。在 GPU 上使用 faster-whisper 等框架時，差距縮小到約 2.7 倍（見下方社群基準測試）。

Hugging Face Open ASR 排行榜在相同的英文資料集上測試了兩個模型。Turbo 的詞錯率在每個基準上都與 V3 相差不到 0.5 個百分點：

V3 在每個資料集上都略微更準，但差距很小——平均僅 0.39 個百分點。在實際使用中，基本感受不到區別。

在 YouTube-commons 長音訊評估（最大的開源 ASR 基準之一）上，Turbo 的 WER 為 13.40%，V3 為 13.20%——但 Turbo 的即時因子達到 129.5×，而 V3 僅 55.3×。速度快 2.3 倍，精準度幾乎相同。

來自 faster-whisper 和 whisper.cpp 社群的獨立基準測試在不同硬體上顯示了一致的結果。在 GPU 上使用 faster-whisper 轉錄 13 分鐘音訊：

模型	精度	耗時	GPU 顯示記憶體	WER
Large-v3 Turbo	fp16	19.2 秒	2,537 MB	1.92%
Large-v3	fp16	52.0 秒	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 秒	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 秒	2,409 MB	2.39%

資料來源：faster-whisper 在 NVIDIA GPU 上的基準測試，LibriSpeech clean 驗證集。Turbo int8 僅需 1.5 GB 顯示記憶體——2 GB 顯示卡也能跑。

在 RTX 3060 筆記型電腦（6 GB 顯示記憶體，int8 精度）上進行批次推理，優勢更加明顯：

模型	循序推理	批次 (10)	批次 WER
Large-v3 Turbo	46.1 秒	18.7 秒	7.7%
Large-v3	230.8 秒	43.0 秒	7.9%
Large-v2	178.3 秒	43.2 秒	8.8%
Medium	113.3 秒	26.3 秒	8.9%

資料來源：NilaierMusic 基準測試，Intel i7-12650H + RTX 3060 筆記型電腦 6 GB 顯示記憶體，法語音訊，int8 精度。

批次推理下，Turbo 在所有測試模型中 WER 最低（7.7%），同時速度最快。是正式環境的最佳選擇。

不支援翻譯

Turbo 的訓練資料不包含翻譯任務，只能用來源語言轉錄——不像 Large-v3 支援音訊→英文翻譯。

Whisper Notes — Mac 版透過 Apple Intelligence 自動將轉錄結果翻譯為指定語言，實現雙語對照顯示，不依賴模型本身的翻譯能力。

噪音環境下幻覺更多

社群回饋表明 Turbo 在極短音訊片段或高噪音錄音中，比 V3 更容易產生幻覺。這與解碼器縮減（4 層 vs 32 層）有關。

Whisper Notes — 轉錄前自動執行 Pyannote VAD 語音活動偵測，辨識語音片段並去除靜音和噪音，模型只處理真正的人聲，顯著減少幻覺。

英語 / 歐洲語言	Parakeet V3 — 比 Whisper 快 10 倍，精準度更高
中文 / 日語 / 韓語	SenseVoice — CJK 專用，52 倍速
其他語言	Whisper Large V3 Turbo — 99 種語言，準確率高，速度較慢