Whisper Large V3 Turbo vs V3:Mac 上快 5 倍(基準測試)

2024年11月6日
·
6 min read
·Whisper Notes Team

OpenAI 的 Whisper Large-v3 Turbo 將解碼器從 32 層裁剪到 4 層,參數量從 15.5 億降至 8.09 億。結果:轉錄速度提升 2–5 倍,精準度幾乎不變。Whisper Notes 已在 Apple Silicon Mac 上搭載此模型。

Whisper Large V3 Turbo 與 V3 架構比較

V3 Turbo vs V3:改了什麼

Turbo 不是新架構。它就是 Whisper Large-v3,解碼器從 32 層剪枝到 4 層,然後微調恢復精準度。編碼器完全不變。

Large-v3 Turbo Large-v3
參數量 809M 1,550M
解碼器層數 4 32
語言數 99 99
翻譯任務 不支援 支援
開源協議 MIT Apache 2.0

Turbo 的訓練資料明確排除了翻譯任務。完整版 Large-v3 支援翻譯,但 Whisper Notes 只搭載 Turbo——翻譯功能透過 Apple Intelligence 單獨實現。

速度基準:Whisper Notes 在 Apple Silicon 上的表現

Mac 版 Whisper Notes 中,Turbo 透過 CoreML 在 Neural Engine 上執行。處理 10 分鐘音訊:

裝置 Whisper V3 V3 Turbo 提速
iPhone 15 Pro 425 秒 82 秒 5.2×
iPad Pro M2 380 秒 71 秒 5.4×
MacBook Pro M2 316 秒 63 秒 5.0×

5 倍提速是 Whisper Notes 在 Apple Silicon 上的實測結果,較小的解碼器在 Neural Engine 上最佳化效果更好。在 GPU 上使用 faster-whisper 等框架時,差距縮小到約 2.7 倍(見下方社群基準測試)。

精準度比較:WER 詞錯率

Hugging Face Open ASR 排行榜在相同的英文資料集上測試了兩個模型。Turbo 的詞錯率在每個基準上都與 V3 相差不到 0.5 個百分點:

資料集 V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
平均 WER 7.83% 7.44%

V3 在每個資料集上都略微更準,但差距很小——平均僅 0.39 個百分點。在實際使用中,基本感受不到區別。

在 YouTube-commons 長音訊評估(最大的開源 ASR 基準之一)上,Turbo 的 WER 為 13.40%,V3 為 13.20%——但 Turbo 的即時因子達到 129.5×,而 V3 僅 55.3×。速度快 2.3 倍,精準度幾乎相同。

社群基準測試:GPU 與 CPU

來自 faster-whisper 和 whisper.cpp 社群的獨立基準測試在不同硬體上顯示了一致的結果。在 GPU 上使用 faster-whisper 轉錄 13 分鐘音訊:

模型 精度 耗時 GPU 顯示記憶體 WER
Large-v3 Turbo fp16 19.2 秒 2,537 MB 1.92%
Large-v3 fp16 52.0 秒 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 秒 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 秒 2,409 MB 2.39%

資料來源:faster-whisper 在 NVIDIA GPU 上的基準測試,LibriSpeech clean 驗證集。Turbo int8 僅需 1.5 GB 顯示記憶體——2 GB 顯示卡也能跑。

在 RTX 3060 筆記型電腦(6 GB 顯示記憶體,int8 精度)上進行批次推理,優勢更加明顯:

模型 循序推理 批次 (10) 批次 WER
Large-v3 Turbo 46.1 秒 18.7 秒 7.7%
Large-v3 230.8 秒 43.0 秒 7.9%
Large-v2 178.3 秒 43.2 秒 8.8%
Medium 113.3 秒 26.3 秒 8.9%

資料來源:NilaierMusic 基準測試,Intel i7-12650H + RTX 3060 筆記型電腦 6 GB 顯示記憶體,法語音訊,int8 精度。

批次推理下,Turbo 在所有測試模型中 WER 最低(7.7%),同時速度最快。是正式環境的最佳選擇。

已知限制(以及 Whisper Notes 的因應方案)

不支援翻譯

Turbo 的訓練資料不包含翻譯任務,只能用來源語言轉錄——不像 Large-v3 支援音訊→英文翻譯。

Whisper Notes — Mac 版透過 Apple Intelligence 自動將轉錄結果翻譯為指定語言,實現雙語對照顯示,不依賴模型本身的翻譯能力。

噪音環境下幻覺更多

社群回饋表明 Turbo 在極短音訊片段或高噪音錄音中,比 V3 更容易產生幻覺。這與解碼器縮減(4 層 vs 32 層)有關。

Whisper Notes — 轉錄前自動執行 Pyannote VAD 語音活動偵測,辨識語音片段並去除靜音和噪音,模型只處理真正的人聲,顯著減少幻覺。

該選哪個模型?

英語 / 歐洲語言 Parakeet V3 — 比 Whisper 快 10 倍,精準度更高
中文 / 日語 / 韓語 SenseVoice — CJK 專用,52 倍速
其他語言 Whisper Large V3 Turbo — 99 種語言,準確率高,速度較慢