OpenAI 的 Whisper Large-v3 Turbo 將解碼器從 32 層裁剪到 4 層,參數量從 15.5 億降至 8.09 億。結果:轉錄速度提升 2–5 倍,精準度幾乎不變。Whisper Notes 已在 Apple Silicon Mac 上搭載此模型。
V3 Turbo vs V3:改了什麼
Turbo 不是新架構。它就是 Whisper Large-v3,解碼器從 32 層剪枝到 4 層,然後微調恢復精準度。編碼器完全不變。
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| 參數量 | 809M | 1,550M |
| 解碼器層數 | 4 | 32 |
| 語言數 | 99 | 99 |
| 翻譯任務 | 不支援 | 支援 |
| 開源協議 | MIT | Apache 2.0 |
Turbo 的訓練資料明確排除了翻譯任務。完整版 Large-v3 支援翻譯,但 Whisper Notes 只搭載 Turbo——翻譯功能透過 Apple Intelligence 單獨實現。
速度基準:Whisper Notes 在 Apple Silicon 上的表現
在 Mac 版 Whisper Notes 中,Turbo 透過 CoreML 在 Neural Engine 上執行。處理 10 分鐘音訊:
| 裝置 | Whisper V3 | V3 Turbo | 提速 |
|---|---|---|---|
| iPhone 15 Pro | 425 秒 | 82 秒 | 5.2× |
| iPad Pro M2 | 380 秒 | 71 秒 | 5.4× |
| MacBook Pro M2 | 316 秒 | 63 秒 | 5.0× |
5 倍提速是 Whisper Notes 在 Apple Silicon 上的實測結果,較小的解碼器在 Neural Engine 上最佳化效果更好。在 GPU 上使用 faster-whisper 等框架時,差距縮小到約 2.7 倍(見下方社群基準測試)。
精準度比較:WER 詞錯率
Hugging Face Open ASR 排行榜在相同的英文資料集上測試了兩個模型。Turbo 的詞錯率在每個基準上都與 V3 相差不到 0.5 個百分點:
| 資料集 | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| 平均 WER | 7.83% | 7.44% |
V3 在每個資料集上都略微更準,但差距很小——平均僅 0.39 個百分點。在實際使用中,基本感受不到區別。
在 YouTube-commons 長音訊評估(最大的開源 ASR 基準之一)上,Turbo 的 WER 為 13.40%,V3 為 13.20%——但 Turbo 的即時因子達到 129.5×,而 V3 僅 55.3×。速度快 2.3 倍,精準度幾乎相同。
社群基準測試:GPU 與 CPU
來自 faster-whisper 和 whisper.cpp 社群的獨立基準測試在不同硬體上顯示了一致的結果。在 GPU 上使用 faster-whisper 轉錄 13 分鐘音訊:
| 模型 | 精度 | 耗時 | GPU 顯示記憶體 | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 秒 | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 秒 | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 秒 | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 秒 | 2,409 MB | 2.39% |
資料來源:faster-whisper 在 NVIDIA GPU 上的基準測試,LibriSpeech clean 驗證集。Turbo int8 僅需 1.5 GB 顯示記憶體——2 GB 顯示卡也能跑。
在 RTX 3060 筆記型電腦(6 GB 顯示記憶體,int8 精度)上進行批次推理,優勢更加明顯:
| 模型 | 循序推理 | 批次 (10) | 批次 WER |
|---|---|---|---|
| Large-v3 Turbo | 46.1 秒 | 18.7 秒 | 7.7% |
| Large-v3 | 230.8 秒 | 43.0 秒 | 7.9% |
| Large-v2 | 178.3 秒 | 43.2 秒 | 8.8% |
| Medium | 113.3 秒 | 26.3 秒 | 8.9% |
資料來源:NilaierMusic 基準測試,Intel i7-12650H + RTX 3060 筆記型電腦 6 GB 顯示記憶體,法語音訊,int8 精度。
批次推理下,Turbo 在所有測試模型中 WER 最低(7.7%),同時速度最快。是正式環境的最佳選擇。
已知限制(以及 Whisper Notes 的因應方案)
不支援翻譯
Turbo 的訓練資料不包含翻譯任務,只能用來源語言轉錄——不像 Large-v3 支援音訊→英文翻譯。
Whisper Notes — Mac 版透過 Apple Intelligence 自動將轉錄結果翻譯為指定語言,實現雙語對照顯示,不依賴模型本身的翻譯能力。
噪音環境下幻覺更多
社群回饋表明 Turbo 在極短音訊片段或高噪音錄音中,比 V3 更容易產生幻覺。這與解碼器縮減(4 層 vs 32 層)有關。
Whisper Notes — 轉錄前自動執行 Pyannote VAD 語音活動偵測,辨識語音片段並去除靜音和噪音,模型只處理真正的人聲,顯著減少幻覺。
該選哪個模型?
| 英語 / 歐洲語言 | Parakeet V3 — 比 Whisper 快 10 倍,精準度更高 |
| 中文 / 日語 / 韓語 | SenseVoice — CJK 專用,52 倍速 |
| 其他語言 | Whisper Large V3 Turbo — 99 種語言,準確率高,速度較慢 |