Whisper Large V3 Turbo vs V3：Mac 上快 5 倍（基准测试）

OpenAI 的 Whisper Large-v3 Turbo 将解码器从 32 层裁剪到 4 层，参数量从 15.5 亿降至 8.09 亿。结果：转录速度提升 2–5 倍，精度几乎不变。Whisper Notes 已在 Apple Silicon Mac 上搭载此模型。

V3 Turbo vs V3：改了什么

Turbo 不是新架构。它就是 Whisper Large-v3，解码器从 32 层剪枝到 4 层，然后微调恢复精度。编码器完全不变。

Turbo 的训练数据明确排除了翻译任务。完整版 Large-v3 支持翻译，但 Whisper Notes 只搭载 Turbo——翻译功能通过 Apple Intelligence 单独实现。

在 Mac 版 Whisper Notes 中，Turbo 通过 CoreML 在 Neural Engine 上运行。处理 10 分钟音频：

设备	Whisper V3	V3 Turbo	提速
iPhone 15 Pro	425 秒	82 秒	5.2×
iPad Pro M2	380 秒	71 秒	5.4×
MacBook Pro M2	316 秒	63 秒	5.0×

5 倍提速是 Whisper Notes 在 Apple Silicon 上的实测结果，较小的解码器在 Neural Engine 上优化效果更好。在 GPU 上使用 faster-whisper 等框架时，差距缩小到约 2.7 倍（见下方社区基准测试）。

Hugging Face Open ASR 排行榜在相同的英文数据集上测试了两个模型。Turbo 的词错率在每个基准上都与 V3 相差不到 0.5 个百分点：

V3 在每个数据集上都略微更准，但差距很小——平均仅 0.39 个百分点。在实际使用中，基本感受不到区别。

在 YouTube-commons 长音频评估（最大的开源 ASR 基准之一）上，Turbo 的 WER 为 13.40%，V3 为 13.20%——但 Turbo 的实时因子达到 129.5×，而 V3 仅 55.3×。速度快 2.3 倍，精度几乎相同。

来自 faster-whisper 和 whisper.cpp 社区的独立基准测试在不同硬件上显示了一致的结果。在 GPU 上使用 faster-whisper 转录 13 分钟音频：

模型	精度	耗时	GPU 显存	WER
Large-v3 Turbo	fp16	19.2 秒	2,537 MB	1.92%
Large-v3	fp16	52.0 秒	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 秒	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 秒	2,409 MB	2.39%

数据来源：faster-whisper 在 NVIDIA GPU 上的基准测试，LibriSpeech clean 验证集。Turbo int8 仅需 1.5 GB 显存——2 GB 显卡也能跑。

在 RTX 3060 笔记本（6 GB 显存，int8 精度）上进行批量推理，优势更加明显：

模型	顺序推理	批量 (10)	批量 WER
Large-v3 Turbo	46.1 秒	18.7 秒	7.7%
Large-v3	230.8 秒	43.0 秒	7.9%
Large-v2	178.3 秒	43.2 秒	8.8%
Medium	113.3 秒	26.3 秒	8.9%

数据来源：NilaierMusic 基准测试，Intel i7-12650H + RTX 3060 笔记本 6 GB 显存，法语音频，int8 精度。

批量推理下，Turbo 在所有测试模型中 WER 最低（7.7%），同时速度最快。是生产环境的最佳选择。

不支持翻译

Turbo 的训练数据不包含翻译任务，只能用源语言转录——不像 Large-v3 支持音频→英文翻译。

Whisper Notes — Mac 版通过 Apple Intelligence 自动将转录结果翻译为指定语言，实现双语对照显示，不依赖模型自身的翻译能力。

噪音环境下幻觉更多

社区反馈表明 Turbo 在极短音频片段或高噪音录音中，比 V3 更容易产生幻觉。这与解码器缩减（4 层 vs 32 层）有关。

Whisper Notes — 转录前自动运行 Pyannote VAD 语音活动检测，识别语音片段并去除静音和噪声，模型只处理真正的人声，显著减少幻觉。

英语 / 欧洲语言	Parakeet V3 — 比 Whisper 快 10 倍，精度更高
中文 / 日语 / 韩语	SenseVoice — CJK 专用，52 倍速
其他语言	Whisper Large V3 Turbo — 99 种语言，准确率高，速度慢