SenseVoice：Mac 上 52 倍速中日韩语转录

TL;DR — 三款 Mac 模型对比

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 分钟英语	2.91s (103×)	5.8s (52×)	20.92s (14.3×)
27 分钟中文	10.10s (161×)	13.83s (118×)	2 min 4s (13.1×)
支持语言	25（欧洲语言）	5（zh, en, ja, ko, yue）	99+
下载大小	465 MB	827 MB	1.5 GB
内存占用	~800 MB	~700 MB	~1.6 GB
最适用于	英语和欧洲语言	中文、日语、韩语、粤语	其他所有语言（99+）

* 速度测试基于 Apple M4 Pro, 32 GB。5 分钟英语播客和 27 分钟中文播客。实时倍率 = 音频时长 ÷ 处理时间（越高越快）。SenseVoice 仅限 macOS。iOS 使用 Parakeet（通过 ANE）和 Whisper。

从 1.4.8 版本起，Mac 版 Whisper Notes 搭载 SenseVoice Small 作为中文、日语、韩语和粤语的专用转写引擎。它取代了 Qwen3-ASR，通过 MLX 在 Apple GPU 上运行，而非 CPU——27 分钟的中文播客从 3 分 44 秒缩短到 13.83 秒。

为什么替换 Qwen3-ASR

Qwen3-ASR 是一个不错的模型，支持 30 种语言和 22 种中文方言，中文准确率接近最高水平。但它有一个随音频时长而恶化的问题：速度。

Qwen3 采用自回归架构——和 Whisper 一样，逐帧处理音频，永远无法跳过。27 分钟的中文播客需要 73 秒。能用，但远不是 Parakeet V3 在英语上提供的即时体验。

更深层的问题在基础设施。我们的 Qwen3 集成使用 sherpa-onnx，一个带有 2,249 行 Swift 封装的 C 库，所有计算都走 CPU。GPU 完全闲置。

SenseVoice 同时解决了这两个问题：非自回归架构实现速度提升，Apple MLX 实现 GPU 加速。结果：同样的硬件上 16.2 倍速度提升，代码从 2,249 行减少到 288 行。

基准测试

三个模型在同一台 Apple M4 Pro 上、同样的音频文件、同样的条件下运行。无云端，无网络，纯靠芯片。

模型	5 分钟英语	27 分钟中文	速度 (RTFx)
Parakeet V3	2.91s	10.10s	103–161×
SenseVoice Small	5.8s	13.83s	52–118×
Whisper Large V3 Turbo	20.92s	2 min 4s	13–14×
Qwen3-ASR（已移除）	—	73s	4.7×

SenseVoice 大约是 Parakeet V3 速度的一半——但依然快得惊人。27 分钟的播客在 14 秒内完成。按下转写，等一次呼吸，文字就出来了。

对比 Whisper 的 2 分 4 秒或旧版 Qwen3 的 73 秒。架构比参数量更重要。

FunAudioLLM 论文的官方推理速度对比表：SenseVoice-Small（10 秒音频 70ms）vs Whisper-Small（518ms）vs Whisper-Large-V3（1281ms）——展示模型架构、参数量、支持语言、RTF 和延迟

FunAudioLLM 论文官方推理基准测试：SenseVoice-Small 处理 10 秒音频仅需 70ms（A800 GPU）。Whisper-Large-V3 需要 1,281ms。原始推理延迟相差 18 倍。

模型	加载时间	内存占用	下载大小
Parakeet V3	0.77s	~800 MB	465 MB
SenseVoice Small	0.81s	~700 MB	827 MB
Whisper Small	1.03s	~487 MB	600 MB
Whisper Large V3 Turbo	3.18s	~1.6 GB	3 GB

* 加载时间和内存基于 Apple M4 Pro, 32 GB 测量。

SenseVoice 在一秒内加载完毕，内存占用比 Parakeet 还少。在 8 GB 的 Mac 上也能和其他应用一起流畅运行。

SenseVoice 为什么更快：架构 + 运行时

Qwen3-ASR 和 SenseVoice 之间的速度差距来自两个独立因素。

因素一：模型架构。 Qwen3-ASR 是自回归的——逐个生成 token，每个都依赖前一个。SenseVoice 使用非自回归（NAR）编码器，并行处理整段音频。仅凭这一架构差异，无论运行在什么硬件上，SenseVoice 都从根本上更快。

因素二：运行时。 我们的 Qwen3-ASR 集成使用 sherpa-onnx，在 CPU 上运行。SenseVoice 通过 Apple MLX 运行，将计算路由到 GPU。Qwen3 也能用 MLX 运行吗？能——但它仍然会比 SenseVoice 慢，因为自回归瓶颈在架构而非运行时。

	Qwen3-ASR（旧）	SenseVoice（新）
架构	自回归（逐 token）	非自回归（并行处理）
运行时	sherpa-onnx (CPU)	Apple MLX (GPU)
27 分钟中文	224 秒	13.83 秒
综合加速	基准值	快 16.2 倍
代码量	168 MB C 框架 + 2,249 行 Swift	288 行 Swift Actor

* 同一段 27 分钟中文播客，Apple M4 Pro。16.2 倍加速同时包含架构（NAR vs AR）和运行时（GPU vs CPU）的改进。

代码也变简单了。新的 SenseVoice 实现是一个 288 行的 Swift Actor，直接与 MLX 通信，替代了 168 MB 的 C 框架。代码更少，bug 更少，应用更小。

五种语言，做到极致

SenseVoice 不追求面面俱到。它专注于五种语言：

语言	SenseVoice-Small	Whisper-Large-V3	胜者
中文 (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
粤语 (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
日语 (ja)	11.96% CER	10.34% CER	Whisper（略优）
韩语 (ko)	8.28% CER	5.59% CER	Whisper
英语 (en)	14.71% WER	9.39% WER	Whisper（建议用 Parakeet）

* CommonVoice 基准测试，CER = 字符错误率，WER = 单词错误率。越低越好。来源：FunAudioLLM 论文 (2024)。SenseVoice-Small 推理延迟：10 秒音频 70ms（A800 GPU），比 Whisper-Large-V3 快 15 倍以上。

CommonVoice 基准测试中 SenseVoice vs Whisper 准确率对比：中文、粤语、英语、日语、韩语及其他 25 种语言 — WER/CER 柱状图

CommonVoice 基准：SenseVoice-Small（黄色）vs Whisper-Small（蓝色）vs Whisper-Large-V3（橙色）。越低越好。来源：FunAudioLLM 论文

数据说明了一切。SenseVoice 在中文和粤语准确率上大幅领先 Whisper，而 Whisper 在日语、韩语和英语上更准确。但 SenseVoice 比 Whisper-Large-V3 快 15 倍以上。在实际使用中，速度差异往往比几个百分点的准确率更重要。

粤语的结果值得单独说一下。Whisper-Small 在粤语上的 CER 高达 38.97%——几乎不能用。即便是 Whisper-Large-V3 也只做到 10.41%。SenseVoice 达到了 7.09%。在 SenseVoice 之前，没有好的方法在 Mac 上本地转写粤语。如果你说粤语，这个模型就是为你而生的。

Mac 版 Whisper Notes 中 SenseVoice 韩语转写结果，展示视频中的精确韩语文本

SenseVoice 韩语转写：带时间戳字幕的视频导入

实测：27 分钟中文播客

我们用 SenseVoice 和 Whisper Large V3 Turbo 在同一台 M4 Pro 上转写了一期 27 分钟的《十三邀》（Thirteen Invitations），一档中文访谈播客。以 ElevenLabs Scribe（云端）作为参考。两个本地模型的错误数量大致相当，但类型不同：

	SenseVoice	Whisper Large V3
耗时	13.83s	2 min 4s
错误数（5 分钟样本）	~15–20	~12–15
最严重错误	时差→食堂	西昌→西藏（Xīchāng→Xīzàng，相差 4,000 公里）
错误模式	同音字混淆	地理/事实性错误

* 与 ElevenLabs Scribe（云端参考，也并非完美）手动对比。两个本地模型都正确写出了"根深蒂固"，而 Scribe 写错了。

准确率相当。速度快 9 倍。在实际中文转写场景中，Whisper 还没加载完，SenseVoice 已经给你一份可用的文稿了。

什么时候用哪个模型

Mac 版 Whisper Notes 现已搭载四个语音模型，各自针对不同场景优化：

你的需求	推荐模型	原因
英语或欧洲语言，追求极致速度	Parakeet V3	103× 实时，最低错误率。默认选择。
中文、日语、韩语或粤语	SenseVoice Small	52–118× 实时。唯一支持粤语的模型。
99+ 语言中的任意一种（阿拉伯语、泰语、俄语等）	Whisper Large V3 Turbo	语言覆盖最广。速度较慢但通用性强。
低内存需求（老款 Mac）	Whisper Small	487 MB 内存。适合 8 GB Mac。