SenseVoice:Mac 上 52 倍速中日韩语转录

2026年5月12日
·
7 min read
·Whisper Notes Team

TL;DR — 三款 Mac 模型对比

Parakeet V3 SenseVoice Small Whisper Large V3 Turbo
5 分钟英语 2.91s (103×) 5.8s (52×) 20.92s (14.3×)
27 分钟中文 10.10s (161×) 13.83s (118×) 2 min 4s (13.1×)
支持语言 25(欧洲语言) 5(zh, en, ja, ko, yue) 99+
下载大小 465 MB 827 MB 1.5 GB
内存占用 ~800 MB ~700 MB ~1.6 GB
最适用于 英语和欧洲语言 中文、日语、韩语、粤语 其他所有语言(99+)

* 速度测试基于 Apple M4 Pro, 32 GB。5 分钟英语播客和 27 分钟中文播客。实时倍率 = 音频时长 ÷ 处理时间(越高越快)。SenseVoice 仅限 macOS。iOS 使用 Parakeet(通过 ANE)和 Whisper。

1.4.8 版本起,Mac 版 Whisper Notes 搭载 SenseVoice Small 作为中文、日语、韩语和粤语的专用转写引擎。它取代了 Qwen3-ASR,通过 MLX 在 Apple GPU 上运行,而非 CPU——27 分钟的中文播客从 3 分 44 秒缩短到 13.83 秒。

为什么替换 Qwen3-ASR

Qwen3-ASR 是一个不错的模型,支持 30 种语言和 22 种中文方言,中文准确率接近最高水平。但它有一个随音频时长而恶化的问题:速度。

Qwen3 采用自回归架构——和 Whisper 一样,逐帧处理音频,永远无法跳过。27 分钟的中文播客需要 73 秒。能用,但远不是 Parakeet V3 在英语上提供的即时体验

更深层的问题在基础设施。我们的 Qwen3 集成使用 sherpa-onnx,一个带有 2,249 行 Swift 封装的 C 库,所有计算都走 CPU。GPU 完全闲置。

SenseVoice 同时解决了这两个问题:非自回归架构实现速度提升,Apple MLX 实现 GPU 加速。结果:同样的硬件上 16.2 倍速度提升,代码从 2,249 行减少到 288 行。

基准测试

三个模型在同一台 Apple M4 Pro 上、同样的音频文件、同样的条件下运行。无云端,无网络,纯靠芯片。

模型 5 分钟英语 27 分钟中文 速度 (RTFx)
Parakeet V3 2.91s 10.10s 103–161×
SenseVoice Small 5.8s 13.83s 52–118×
Whisper Large V3 Turbo 20.92s 2 min 4s 13–14×
Qwen3-ASR(已移除) 73s 4.7×

SenseVoice 大约是 Parakeet V3 速度的一半——但依然快得惊人。27 分钟的播客在 14 秒内完成。按下转写,等一次呼吸,文字就出来了。

对比 Whisper 的 2 分 4 秒或旧版 Qwen3 的 73 秒。架构比参数量更重要。

FunAudioLLM 论文的官方推理速度对比表:SenseVoice-Small(10 秒音频 70ms)vs Whisper-Small(518ms)vs Whisper-Large-V3(1281ms)——展示模型架构、参数量、支持语言、RTF 和延迟

FunAudioLLM 论文官方推理基准测试:SenseVoice-Small 处理 10 秒音频仅需 70ms(A800 GPU)。Whisper-Large-V3 需要 1,281ms。原始推理延迟相差 18 倍。

模型 加载时间 内存占用 下载大小
Parakeet V3 0.77s ~800 MB 465 MB
SenseVoice Small 0.81s ~700 MB 827 MB
Whisper Small 1.03s ~487 MB 600 MB
Whisper Large V3 Turbo 3.18s ~1.6 GB 3 GB

* 加载时间和内存基于 Apple M4 Pro, 32 GB 测量。

SenseVoice 在一秒内加载完毕,内存占用比 Parakeet 还少。在 8 GB 的 Mac 上也能和其他应用一起流畅运行。

SenseVoice 为什么更快:架构 + 运行时

Qwen3-ASR 和 SenseVoice 之间的速度差距来自两个独立因素。

因素一:模型架构。 Qwen3-ASR 是自回归的——逐个生成 token,每个都依赖前一个。SenseVoice 使用非自回归(NAR)编码器,并行处理整段音频。仅凭这一架构差异,无论运行在什么硬件上,SenseVoice 都从根本上更快。

因素二:运行时。 我们的 Qwen3-ASR 集成使用 sherpa-onnx,在 CPU 上运行。SenseVoice 通过 Apple MLX 运行,将计算路由到 GPU。Qwen3 也能用 MLX 运行吗?能——但它仍然会比 SenseVoice 慢,因为自回归瓶颈在架构而非运行时。

Qwen3-ASR(旧) SenseVoice(新)
架构 自回归(逐 token) 非自回归(并行处理)
运行时 sherpa-onnx (CPU) Apple MLX (GPU)
27 分钟中文 224 秒 13.83 秒
综合加速 基准值 快 16.2 倍
代码量 168 MB C 框架 + 2,249 行 Swift 288 行 Swift Actor

* 同一段 27 分钟中文播客,Apple M4 Pro。16.2 倍加速同时包含架构(NAR vs AR)和运行时(GPU vs CPU)的改进。

代码也变简单了。新的 SenseVoice 实现是一个 288 行的 Swift Actor,直接与 MLX 通信,替代了 168 MB 的 C 框架。代码更少,bug 更少,应用更小。

五种语言,做到极致

SenseVoice 不追求面面俱到。它专注于五种语言:

语言 SenseVoice-Small Whisper-Large-V3 胜者
中文 (zh-CN) 10.78% CER 12.55% CER SenseVoice (-14%)
粤语 (yue) 7.09% CER 10.41% CER SenseVoice (-32%)
日语 (ja) 11.96% CER 10.34% CER Whisper(略优)
韩语 (ko) 8.28% CER 5.59% CER Whisper
英语 (en) 14.71% WER 9.39% WER Whisper(建议用 Parakeet)

* CommonVoice 基准测试,CER = 字符错误率,WER = 单词错误率。越低越好。来源:FunAudioLLM 论文 (2024)。SenseVoice-Small 推理延迟:10 秒音频 70ms(A800 GPU),比 Whisper-Large-V3 快 15 倍以上。

CommonVoice 基准测试中 SenseVoice vs Whisper 准确率对比:中文、粤语、英语、日语、韩语及其他 25 种语言 — WER/CER 柱状图

CommonVoice 基准:SenseVoice-Small(黄色)vs Whisper-Small(蓝色)vs Whisper-Large-V3(橙色)。越低越好。来源:FunAudioLLM 论文

数据说明了一切。SenseVoice 在中文和粤语准确率上大幅领先 Whisper,而 Whisper 在日语、韩语和英语上更准确。但 SenseVoice 比 Whisper-Large-V3 快 15 倍以上。在实际使用中,速度差异往往比几个百分点的准确率更重要。

粤语的结果值得单独说一下。Whisper-Small 在粤语上的 CER 高达 38.97%——几乎不能用。即便是 Whisper-Large-V3 也只做到 10.41%。SenseVoice 达到了 7.09%。在 SenseVoice 之前,没有好的方法在 Mac 上本地转写粤语。如果你说粤语,这个模型就是为你而生的。

Mac 版 Whisper Notes 中 SenseVoice 韩语转写结果,展示视频中的精确韩语文本

SenseVoice 韩语转写:带时间戳字幕的视频导入

实测:27 分钟中文播客

我们用 SenseVoice 和 Whisper Large V3 Turbo 在同一台 M4 Pro 上转写了一期 27 分钟的《十三邀》(Thirteen Invitations),一档中文访谈播客。以 ElevenLabs Scribe(云端)作为参考。两个本地模型的错误数量大致相当,但类型不同:

SenseVoice Whisper Large V3
耗时 13.83s 2 min 4s
错误数(5 分钟样本) ~15–20 ~12–15
最严重错误 时差→食堂 西昌→西藏(Xīchāng→Xīzàng,相差 4,000 公里)
错误模式 同音字混淆 地理/事实性错误

* 与 ElevenLabs Scribe(云端参考,也并非完美)手动对比。两个本地模型都正确写出了"根深蒂固",而 Scribe 写错了。

准确率相当。速度快 9 倍。在实际中文转写场景中,Whisper 还没加载完,SenseVoice 已经给你一份可用的文稿了。

什么时候用哪个模型

Mac 版 Whisper Notes 现已搭载四个语音模型,各自针对不同场景优化:

你的需求 推荐模型 原因
英语或欧洲语言,追求极致速度 Parakeet V3 103× 实时,最低错误率。默认选择。
中文、日语、韩语或粤语 SenseVoice Small 52–118× 实时。唯一支持粤语的模型。
99+ 语言中的任意一种(阿拉伯语、泰语、俄语等) Whisper Large V3 Turbo 语言覆盖最广。速度较慢但通用性强。
低内存需求(老款 Mac) Whisper Small 487 MB 内存。适合 8 GB Mac。
Whisper Notes Mac 模型选择器,展示 Parakeet V3、SenseVoice Small、Whisper Small 和 Whisper Large V3 Turbo 的下载大小和语言支持

设置 → 转写模型:为你的语言选择合适的引擎

设置中的模型选择器展示了全部四个选项,包含下载大小、支持语言数和内存需求。SenseVoice 在首次使用时下载(约 827 MB),之后保存在本地。

权衡取舍

SenseVoice 不是万能模型。以下是它做不到的事:

仅支持 5 种语言。 如果你需要泰语、俄语、阿拉伯语、印地语或 Whisper 支持的其他 90 多种语言,请继续使用 Whisper。

仅限 Mac。 SenseVoice 通过 Apple MLX 运行,需要 macOS。iPhone 上不可用。iOS 用户可使用 Parakeet(欧洲语言)和 Whisper。

低音量音频特性。 在非常短或非常安静的片段中,SenseVoice 有时会无视所选语言而输出中文。手动设置语言(而非"自动")可以减少这种情况。

不支持流式处理。 与 Whisper 的流式模式不同,SenseVoice 在录音结束后处理完整音频。对于长文件,它会在静音处自动分段,逐步显示结果。

这些是架构层面的限制,不是 bug。一个用 5 种语言训练的模型,把这 5 种语言做到了极致。Whisper 的 99+ 语言支持意味着更慢的速度和更高的单语言错误率。

试试看

SenseVoice 已在 Mac 版 Whisper Notes v1.4.8 及更高版本中提供。前往 设置 → 转写模型 → SenseVoice Small(约 827 MB)下载。需要 Apple Silicon Mac(M1 或更新)。

如果你正在使用 Parakeet V3 且主要用英语听写,无需切换。SenseVoice 适用于当你需要中文、日语、韩语或粤语——并且希望快速完成。

下载 Mac 版

完整更新日志:whispernotes.app/changelog

问题或反馈:mac@whispernotes.app