从1.3.2版本开始,Mac 版 Whisper Notes 默认使用 NVIDIA Parakeet TDT 0.6B 作为语音引擎。英文转录速度比 Whisper Large V3 Turbo 快 10 倍,准确率也更高。如果你需要其他语言,Whisper 模型仍然可用。
为什么换了默认模型
Whisper 很好用,但它是个通用模型——支持 100 多种语言、能翻译、能生成时间戳,是把瑞士军刀。代价是速度。对于英文听写这种只需要快速出字的场景,它太重了。
最让我难受的是:按住 Fn 用全局语音输入时,说完大概1分钟的话,要等3到5秒才能看到转录结果。这个等待打断了节奏——你说完了,盯着光标,什么都没出来,voice typing 的魔力瞬间消失。
Parakeet 彻底改变了这一点。它的速度快到说完的瞬间,文字就出现了。言出法随,毫无延迟。一旦体验过这种感觉——这种丝滑的、零等待的流畅——就很难再回到 Whisper 了。
Parakeet V3 有多快?
数字最有说服力。同一台 Mac 上,同一段 35 分钟的音频:
| 模型 | 35 分钟音频 |
|---|---|
| Whisper Large V3 Turbo | 3 分钟 |
| Parakeet TDT 0.6B v3 | 18 秒 |
快了 10 倍。而且模型更小(6 亿 vs 8 亿参数),内存和电量消耗也更低。
Parakeet v3 为什么这么快
Whisper 处理音频的方式就像逐字朗读一本书——一帧一帧,从不跳过。即使是静音,它也在处理,在猜测下一个词是什么。这很严谨,但太慢了。
Parakeet 的思路完全不同。它先把音频信号压缩 8 倍,只保留关键信息。然后,它不再逐帧磨,而是同时预测两件事:你说了什么词,以及这个词持续多久——然后直接跳到下一个词。静音?直接跳过。一个长元音?一次预测搞定,而不是重复几十次。
结果就是,模型处理语音的方式更像你的大脑——只关注有意义的词,忽略中间的空白。这就是为什么它用更少的参数、更高的准确率,做到了 10 倍的速度。
基准测试:Parakeet v3 vs Whisper
Parakeet v3 在 FLEURS、CoVoST 和 MLS 基准测试中匹敌甚至超越参数量 2-4 倍的模型
在 Hugging Face Open ASR 排行榜上,Parakeet v3 仅凭 6 亿参数就登顶——不到 Whisper Large V3 的 15.5 亿参数的一半:
| 模型 | 参数量 | 平均词错率 | 速度 (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 6 亿 | 6.32% | 3,333x |
| Canary 1B v2 | 10 亿 | 7.15% | 749x |
| Whisper Large V3 | 15.5 亿 | 7.44% | 146x |
| Whisper Large V3 Turbo | 8 亿 | 7.6% | 350x |
词错率越低越好,RTFx 越高越快。Parakeet 两项全赢。6 亿参数也意味着它是列表中最小的模型——在 Apple Silicon 上运行极其流畅,内存和电量消耗都很低。
告别幻觉问题
如果你用 Whisper 做过听写,可能遇到过它在静音时产生幻觉——重复短语、凭空造词,甚至输出"Subtitles by Amara.org"这种莫名其妙的文字。这是因为 Whisper 的自回归解码器总是期望生成文本,即使根本没有内容可转录。
NVIDIA 用 36,000 小时的纯非语音音频(背景噪音、咳嗽、静音)训练了 Parakeet,目标输出全部设为空字符串。模型学会了什么是静默,并在无人说话时保持安静。对于系统级全局听写来说,这是根本性的改变——你停下来思考时,屏幕上不会再冒出乱码。
Parakeet 支持的语言
Parakeet v3 支持 25 种语言:保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语和乌克兰语。
基本覆盖了整个欧洲,但不支持中文、日文、韩文、阿拉伯语和印地语。所以我们保留了 Whisper 模型作为可下载选项。如果你用日语或中文听写,可以在模型选择器中切换到 Whisper Large V3 Turbo。对于英语和欧洲语言,Parakeet v3 就是更好的引擎。
模型选择器:Parakeet V3(默认)、Whisper Small 和 Whisper Large V3 Turbo — 全部本地运行
Whisper Notes 中的模型选择器
打开设置即可切换模型:
- Parakeet V3(默认)— 最快,最适合英语和欧洲语言
- Whisper Small — 轻量级,支持 100+ 种语言
- Whisper Large V3 Turbo — 多语言最高精度模型
所有模型都在你的 Mac 上 100% 本地运行。无需联网,无需云端,数据不会离开你的设备。
来试试
Parakeet v3 现已在 Mac 版中可用——直接下载最新 DMG 即可体验。如果用户反馈不错,我们会在之后的 iOS 版本中也集成 Parakeet。
有问题或反馈?邮件联系 support@whispernotes.app。