离线转录
为什么现在终于能用了
很长一段时间,本地转录意味着更慢、更差。这个情况变了。

一点背景
几年前,如果你想要准确的转录,就得把音频上传到别人的服务器。本地方案也有,但效果明显更差。这是个真实的取舍。
后来发生了几件事。OpenAI把Whisper作为开源模型发布了。Apple开始在芯片里集成专门的AI硬件。突然之间,那些驱动云服务的模型,在笔记本上也能跑了。
我们大概就是那时候开始做Whisper Notes的,主要是因为我们自己需要。后来发现很多人也在找类似的东西。
变化在哪
以前有三个理由让云端转录成为明显的选择。这三个都变了。
算力
做转录的AI模型很大——几亿个参数。以前在消费级硬件上跑又慢又费电。
Apple的神经引擎改变了这一点。这是一块专门处理AI任务的芯片,每台M系列Mac和新款iPhone里都有。Whisper Large v3 Turbo现在在MacBook Air上跑得很顺畅。
在手机上,我们用针对移动芯片优化过的小模型。准确率不如大模型,但比大多数系统自带的听写还是好不少。
准确率
这个让我们挺意外的。我们本来预期本地模型「够用就行」。结果发现其实挺好的。
Whisper Large v3的词错误率比大多数系统听写都低。而且本地和云端API之间的差距已经变得很小了。大多数场景下,你可能感觉不出区别。
这就改变了计算方式。如果准确率差不多,上传音频的主要理由就消失了。
隐私
我们不是来吓唬你说云服务多可怕的。大多数云服务处理数据还是负责任的。
但「他们承诺不会乱用」和「他们根本没拿到」还是有区别的。你的声音是生物特征——不像密码,出了问题你没法改。
用本地转录,你的音频就留在设备上。不是加密后上传,是根本不发送。对有些人来说这很重要,对另一些人可能不那么重要。我们是为前一类人做的。
什么时候用什么
本地不是永远都对。我们是这么想的。
需要实时协作?
Otter这样的云工具就是为这个做的。多人同时编辑同一份转录稿需要中央服务器。这是云的好用途。
用的是Windows或Android?
这些平台上的本地AI比较难——硬件支持还不够成熟。Windows上Dragon能用。Android上,云服务通常是更实际的选择。
需要知道谁说了什么?
说话人识别需要额外的模型。Rev这样的云服务做得不错。本地工具在追赶,但这块云端还是有优势。
只是需要私密、准确的转录?
这是我们专注的点。如果你主要关心隐私和准确率,又用的是Apple设备,本地现在挺好用的。
Whisper Notes做什么
它在你的Mac上跑Whisper Large v3 Turbo,在iPhone上跑一个优化过的小模型。你的音频不会离开设备。
在Mac上,用神经引擎转录大概是实时速度的10-15倍。一小时的录音几分钟就完成。在iPhone上慢一些,但对大多数录音来说够用。
$4.99,一次性,两个平台都能用。我们不跑服务器,所以不需要订阅。就这样。
简单说
本地转录以前是一种妥协。现在对很多人来说是个合理的默认选择了。
如果你需要协作,或者用的不是Apple设备,云服务还是有意义的。如果你主要想要准确、私密的转录,又在用Mac或iPhone,本地方案现在挺好的。
我们自己每天都在用Whisper Notes。它做到了我们需要的。
试试看
如果你想验证确实没有上传,可以开飞行模式测试。功能完全一样。
App Store • $4.99 • Mac和iPhone
一次购买,两个平台都能用。