离线转录

为什么现在终于能用了

很长一段时间,本地转录意味着更慢、更差。这个情况变了。

离线转录软件

一点背景

几年前,如果你想要准确的转录,就得把音频上传到别人的服务器。本地方案也有,但效果明显更差。这是个真实的取舍。

后来发生了几件事。OpenAI把Whisper作为开源模型发布了。Apple开始在芯片里集成专门的AI硬件。突然之间,那些驱动云服务的模型,在笔记本上也能跑了。

我们大概就是那时候开始做Whisper Notes的,主要是因为我们自己需要。后来发现很多人也在找类似的东西。

变化在哪

以前有三个理由让云端转录成为明显的选择。这三个都变了。

算力

做转录的AI模型很大——几亿个参数。以前在消费级硬件上跑又慢又费电。

Apple的神经引擎改变了这一点。这是一块专门处理AI任务的芯片,每台M系列Mac和新款iPhone里都有。Whisper Large v3 Turbo现在在MacBook Air上跑得很顺畅。

在手机上,我们用针对移动芯片优化过的小模型。准确率不如大模型,但比大多数系统自带的听写还是好不少。

准确率

这个让我们挺意外的。我们本来预期本地模型「够用就行」。结果发现其实挺好的。

Whisper Large v3的词错误率比大多数系统听写都低。而且本地和云端API之间的差距已经变得很小了。大多数场景下,你可能感觉不出区别。

这就改变了计算方式。如果准确率差不多,上传音频的主要理由就消失了。

隐私

我们不是来吓唬你说云服务多可怕的。大多数云服务处理数据还是负责任的。

但「他们承诺不会乱用」和「他们根本没拿到」还是有区别的。你的声音是生物特征——不像密码,出了问题你没法改。

用本地转录,你的音频就留在设备上。不是加密后上传,是根本不发送。对有些人来说这很重要,对另一些人可能不那么重要。我们是为前一类人做的。

什么时候用什么

本地不是永远都对。我们是这么想的。

需要实时协作?

Otter这样的云工具就是为这个做的。多人同时编辑同一份转录稿需要中央服务器。这是云的好用途。

用的是Windows或Android?

这些平台上的本地AI比较难——硬件支持还不够成熟。Windows上Dragon能用。Android上,云服务通常是更实际的选择。

需要知道谁说了什么?

说话人识别需要额外的模型。Rev这样的云服务做得不错。本地工具在追赶,但这块云端还是有优势。

只是需要私密、准确的转录?

这是我们专注的点。如果你主要关心隐私和准确率,又用的是Apple设备,本地现在挺好用的。

Whisper Notes做什么

它在你的Mac上跑Whisper Large v3 Turbo,在iPhone上跑一个优化过的小模型。你的音频不会离开设备。

在Mac上,用神经引擎转录大概是实时速度的10-15倍。一小时的录音几分钟就完成。在iPhone上慢一些,但对大多数录音来说够用。

$4.99,一次性,两个平台都能用。我们不跑服务器,所以不需要订阅。就这样。

$4.99一次性购买。Mac和iPhone。无订阅。无数据收集。
Apple App Store logo获取 Whisper Notes

简单说

本地转录以前是一种妥协。现在对很多人来说是个合理的默认选择了。

如果你需要协作,或者用的不是Apple设备,云服务还是有意义的。如果你主要想要准确、私密的转录,又在用Mac或iPhone,本地方案现在挺好的。

我们自己每天都在用Whisper Notes。它做到了我们需要的。

试试看

如果你想验证确实没有上传,可以开飞行模式测试。功能完全一样。

App Store • $4.99 • Mac和iPhone

一次购买,两个平台都能用。