离线转录

为什么现在终于能用了

很长一段时间，本地转录意味着更慢、更差。这个情况变了。

一点背景

几年前，如果你想要准确的转录，就得把音频上传到别人的服务器。本地方案也有，但效果明显更差。这是个真实的取舍。

后来发生了几件事。OpenAI把Whisper作为开源模型发布了。Apple开始在芯片里集成专门的AI硬件。突然之间，那些驱动云服务的模型，在笔记本上也能跑了。

我们大概就是那时候开始做Whisper Notes的，主要是因为我们自己需要。后来发现很多人也在找类似的东西。

变化在哪

以前有三个理由让云端转录成为明显的选择。这三个都变了。

算力

做转录的AI模型很大——几亿个参数。以前在消费级硬件上跑又慢又费电。

Apple的神经引擎改变了这一点。这是一块专门处理AI任务的芯片，每台M系列Mac和新款iPhone里都有。Whisper Large v3 Turbo现在在MacBook Air上跑得很顺畅。

在手机上，我们用针对移动芯片优化过的小模型。准确率不如大模型，但比大多数系统自带的听写还是好不少。

准确率

这个让我们挺意外的。我们本来预期本地模型「够用就行」。结果发现其实挺好的。

Whisper Large v3的词错误率比大多数系统听写都低。而且本地和云端API之间的差距已经变得很小了。大多数场景下，你可能感觉不出区别。

这就改变了计算方式。如果准确率差不多，上传音频的主要理由就消失了。

隐私

我们不是来吓唬你说云服务多可怕的。大多数云服务处理数据还是负责任的。

但「他们承诺不会乱用」和「他们根本没拿到」还是有区别的。你的声音是生物特征——不像密码，出了问题你没法改。

用本地转录，你的音频就留在设备上。不是加密后上传，是根本不发送。对有些人来说这很重要，对另一些人可能不那么重要。我们是为前一类人做的。

什么时候用什么

本地不是永远都对。我们是这么想的。

需要实时协作？

Otter这样的云工具就是为这个做的。多人同时编辑同一份转录稿需要中央服务器。这是云的好用途。

用的是Windows或Android？

这些平台上的本地AI比较难——硬件支持还不够成熟。Windows上Dragon能用。Android上，云服务通常是更实际的选择。

需要知道谁说了什么？

说话人识别需要额外的模型。Rev这样的云服务做得不错。本地工具在追赶，但这块云端还是有优势。

只是需要私密、准确的转录？

这是我们专注的点。如果你主要关心隐私和准确率，又用的是Apple设备，本地现在挺好用的。

Whisper Notes做什么

它在你的Mac上跑Whisper Large v3 Turbo，在iPhone上跑一个优化过的小模型。你的音频不会离开设备。

在Mac上，用神经引擎转录大概是实时速度的10-15倍。一小时的录音几分钟就完成。在iPhone上慢一些，但对大多数录音来说够用。

$4.99，一次性，两个平台都能用。我们不跑服务器，所以不需要订阅。就这样。

$4.99一次性购买。Mac和iPhone。无订阅。无数据收集。

获取 Whisper Notes

简单说

本地转录以前是一种妥协。现在对很多人来说是个合理的默认选择了。

如果你需要协作，或者用的不是Apple设备，云服务还是有意义的。如果你主要想要准确、私密的转录，又在用Mac或iPhone，本地方案现在挺好的。

我们自己每天都在用Whisper Notes。它做到了我们需要的。

试试看

如果你想验证确实没有上传，可以开飞行模式测试。功能完全一样。

获取 Whisper Notes

App Store • $4.99 • Mac和iPhone

一次购买，两个平台都能用。

一点背景

变化在哪

算力

准确率

隐私

什么时候用什么

Whisper Notes做什么

简单说

试试看

相关