离线 Whisper 语音转文字指南:为何本地 AI 已超越云端

2025年5月29日
·
12 min read
·The Whisper Notes Team

云端转录已死。只是它自己还不知道。

Apple Silicon 上运行的本地 AI 转录

你的手机有神经引擎。用它。

延迟问题

云端转录的流程:你说话,音频上传到服务器,API 处理,结果返回。即使是"实时"服务,10 秒的录音也需要 2-3 秒的网络往返。

本地转录:这些延迟全部消失。音频不离开你的设备,处理在芯片上完成,结果即刻呈现。没有上传,没有等待,没有"正在处理"的转圈。

与此同时,你的 iPhone 有一个每秒 15 万亿次运算的神经引擎。它闲着,而你的声音在太平洋上空来回跳跃。

这在物理上是荒谬的。

2019 年,云端转录是有道理的。你的手机跑不动十亿参数的神经网络。这个限制已经不存在了。iPhone 15 Pro 运行 Whisper 模型比大多数云服务返回结果还快。M3 MacBook 处理 60 分钟音频只需 5 分钟——本地、离线、无需上传。

云端转录靠的是惯性,不是技术必要性。

你已经为芯片付过钱了

有件事应该让你感到困扰。

苹果的 M3 芯片要收溢价。你付过了。那个神经引擎?你拥有它。180 亿个为机器学习优化的晶体管?是你的。

然后你每月付 10 美元给 Otter.ai,让他们的服务器来转录音频。

你在租别人的硬件,而你自己的硬件更快。这就像买了跑车却付钱打的。

云端转录的经济学在本地推理不可能的时候是有道理的。现在它只是惯性税。三年下来,每月 10 美元的订阅要花 360 美元。Whisper Notes 只要 4.99 美元,一次性。同样的准确率。更快的处理。你的芯片做它被设计来做的事。

服务 第1年 第3年 第5年
云端订阅($10/月) $120 $360 $600
Whisper Notes(一次性) $4.99 $4.99 $4.99

我们不收订阅费,因为我们不运行服务器。你的音频从不接触我们的基础设施。没有什么需要按月计费。

数据泄露是架构问题

关于隐私,我们直说。

当你用云端转录服务时,你的音频存在别人的服务器上。那些服务器有能访问的员工。那些服务器连着网络。那些网络面临攻击。数据泄露不是意外——它们是把敏感数据存储在第三方基础设施上的架构必然结果。

语音数据有独特的风险。不像密码,你不能重置你的声音。你的声纹是永久的生物特征标识。一旦泄露,就永远被泄露了。攻击者可以用声纹绕过认证、身份欺诈或生成深度伪造。

消除这个风险的唯一方法是消除上传。从不离开你设备的音频不可能成为服务器端泄露的一部分。这不是功能——这是物理。

想想谁在录制敏感音频:

  • 律师录制客户咨询
  • 心理咨询师记录病人谈话
  • 记者保护信息源
  • 高管捕捉战略讨论
  • 医生记录病历

对这些专业人士来说,云存储不只是不方便——是责任隐患。本地转录不是偏好。是要求。

准确率:诚实的权衡

我们需要直说本地转录做得好什么、不足在哪里。

本地 Whisper 更擅长的:逐字转录。如果你需要精确记录说了什么——每个字、每个停顿、每个"嗯"——本地 Whisper 模型很出色。清晰音频上 5-8% 的词错误率与人工转录员相当。转录忠实于所说的话。

云端 AI 更擅长的:总结和提取。GPT-4o 可以听一场会议,产出行动事项、摘要和后续任务。它理解字面意思之外的上下文。如果你想要"告诉我做了什么决定",云端 AI 确实更好。

权衡是真实的。如果你的工作流是"转录 → 用 Claude/GPT 总结",你可以两全其美:准确的本地转录,智能的云端总结。你的原始音频保持私密。只有你选择分享的文字离开你的设备。

我们不假装本地 AI 解决一切。我们相信为每项工作使用正确的工具。Whisper 是转录的正确工具。LLM 是理解的正确工具。组合它们——隐私重要的地方用本地,智能重要的地方用云端——是诚实的方法。

任务 最佳工具 原因
逐字转录 本地 Whisper 隐私、速度、准确率
会议摘要 云端 LLM(基于转录文本) 上下文理解
行动事项提取 云端 LLM(基于转录文本) 语义推理
实时协作 云服务(Otter 等) 多用户协调

真实速度数据

M3 MacBook Pro 上,Whisper Large-v3 Turbo 处理音频大约是实时速度的 12 倍。60 分钟录音大约 5 分钟完成。

在 iPhone 15 Pro 上,优化模型运行大约是实时速度的 5 倍。同样 60 分钟录音大约 12 分钟。

与云服务对比:

录音时长 云端(典型) M3 Mac(本地) iPhone 15 Pro(本地)
5 分钟 45-90 秒 ~25 秒 ~60 秒
30 分钟 3-6 分钟 ~2.5 分钟 ~6 分钟
60 分钟 6-12 分钟 ~5 分钟 ~12 分钟

本地处理在大多数录音长度上与云端速度持平或更快。而且它在飞机上、地下室、保密设施里都能工作——任何没有网络的地方。

我们是怎么做的

Whisper Notes 是这些原则的实现。几个值得说明的具体决策:

锁屏小组件

最好的想法总在不方便的时候出现。我们做了锁屏小组件,一点就能开始录音——不用打开 App,不用认证,不用检查网络。本地处理意味着即时可用。

硬件自适应模型

Mac 有散热空间和充足电力。iPhone 在口袋里。我们为各自部署不同的模型配置:Mac 上是 Whisper Large-v3 Turbo(8.09 亿参数),iPhone 上是优化的小模型。同样的隐私保证,合适的资源使用。

你的数据,你的文件

转录是你设备上的文件。标准格式,标准位置。没有私有数据库,没有厂商锁定。如果 Whisper Notes 明天消失,你的录音仍然可以访问。批量导出不是高级功能——它是你拥有的数据的自然状态。

自定义词汇

技术术语、不常见的名字、领域特定的词——最需要准确转录的词汇往往是你最不想上传的。初始提示让你在本地添加上下文。模型调整,而你的术语不会变成训练数据。

自定义词汇设置

本地个性化。你的词汇保持私密。

什么时候云端更好

我们不假装本地转录普遍更好。云端有真正的优势:

实时团队协作。五个人在会议中同时编辑一份转录需要服务器协调。本地工具天生是单用户的。

大规模说话人识别。多人录音中的"谁说了什么"受益于云规模的训练数据。设备端的说话人分离存在,但对大群组准确率较低。

工作流自动化。云服务连接 CRM,提取行动事项,发摘要到 Slack。本地工具产出文本文件——你拿它们做什么是手动的。

旧硬件。A14 之前的 iPhone、Intel Mac——有些设备实际上无法运行本地推理。云端仍是唯一选项。

诚实的评估:如果你的主要需求是会议期间的团队协作,云工具可能更好。如果你的主要需求是带隐私地转录自己的录音,本地工具是正确的架构。

趋势

每一代芯片都带来更多神经引擎性能。每次模型迭代都带来更好的效率。本地和云端的差距在缩小,而隐私和延迟优势保持不变。

云端转录在你的手机做不了这个工作的时候是有道理的。那个时代在 2022 年左右结束了。剩下的是惯性——自动续费的订阅,围绕服务器假设建立的工作流,云端一定更好的模糊信念。

问题不是本地转录是否好用。它好用。问题是你是否想继续为你已经拥有的硬件付租金。

技术细节

设备要求:iPhone 12+(A14 芯片)或 M 系列芯片的 Mac。旧设备技术上可以工作,但处理时间不实用。

模型:Mac 运行 Whisper Large-v3 Turbo(8.09 亿参数)。iPhone 运行针对移动约束调优的硬件优化变体。

速度:M3 Mac:~12 倍实时。iPhone 15 Pro:~5 倍实时。

语言:100+ 种,自动检测。

价格:$4.99 一次性。不收订阅费因为我们不运行服务器。