Superwhisper vs Whisper Notes:技术详细对比
价格、语音模型、权限与架构 — 两款 Mac 离线转录应用的详细比较。

Superwhisper 是先驱者。它向 Mac 社区展示了可能性:在 Apple Silicon 上本地运行 OpenAI 的 Whisper 模型,无需将音频发送到云端就能转录语音。
有一段时间,它正是我们很多人想要的——一个简单、快速、本地的转录工具。
然后,它变了。
最近的方向是成为一个「AI 助手」——上下文感知、云同步、不只是转录你的话而是解释你意图的代理模式。
伴随这个转型而来的是三个结构性变化:
• 订阅制:为运行在你自己硬件上的模型按月付租金。
• 权限:可以观察你所有按键的输入监控。
• 账户:对完全离线工作的软件强制要求登录。
这个页面不是关于 bug 或临时问题的。它是关于架构哲学的。
Whisper Notes 作为替代品存在,是为了那些更喜欢 Superwhisper 曾经样子的人:一个可靠的、离线的、把一件事做好的工具。快速对比:Whisper Notes vs Superwhisper
| 功能 | Whisper Notes | Superwhisper |
|---|---|---|
| 价格 | $6.99 一次性 | $8.49/月 或 $250 终身 |
| macOS 权限 | 仅辅助功能 | 输入监控 |
| 需要账户 | 否 | 是 |
| iOS 应用 | $6.99(单独购买) | 单独订阅 |
| 语音模型 | Whisper + Parakeet V3 + Qwen3-ASR | Whisper(+ distil 变体) |
| 100% 离线 | 是 | 可选(混合模式) |
| 本地 AI 编辑 | 是(Gemma 4,设备端) | 是(依赖云端) |
| AI 上下文功能 | 否 | 是 |
语音模型:三个引擎 vs 一个
这是日常使用中最重要的技术差异。
Superwhisper 提供 Whisper 及其蒸馏变体。Whisper Notes 搭载三个独立语音引擎,分别针对不同场景优化:
语音模型对比
| 模型 | 速度 | WER | 最适合 |
|---|---|---|---|
| Whisper Large V3 Turbo | 10–15× 实时 | 7.44% | 100+ 种语言,通用 |
| Parakeet V3 | ~35× 实时 | 6.32% | 英语 — 最快、最低错误率 |
| Qwen3-ASR | 流式 | — | 中文、日文、韩文 + 27 种语言 |
Parakeet V3(NVIDIA 出品)转录英语比 Whisper 快 3 倍,错误率更低 — FLEURS 基准测试中 WER 6.32% vs 7.44%。Whisper 需要 3 分钟的 35 分钟会议,Parakeet V3 不到 20 秒就能完成。
Qwen3-ASR 专为 CJK 语言(中文、日文、韩文)构建,提供流式转录 — 文字在你说话时即时出现,而不是说完之后。
这些不是付费墙后面的云端模型。它们完全在你 Mac 的 Neural Engine 上运行,包含在 $6.99 的购买中。
Superwhisper 只提供 Whisper 变体。对于英语为主或 CJK 工作流程,模型选择的差距相当大。
输入监控权限的问题
这是让注重隐私的用户犹豫的权限。
Superwhisper 在 macOS 上请求输入监控权限。这个权限允许应用程序接收系统范围内的所有键盘和鼠标事件——无论哪个应用在前台。
它与辅助功能工具、自动化软件、以及键盘记录器使用的是同一个权限类别。
Superwhisper 为什么需要它?为了变「聪明」。他们的 AI 上下文功能读取你的屏幕内容,理解你正在使用哪个应用程序,并相应地调整行为。要观察你的环境,他们需要观察权限。
架构层面的权衡:你得到了上下文感知的转录。他们获得了查看你输入的一切的技术能力,包括密码、私人消息和机密文件。
我们不是在暗示恶意——但这个权限本身在架构上具备监控能力。
权限架构
输入监控(Superwhisper):
可以接收所有应用程序中的所有键盘事件。「上下文感知」功能需要这个权限。
辅助功能(Whisper Notes):
只能在光标位置插入文字。无法读取你的按键或观察其他应用。只有输出,没有输入。
Whisper Notes 只使用辅助功能权限。我们可以在你的光标位置插入文字——这是输出。我们无法读取你输入的内容或你屏幕上的内容。
我们的立场:我们选择不变「聪明」,因为聪明需要监视。一个转录工具不需要知道你的密码存在。它只需要打出你说的话。硬件收租问题
这是让高级用户感到沮丧的定价决策。
Superwhisper 已经把本地 AI 模型——包括 Nvidia Parakeet 和 Whisper 变体——放到了订阅付费墙后面。用户现在要按月付费来解锁完全运行在自己设备上的处理能力。
让我们精确描述正在发生什么:• 你的 M3 或 M4 MacBook 有神经引擎。
• 苹果专门为设备上的机器学习设计了这个芯片。
• Whisper 模型权重是开源的,由 OpenAI 发布。
• 电费来自你自己的电表。
订阅费到底在为什么付费?
| 时间段 | Whisper Notes | Superwhisper(月付) | Superwhisper(终身) |
|---|---|---|---|
| 第1年 | $6.99 | $101.88 | $250 |
| 第3年 | $6.99 | $305.64 | $250 |
| 本地 AI 编辑 | 是(Gemma 4,设备端) | 是(依赖云端) | |
| 第5年 | $6.99 | $509.40 | $250 |
如果 Superwhisper 的云功能——同步、AI 助手、外部 API——对你有价值,订阅定价是可以理解的。你在为他们的基础设施付费。
但把本地模型也放在同一个付费墙后面?那就是对发生在你自己硬件上的计算收租。
用户评论反映了这种沮丧:「你们居然把本地模型放在付费墙后面?这完全没有道理。」
我们的定价哲学:Whisper Notes 只需 $6.99 一次性付费,因为我们不运营云基础设施。你的神经引擎在干活。我们提供界面。这是一次性交易,不是持续的关系。
复杂性及其后果
这一节不是关于某个具体 bug 的。它是关于架构权衡的。
当软件试图做很多事情——云同步、上下文感知、代理式解释、混合本地/云处理——它必然变得复杂。
复杂系统比简单系统有更多的故障模式。这不是批评;这是物理规律。Superwhisper 用户报告过一种故障模式:
• 录音没有产生转录
• 音频似乎消失了
• 长时间录制后出现「No Voice Found」错误
我们无法诊断他们的代码库,但我们可以观察到这个规律:一个应用管理的功能越多,它能出问题的方式就越多。
状态机问题:上下文感知的应用必须跟踪许多变量。屏幕上有什么?网络是否足够快来进行云处理?这个录音应该同步吗?哪个 AI 模型应该处理这个上下文?
每个决策点都是预期状态和实际状态之间潜在的不匹配。
Whisper Notes 故意保持简单:录制音频 → 持续写入磁盘 → 用 Whisper 处理 → 显示文字
线性数据流。没有可能失败的云同步。没有可能误判的上下文感知。没有混合路由决策。
我们使用渐进式存储——在录音过程中每几秒钟将音频写入磁盘。如果应用崩溃,或者电池耗尽,你最多丢失最后几秒。之前的 20 分钟已经安全地存在硬盘上了。
这不是我们宣传的功能;这只是可靠的录音软件应该有的工作方式。
权衡是真实的:我们做不到 Superwhisper 能做的事。我们不理解你的屏幕上下文。我们不在设备之间同步。我们没有重新格式化你语音的 AI 模式。我们只是转录。准确、可靠、本地。这就是整个产品。
账户要求
Superwhisper 要求创建账户才能使用软件——即使是在你自己设备上进行本地转录。
这服务于他们的商业模式:订阅管理、云同步和使用分析需要用户身份。
但对于只想要本地语音转文字的人来说,这是没有好处的摩擦。
Whisper Notes 没有账户系统:• 下载应用
• 授予辅助功能权限
• 开始说话
没有邮箱。没有密码。没有身份验证。
这不仅仅是关于便利。这是关于数据最小化:
• 每一个账户都是另一个要管理的密码
• 每一个数据库条目都是另一个泄露目标
• 每一个用户身份都是另一个需要保护的数据点
对于完全运行在你设备上的软件,我们看不到需要知道你是谁的理由。Whisper 模型不需要你的邮箱来将语音转换为文字。
什么时候 Superwhisper 是对的选择
我们不是在声称 Whisper Notes 普遍更好。Superwhisper 做出的架构选择很好地服务于特定用例。
选择 Superwhisper 如果:• 你想要理解你屏幕并调整输出的 AI 上下文模式
• 你需要多台 Mac 之间的云同步
• 你重视「助手」体验胜过原始转录
• 订阅或 $250 终身价格符合你的工作流价值
• 输入监控权限对你来说不是问题
• 你想要三种语音模型 — Whisper、Parakeet V3(最快英语)、Qwen3-ASR(最适合中文/日文/韩文)
• 你想要 Gemma 4 驱动的本地 AI 编辑 — 标点修正、填充词移除、自动生成标题,全部在设备端
• 你想一次性付费($6.99)并拥有软件
• 你不想创建账户
• 隐私架构比便利功能更重要
• 你也使用 iPhone(App Store 上 $6.99,与 Mac 版单独购买)
Superwhisper 正在构建一个 AI 理解你整个计算上下文的未来。这很有野心,一些用户确实想要它。
Whisper Notes 在构建相反的东西:一个只做一件事的工具,除了麦克风输入之外对你的电脑一无所知,每次都以同样的方式工作。
给重视可预测性的人准备的无聊软件。
无聊软件的价值
「无聊」在软件工程中不是贬义词。无聊意味着可预测。无聊意味着更少的意外。
无聊的软件:
• 不需要账户
• 核心功能不需要网络连接
• 不请求超出严格必要的权限
• 不会进化成你没有要求的东西
Superwhisper 一开始是无聊的软件。一个本地转录工具。简单、快速、可靠。
然后它有了野心。它想成为 AI 助手,想理解上下文,想跨云同步,想解释你的话。
一些用户愉快地跟随了这个进化。另一些人怀念它曾经的样子。
Whisper Notes 故意无聊。我们只做一件事:用你设备的神经引擎将语音转换为文字。我们不监视你的屏幕。我们不同步你的数据。我们不解释你的意图。我们只是转录。
$6.99 一次性付费,按平台单独购买。不需要账户。没有输入监控。没有订阅。没有超越可靠性的野心。
给那些更喜欢本地转录工具原始愿景的人——Whisper Notes 在这里。
常见问题
为什么 Superwhisper 需要输入监控权限?
Superwhisper 使用输入监控来实现「上下文感知」——理解你屏幕上的内容以调整 AI 行为。这个权限允许读取所有应用程序中的所有按键。Whisper Notes 只使用辅助功能权限,它可以插入文字但无法观察你的输入或其他应用。
为什么 Superwhisper 转向了订阅定价?
Superwhisper 运营用于同步、账户和一些 AI 功能的云基础设施。订阅为这些基础设施提供资金。然而,他们也把本地模型(运行在你硬件上的)放在了同一个付费墙后面——这是用户质疑最多的定价决策。
Whisper Notes 和 Superwhisper 一样准确吗?
Whisper Notes 提供三种语音模型。Parakeet V3 在 FLEURS 英语基准测试中的词错误率(6.32%)低于 Whisper(7.44%),速度快 3 倍。中文、日文和韩文方面,Qwen3-ASR 专为这些语言构建。Superwhisper 只提供 Whisper 变体。
Whisper Notes 支持哪些语音模型?
三种模型:Whisper Large V3 Turbo(100+ 种语言,通用)、NVIDIA 的 Parakeet V3(最快英语、最低错误率)、Alibaba 的 Qwen3-ASR(针对中文、日文、韩文及其他 27 种语言优化,支持流式输出)。全部在你的设备上本地运行。
Whisper Notes 与 Superwhisper 相比价格如何?
Whisper Notes 每个平台一次性收费 $6.99(iOS 和 Mac 需单独购买)。Superwhisper 为 $8.49/月或 $250 终身,iOS 应用需另外订阅。3 年比较:Whisper Notes 每平台 $6.99,Superwhisper 月付为 $305.64。
Whisper Notes 能在设备之间同步吗?
不能,这是设计如此。我们不运营云服务器,所以没有什么可以通过云同步。你的录音留在你创建它们的设备上。这消除了同步失败,并确保你的语音数据永远不会离开你的硬件。如需移动文件,使用 AirDrop 或手动导出。
为什么 Whisper Notes 不需要账户?
本地转录没有技术理由需要身份验证。我们相信数据最小化——如果我们不需要你的邮箱来让软件工作,我们就不应该要求它。没有账户意味着没有要管理的密码,没有可能被泄露的数据库条目。
输入监控和辅助功能权限有什么区别?
输入监控可以接收系统范围内的所有键盘/鼠标事件(观察)。辅助功能可以注入文字和执行 UI 自动化(动作)。Whisper Notes 使用辅助功能在你的光标处输入转录的文字——只有输出,不观察你输入的内容。