Whisper 转写指的是用 OpenAI 的 Whisper 把语音转成文字——这是一个开源 AI 模型,可以跑在云端、服务器上,或完全在你自己的设备上运行。本指南会讲清 Whisper 的工作原理、该选哪个模型尺寸、实际准确率有多高,以及在 Mac 或 iPhone 上离线转写最快的方法。
Whisper 到底是什么?
Whisper 是 OpenAI 在 2022 年 9 月以 MIT 许可证发布的自动语音识别(ASR)模型。它是一个 encoder-decoder Transformer,用超过 68 万小时的多语言音频训练而成,支持大约 100 种语言的转写,还能把语音翻译成英文。
对你来说真正重要的一点:模型权重是开放的。不像 Google 或 Amazon 的语音 API,Whisper 不必跑在别人的服务器上。围绕本地运行已经形成了完整的生态——whisper.cpp、faster-whisper,以及像 Whisper Notes 这样的原生应用。这正是真正离线、私密的转写得以实现的原因。
Whisper 模型尺寸:该用哪一个
Whisper 有六个主要尺寸。越大越准,但也越慢:
| 模型 | 参数量 | 速度 | 适用场景 |
|---|---|---|---|
| tiny | 39M | 最快 | 快速草稿、性能较弱的硬件 |
| base | 74M | 非常快 | 简单、干净的音频 |
| small | 244M | 快 | 移动端速度与准确率的良好平衡 |
| medium | 769M | 中等 | 如今很少是正确选择 |
| large-v3 | 1.55B | 最慢 | 最高准确率、困难音频 |
| large-v3-turbo | 809M | 比 large-v3 快约 5 倍 | 2026 年的默认选择 |
对几乎所有人来说,答案就是 large-v3-turbo:它保留了 large-v3 的 encoder,但把 decoder 层数从 32 砍到 4,用一小部分算力实现了几乎相同的准确率。我们在 Whisper Large V3 Turbo vs V3 中做了详细的基准测试。
Whisper 转写的准确率有多高?
在干净的英语音频上,大模型的词错误率(WER)大约在 5-8%——就大多数实际用途而言,已经可以与专业人工转写相媲美。遇到背景噪音、浓重口音、多人抢话和低资源语言时,准确率会下降。
Whisper 有一个出了名的失误模式:静音片段产生幻觉。它的自回归 decoder 有时会在没人说话时凭空生成重复的短语或字幕组署名。更新的模型解决了这个问题——NVIDIA 的 Parakeet V3 专门用非语音音频训练过,在我们的测试中零幻觉(完整的 Parakeet V3 vs Whisper 基准测试)。
至于中文、日语、韩语和粤语,有一个专门的模型在速度和标点上都优于 Whisper:参见 SenseVoice vs Whisper 中日韩语言对比。
运行 Whisper 转写的 5 种方式
| 方式 | 费用 | 隐私 | 上手门槛 |
|---|---|---|---|
| OpenAI API | 按音频分钟计费 | 音频需上传 | API 密钥 + 写代码 |
| openai-whisper(官方 Python 实现) | 免费 | 100% 本地 | Python 环境,建议有 GPU |
| whisper.cpp / faster-whisper | 免费 | 100% 本地 | 命令行 |
| 原生应用(Whisper Notes) | $6.99 一次买断,Mac 版可免费试用 | 100% 设备端 | 无 |
| 网页演示工具 | 有免费额度 | 音频需上传 | 无 |
经验法则:如果你整天泡在终端里,faster-whisper 非常出色。如果你在开发产品,API 是合理选择(开发者价格为每音频分钟 $0.006)。如果你只想私密地把录音转成文字、完全不想碰 Python,就用原生应用——这正是 Whisper Mac 应用存在的全部理由。
想更全面地比较离线工具——包括 Windows 和 Android 的选项?请看我们的离线语音转文字完整指南。
Whisper vs 更新的本地模型(2026)
Whisper 开启了本地转写时代,但它已经不是唯一选择。以下速度在 M4 Pro Mac 上实测:
| 模型 | 语言 | 速度 | 突出优势 |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | 约 12 倍实时 | 语言覆盖最广 |
| Parakeet V3 | 25 种(欧洲语言) | 约 100 倍实时 | 6.32% WER,无静音幻觉 |
| SenseVoice Small | 中、日、韩、粤、英 | 约 52 倍实时 | 中文、日语、韩语首选 |
这三个模型都能在 Whisper Notes 中本地运行,而且每次录音都可以单独切换。并排基准数据请见我们的 Whisper 模型对比页面。
如何在 Mac 和 iPhone 上离线运行 Whisper 转写
不用命令行,不用 Python,不用云端:
- 下载 Whisper Notes Mac 版(免费试用)或 iPhone 版($6.99 一次买断)。
- 选一个模型:Whisper Large V3 Turbo 语言覆盖最广,Parakeet V3 转英语最快,SenseVoice 适合中日韩。模型只需下载一次,之后永久离线可用。
- 直接录音、按住 Fn 键在任意应用中听写,或拖入音频和视频文件(MP3、WAV、M4A、MP4)。
- 文字会边处理边输出。可导出为 TXT 或 SRT。
对「离线」半信半疑?先打开飞行模式再试。转写照样全速运行——任何数据都不会被上传,永远不会。
Whisper 转写中文的准确率如何?该选哪个模型?
Whisper Large V3 Turbo 转写中文没问题,但如果你的主要语言是中文,SenseVoice 才是更好的选择:它专为中文(包括粤语)、日语和韩语打造,在 Whisper Notes 中通过 Apple MLX 运行,速度约为实时的 52 倍——一小时的会议录音,一分多钟就能出稿,中文标点也比 Whisper 更自然。偶尔需要转写其他语言时,随时可切回 Whisper Large V3 Turbo(100 多种语言,约 1.5GB)。两个模型在 Mac 和 iPhone 上都内置可用。
常见问题
Whisper 转写是免费的吗?
模型本身免费且开源(MIT 许可证)。通过 whisper.cpp 之类的命令行工具运行不花钱,但需要自己配置。OpenAI 的 API 按音频分钟收费。原生应用把模型打包好,只收一笔小费用——Whisper Notes 为 $6.99 一次买断,Mac 版可免费试用。
Whisper 转写可以离线运行吗?
可以——这正是开放权重的意义所在。模型文件一旦下载到设备上,就不再需要网络。Whisper Notes 通过 CoreML/Metal 在 Apple Silicon 上运行 Whisper Large V3 Turbo,完全离线。你可以用飞行模式验证。
哪个 Whisper 模型最准确?
large-v3 的原始准确率最高。large-v3-turbo 的 WER 与它只差不到一个百分点,速度却快约 5 倍,所以它是如今大多数工具的默认选择。
Whisper 支持我的语言吗?
Whisper 覆盖大约 100 种语言,在高资源语言(英语、西班牙语、德语、法语等)上表现最强。至于中文、日语、韩语和粤语,SenseVoice 在 Apple Silicon 上标点更好、速度也快得多。
iPhone 上有 Whisper 转写应用吗?
有。Whisper Notes 运行针对 iPhone 神经网络引擎优化的 Whisper 模型(iPhone 12 及更新机型)——录音、从语音备忘录或文件导入,全部在设备端转写,$6.99 一次买断,无订阅。