Whisper 转写完全指南(2026):准确率、模型选择与离线运行

2026年7月2日
·
9 min read
·Whisper Notes Team

Whisper 转写指的是用 OpenAI 的 Whisper 把语音转成文字——这是一个开源 AI 模型,可以跑在云端、服务器上,或完全在你自己的设备上运行。本指南会讲清 Whisper 的工作原理、该选哪个模型尺寸、实际准确率有多高,以及在 Mac 或 iPhone 上离线转写最快的方法。

Whisper 到底是什么?

Whisper 是 OpenAI 在 2022 年 9 月以 MIT 许可证发布的自动语音识别(ASR)模型。它是一个 encoder-decoder Transformer,用超过 68 万小时的多语言音频训练而成,支持大约 100 种语言的转写,还能把语音翻译成英文。

对你来说真正重要的一点:模型权重是开放的。不像 Google 或 Amazon 的语音 API,Whisper 不必跑在别人的服务器上。围绕本地运行已经形成了完整的生态——whisper.cpp、faster-whisper,以及像 Whisper Notes 这样的原生应用。这正是真正离线、私密的转写得以实现的原因。

Whisper 模型尺寸:该用哪一个

Whisper 有六个主要尺寸。越大越准,但也越慢:

模型 参数量 速度 适用场景
tiny 39M 最快 快速草稿、性能较弱的硬件
base 74M 非常快 简单、干净的音频
small 244M 移动端速度与准确率的良好平衡
medium 769M 中等 如今很少是正确选择
large-v3 1.55B 最慢 最高准确率、困难音频
large-v3-turbo 809M 比 large-v3 快约 5 倍 2026 年的默认选择

对几乎所有人来说,答案就是 large-v3-turbo:它保留了 large-v3 的 encoder,但把 decoder 层数从 32 砍到 4,用一小部分算力实现了几乎相同的准确率。我们在 Whisper Large V3 Turbo vs V3 中做了详细的基准测试。

Whisper 转写的准确率有多高?

在干净的英语音频上,大模型的词错误率(WER)大约在 5-8%——就大多数实际用途而言,已经可以与专业人工转写相媲美。遇到背景噪音、浓重口音、多人抢话和低资源语言时,准确率会下降。

Whisper 有一个出了名的失误模式:静音片段产生幻觉。它的自回归 decoder 有时会在没人说话时凭空生成重复的短语或字幕组署名。更新的模型解决了这个问题——NVIDIA 的 Parakeet V3 专门用非语音音频训练过,在我们的测试中零幻觉(完整的 Parakeet V3 vs Whisper 基准测试)。

至于中文、日语、韩语和粤语,有一个专门的模型在速度和标点上都优于 Whisper:参见 SenseVoice vs Whisper 中日韩语言对比

运行 Whisper 转写的 5 种方式

方式 费用 隐私 上手门槛
OpenAI API 按音频分钟计费 音频需上传 API 密钥 + 写代码
openai-whisper(官方 Python 实现) 免费 100% 本地 Python 环境,建议有 GPU
whisper.cpp / faster-whisper 免费 100% 本地 命令行
原生应用(Whisper Notes) $6.99 一次买断,Mac 版可免费试用 100% 设备端
网页演示工具 有免费额度 音频需上传

经验法则:如果你整天泡在终端里,faster-whisper 非常出色。如果你在开发产品,API 是合理选择(开发者价格为每音频分钟 $0.006)。如果你只想私密地把录音转成文字、完全不想碰 Python,就用原生应用——这正是 Whisper Mac 应用存在的全部理由。

想更全面地比较离线工具——包括 Windows 和 Android 的选项?请看我们的离线语音转文字完整指南

Whisper vs 更新的本地模型(2026)

Whisper 开启了本地转写时代,但它已经不是唯一选择。以下速度在 M4 Pro Mac 上实测:

模型 语言 速度 突出优势
Whisper Large V3 Turbo 100+ 约 12 倍实时 语言覆盖最广
Parakeet V3 25 种(欧洲语言) 约 100 倍实时 6.32% WER,无静音幻觉
SenseVoice Small 中、日、韩、粤、英 约 52 倍实时 中文、日语、韩语首选

这三个模型都能在 Whisper Notes 中本地运行,而且每次录音都可以单独切换。并排基准数据请见我们的 Whisper 模型对比页面

如何在 Mac 和 iPhone 上离线运行 Whisper 转写

不用命令行,不用 Python,不用云端:

  1. 下载 Whisper Notes Mac 版(免费试用)或 iPhone 版($6.99 一次买断)。
  2. 选一个模型:Whisper Large V3 Turbo 语言覆盖最广,Parakeet V3 转英语最快,SenseVoice 适合中日韩。模型只需下载一次,之后永久离线可用。
  3. 直接录音、按住 Fn 键在任意应用中听写,或拖入音频和视频文件(MP3、WAV、M4A、MP4)。
  4. 文字会边处理边输出。可导出为 TXT 或 SRT。

对「离线」半信半疑?先打开飞行模式再试。转写照样全速运行——任何数据都不会被上传,永远不会。

Whisper 转写中文的准确率如何?该选哪个模型?

Whisper Large V3 Turbo 转写中文没问题,但如果你的主要语言是中文,SenseVoice 才是更好的选择:它专为中文(包括粤语)、日语和韩语打造,在 Whisper Notes 中通过 Apple MLX 运行,速度约为实时的 52 倍——一小时的会议录音,一分多钟就能出稿,中文标点也比 Whisper 更自然。偶尔需要转写其他语言时,随时可切回 Whisper Large V3 Turbo(100 多种语言,约 1.5GB)。两个模型在 Mac 和 iPhone 上都内置可用。

常见问题

Whisper 转写是免费的吗?

模型本身免费且开源(MIT 许可证)。通过 whisper.cpp 之类的命令行工具运行不花钱,但需要自己配置。OpenAI 的 API 按音频分钟收费。原生应用把模型打包好,只收一笔小费用——Whisper Notes 为 $6.99 一次买断,Mac 版可免费试用。

Whisper 转写可以离线运行吗?

可以——这正是开放权重的意义所在。模型文件一旦下载到设备上,就不再需要网络。Whisper Notes 通过 CoreML/Metal 在 Apple Silicon 上运行 Whisper Large V3 Turbo,完全离线。你可以用飞行模式验证。

哪个 Whisper 模型最准确?

large-v3 的原始准确率最高。large-v3-turbo 的 WER 与它只差不到一个百分点,速度却快约 5 倍,所以它是如今大多数工具的默认选择。

Whisper 支持我的语言吗?

Whisper 覆盖大约 100 种语言,在高资源语言(英语、西班牙语、德语、法语等)上表现最强。至于中文、日语、韩语和粤语,SenseVoice 在 Apple Silicon 上标点更好、速度也快得多。

iPhone 上有 Whisper 转写应用吗?

有。Whisper Notes 运行针对 iPhone 神经网络引擎优化的 Whisper 模型(iPhone 12 及更新机型)——录音、从语音备忘录或文件导入,全部在设备端转写,$6.99 一次买断,无订阅。