录音笔转文字:完全离线的转写方法

2026年7月3日
·
7 min read
·Whisper Notes Team

你手里有一段录音笔录音——口述的备忘、一场访谈、门诊病历——现在需要把它变成文字。这里有一个不上传一秒音频的办法:把文件从录音笔导出,拖进 Whisper NotesSenseVoice 就会在你的 iPhone 或 Mac 上完全本地完成转写。没有云端,不用注册,没有按分钟计费。$6.99 一次买断。

谁还在用录音笔——以及为什么这很重要

录音笔从未消失。它只是转移到了那些说话比打字更快、而且内容敏感到丢不起也漏不起的职业里。

  • 律师在会议间隙口述文书、谈话记录和函件。一段口述里可能包含当事人姓名、诉讼策略和受保密义务保护的细节,绝不能碰第三方服务器。
  • 医生在每位患者就诊后口述病历和转诊单。这段音频是最原始形态的医疗数据。
  • 记者用录音笔和手机录下采访。保护信源,从不把对方的声音上传到别人的云端开始。
  • 研究人员收集数小时的田野访谈和观察记录,而且往往受伦理协议约束,明确限制录音可以在哪里处理。

这四类人的瓶颈是同一个:把几个小时的录音变成文字。过去这意味着请打字员、外包给转写公司、或者用云端服务——每一个环节都是一个能听到你全部内容的人或服务器。离线转写把这个中间环节彻底去掉了。

录音笔转文字,三步完成

1. 从录音笔导出文件

用 USB 连接录音笔(或使用配套 App),把录音拷贝到 Mac 或 iPhone 上。大多数数码录音笔——奥林巴斯、飞利浦、索尼、科大讯飞,或者手机自带的语音备忘录——都以 MP3、WAV 或 M4A 格式保存录音。这些格式都能直接使用,不需要转换。

2. 导入 Whisper Notes

在 Mac 上把文件拖进 Whisper Notes,或在 iPhone 上分享到 App。没有时长限制——两分钟的备忘和三小时的访谈都没问题。视频文件同样支持:导入 MP4 或 MOV,App 会转写其中的音轨。

格式 类型 是否支持
MP3 音频——大多数数码录音笔 支持,不限时长
WAV 音频——无压缩录音设备 支持,不限时长
M4A 音频——iPhone 语音备忘录 支持,不限时长
MP4 视频——转写音轨 支持,不限时长
MOV 视频——转写音轨 支持,不限时长

3. 本地转写,随处导出

点击转写即可。中文录音选 SenseVoice——中文、日语、韩语、粤语最快的模型,速度达实时的 52 倍;英语和欧洲语言则由默认模型 Parakeet V3 处理,比 Whisper 快约 10 倍,清晰语音下词错误率仅 6.32%。无论哪种,全部计算都在设备自己的芯片上完成。转写结果按带时间戳的段落呈现:点击任意段落即可跳到录音的对应时刻,核对一句引语或一条用药医嘱只需几秒,而不是几分钟。

Whisper Notes 在 Mac 上转写导入的录音笔录音,带时间戳、行内编辑和音频波形

一段导入的录音,已转写并带时间戳——点击任意片段即可回听原始音频

完成后,导出 TXT 用于写文档;如果录音来自视频,可导出带时间戳的 SRT/VTT。愿意的话也可以先行内编辑——修改始终与音频保持同步。

口述录音,离线为什么胜过云端

云端转写服务的工作方式是:把你的音频上传到他们的服务器,在那里处理,再按他们的留存政策存储。转写一期播客,无所谓。但如果是口述的当事人文书或病历,这就是一个你本不必承担的保密风险。

而在设备本地转写,根本没有需要防护的东西,因为什么都没有离开设备。没有上传,没有账号,没有服务器日志,也没有需要谈判的数据处理协议。隐私保护是架构层面自带的:你不会把个人数据交给任何数据处理方,因为处理方根本不存在。

离线 App(Whisper Notes) 云端转写服务
音频在哪里处理 在你自己的设备上 服务商的服务器
保密性 音频从不离开设备 取决于服务商的政策
隐私合规 架构层面即安全——不存在数据传输 需要审查处理协议和条款
费用 $6.99 一次买断 按月订阅或按分钟计费
无网络可用 可以——法庭、诊室、飞机、野外 不行
是否需要账号 不需要 需要

对重度口述用户来说,账也很好算。如果你每天口述一小时,按分钟计费的云端价格会迅速累积,而订阅制不管你用不用都照收钱。一次买断的价格是固定的——不管你每月转十分钟,还是每周转十小时。

如何拿到最准确的转写稿

对专业口述而言,两个设置带来的差别最大:

自定义词汇。语音模型是在通用语料上训练的,所以恰恰会在你行业里最要紧的词上出错——当事人的姓氏、药品名、法条编号、专业术语。Whisper Notes 允许你把这些词加入自定义词汇表,模型会用它们来消解模糊的语音。加上你最常口述的十个专有名词,大部分反复出现的错误就会消失。

按语言选模型。根据你的口述语言选择对应的模型:

中文 / 日语 / 韩语 SenseVoice——中日韩及粤语最快,实时 52 倍速
英语 / 欧洲语言 Parakeet V3——25 种欧洲语言,词错误率 6.32%,比 Whisper 快 10 倍,仅 465MB
其他语言 Whisper Large V3 Turbo——支持 100 多种语言,约 1.5GB,速度稍慢但覆盖最广

另外,模拟录音时代的一个老习惯至今管用:录音笔离嘴近一点,语速平稳,按完整的句子口述。进去的音频干净,出来的文字就干净。

常见问题

很久以前的录音笔录音还能转文字吗?

可以。把文件从录音笔拷贝出来导入 Whisper Notes 即可——MP3、WAV、M4A 都支持,不限时长。十年前的录音和今天早上的录音转写起来完全一样;准确率取决于音质,而不是文件的年头。

录音笔转文字用什么 App 最好?

评判任何 App 看四条标准:音频在哪里处理、接受哪些文件格式、能否处理行业术语、用一年下来花多少钱。如果你的口述内容涉密——法律、医疗、新闻采访——我们认为设备端处理是不可妥协的底线,而这正是我们做 Whisper Notes 的原因:本地转写,MP3/WAV/M4A/MP4/MOV 导入不限时长,自定义词汇,$6.99 一次买断。

录音笔转文字没有网络也能用吗?

用 Whisper Notes 可以——完全离线。语音模型只需下载一次,之后就在 iPhone 或 Mac 自己的芯片上运行,法院地下室、飞机上、没信号的野外都能转写。转写过程从始至终不需要联网。

离线转写的准确率怎么样?

Parakeet V3 在清晰音频上的词错误率为 6.32%,与云端服务不相上下;中文则有 SenseVoice 这个最快的选择。剩下的错误主要集中在专有名词和专业术语上,而这正是自定义词汇功能的用武之地:把你反复用到的名字和术语加进去,恰恰是这些词的准确率会明显提升。