你手里有一段录音笔录音——口述的备忘、一场访谈、门诊病历——现在需要把它变成文字。这里有一个不上传一秒音频的办法:把文件从录音笔导出,拖进 Whisper Notes,SenseVoice 就会在你的 iPhone 或 Mac 上完全本地完成转写。没有云端,不用注册,没有按分钟计费。$6.99 一次买断。
谁还在用录音笔——以及为什么这很重要
录音笔从未消失。它只是转移到了那些说话比打字更快、而且内容敏感到丢不起也漏不起的职业里。
- •律师在会议间隙口述文书、谈话记录和函件。一段口述里可能包含当事人姓名、诉讼策略和受保密义务保护的细节,绝不能碰第三方服务器。
- •医生在每位患者就诊后口述病历和转诊单。这段音频是最原始形态的医疗数据。
- •记者用录音笔和手机录下采访。保护信源,从不把对方的声音上传到别人的云端开始。
- •研究人员收集数小时的田野访谈和观察记录,而且往往受伦理协议约束,明确限制录音可以在哪里处理。
这四类人的瓶颈是同一个:把几个小时的录音变成文字。过去这意味着请打字员、外包给转写公司、或者用云端服务——每一个环节都是一个能听到你全部内容的人或服务器。离线转写把这个中间环节彻底去掉了。
录音笔转文字,三步完成
1. 从录音笔导出文件
用 USB 连接录音笔(或使用配套 App),把录音拷贝到 Mac 或 iPhone 上。大多数数码录音笔——奥林巴斯、飞利浦、索尼、科大讯飞,或者手机自带的语音备忘录——都以 MP3、WAV 或 M4A 格式保存录音。这些格式都能直接使用,不需要转换。
2. 导入 Whisper Notes
在 Mac 上把文件拖进 Whisper Notes,或在 iPhone 上分享到 App。没有时长限制——两分钟的备忘和三小时的访谈都没问题。视频文件同样支持:导入 MP4 或 MOV,App 会转写其中的音轨。
| 格式 | 类型 | 是否支持 |
|---|---|---|
| MP3 | 音频——大多数数码录音笔 | 支持,不限时长 |
| WAV | 音频——无压缩录音设备 | 支持,不限时长 |
| M4A | 音频——iPhone 语音备忘录 | 支持,不限时长 |
| MP4 | 视频——转写音轨 | 支持,不限时长 |
| MOV | 视频——转写音轨 | 支持,不限时长 |
3. 本地转写,随处导出
点击转写即可。中文录音选 SenseVoice——中文、日语、韩语、粤语最快的模型,速度达实时的 52 倍;英语和欧洲语言则由默认模型 Parakeet V3 处理,比 Whisper 快约 10 倍,清晰语音下词错误率仅 6.32%。无论哪种,全部计算都在设备自己的芯片上完成。转写结果按带时间戳的段落呈现:点击任意段落即可跳到录音的对应时刻,核对一句引语或一条用药医嘱只需几秒,而不是几分钟。
一段导入的录音,已转写并带时间戳——点击任意片段即可回听原始音频
完成后,导出 TXT 用于写文档;如果录音来自视频,可导出带时间戳的 SRT/VTT。愿意的话也可以先行内编辑——修改始终与音频保持同步。
口述录音,离线为什么胜过云端
云端转写服务的工作方式是:把你的音频上传到他们的服务器,在那里处理,再按他们的留存政策存储。转写一期播客,无所谓。但如果是口述的当事人文书或病历,这就是一个你本不必承担的保密风险。
而在设备本地转写,根本没有需要防护的东西,因为什么都没有离开设备。没有上传,没有账号,没有服务器日志,也没有需要谈判的数据处理协议。隐私保护是架构层面自带的:你不会把个人数据交给任何数据处理方,因为处理方根本不存在。
| 离线 App(Whisper Notes) | 云端转写服务 | |
|---|---|---|
| 音频在哪里处理 | 在你自己的设备上 | 服务商的服务器 |
| 保密性 | 音频从不离开设备 | 取决于服务商的政策 |
| 隐私合规 | 架构层面即安全——不存在数据传输 | 需要审查处理协议和条款 |
| 费用 | $6.99 一次买断 | 按月订阅或按分钟计费 |
| 无网络可用 | 可以——法庭、诊室、飞机、野外 | 不行 |
| 是否需要账号 | 不需要 | 需要 |
对重度口述用户来说,账也很好算。如果你每天口述一小时,按分钟计费的云端价格会迅速累积,而订阅制不管你用不用都照收钱。一次买断的价格是固定的——不管你每月转十分钟,还是每周转十小时。
如何拿到最准确的转写稿
对专业口述而言,两个设置带来的差别最大:
自定义词汇。语音模型是在通用语料上训练的,所以恰恰会在你行业里最要紧的词上出错——当事人的姓氏、药品名、法条编号、专业术语。Whisper Notes 允许你把这些词加入自定义词汇表,模型会用它们来消解模糊的语音。加上你最常口述的十个专有名词,大部分反复出现的错误就会消失。
按语言选模型。根据你的口述语言选择对应的模型:
| 中文 / 日语 / 韩语 | SenseVoice——中日韩及粤语最快,实时 52 倍速 |
| 英语 / 欧洲语言 | Parakeet V3——25 种欧洲语言,词错误率 6.32%,比 Whisper 快 10 倍,仅 465MB |
| 其他语言 | Whisper Large V3 Turbo——支持 100 多种语言,约 1.5GB,速度稍慢但覆盖最广 |
另外,模拟录音时代的一个老习惯至今管用:录音笔离嘴近一点,语速平稳,按完整的句子口述。进去的音频干净,出来的文字就干净。
常见问题
很久以前的录音笔录音还能转文字吗?
可以。把文件从录音笔拷贝出来导入 Whisper Notes 即可——MP3、WAV、M4A 都支持,不限时长。十年前的录音和今天早上的录音转写起来完全一样;准确率取决于音质,而不是文件的年头。
录音笔转文字用什么 App 最好?
评判任何 App 看四条标准:音频在哪里处理、接受哪些文件格式、能否处理行业术语、用一年下来花多少钱。如果你的口述内容涉密——法律、医疗、新闻采访——我们认为设备端处理是不可妥协的底线,而这正是我们做 Whisper Notes 的原因:本地转写,MP3/WAV/M4A/MP4/MOV 导入不限时长,自定义词汇,$6.99 一次买断。
录音笔转文字没有网络也能用吗?
用 Whisper Notes 可以——完全离线。语音模型只需下载一次,之后就在 iPhone 或 Mac 自己的芯片上运行,法院地下室、飞机上、没信号的野外都能转写。转写过程从始至终不需要联网。
离线转写的准确率怎么样?
Parakeet V3 在清晰音频上的词错误率为 6.32%,与云端服务不相上下;中文则有 SenseVoice 这个最快的选择。剩下的错误主要集中在专有名词和专业术语上,而这正是自定义词汇功能的用武之地:把你反复用到的名字和术语加进去,恰恰是这些词的准确率会明显提升。