你手上有一段錄音筆錄音——口述的備忘、一場訪談、門診紀錄——現在需要把它變成文字。這裡有一個不上傳任何一秒音訊的做法:把檔案從錄音筆匯出,拖進 Whisper Notes,SenseVoice 就會在你的 iPhone 或 Mac 上完全本機完成轉錄。沒有雲端、不必註冊、沒有按分鐘計費。$6.99 一次買斷。
誰還在用錄音筆——以及為什麼這很重要
錄音筆從未消失。它只是轉移到了那些說話比打字更快、而且內容敏感到既不能弄丟也不能外洩的職業裡。
- •律師在會議空檔口述書狀、會談紀錄和信函。一段口述可能包含當事人姓名、訴訟策略和受保密義務保護的細節,絕對不能碰第三方伺服器。
- •醫師在每位病人看診後口述病歷與轉診單。那段音訊是最原始形態的醫療資料。
- •記者用錄音筆和手機錄下採訪。保護消息來源,從不把對方的聲音上傳到別人的雲端開始。
- •研究人員蒐集數小時的田野訪談與觀察紀錄,而且往往受研究倫理協議約束,明確限制錄音可以在哪裡處理。
這四類人的瓶頸都是同一個:把好幾個小時的口述變成文字。過去這意味著請打字員、外包給逐字稿公司、或使用雲端服務——每一個環節都是一個聽得到你全部內容的人或伺服器。離線轉錄把這個中間人徹底拿掉了。
錄音筆逐字稿,三步驟完成
1. 從錄音筆匯出檔案
用 USB 連接錄音筆(或使用配套 App),把錄音複製到 Mac 或 iPhone。大多數數位錄音筆——Olympus、Philips、Sony、Zoom,或者手機內建的語音備忘錄——都以 MP3、WAV 或 M4A 格式儲存錄音。這些格式都能直接使用,不需要轉檔。
2. 匯入 Whisper Notes
在 Mac 上把檔案拖進 Whisper Notes,或在 iPhone 上分享到 App。沒有長度限制——兩分鐘的備忘和三小時的訪談都沒問題。影片檔也支援:匯入 MP4 或 MOV,App 會轉錄其中的音軌。
| 格式 | 類型 | 是否支援 |
|---|---|---|
| MP3 | 音訊——大多數數位錄音筆 | 支援,不限長度 |
| WAV | 音訊——無壓縮錄音設備 | 支援,不限長度 |
| M4A | 音訊——iPhone 語音備忘錄 | 支援,不限長度 |
| MP4 | 影片——轉錄音軌 | 支援,不限長度 |
| MOV | 影片——轉錄音軌 | 支援,不限長度 |
3. 本機轉錄,隨處匯出
按下轉錄即可。中文錄音選 SenseVoice——中文、日文、韓文、粵語最快的模型,速度達即時的 52 倍;英文和歐洲語言則交給預設模型 Parakeet V3,比 Whisper 快約 10 倍,清晰語音下的詞錯誤率僅 6.32%。無論哪一種,所有運算都在裝置自己的晶片上完成。轉錄結果以帶時間戳記的段落呈現:點擊任一段落就跳到錄音的對應時刻,核對一句引言或一條用藥指示只要幾秒,而不是幾分鐘。
一段匯入的錄音,已轉錄並帶時間戳記——點擊任一片段即可回聽原始音訊
完成後,匯出 TXT 用於文件;如果錄音來自影片,可匯出帶時間戳記的 SRT/VTT。想先修訂也可以直接行內編輯——修改始終與音訊保持同步。
口述錄音,離線為什麼勝過雲端
雲端轉錄服務的運作方式是:把你的音訊上傳到他們的伺服器,在那裡處理,再依他們的保存政策儲存。轉錄一集 Podcast,無所謂。但如果是口述的當事人書狀或病歷,那就是一個你本來不必承擔的保密風險。
在裝置本機轉錄,根本沒有需要防護的東西,因為什麼都沒有離開裝置。沒有上傳、沒有帳號、沒有伺服器紀錄、也沒有需要協商的資料處理協議。隱私保護是架構本身自帶的:你不會把個人資料交給任何資料處理者,因為處理者根本不存在。
| 離線 App(Whisper Notes) | 雲端轉錄服務 | |
|---|---|---|
| 音訊在哪裡處理 | 在你自己的裝置上 | 服務商的伺服器 |
| 保密性 | 音訊從不離開裝置 | 取決於服務商的政策 |
| 隱私法遵 | 架構層面即安全——不存在資料傳輸 | 需要審閱處理協議與條款 |
| 費用 | $6.99 一次買斷 | 按月訂閱或按分鐘計費 |
| 沒有網路也能用 | 可以——法庭、診間、飛機、野外 | 不行 |
| 是否需要帳號 | 不需要 | 需要 |
對重度口述使用者來說,這筆帳也很好算。如果你每天口述一小時,按分鐘計費的雲端價格會迅速累積,而訂閱制不管你用不用都照收費。一次買斷的價格是固定的——不管你每月轉十分鐘,還是每週轉十小時。
如何得到最精準的逐字稿
對專業口述而言,兩個設定帶來的差異最大:
自訂詞彙。語音模型是用一般語料訓練的,所以恰恰會在你行業裡最要緊的詞上出錯——當事人的姓氏、藥品名、法條編號、專業術語。Whisper Notes 讓你把這些詞加進自訂詞彙表,模型會用它們來判讀模糊的語音。加入你最常口述的十個專有名詞,大部分反覆出現的錯誤就會消失。
依語言選模型。依你的口述語言選擇對應的模型:
| 中文 / 日文 / 韓文 | SenseVoice——中日韓與粵語最快,即時 52 倍速 |
| 英文 / 歐洲語言 | Parakeet V3——25 種歐洲語言,詞錯誤率 6.32%,比 Whisper 快 10 倍,僅 465MB |
| 其他語言 | Whisper Large V3 Turbo——支援 100 多種語言,約 1.5GB,速度較慢但涵蓋範圍最廣 |
另外,類比錄音時代的一個老習慣至今仍然管用:錄音筆離嘴近一點、語速平穩、用完整的句子口述。進去的音訊乾淨,出來的文字就乾淨。
常見問題
很久以前的錄音筆錄音還能做成逐字稿嗎?
可以。把檔案從錄音筆複製出來匯入 Whisper Notes 即可——MP3、WAV、M4A 都支援,不限長度。十年前的錄音和今天早上的錄音轉錄起來完全一樣;準確率取決於音質,而不是檔案的年份。
錄音筆逐字稿用什麼 App 最好?
評判任何 App 看四個標準:音訊在哪裡處理、接受哪些檔案格式、能否處理行業術語、用一年下來要花多少錢。如果你的口述內容涉及機密——法律、醫療、新聞採訪——我們認為裝置端處理是不可妥協的底線,而這正是我們打造 Whisper Notes 的原因:本機轉錄,MP3/WAV/M4A/MP4/MOV 匯入不限長度,自訂詞彙,$6.99 一次買斷。
錄音筆逐字稿沒有網路也能做嗎?
用 Whisper Notes 可以——完全離線。語音模型只需下載一次,之後就在 iPhone 或 Mac 自己的晶片上執行,法院地下室、飛機上、沒訊號的野外都能轉錄。轉錄過程從頭到尾不需要連線。
離線逐字稿的準確率如何?
Parakeet V3 在清晰音訊上的詞錯誤率為 6.32%,與雲端服務不相上下;中文則有 SenseVoice 這個最快的選擇。剩下的錯誤主要集中在專有名詞和專業術語上,而這正是自訂詞彙功能的用途:把你反覆用到的名字和術語加進去,恰恰是這些詞的準確率會明顯提升。