TL;DR
| Parakeet V3 | Whisper Large V3 | |
|---|---|---|
| 速度 | 10× | 1× |
| 支援語種 | 25 | 100+ |
| 英語錯誤率 (WER) | 6.32% | 7.44% |
| 25 種語言平均錯誤率 (WER) | 12.0% | 12.6% |
| 幻覺 | 無 | 靜音時產生 |
| 適用 | 英語和歐洲語言 | 亞洲、阿拉伯等語言 |
* 速度:35 分鐘音訊,Apple Silicon 實測。英語 WER:Open ASR Leaderboard。25 語言均值:FLEURS 基準測試。
從 1.3.2 版開始,Mac 版 Whisper Notes 預設使用 NVIDIA Parakeet TDT 0.6B 作為語音引擎。英文轉錄速度比 Whisper Large V3 Turbo 快 10 倍,準確度也更高。如果你需要其他語言,Whisper 模型依然可以使用。
為什麼換掉預設模型
Whisper 很好用,但它本質上是個通用模型——支援 100 多種語言、能翻譯、能產生時間戳,根本就是把瑞士刀。代價就是速度。對於英文聽寫這種只需要快速出字的情境,它實在太重了。
最讓我受不了的是:用 Fn 鍵啟動全系統語音輸入時,講完大約 1 分鐘的話,要等 3 到 5 秒才看得到轉錄結果。這段等待直接打斷了節奏——你講完了,盯著游標,什麼都沒出來,語音打字的魔力瞬間消失。
Parakeet 徹底改變了這件事。它快到你話音剛落,文字就出現了。說完即得,毫無延遲。一旦體驗過這種感覺——這種絲滑、零等待的流暢——就很難再回去用 Whisper 了。
Parakeet V3 到底有多快?
數字最有說服力。同一台 Mac 上,同一段 35 分鐘的音檔:
| 模型 | 35 分鐘音檔 |
|---|---|
| Whisper Large V3 Turbo | 3 分鐘 |
| Parakeet TDT 0.6B v3 | 18 秒 |
快了 10 倍。而且模型更小(6 億 vs 8 億參數),記憶體和電量消耗也更低。
Parakeet v3 為什麼這麼快
Whisper 處理音訊的方式就像逐字朗讀一本書——一幀一幀,從不跳過。就算是靜音,它也在處理、在猜測下一個詞是什麼。這很嚴謹,但太慢了。
Parakeet 的做法完全不同。它先把音訊訊號壓縮 8 倍,只留下關鍵資訊。接著,它不再逐幀硬磨,而是同時預測兩件事:你說了什麼詞,以及這個詞持續多久——然後直接跳到下一個詞。靜音?直接跳過。一個長母音?一次預測就搞定,不用重複幾十次。
結果就是,模型處理語音的方式更像你的大腦——只關注有意義的詞,忽略中間的空白。這就是為什麼它用更少的參數、更高的準確率,做到了 10 倍的速度。
基準測試:Parakeet v3 vs Whisper
Parakeet v3 在 FLEURS、CoVoST 和 MLS 基準測試中,表現媲美甚至超越參數量 2-4 倍的模型
在 Hugging Face Open ASR 排行榜上,Parakeet v3 僅憑 6 億參數就拿下榜首——不到 Whisper Large V3 的 15.5 億參數的一半:
| 模型 | 參數量 | 平均詞錯率 | 速度 (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 6 億 | 6.32% | 3,333x |
| Canary 1B v2 | 10 億 | 7.15% | 749x |
| Whisper Large V3 | 15.5 億 | 7.44% | 146x |
| Whisper Large V3 Turbo | 8 億 | 7.6% | 350x |
詞錯率越低越好,RTFx 越高越快。Parakeet 兩項全贏。6 億參數也代表它是這張表裡最小的模型——在 Apple Silicon 上跑起來非常順暢,記憶體和電量消耗都很低。
多語言詞錯率:全部 25 種語言
上面的排行榜只涵蓋英語。接下來是完整面貌——Whisper Notes 中可用的三個模型在 Parakeet 支援的全部 25 種語言上的表現,基於 FLEURS 基準測試。詞錯率越低 = 轉錄錯誤越少。每列中 Large V3 和 Parakeet 的最佳值已高亮顯示:
| 語言 | Whisper Small | Whisper Large V3 | Parakeet V3 |
|---|---|---|---|
| 保加利亞語 | 37.3 | 12.9 | 12.6 |
| 克羅埃西亞語 | 33.4 | 11.1 | 12.5 |
| 捷克語 | 37.6 | 11.3 | 11.0 |
| 丹麥語 | 32.8 | 12.6 | 18.4 |
| 荷蘭語 | 16.4 | 5.6 | 7.5 |
| 英語 | 6.1 | 4.3 | 4.9 |
| 愛沙尼亞語 | 51.3 | 19.1 | 17.7 |
| 芬蘭語 | 24.0 | 7.7 | 13.2 |
| 法語 | 15.0 | 6.3 | 5.2 |
| 德語 | 10.2 | 4.3 | 5.0 |
| 希臘語 | 30.8 | 27.0 | 20.7 |
| 匈牙利語 | 38.9 | 14.1 | 15.7 |
| 義大利語 | 9.8 | 2.3 | 3.0 |
| 拉脫維亞語 | 53.2 | 18.3 | 22.8 |
| 立陶宛語 | 65.6 | 22.3 | 20.4 |
| 馬爾他語 | 92.2 | 68.9 | 20.5 |
| 波蘭語 | 14.7 | 4.7 | 7.3 |
| 葡萄牙語 | 7.3 | 3.7 | 4.8 |
| 羅馬尼亞語 | 29.8 | 8.2 | 12.4 |
| 俄語 | 11.4 | 4.2 | 5.5 |
| 斯洛伐克語 | 33.3 | 8.4 | 8.8 |
| 斯洛維尼亞語 | 49.3 | 19.9 | 24.0 |
| 西班牙語 | 5.6 | 3.1 | 3.5 |
| 瑞典語 | 20.8 | 7.9 | 15.1 |
| 烏克蘭語 | 19.3 | 6.5 | 6.8 |
| 平均 | 29.8 | 12.6 | 12.0 |
詞錯率(%)基於 FLEURS 測試集。Whisper Small 資料來自 Radford 等人;Large V3 和 Parakeet V3 資料來自 NVIDIA Canary-1B-v2 論文。
Whisper Large V3 在大多數單一語言上略勝一籌——畢竟它的參數量是 Parakeet 的 2.5 倍。但 Parakeet V3 在平均值上與之持平(12.0% vs 12.6%),在希臘語、法語、愛沙尼亞語和馬爾他語上大幅領先,且全面碾壓 Whisper Small(平均減少 60% 的錯誤)。真正的重點不在於零點幾個百分點的詞錯率差異——而在於總體實力:Large V3 等級的準確度,23 倍的速度,40% 的記憶體佔用,零幻覺,全部在你的 Mac 上本機運行。
告別幻覺問題
如果你用 Whisper 做過聽寫,大概遇過它在靜音時產生幻覺——重複句子、憑空造詞,甚至突然冒出「Subtitles by Amara.org」這種莫名其妙的文字。這是因為 Whisper 的自回歸解碼器總是預期要產生文字,就算根本沒有內容可轉錄。
NVIDIA 用了 36,000 小時的純非語音音訊(背景噪音、咳嗽、靜音)來訓練 Parakeet,目標輸出全部設為空字串。模型學會了什麼是靜默,在沒人說話時保持安靜。對於系統級全域聽寫來說,這是根本性的改變——你停下來想事情的時候,螢幕上不會再莫名冒出亂碼。
Parakeet 支援的語言
Parakeet v3 支援 25 種語言:保加利亞語、克羅埃西亞語、捷克語、丹麥語、荷蘭語、英語、愛沙尼亞語、芬蘭語、法語、德語、希臘語、匈牙利語、義大利語、拉脫維亞語、立陶宛語、馬爾他語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、斯洛伐克語、斯洛維尼亞語、西班牙語、瑞典語和烏克蘭語。
基本上涵蓋了整個歐洲,但不支援中文、日文、韓文、阿拉伯語和印地語。所以我們保留了 Whisper 模型作為可下載選項。如果你用日語或中文聽寫,可以在模型選擇器中切換到 Whisper Large V3 Turbo。對於英語和歐洲語言,Parakeet v3 就是更好的引擎。
模型選擇器:Parakeet V3(預設)、Whisper Small 和 Whisper Large V3 Turbo — 全部在本機運行
Whisper Notes 中的模型選擇器
打開設定即可切換模型:
- Parakeet V3(預設)— 最快,最適合英語和歐洲語言
- Whisper Small — 輕量級,支援 100+ 種語言
- Whisper Large V3 Turbo — 多語言最高精度模型
所有模型都在你的 Mac 上 100% 本機運行。不需要網路,不經過雲端,資料不會離開你的裝置。
Parakeet V2 呢?
如果你之前用過 V2,可能想知道它和 V3 有什麼不同。V2 是純英語模型,英語準確率其實比 V3 略高(WER 6.05% vs 6.32%)。V3 用這一點差距換來了 25 種語言的支援。不過兩者都比 Whisper 準確得多。
| Parakeet V2 | Parakeet V3 | Whisper Large V3 | |
|---|---|---|---|
| 英語 WER | 6.05% | 6.32% | 7.44% |
| 支援語種 | 僅英語 | 25 | 100+ |
簡單來說:如果你只需要英語,V2 和 V3 都很優秀。Whisper Notes 預設使用 V3,因為多語言支援對大多數使用者更有價值——英語準確率的差異幾乎可以忽略。
來試試看
Parakeet v3 已經在 Mac 版中可以使用了——直接下載最新的 DMG 就能體驗。(更新:最新版 iOS 已支援 Parakeet。)
有問題或建議?歡迎寄信到 support@whispernotes.app。