Parakeet V3 vs Whisper:10 倍速 + 更高精度(基準測試)

2026年3月7日
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
速度 10×
支援語種 25 100+
英語錯誤率 (WER) 6.32% 7.44%
25 種語言平均錯誤率 (WER) 12.0% 12.6%
幻覺 靜音時產生
適用 英語和歐洲語言 亞洲、阿拉伯等語言

* 速度:35 分鐘音訊,Apple Silicon 實測。英語 WER:Open ASR Leaderboard。25 語言均值:FLEURS 基準測試。

從 1.3.2 版開始,Mac 版 Whisper Notes 預設使用 NVIDIA Parakeet TDT 0.6B 作為語音引擎。英文轉錄速度比 Whisper Large V3 Turbo 快 10 倍,準確度也更高。如果你需要其他語言,Whisper 模型依然可以使用。

為什麼換掉預設模型

Whisper 很好用,但它本質上是個通用模型——支援 100 多種語言、能翻譯、能產生時間戳,根本就是把瑞士刀。代價就是速度。對於英文聽寫這種只需要快速出字的情境,它實在太重了。

最讓我受不了的是:用 Fn 鍵啟動全系統語音輸入時,講完大約 1 分鐘的話,要等 3 到 5 秒才看得到轉錄結果。這段等待直接打斷了節奏——你講完了,盯著游標,什麼都沒出來,語音打字的魔力瞬間消失。

Parakeet 徹底改變了這件事。它快到你話音剛落,文字就出現了。說完即得,毫無延遲。一旦體驗過這種感覺——這種絲滑、零等待的流暢——就很難再回去用 Whisper 了。

Parakeet V3 到底有多快?

數字最有說服力。同一台 Mac 上,同一段 35 分鐘的音檔:

模型 35 分鐘音檔
Whisper Large V3 Turbo 3 分鐘
Parakeet TDT 0.6B v3 18 秒

快了 10 倍。而且模型更小(6 億 vs 8 億參數),記憶體和電量消耗也更低。

Parakeet v3 為什麼這麼快

Whisper 處理音訊的方式就像逐字朗讀一本書——一幀一幀,從不跳過。就算是靜音,它也在處理、在猜測下一個詞是什麼。這很嚴謹,但太慢了。

Parakeet 的做法完全不同。它先把音訊訊號壓縮 8 倍,只留下關鍵資訊。接著,它不再逐幀硬磨,而是同時預測兩件事:你說了什麼詞,以及這個詞持續多久——然後直接跳到下一個詞。靜音?直接跳過。一個長母音?一次預測就搞定,不用重複幾十次。

結果就是,模型處理語音的方式更像你的大腦——只關注有意義的詞,忽略中間的空白。這就是為什麼它用更少的參數、更高的準確率,做到了 10 倍的速度。

基準測試:Parakeet v3 vs Whisper

詞錯率比較:Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T,跨多個基準資料集

Parakeet v3 在 FLEURS、CoVoST 和 MLS 基準測試中,表現媲美甚至超越參數量 2-4 倍的模型

Hugging Face Open ASR 排行榜上,Parakeet v3 僅憑 6 億參數就拿下榜首——不到 Whisper Large V3 的 15.5 億參數的一半:

模型 參數量 平均詞錯率 速度 (RTFx)
Parakeet TDT 0.6B v3 6 億 6.32% 3,333x
Canary 1B v2 10 億 7.15% 749x
Whisper Large V3 15.5 億 7.44% 146x
Whisper Large V3 Turbo 8 億 7.6% 350x

詞錯率越低越好,RTFx 越高越快。Parakeet 兩項全贏。6 億參數也代表它是這張表裡最小的模型——在 Apple Silicon 上跑起來非常順暢,記憶體和電量消耗都很低。

多語言詞錯率:全部 25 種語言

上面的排行榜只涵蓋英語。接下來是完整面貌——Whisper Notes 中可用的三個模型在 Parakeet 支援的全部 25 種語言上的表現,基於 FLEURS 基準測試。詞錯率越低 = 轉錄錯誤越少。每列中 Large V3 和 Parakeet 的最佳值已高亮顯示:

語言 Whisper Small Whisper Large V3 Parakeet V3
保加利亞語 37.3 12.9 12.6
克羅埃西亞語 33.4 11.1 12.5
捷克語 37.6 11.3 11.0
丹麥語 32.8 12.6 18.4
荷蘭語 16.4 5.6 7.5
英語 6.1 4.3 4.9
愛沙尼亞語 51.3 19.1 17.7
芬蘭語 24.0 7.7 13.2
法語 15.0 6.3 5.2
德語 10.2 4.3 5.0
希臘語 30.8 27.0 20.7
匈牙利語 38.9 14.1 15.7
義大利語 9.8 2.3 3.0
拉脫維亞語 53.2 18.3 22.8
立陶宛語 65.6 22.3 20.4
馬爾他語 92.2 68.9 20.5
波蘭語 14.7 4.7 7.3
葡萄牙語 7.3 3.7 4.8
羅馬尼亞語 29.8 8.2 12.4
俄語 11.4 4.2 5.5
斯洛伐克語 33.3 8.4 8.8
斯洛維尼亞語 49.3 19.9 24.0
西班牙語 5.6 3.1 3.5
瑞典語 20.8 7.9 15.1
烏克蘭語 19.3 6.5 6.8
平均 29.8 12.6 12.0

詞錯率(%)基於 FLEURS 測試集。Whisper Small 資料來自 Radford 等人;Large V3 和 Parakeet V3 資料來自 NVIDIA Canary-1B-v2 論文

Whisper Large V3 在大多數單一語言上略勝一籌——畢竟它的參數量是 Parakeet 的 2.5 倍。但 Parakeet V3 在平均值上與之持平(12.0% vs 12.6%),在希臘語、法語、愛沙尼亞語和馬爾他語上大幅領先,且全面碾壓 Whisper Small(平均減少 60% 的錯誤)。真正的重點不在於零點幾個百分點的詞錯率差異——而在於總體實力:Large V3 等級的準確度,23 倍的速度,40% 的記憶體佔用,零幻覺,全部在你的 Mac 上本機運行。

告別幻覺問題

如果你用 Whisper 做過聽寫,大概遇過它在靜音時產生幻覺——重複句子、憑空造詞,甚至突然冒出「Subtitles by Amara.org」這種莫名其妙的文字。這是因為 Whisper 的自回歸解碼器總是預期要產生文字,就算根本沒有內容可轉錄。

NVIDIA 用了 36,000 小時的純非語音音訊(背景噪音、咳嗽、靜音)來訓練 Parakeet,目標輸出全部設為空字串。模型學會了什麼是靜默,在沒人說話時保持安靜。對於系統級全域聽寫來說,這是根本性的改變——你停下來想事情的時候,螢幕上不會再莫名冒出亂碼。

Parakeet 支援的語言

Parakeet v3 支援 25 種語言:保加利亞語、克羅埃西亞語、捷克語、丹麥語、荷蘭語、英語、愛沙尼亞語、芬蘭語、法語、德語、希臘語、匈牙利語、義大利語、拉脫維亞語、立陶宛語、馬爾他語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、斯洛伐克語、斯洛維尼亞語、西班牙語、瑞典語和烏克蘭語。

基本上涵蓋了整個歐洲,但不支援中文、日文、韓文、阿拉伯語和印地語。所以我們保留了 Whisper 模型作為可下載選項。如果你用日語或中文聽寫,可以在模型選擇器中切換到 Whisper Large V3 Turbo。對於英語和歐洲語言,Parakeet v3 就是更好的引擎。

Whisper Notes Mac 模型選擇器,顯示 Parakeet V3 為預設模型,Whisper Small 和 Whisper Large V3 Turbo 為可下載選項

模型選擇器:Parakeet V3(預設)、Whisper Small 和 Whisper Large V3 Turbo — 全部在本機運行

Whisper Notes 中的模型選擇器

打開設定即可切換模型:

  • Parakeet V3(預設)— 最快,最適合英語和歐洲語言
  • Whisper Small — 輕量級,支援 100+ 種語言
  • Whisper Large V3 Turbo — 多語言最高精度模型

所有模型都在你的 Mac 上 100% 本機運行。不需要網路,不經過雲端,資料不會離開你的裝置。

Parakeet V2 呢?

如果你之前用過 V2,可能想知道它和 V3 有什麼不同。V2 是純英語模型,英語準確率其實比 V3 略高(WER 6.05% vs 6.32%)。V3 用這一點差距換來了 25 種語言的支援。不過兩者都比 Whisper 準確得多。

Parakeet V2 Parakeet V3 Whisper Large V3
英語 WER 6.05% 6.32% 7.44%
支援語種 僅英語 25 100+

簡單來說:如果你只需要英語,V2 和 V3 都很優秀。Whisper Notes 預設使用 V3,因為多語言支援對大多數使用者更有價值——英語準確率的差異幾乎可以忽略。

來試試看

Parakeet v3 已經在 Mac 版中可以使用了——直接下載最新的 DMG 就能體驗。(更新:最新版 iOS 已支援 Parakeet。)

有問題或建議?歡迎寄信到 support@whispernotes.app