Superwhisper vs Whisper Notes:技術詳細比較

價格、語音模型、權限與架構 — 兩款 Mac 離線轉錄應用的詳細對比。

Whisper Notes vs Superwhisper - 架構與理念比較
Whisper Notes - 或許是 iOS 和 Mac 上最好的離線 Whisper 轉錄應用

Superwhisper 曾是先驅。它向 Mac 社群展示了可能性:在 Apple Silicon 上本機運行 OpenAI 的 Whisper 模型,不用把音訊傳到雲端就能轉錄語音。

有一段時間,它正是我們許多人想要的——一個簡單、快速、本機運行的轉錄工具。

然後它變了。

最近的方向是成為「AI 助理」——上下文感知、雲端同步、會解讀你的話而非只是轉錄的代理模式。

這個轉變帶來了三個結構性變化:

訂閱制:為運行在你自己硬體上的模型按月付租金。

權限:Input Monitoring 可以觀察你所有的按鍵輸入。

帳號:完全離線運作的軟體卻要求強制登入。

這個頁面不是關於 bug 或暫時性問題。而是關於架構哲學。

Whisper Notes 的存在是為那些更喜歡 Superwhisper 原本樣子的人:一個可靠的離線工具,把一件事做好。

快速比較:Whisper Notes vs Superwhisper

功能 Whisper Notes Superwhisper
價格 $6.99 一次性 $8.49/月 或 $250 終身
macOS 權限 僅輔助功能 Input Monitoring
需要帳號
iOS App $6.99(另外購買) 需另外訂閱
語音模型 Whisper + Parakeet V3 + Qwen3-ASR Whisper(+ distil 變體)
100% 離線 可選(混合模式)
本機 AI 編輯 是(Gemma 4,裝置端) 是(依賴雲端)
AI 上下文功能

語音模型:三個引擎 vs 一個

這是日常使用中最重要的技術差異。

Superwhisper 提供 Whisper 及其蒸餾變體。Whisper Notes 搭載三個獨立的語音引擎,各自針對不同場景最佳化:

語音模型比較

模型 速度 WER 最適合
Whisper Large V3 Turbo 10–15× 即時 7.44% 100+ 種語言,通用
Parakeet V3 ~35× 即時 6.32% 英語 — 最快、最低錯誤率
Qwen3-ASR 串流 中文、日文、韓文 + 27 種語言
為什麼三個模型很重要:

Parakeet V3(由 NVIDIA 開發)轉錄英語的速度比 Whisper 快 3 倍,錯誤率更低 — FLEURS 基準測試中 WER 6.32% vs 7.44%。用 Whisper 需要 3 分鐘的 35 分鐘會議,用 Parakeet V3 不到 20 秒就能完成。

Qwen3-ASR 專為 CJK 語言(中文、日文、韓文)打造,提供串流轉錄 — 文字在你說話時即時出現,而非說完之後。

這些不是付費牆後面的雲端模型。它們完全在你 Mac 的 Neural Engine 上運行,包含在 $6.99 的購買中。

Superwhisper 只提供 Whisper 變體。對於以英語為主或 CJK 工作流程而言,模型選擇的差距相當大。

Input Monitoring 的問題

這是讓注重隱私的使用者駐足思考的權限。

Superwhisper 在 macOS 上要求 Input Monitoring 存取權限。這個權限允許應用程式接收系統範圍內的所有鍵盤和滑鼠事件——無論哪個 app 在前台。

這與輔助工具、自動化軟體,以及沒錯,鍵盤記錄器使用的是同一類權限。

為什麼 Superwhisper 需要這個?

為了「聰明」。他們的 AI Context 功能會讀取你的螢幕內容、理解你正在使用哪個應用程式,並相應地調整行為。要觀察你的環境,就需要觀察權限。

架構上的取捨:

你獲得上下文感知的轉錄。他們獲得看到你輸入的一切的技術能力,包括密碼、私人訊息和機密文件。

我們不是在暗示惡意——但這個權限本身在架構上就具備監控能力。

權限架構

Input Monitoring(Superwhisper):
可以接收所有應用程式的所有鍵盤事件。「上下文感知」所必需。

輔助使用(Whisper Notes):
可以在游標位置插入文字。無法讀取你的按鍵或觀察其他 app。僅限輸出。

macOS Privacy Settings
Accessibility 權限比 Input Monitoring 更安全

Whisper Notes 只使用輔助使用權限。我們可以在你游標所在的地方插入文字——這是輸出。我們無法讀取你打了什麼字或螢幕上有什麼。

我們的立場:我們選擇不「聰明」,因為聰明需要觀察。轉錄工具不需要知道你的密碼存在。它只需要打出你說的話。

硬體租金問題

這是讓進階使用者感到沮喪的定價決策。

Superwhisper 把本機 AI 模型——包括 Nvidia Parakeet 和 Whisper 變體——放到了訂閱付費牆後面。使用者現在要按月付費才能解鎖完全在自己設備上運行的處理能力。

讓我們精確說明正在發生什麼:

• 你的 M3 或 M4 MacBook 有 Neural Engine。

• Apple 專門為裝置上的機器學習設計了這個晶片。

• Whisper 模型權重是開源的,由 OpenAI 發布。

• 電力來自你的牆壁插座。

訂閱費究竟是在付什麼?

時間 Whisper Notes Superwhisper(月付) Superwhisper(終身)
第 1 年 $6.99 $101.88 $250
第 3 年 $6.99 $305.64 $250
第 5 年 $6.99 $509.40 $250

如果 Superwhisper 的雲端功能——同步、AI 助理、外部 API——對你有價值,訂閱定價是可以理解的。你在為他們的基礎設施付費。

但把本機模型放在同一個付費牆後面?那是在向你收取運行在你已經擁有的硬體上的運算的租金。

使用者評論反映了這種沮喪:「你們真的把本機模型放到付費牆後面了?這沒道理。」

我們的定價哲學:Whisper Notes 一次性收費 $6.99,因為我們不運營雲端基礎設施。你的 Neural Engine 做這個工作。我們提供介面。這是一次性交易,不是持續的關係。
Whisper Notes App Store listing - $6.99 one-time purchase on iPhone
Whisper Notes 定價:6.99 美元,一次性購買,按平台分開付費

複雜性及其後果

這一節不是關於某個特定 bug。而是關於架構上的取捨。

當軟體試圖做很多事情——雲端同步、上下文感知、代理解讀、混合本機/雲端處理——它必然會變得複雜。

複雜系統比簡單系統有更多的故障模式。這不是批評;這是物理學。

Superwhisper 使用者報告了一種故障模式:

• 錄音沒有產生轉錄

• 音訊似乎消失了

• 長時間使用後出現「找不到語音」錯誤

我們無法診斷他們的程式碼庫,但我們可以觀察這個模式:一個 app 管理的功能越多,它可能失敗的方式就越多。

狀態機問題:

上下文感知的 app 必須追蹤許多變數。螢幕上有什麼?網路是否足夠快來進行雲端處理?這個錄音應該同步嗎?哪個 AI 模型應該處理這個上下文?

每個決策點都是預期狀態和實際狀態之間的潛在不匹配。

Whisper Notes 是刻意簡單的:

錄製音訊 → 持續寫入磁碟 → 用 Whisper 處理 → 顯示文字

線性資料流。沒有可能失敗的雲端同步。沒有可能出錯的上下文感知。沒有混合路由決策。

我們使用漸進式持久化——在錄音過程中每幾秒將音訊寫入磁碟。如果 app 當掉,或你的電池沒電,你最多損失最後幾秒。之前的 20 分鐘已經安全地存在你的磁碟上了。

這不是我們推銷的功能;這只是可靠的錄音軟體應該有的運作方式。

取捨是真實的:我們做不到 Superwhisper 做的事。我們不理解你的螢幕上下文。我們不在設備間同步。我們沒有會重新格式化你語音的 AI 模式。

我們只是轉錄。準確地、可靠地、在本機。這就是全部產品。

帳號要求

Superwhisper 要求建立帳號才能使用軟體——即使是在你自己設備上的本機轉錄。

這服務於他們的商業模式:訂閱管理、雲端同步和使用分析需要使用者身份。

但對於那些只是想要本機語音轉文字的人來說,這是沒有好處的摩擦。

Whisper Notes 沒有帳號系統:

• 下載 app

• 授予輔助使用權限

• 開始說話

不需要電子郵件。不需要密碼。不需要身份驗證。

這不僅僅是關於便利性。這是關於資料最小化:

• 每個帳號都是另一個需要管理的密碼

• 每個資料庫條目都是另一個洩露目標

• 每個使用者身份都是另一個需要保護的資料點

對於完全在你設備上運行的軟體,我們看不到知道你是誰的正當理由。Whisper 模型不需要你的電子郵件來將語音轉換為文字。

什麼時候 Superwhisper 適合你

我們不是說 Whisper Notes 在各方面都更好。Superwhisper 做出的架構選擇很好地服務於特定使用場景。

選擇 Superwhisper,如果:

• 你想要理解你螢幕並調整輸出的 AI Context 模式

• 你需要在多台 Mac 之間雲端同步

• 你看重「助理」體驗勝過純粹轉錄

• 訂閱或 $250 終身價格符合你的工作流程價值

• Input Monitoring 權限不讓你擔心

選擇 Whisper Notes,如果:

• 你想要三種語音模型 — Whisper、Parakeet V3(最快英語)、Qwen3-ASR(最適合中文/日文/韓文)

• 你想要 Gemma 4 驅動的本機 AI 編輯 — 標點修正、填充詞移除、自動生成標題,全部在裝置端完成

• 你想要最小的系統權限(僅輔助使用)

• 你想一次付費($6.99)並擁有軟體

• 你不想建立帳號

• 你也使用 iPhone(App Store 上 $6.99,與 Mac 版分開購買)

誠實的評估:

Superwhisper 正在構建一個 AI 理解你整個運算上下文的未來。這很有野心,有些使用者想要這個。

Whisper Notes 構建的是相反的東西:一個只做一件事的工具,除了麥克風輸入外對你的電腦一無所知,每次都以相同的方式運作。

為那些重視可預測性的人準備的無聊軟體。

為無聊軟體正名

「無聊」在軟體工程中不是貶義詞。無聊意味著可預測。無聊意味著更少的意外。

無聊的軟體:

• 不需要帳號

• 核心功能不需要網路連接

• 不請求超出嚴格必要的權限

• 不會演變成你沒有要求的東西

Superwhisper 曾經是無聊的軟體。一個本機轉錄工具。簡單、快速、可靠。

然後它有了野心。它想成為 AI 助理,理解上下文,通過雲端同步,解讀你的話。

有些使用者欣然跟隨了這個演變。其他人懷念它曾經的樣子。

Whisper Notes 是刻意無聊的。我們做一件事:使用你設備的 Neural Engine 將語音轉換為文字。我們不觀察你的螢幕。我們不同步你的資料。我們不解讀你的意圖。我們只是轉錄。

每個平台 $6.99 一次性付費。沒有帳號。沒有 Input Monitoring。沒有訂閱。除了可靠性之外沒有野心。

對於那些更喜歡本機轉錄工具原本可以是什麼樣子的人——Whisper Notes 在這裡。

常見問題

為什麼 Superwhisper 需要 Input Monitoring 權限?

Superwhisper 使用 Input Monitoring 來進行「上下文感知」——理解你螢幕上的內容以調整 AI 行為。這個權限允許讀取所有應用程式的所有按鍵。Whisper Notes 只使用輔助使用權限,可以插入文字但無法觀察你的輸入或其他 app。

為什麼 Superwhisper 轉向訂閱定價?

Superwhisper 運營雲端基礎設施用於同步、帳號和一些 AI 功能。訂閱為這些基礎設施提供資金。然而,他們也把本機模型(在你硬體上運行的)放在同一個付費牆後面——這是使用者質疑最多的定價決策。

Whisper Notes 和 Superwhisper 一樣準確嗎?

Whisper Notes 提供三種語音模型。Parakeet V3 在 FLEURS 英語基準測試中的字詞錯誤率(6.32%)低於 Whisper(7.44%),速度快 3 倍。對於中文、日文和韓文,Qwen3-ASR 是專為這些語言打造的。Superwhisper 只提供 Whisper 變體。

Whisper Notes 支援哪些語音模型?

三種模型:Whisper Large V3 Turbo(100+ 種語言,通用)、NVIDIA 的 Parakeet V3(最快英語、最低錯誤率)、Alibaba 的 Qwen3-ASR(針對中文、日文、韓文及其他 27 種語言最佳化,支援串流輸出)。全部在你的裝置上本機運行。

Whisper Notes 與 Superwhisper 相比價格如何?

Whisper Notes 每個平台一次性收費 $6.99(iOS 和 Mac 需分開購買)。Superwhisper 為 $8.49/月或 $250 終身,iOS app 需另外訂閱。3 年比較:Whisper Notes 每平台 $6.99,Superwhisper 月付為 $305.64。

Whisper Notes 可以在設備間同步嗎?

不能,這是設計使然。我們不運營雲端伺服器,所以沒有什麼可以通過它來同步。你的錄音留在你創建它們的設備上。這消除了同步故障,並確保你的語音資料永遠不會離開你的硬體。如有需要,使用 AirDrop 或手動匯出。

為什麼 Whisper Notes 不需要帳號?

本機轉錄沒有技術上需要身份驗證的理由。我們相信資料最小化——如果我們不需要你的電子郵件來讓軟體運作,我們就不應該要求它。沒有帳號意味著沒有需要管理的密碼,沒有可能被洩露的資料庫條目。

Input Monitoring 和輔助使用權限有什麼區別?

Input Monitoring 可以接收系統範圍內的所有鍵盤/滑鼠事件(觀察)。輔助使用可以插入文字和執行 UI 自動化(動作)。Whisper Notes 使用輔助使用在你的游標位置輸入轉錄的文字——只有輸出,沒有觀察你輸入的內容。

三種語音模型。$6.99 一次性。

Whisper + Parakeet V3 + Qwen3-ASR。本機 AI 編輯。沒有 Input Monitoring。沒有訂閱。沒有帳號。