Superwhisper vs Whisper Notes:技術詳細比較
價格、語音模型、權限與架構 — 兩款 Mac 離線轉錄應用的詳細對比。

Superwhisper 曾是先驅。它向 Mac 社群展示了可能性:在 Apple Silicon 上本機運行 OpenAI 的 Whisper 模型,不用把音訊傳到雲端就能轉錄語音。
有一段時間,它正是我們許多人想要的——一個簡單、快速、本機運行的轉錄工具。
然後它變了。
最近的方向是成為「AI 助理」——上下文感知、雲端同步、會解讀你的話而非只是轉錄的代理模式。
這個轉變帶來了三個結構性變化:
• 訂閱制:為運行在你自己硬體上的模型按月付租金。
• 權限:Input Monitoring 可以觀察你所有的按鍵輸入。
• 帳號:完全離線運作的軟體卻要求強制登入。
這個頁面不是關於 bug 或暫時性問題。而是關於架構哲學。
Whisper Notes 的存在是為那些更喜歡 Superwhisper 原本樣子的人:一個可靠的離線工具,把一件事做好。快速比較:Whisper Notes vs Superwhisper
| 功能 | Whisper Notes | Superwhisper |
|---|---|---|
| 價格 | $6.99 一次性 | $8.49/月 或 $250 終身 |
| macOS 權限 | 僅輔助功能 | Input Monitoring |
| 需要帳號 | 否 | 是 |
| iOS App | $6.99(另外購買) | 需另外訂閱 |
| 語音模型 | Whisper + Parakeet V3 + Qwen3-ASR | Whisper(+ distil 變體) |
| 100% 離線 | 是 | 可選(混合模式) |
| 本機 AI 編輯 | 是(Gemma 4,裝置端) | 是(依賴雲端) |
| AI 上下文功能 | 否 | 是 |
語音模型:三個引擎 vs 一個
這是日常使用中最重要的技術差異。
Superwhisper 提供 Whisper 及其蒸餾變體。Whisper Notes 搭載三個獨立的語音引擎,各自針對不同場景最佳化:
語音模型比較
| 模型 | 速度 | WER | 最適合 |
|---|---|---|---|
| Whisper Large V3 Turbo | 10–15× 即時 | 7.44% | 100+ 種語言,通用 |
| Parakeet V3 | ~35× 即時 | 6.32% | 英語 — 最快、最低錯誤率 |
| Qwen3-ASR | 串流 | — | 中文、日文、韓文 + 27 種語言 |
Parakeet V3(由 NVIDIA 開發)轉錄英語的速度比 Whisper 快 3 倍,錯誤率更低 — FLEURS 基準測試中 WER 6.32% vs 7.44%。用 Whisper 需要 3 分鐘的 35 分鐘會議,用 Parakeet V3 不到 20 秒就能完成。
Qwen3-ASR 專為 CJK 語言(中文、日文、韓文)打造,提供串流轉錄 — 文字在你說話時即時出現,而非說完之後。
這些不是付費牆後面的雲端模型。它們完全在你 Mac 的 Neural Engine 上運行,包含在 $6.99 的購買中。
Superwhisper 只提供 Whisper 變體。對於以英語為主或 CJK 工作流程而言,模型選擇的差距相當大。
Input Monitoring 的問題
這是讓注重隱私的使用者駐足思考的權限。
Superwhisper 在 macOS 上要求 Input Monitoring 存取權限。這個權限允許應用程式接收系統範圍內的所有鍵盤和滑鼠事件——無論哪個 app 在前台。
這與輔助工具、自動化軟體,以及沒錯,鍵盤記錄器使用的是同一類權限。
為什麼 Superwhisper 需要這個?為了「聰明」。他們的 AI Context 功能會讀取你的螢幕內容、理解你正在使用哪個應用程式,並相應地調整行為。要觀察你的環境,就需要觀察權限。
架構上的取捨:你獲得上下文感知的轉錄。他們獲得看到你輸入的一切的技術能力,包括密碼、私人訊息和機密文件。
我們不是在暗示惡意——但這個權限本身在架構上就具備監控能力。
權限架構
Input Monitoring(Superwhisper):
可以接收所有應用程式的所有鍵盤事件。「上下文感知」所必需。
輔助使用(Whisper Notes):
可以在游標位置插入文字。無法讀取你的按鍵或觀察其他 app。僅限輸出。
Whisper Notes 只使用輔助使用權限。我們可以在你游標所在的地方插入文字——這是輸出。我們無法讀取你打了什麼字或螢幕上有什麼。
我們的立場:我們選擇不「聰明」,因為聰明需要觀察。轉錄工具不需要知道你的密碼存在。它只需要打出你說的話。硬體租金問題
這是讓進階使用者感到沮喪的定價決策。
Superwhisper 把本機 AI 模型——包括 Nvidia Parakeet 和 Whisper 變體——放到了訂閱付費牆後面。使用者現在要按月付費才能解鎖完全在自己設備上運行的處理能力。
讓我們精確說明正在發生什麼:• 你的 M3 或 M4 MacBook 有 Neural Engine。
• Apple 專門為裝置上的機器學習設計了這個晶片。
• Whisper 模型權重是開源的,由 OpenAI 發布。
• 電力來自你的牆壁插座。
訂閱費究竟是在付什麼?
| 時間 | Whisper Notes | Superwhisper(月付) | Superwhisper(終身) |
|---|---|---|---|
| 第 1 年 | $6.99 | $101.88 | $250 |
| 第 3 年 | $6.99 | $305.64 | $250 |
| 第 5 年 | $6.99 | $509.40 | $250 |
如果 Superwhisper 的雲端功能——同步、AI 助理、外部 API——對你有價值,訂閱定價是可以理解的。你在為他們的基礎設施付費。
但把本機模型放在同一個付費牆後面?那是在向你收取運行在你已經擁有的硬體上的運算的租金。
使用者評論反映了這種沮喪:「你們真的把本機模型放到付費牆後面了?這沒道理。」
我們的定價哲學:Whisper Notes 一次性收費 $6.99,因為我們不運營雲端基礎設施。你的 Neural Engine 做這個工作。我們提供介面。這是一次性交易,不是持續的關係。
複雜性及其後果
這一節不是關於某個特定 bug。而是關於架構上的取捨。
當軟體試圖做很多事情——雲端同步、上下文感知、代理解讀、混合本機/雲端處理——它必然會變得複雜。
複雜系統比簡單系統有更多的故障模式。這不是批評;這是物理學。Superwhisper 使用者報告了一種故障模式:
• 錄音沒有產生轉錄
• 音訊似乎消失了
• 長時間使用後出現「找不到語音」錯誤
我們無法診斷他們的程式碼庫,但我們可以觀察這個模式:一個 app 管理的功能越多,它可能失敗的方式就越多。
狀態機問題:上下文感知的 app 必須追蹤許多變數。螢幕上有什麼?網路是否足夠快來進行雲端處理?這個錄音應該同步嗎?哪個 AI 模型應該處理這個上下文?
每個決策點都是預期狀態和實際狀態之間的潛在不匹配。
Whisper Notes 是刻意簡單的:錄製音訊 → 持續寫入磁碟 → 用 Whisper 處理 → 顯示文字
線性資料流。沒有可能失敗的雲端同步。沒有可能出錯的上下文感知。沒有混合路由決策。
我們使用漸進式持久化——在錄音過程中每幾秒將音訊寫入磁碟。如果 app 當掉,或你的電池沒電,你最多損失最後幾秒。之前的 20 分鐘已經安全地存在你的磁碟上了。
這不是我們推銷的功能;這只是可靠的錄音軟體應該有的運作方式。
取捨是真實的:我們做不到 Superwhisper 做的事。我們不理解你的螢幕上下文。我們不在設備間同步。我們沒有會重新格式化你語音的 AI 模式。我們只是轉錄。準確地、可靠地、在本機。這就是全部產品。
帳號要求
Superwhisper 要求建立帳號才能使用軟體——即使是在你自己設備上的本機轉錄。
這服務於他們的商業模式:訂閱管理、雲端同步和使用分析需要使用者身份。
但對於那些只是想要本機語音轉文字的人來說,這是沒有好處的摩擦。
Whisper Notes 沒有帳號系統:• 下載 app
• 授予輔助使用權限
• 開始說話
不需要電子郵件。不需要密碼。不需要身份驗證。
這不僅僅是關於便利性。這是關於資料最小化:
• 每個帳號都是另一個需要管理的密碼
• 每個資料庫條目都是另一個洩露目標
• 每個使用者身份都是另一個需要保護的資料點
對於完全在你設備上運行的軟體,我們看不到知道你是誰的正當理由。Whisper 模型不需要你的電子郵件來將語音轉換為文字。
什麼時候 Superwhisper 適合你
我們不是說 Whisper Notes 在各方面都更好。Superwhisper 做出的架構選擇很好地服務於特定使用場景。
選擇 Superwhisper,如果:• 你想要理解你螢幕並調整輸出的 AI Context 模式
• 你需要在多台 Mac 之間雲端同步
• 你看重「助理」體驗勝過純粹轉錄
• 訂閱或 $250 終身價格符合你的工作流程價值
• Input Monitoring 權限不讓你擔心
• 你想要三種語音模型 — Whisper、Parakeet V3(最快英語)、Qwen3-ASR(最適合中文/日文/韓文)
• 你想要 Gemma 4 驅動的本機 AI 編輯 — 標點修正、填充詞移除、自動生成標題,全部在裝置端完成
• 你想要最小的系統權限(僅輔助使用)
• 你想一次付費($6.99)並擁有軟體
• 你不想建立帳號
• 你也使用 iPhone(App Store 上 $6.99,與 Mac 版分開購買)
Superwhisper 正在構建一個 AI 理解你整個運算上下文的未來。這很有野心,有些使用者想要這個。
Whisper Notes 構建的是相反的東西:一個只做一件事的工具,除了麥克風輸入外對你的電腦一無所知,每次都以相同的方式運作。
為那些重視可預測性的人準備的無聊軟體。
為無聊軟體正名
「無聊」在軟體工程中不是貶義詞。無聊意味著可預測。無聊意味著更少的意外。
無聊的軟體:
• 不需要帳號
• 核心功能不需要網路連接
• 不請求超出嚴格必要的權限
• 不會演變成你沒有要求的東西
Superwhisper 曾經是無聊的軟體。一個本機轉錄工具。簡單、快速、可靠。
然後它有了野心。它想成為 AI 助理,理解上下文,通過雲端同步,解讀你的話。
有些使用者欣然跟隨了這個演變。其他人懷念它曾經的樣子。
Whisper Notes 是刻意無聊的。我們做一件事:使用你設備的 Neural Engine 將語音轉換為文字。我們不觀察你的螢幕。我們不同步你的資料。我們不解讀你的意圖。我們只是轉錄。
每個平台 $6.99 一次性付費。沒有帳號。沒有 Input Monitoring。沒有訂閱。除了可靠性之外沒有野心。
對於那些更喜歡本機轉錄工具原本可以是什麼樣子的人——Whisper Notes 在這裡。
常見問題
為什麼 Superwhisper 需要 Input Monitoring 權限?
Superwhisper 使用 Input Monitoring 來進行「上下文感知」——理解你螢幕上的內容以調整 AI 行為。這個權限允許讀取所有應用程式的所有按鍵。Whisper Notes 只使用輔助使用權限,可以插入文字但無法觀察你的輸入或其他 app。
為什麼 Superwhisper 轉向訂閱定價?
Superwhisper 運營雲端基礎設施用於同步、帳號和一些 AI 功能。訂閱為這些基礎設施提供資金。然而,他們也把本機模型(在你硬體上運行的)放在同一個付費牆後面——這是使用者質疑最多的定價決策。
Whisper Notes 和 Superwhisper 一樣準確嗎?
Whisper Notes 提供三種語音模型。Parakeet V3 在 FLEURS 英語基準測試中的字詞錯誤率(6.32%)低於 Whisper(7.44%),速度快 3 倍。對於中文、日文和韓文,Qwen3-ASR 是專為這些語言打造的。Superwhisper 只提供 Whisper 變體。
Whisper Notes 支援哪些語音模型?
三種模型:Whisper Large V3 Turbo(100+ 種語言,通用)、NVIDIA 的 Parakeet V3(最快英語、最低錯誤率)、Alibaba 的 Qwen3-ASR(針對中文、日文、韓文及其他 27 種語言最佳化,支援串流輸出)。全部在你的裝置上本機運行。
Whisper Notes 與 Superwhisper 相比價格如何?
Whisper Notes 每個平台一次性收費 $6.99(iOS 和 Mac 需分開購買)。Superwhisper 為 $8.49/月或 $250 終身,iOS app 需另外訂閱。3 年比較:Whisper Notes 每平台 $6.99,Superwhisper 月付為 $305.64。
Whisper Notes 可以在設備間同步嗎?
不能,這是設計使然。我們不運營雲端伺服器,所以沒有什麼可以通過它來同步。你的錄音留在你創建它們的設備上。這消除了同步故障,並確保你的語音資料永遠不會離開你的硬體。如有需要,使用 AirDrop 或手動匯出。
為什麼 Whisper Notes 不需要帳號?
本機轉錄沒有技術上需要身份驗證的理由。我們相信資料最小化——如果我們不需要你的電子郵件來讓軟體運作,我們就不應該要求它。沒有帳號意味著沒有需要管理的密碼,沒有可能被洩露的資料庫條目。
Input Monitoring 和輔助使用權限有什麼區別?
Input Monitoring 可以接收系統範圍內的所有鍵盤/滑鼠事件(觀察)。輔助使用可以插入文字和執行 UI 自動化(動作)。Whisper Notes 使用輔助使用在你的游標位置輸入轉錄的文字——只有輸出,沒有觀察你輸入的內容。
三種語音模型。$6.99 一次性。
Whisper + Parakeet V3 + Qwen3-ASR。本機 AI 編輯。沒有 Input Monitoring。沒有訂閱。沒有帳號。