オフラインで動く音声入力が欲しかった。月額$15も払いたくない。Siri(ネット必須)、Wispr Flow(サブスク)、SuperWhisper(これもサブスク)を試した後、本当に欲しかったものを作った:システム全体で使える音声入力。Mac上で動作。どこでも使える。$4.99買い切り。
Fnキーを押したまま話すだけ
バージョン1.2.3で、みんなが求めていた機能を追加した:どのアプリでも—Gmail、Slack、VS Code、ターミナル、何でも—Fnキーを押したまま話すだけ。キーを離すと、言葉がテキストになる。
裏側ではWhisper Large-v3 Turboが動いている。現時点で最も正確なオンデバイス音声モデル。すべてローカルで処理される—ネット不要、サーバーなし、何もマシンの外に出ない。
セットアップは30秒
- 1. Whisper Notesを開く
- 2. 設定 → キーボードショートカット
- 3. グローバル音声入力を有効化
- 4. プロンプトが出たらアクセシビリティ権限を許可
これだけ。これでFnキーがMac全体で音声入力として機能する。
UIがより良くなった
インターフェースを再構築した。今はよりクリーンになった—視覚的な階層が改善され、インタラクションがスムーズになり、余計なものが減った。しばらく使っていると気づく種類の磨き上げ。
ストリーミング文字起こし
結果は準備できたらストリーミングされる。ファイル全体が完了するまで待つ必要なし。テキストは段落ごとに表示される—すぐに読み始めて編集できる。
カスタム語彙
Whisperは優秀だが、専門用語、会社名、略語をめちゃくちゃにする。独自の語彙を追加すれば、文字起こし中にモデルが使用する。マニアックな専門用語に効く。フォーマットを保持する(「claude opus four point five」ではなく「Claude Opus 4.5」のように)。イライラする名前のエラーも修正する。
音声活動検出
長い沈黙があると、以前はWhisperが幻覚を起こしていた—フレーズを繰り返したり、空白を埋めるためにテキストをでっち上げたり。音声活動検出(VAD)がそういった無音区間をキャッチして適切に処理する。ポーズのある録音で幻覚の問題を約70%削減した。文字起こしがクリーンで正確になった。
パフォーマンス改善
起動時間が速く、モデル読み込みが速く、メモリ使用量が少ない。アプリ全体がキビキビ動く。
Wispr Flowと比較すると
| Whisper Notes | Wispr Flow | |
|---|---|---|
| 価格 | $4.99買い切り | $10-15/月 |
| オフライン | 100%ローカル | ネット必須 |
| プライバシー | 音声がデバイスから出ない | 音声がクラウドに送信される |
| レイテンシ | 即時(ローカル処理) | ネットワーク遅延 |
| 精度 | Whisper Large-v3 Turbo | クラウドAPI(わずかに良い) |
Wispr Flowのクラウドベースアプローチは、場合によってはわずかに精度が良い。しかし、音声が彼らのサーバーに行き、ネットが必要で、毎月払い続けることも意味する。
プライバシーを気にするなら—あるいは単にサブスクをもう増やしたくないなら—選択はかなり明確だ。
試してみよう
$4.99でiOSとMac両方が手に入る。すでにiPhoneアプリを持っているなら、Mac版も含まれている—Appleのユニバーサル購入は一度買えばどこでも使える。
アイデアやフィードバックがある?[email protected]にメールを。すべてのメッセージを実際に読んで返信している。