オフライン文字起こし

ようやく実用的になった理由

長い間、ローカル文字起こしは遅くて精度が低いものでした。それが変わりました。

オフライン文字起こしソフトウェア

少し背景を

数年前まで、正確な文字起こしが欲しければ、音声を誰かのサーバーにアップロードする必要がありました。ローカルの選択肢もありましたが、明らかに精度が劣っていました。これは本当のトレードオフでした。

その後、いくつかのことが起きました。OpenAIがWhisperをオープンモデルとして公開しました。AppleがAI専用ハードウェアを搭載したチップを出荷し始めました。突然、クラウドサービスを動かしていたのと同じモデルが、ノートパソコンでも動くようになったのです。

私たちがWhisper Notesを作り始めたのはその頃で、主に自分たちが欲しかったからです。同じものを探している人がたくさんいることがわかりました。

何が変わったか

以前は、クラウド文字起こしが明らかな選択肢だった理由が3つありました。その3つすべてが変わりました。

計算能力

文字起こしを行うAIモデルは大きく、数億のパラメータがあります。以前は消費者向けハードウェアで動かすと遅く、バッテリーを消耗しました。

AppleのNeural Engineがそれを変えました。AI処理専用のチップで、すべてのM系MacとiPhoneに搭載されています。Whisper Large v3 TurboはMacBook Airで快適に動作します。

iPhoneでは、モバイルチップ向けに最適化された小さなモデルを使用しています。大きなモデルほど正確ではありませんが、ほとんどの内蔵音声入力よりは優れています。

精度

これは私たちも驚きました。ローカルモデルは「まあまあ使える」程度だと思っていました。実際にはかなり良いのです。

Whisper Large v3は、ほとんどのシステム音声入力よりも単語エラー率が低いです。そしてローカルとクラウドAPIの差はかなり小さくなっています。ほとんどの用途では、違いに気づかないでしょう。

これで計算が変わります。精度が同等なら、音声をアップロードする主な理由がなくなります。

プライバシー

クラウドサービスが危険だと脅すつもりはありません。ほとんどは責任を持ってデータを扱っています。

でも「悪用しないと約束している」と「そもそも持っていない」には違いがあります。あなたの声は生体情報です。パスワードと違って、問題が起きても変えられません。

ローカル文字起こしなら、音声はデバイスに留まります。暗号化してアップロードするのではなく、そもそも送信しないのです。これが重要な人もいれば、そうでない人もいます。私たちは前者のために作りました。

何をいつ使うか

ローカルが常に正解とは限りません。私たちはこう考えています。

リアルタイムでの共同作業が必要?

Otterのようなクラウドツールはそのために作られています。複数人で同じ文字起こしを編集するには中央サーバーが必要です。これはクラウドの良い使い方です。

WindowsかAndroidを使っている?

これらのプラットフォームではローカルAIは難しいです。ハードウェアサポートがまだ成熟していません。WindowsならDragonが使えます。Androidでは、クラウドサービスが通常は現実的な選択です。

誰が何を言ったか知る必要がある?

話者識別には追加のモデルが必要です。Revのようなクラウドサービスはこれをうまく処理します。ローカルツールも追いついてきていますが、まだクラウドに優位性があります。

プライベートで正確な文字起こしだけが必要?

これが私たちがフォーカスしているところです。プライバシーと精度が主な関心事で、Appleデバイスを使っているなら、ローカルは今うまく機能します。

Whisper Notesでできること

MacではWhisper Large v3 Turboを、iPhoneでは最適化された小さなモデルを動かします。音声がデバイスから出ることはありません。

Macでは、Neural Engineを使って実時間の10-15倍の速度で文字起こしします。1時間の録音が数分で完了します。iPhoneでは遅くなりますが、ほとんどの録音には実用的です。

$4.99、一回払い、両方のプラットフォームで使えます。サーバーを運用していないので、サブスクリプションは不要です。以上です。

$4.99一回購入。MacとiPhone。サブスクなし。データ収集なし。
Apple App Store logoWhisper Notesを入手

まとめると

ローカル文字起こしは以前は妥協でした。今では多くの人にとって妥当なデフォルトになっています。

共同作業が必要な場合や、Apple以外のプラットフォームを使っている場合は、クラウドサービスは理にかなっています。正確でプライベートな文字起こしが主な目的で、MacかiPhoneを使っているなら、ローカルの選択肢はかなり良くなっています。

私たちは毎日Whisper Notesを自分たちで使っています。必要なことをしてくれています。

試してみる

アップロードされていないことを確認したければ、機内モードでテストできます。すべて同じように動作します。

App Store • $4.99 • MacとiPhone

一度の購入で両方のプラットフォームで使えます。