オフライン Whisper 音声テキスト変換ガイド:ローカル AI がクラウドを超えた理由

2025年5月29日
·
12 min read
·The Whisper Notes Team

クラウド文字起こしは死んだ。ただ、まだ自分でそれに気づいていないだけだ。

Apple Silicon上で動作するローカルAI文字起こし

あなたのスマホにはNeural Engineがある。使おう。

レイテンシ問題

クラウド文字起こしの流れ:話す、音声がサーバーにアップロードされる、APIが処理する、結果が返ってくる。「リアルタイム」サービスでも、10秒の録音に2〜3秒のネットワーク往復が加わる。

ローカル文字起こし:これらの遅延がすべて消える。音声はデバイスを離れず、処理はチップ上で行われ、結果は即座に表示される。アップロードなし、待ち時間なし、「処理中」のくるくるもなし。

一方、あなたのiPhoneには毎秒15兆回の演算が可能なNeural Engineがある。それが遊んでいる間、あなたの声は太平洋を往復している。

これは物理的に馬鹿げている。

2019年、クラウド文字起こしには意味があった。スマホは10億パラメータのニューラルネットワークを動かせなかった。その制約はもうない。iPhone 15 ProはほとんどのクラウドサービスがResultsを返すより速くWhisperモデルを実行する。M3 MacBookは60分の音声を5分で処理する——ローカルで、オフラインで、アップロードなしで。

クラウド文字起こしは慣性で生き残っている。技術的必要性ではなく。

チップ代はもう払った

気になることがあるはずだ。

AppleのM3チップにはプレミアムがかかる。あなたは払った。あのNeural Engine?あなたのものだ。機械学習に最適化された180億個のトランジスタ?あなたのものだ。

そして月10ドルをOtter.aiに払って、彼らのサーバーで音声を文字起こししてもらう。

自分のハードウェアの方が速いのに、他人のハードウェアを借りている。スポーツカーを買ってタクシー代を払うようなものだ。

クラウド文字起こしの経済学は、ローカル推論が不可能だったときには意味があった。今やそれは単なる慣性税だ。3年で月10ドルのサブスクは360ドルになる。Whisper Notesは4.99ドル、一度きり。同じ精度。より速い処理。あなたのチップが設計どおりの仕事をする。

サービス 1年目 3年目 5年目
クラウドサブスク($10/月) $120 $360 $600
Whisper Notes(買い切り) $4.99 $4.99 $4.99

私たちはサブスクを請求しない。サーバーを運用していないからだ。あなたの音声は私たちのインフラに触れることがない。月額請求するものがない。

データ漏洩はアーキテクチャの問題

プライバシーについて率直に話そう。

クラウド文字起こしサービスを使うと、あなたの音声は他人のサーバーに存在する。そのサーバーにはアクセス権を持つ従業員がいる。そのサーバーはネットワークに接続している。そのネットワークは攻撃にさらされている。データ漏洩は事故ではない——サードパーティのインフラに機密データを保存することの構造的な必然だ。

音声データには固有のリスクがある。パスワードと違い、声はリセットできない。声紋は永続的な生体認証識別子だ。一度漏洩すれば、永遠に漏洩したままだ。攻撃者は声紋を認証バイパス、なりすまし詐欺、ディープフェイク生成に使える。

このリスクを排除する唯一の方法は、アップロードを排除することだ。デバイスを離れない音声は、サーバー側の漏洩の一部になりえない。これは機能ではない——物理だ。

誰が機密音声を録音しているか考えてみよう:

  • 弁護士がクライアント相談を録音
  • セラピストが患者セッションを記録
  • ジャーナリストが情報源を保護
  • 経営者が戦略的議論を捕捉
  • 医師が患者履歴を記録

これらの専門家にとって、クラウドストレージは不便なだけではない——責任リスクだ。ローカル文字起こしは好みではない。要件だ。

精度について:正直なトレードオフ

ローカル文字起こしが得意なこと、苦手なことを率直に話す必要がある。

ローカルWhisperが優れていること:逐語的な文字起こし。発言を正確に記録する必要がある場合——すべての言葉、すべての間、すべての「えーと」——ローカルWhisperモデルは優秀だ。クリアな音声での単語誤り率5-8%は人間の文字起こし者と同等だ。発言に忠実な文字起こし。

クラウドAIが優れていること:要約と抽出。GPT-4oは会議を聞いて、アクションアイテム、要約、フォローアップタスクを生成できる。文字通りの意味を超えた文脈を理解する。「どんな決定がなされたか教えて」が欲しいなら、クラウドAIは本当に優れている。

トレードオフは本物だ。ワークフローが「文字起こし → Claude/GPTで要約」なら、両方のベストを得られる:正確なローカル文字起こし、インテリジェントなクラウド要約。生の音声はプライベートのまま。共有を選んだテキストだけがデバイスを離れる。

ローカルAIがすべてを解決するとは言わない。各仕事に適切なツールを使うことを信じている。Whisperは文字起こしに適したツール。LLMは理解に適したツール。それらを組み合わせる——プライバシーが重要な場所ではローカル、インテリジェンスが重要な場所ではクラウド——が誠実なアプローチだ。

タスク 最適なツール 理由
逐語的文字起こし ローカルWhisper プライバシー、速度、精度
会議要約 クラウドLLM(文字起こしに対して) 文脈理解
アクションアイテム抽出 クラウドLLM(文字起こしに対して) 意味推論
リアルタイムコラボ クラウドサービス(Otter等) マルチユーザー調整

実際の速度データ

M3 MacBook Proで、Whisper Large-v3 Turboは音声を約リアルタイムの12倍で処理する。60分の録音が約5分で完了。

iPhone 15 Proでは、最適化モデルが約リアルタイムの5倍で動作する。同じ60分の録音が約12分。

クラウドサービスとの比較:

録音時間 クラウド(典型) M3 Mac(ローカル) iPhone 15 Pro(ローカル)
5分 45-90秒 ~25秒 ~60秒
30分 3-6分 ~2.5分 ~6分
60分 6-12分 ~5分 ~12分

ローカル処理はほとんどの録音長でクラウド速度と同等以上。そして飛行機の中、地下室、セキュリティ施設内——接続がない場所でも動作する。

私たちの実装方法

Whisper Notesはこれらの原則の実装だ。いくつかの具体的な設計判断について:

ロック画面ウィジェット

最高のアイデアは不便なときに来る。ロック画面ウィジェットを作った——ワンタップで録音開始、アプリを開く必要なし、認証なし、接続確認なし。ローカル処理は即座に利用可能を意味する。

ハードウェア適応型モデル

Macには熱的余裕と十分な電力がある。iPhoneはポケットの中。それぞれに異なるモデル構成をデプロイ:MacにはWhisper Large-v3 Turbo(8.09億パラメータ)、iPhoneには最適化された小型モデル。同じプライバシー保証、適切なリソース使用。

あなたのデータ、あなたのファイル

文字起こしはデバイス上のファイル。標準フォーマット、標準の場所。プロプライエタリなデータベースなし、ベンダーロックインなし。Whisper Notesが明日消えても、録音にはアクセスできる。一括エクスポートはプレミアム機能ではない——所有するデータの自然な状態だ。

カスタム語彙

技術用語、珍しい名前、専門用語——最も正確な文字起こしが必要な語彙は、しばしば最もアップロードしたくないものだ。初期プロンプトでローカルにコンテキストを追加できる。モデルは調整され、用語がトレーニングデータになることはない。

カスタム語彙設定

ローカルパーソナライゼーション。語彙はプライベートのまま。

クラウドの方が良い場合

ローカル文字起こしが普遍的に優れているとは言わない。クラウドには本当の利点がある:

リアルタイムチームコラボレーション。会議中に5人が同時に文字起こしを編集するにはサーバー調整が必要。ローカルツールは本質的にシングルユーザー。

大規模な話者識別。マルチスピーカー録音の「誰が何を言ったか」はクラウド規模のトレーニングデータから恩恵を受ける。オンデバイスダイアライゼーションは存在するが、大グループでは精度が低い。

ワークフロー自動化。クラウドサービスはCRMに接続し、アクションアイテムを抽出し、Slackに要約を送る。ローカルツールはテキストファイルを生成する——それで何をするかは手動。

古いハードウェア。A14以前のiPhone、Intel Mac——一部のデバイスは実質的にローカル推論を実行できない。クラウドが唯一の選択肢。

正直な評価:主な必要性がライブミーティング中のチームコラボレーションなら、クラウドツールがおそらく良い。主な必要性がプライバシーを持って自分の録音を文字起こしすることなら、ローカルツールが正しいアーキテクチャだ。

トレンド

チップ世代ごとにNeural Engineの性能が向上する。モデル反復ごとに効率が向上する。ローカルとクラウドのギャップは縮まり、プライバシーとレイテンシの優位性は不変。

クラウド文字起こしはスマホがこの仕事をできなかったときには意味があった。その時代は2022年頃に終わった。残っているのは慣性——自動継続のサブスク、サーバー前提で構築されたワークフロー、クラウドが良いに違いないという漠然とした信念。

問題はローカル文字起こしが動くかどうかではない。動く。問題は、すでに所有しているハードウェアに家賃を払い続けたいかどうかだ。

技術詳細

デバイス要件:iPhone 12+(A14チップ)またはMシリーズチップのMac。古いデバイスは技術的には動作するが、処理時間が実用的でない。

モデル:MacはWhisper Large-v3 Turbo(8.09億パラメータ)を実行。iPhoneはモバイル制約向けに調整されたハードウェア最適化バリアントを実行。

速度:M3 Mac:〜12倍リアルタイム。iPhone 15 Pro:〜5倍リアルタイム。

言語:100+、自動検出。

価格:$4.99買い切り。サーバーを運用していないのでサブスクなし。