Whisper 文字起こし完全ガイド:API・アプリ・オフライン活用法(2026)

2026年7月2日
·
9 min read
·Whisper Notes Team

Whisper 文字起こしとは、OpenAIのWhisperを使って音声をテキストに変換すること。Whisperはオープンソースの音声認識AIモデルで、クラウドでも、サーバーでも、そして完全に自分のデバイス上でも動かせます。このガイドでは、Whisperの仕組み、モデルサイズの選び方、実際の精度、そしてMacやiPhoneでオフラインで動かす最も手軽な方法を解説します。

そもそもWhisperとは?

Whisperは、OpenAIが2022年9月にMITライセンスで公開した自動音声認識(ASR)モデルです。エンコーダー・デコーダー型のTransformerで、68万時間を超える多言語音声で学習されており、約100言語の文字起こしと英語への翻訳に対応します。

ユーザーにとって重要なのはここ:モデルの重みが公開されているという点です。GoogleやAmazonの音声APIと違い、Whisperは他人のサーバーで動かす必要がありません。whisper.cpp、faster-whisper、そしてWhisper Notesのようなネイティブアプリなど、ローカルで動かすためのエコシステム全体が存在します。これこそが、真にオフラインでプライベートな文字起こしを可能にしている理由です。

Whisperのモデルサイズ:どれを選ぶべきか

Whisperには主に6つのサイズがあります。大きいほど高精度で、そのぶん遅くなります:

モデル パラメータ数 速度 向いている用途
tiny 39M 最速 下書き、非力なハードウェア
base 74M 非常に速い シンプルでクリアな音声
small 244M 速い モバイルでの速度と精度のバランス
medium 769M 普通 今あえて選ぶ理由はほぼない
large-v3 1.55B 最も遅い 最高精度、難しい音声
large-v3-turbo 809M large-v3の約5倍速 2026年のデフォルトの選択肢

ほとんどの人にとって答えはlarge-v3-turboです。large-v3のエンコーダーを維持したままデコーダー層を32から4に削減し、ほぼ同等の精度をはるかに少ない計算量で実現しています。詳細なベンチマークはWhisper Large V3 Turbo vs V3で公開しています。

Whisper 文字起こしの精度はどのくらい?

クリアな英語音声では、largeモデルの単語誤り率(WER)は約5〜8%に達します。実用上、多くの場面でプロの人手による文字起こしに匹敵するレベルです。ただし背景ノイズ、強い訛り、複数人の同時発話、学習データの少ない言語では精度が落ちます。

Whisperには有名な弱点が1つあります:無音時のハルシネーション(幻覚)です。自己回帰型デコーダーの性質上、誰も話していない区間で同じフレーズの繰り返しや字幕クレジットのような文字列を「創作」してしまうことがあります。新しいモデルはこれを解決済みで、NVIDIAのParakeet V3は非音声データを明示的に学習しており、私たちのテストではハルシネーションはゼロでした(Parakeet V3 vs Whisper 完全ベンチマーク)。

日本語・中国語・韓国語・広東語については、速度と句読点の両面でWhisperを上回る専用モデルがあります:SenseVoice vs Whisper(CJK言語編)をご覧ください。

Whisper 文字起こしを実行する5つの方法

方法 料金 プライバシー セットアップ
OpenAI API 音声1分ごとに課金($0.006/分) 音声をアップロード APIキー + コード
openai-whisper(公式Python実装) 無料 100%ローカル Python環境、GPU推奨
whisper.cpp / faster-whisper 無料 100%ローカル コマンドライン
ネイティブアプリ(Whisper Notes) 買い切り$6.99、Macは無料トライアルあり 100%オンデバイス 不要
Webデモツール 無料枠あり 音声をアップロード 不要

目安はこうです:ターミナルが生活の一部なら、faster-whisperは素晴らしい選択肢。プロダクトを開発するならAPIが合理的。Pythonに触れずに録音をプライベートに文字起こししたいだけなら、ネイティブアプリを使いましょう — Whisper Macアプリが存在する理由はまさにそれです。

WindowsやAndroidも含めて、オフライン文字起こしツールをより広く比較したい方はオフライン音声テキスト変換の完全ガイドをどうぞ。

Whisper vs 最新のローカルモデル(2026年)

ローカル文字起こしの時代を切り拓いたのはWhisperですが、今や選択肢は1つではありません。以下の速度はM4 Pro Macでの実測値です:

モデル 対応言語 速度 強み
Whisper Large V3 Turbo 100以上 実時間の約12倍 最も広い言語カバレッジ
Parakeet V3 25(欧州言語) 実時間の約100倍 WER 6.32%、無音ハルシネーションなし
SenseVoice Small 日・中・韓・広東語・英 実時間の約52倍 日本語・中国語・韓国語に最適

3つのモデルはすべてWhisper Notes内でローカルに動作し、録音ごとに切り替えられます。詳しい比較はWhisperモデル比較ページをご覧ください。

MacとiPhoneでWhisper 文字起こしをオフライン実行する方法

コマンドラインもPythonもクラウドも不要です:

  1. Whisper Notes(Mac版)をダウンロード(無料トライアルあり)、またはiPhone版を入手(買い切り$6.99)。
  2. モデルを選択:幅広い言語ならWhisper Large V3 Turbo、英語の速度重視ならParakeet V3、日本語ならSenseVoice。一度ダウンロードすれば、あとは永久にオフラインで動きます。
  3. そのまま録音するか、Fnキー長押しでシステム全体に音声入力するか、音声・動画ファイル(MP3、WAV、M4A、MP4)をドロップ。
  4. 処理と同時にテキストが流れ込みます。TXTまたはSRTで書き出し可能。

「本当にオフライン?」と疑うなら、先に機内モードをオンにしてみてください。文字起こしはフルスピードで動きます — 何もアップロードされません、一切。

日本語の文字起こし精度 — SenseVoiceという選択肢

Whisperは日本語に対応していますが、日本語に限れば最速の選択肢はSenseVoiceです。Apple MLXフレームワークで動作し、日本語音声を実時間の約52倍で処理します — 1時間の会議録音が1〜2分ほどでテキストになる計算です。中国語・韓国語・広東語にも同様に強く、句読点の付き方も自然です。

議事録づくりとの相性は抜群です:会議を録音してWhisper Notesにドロップすれば、要約や共有の下ごしらえが数分で整います。もちろん完全オフラインなので、社外秘の会議内容がクラウドに触れることはありません。

モデル 日本語の速度 特徴
SenseVoice 実時間の約52倍 日本語最速、自然な句読点
Whisper Large V3 Turbo 実時間の約12倍 100以上の言語に対応(約1.5GB)

よくある質問

Whisper 文字起こしは無料?

モデル自体は無料のオープンソース(MITライセンス)です。whisper.cppなどのコマンドラインツールで動かせば費用はかかりませんが、セットアップが必要です。OpenAIのAPIは音声1分あたり$0.006の従量課金。ネイティブアプリはモデルを使いやすくパッケージ化したもので、Whisper Notesは買い切り$6.99、Mac版には無料トライアルがあります。

Whisper 文字起こしはオフラインで使える?

はい — それこそがオープンな重みの意義です。モデルファイルがデバイス上にあれば、インターネット接続は不要。Whisper NotesはApple Silicon上でCoreML/Metalを使ってWhisper Large V3 Turboを完全オフラインで動かします。機内モードで確認できます。

Whisperで一番精度が高いモデルはどれ?

素の精度が最も高いのはlarge-v3です。large-v3-turboはWERの差がごくわずかで約5倍速く動くため、現在ほとんどのツールでデフォルトになっています。

Whisperは日本語の文字起こしに対応している?

対応しています。Whisperは約100言語をカバーし、日本語も実用レベルです。ただし日本語・中国語・韓国語・広東語に関しては、SenseVoiceのほうがApple Silicon上ではるかに高速で、句読点もより自然に付きます。

iPhoneで使えるWhisper 文字起こしアプリはある?

あります。Whisper NotesはiPhoneのNeural Engine向けに最適化したWhisperモデルを搭載(iPhone 12以降対応)。録音、ボイスメモやファイルからの読み込み、文字起こしまですべてオンデバイスで完結します。買い切り$6.99、サブスクリプションなし。