Whisper Large V3 Turbo のご紹介

2024年11月6日
·
6 min read
·Whisper Notes Team

Whisper NotesがWhisper Large-v3 Turboに対応。文字起こしの精度はそのままで、処理速度が5倍に。現在Apple Silicon搭載Macで使用可能です。

Whisper Large-v3 Turboのイラスト

変更点

1. 5倍速くなった

Turboは標準Whisperの5倍速で音声を処理。実測値:

  • iPhone 15 Pro: 10分の音声が約82秒で完了(従来は425秒)
  • MacBook M2: 10分が約63秒(従来は316秒)
  • バッテリー消費60%削減

2. 精度はそのまま

Turboは速度と引き換えに品質を犠牲にしません:

  • 標準モデルと同じ精度
  • タイムスタンプも正確
  • 80以上の言語、自動言語検出も同じ

3. 完全オフライン

Turboも標準モデルと同じく端末上で動作:

  • すべて端末内で処理。音声データは外部に送信されません
  • サーバー通信なし
  • オフラインで動く

対応端末

現在、Whisper Large-v3 Turboは Apple Silicon搭載Mac(M1/M2/M3/M4以降)でのみ使用可能です。

今後のモデル更新を注視しており、iPhoneおよびiPadでの利用を期待しています。AIモデルがより効率的になるにつれて、Turboをモバイルデバイスに提供できることを願っています。

なぜこの制限があるのか?Whisper Notesは100%オフラインです。ユーザーはインストール後にモデルをダウンロードできません。つまり、主流のデバイス全体でパフォーマンスのバランスを取りながら精度を維持する必要がある、1つのモデルを提供する必要があります。私たちは速度と精度の最適なバランスを見つけることに尽力しています。

比較:10分の音声処理に必要な時間

デバイス Whisper標準版 Whisper Large-v3 Turbo 改善
iPhone 15 Pro 425秒 82秒 5.2倍速く
iPad Pro M2 380秒 71秒 5.4倍速く
MacBook Pro M2 316秒 63秒 5.0倍速く

最近のハードウェアでは、10分の音声が約1分で文字起こしされます。精度は同じで、はるかに高速です。

Mac版

Mac版Whisper NotesはApple Silicon Mac上でTurboモデルを使用します。Mシリーズチップは高速処理に対応しており、文字起こし速度は上記の数値と一致します。