ブログに戻る

Mistral Voxtralのご紹介:革命的なオープンソース音声AI

2025年8月2日
8 min read
Whisper Notes Team

Mistralが初の音声認識モデルVoxtralをリリース。オープンソース。GPT-4o Audioより92%安い。競争力も十分。なぜWhisper NotesがWhisperを使い続けるか、説明します。

Mistral Voxtralパフォーマンスベンチマーク

2つのモデル

2つのバージョン。

Voxtral Small

  • 12Bパラメータ
  • 高精度、ノイズに強い
  • 処理が遅く、リソース消費が大きい
  • 複雑な音声に適している

Voxtral Mini

  • 小型で高速
  • リアルタイム処理
  • 低要件
  • エッジデバイスで動作

オープンソース

Voxtralはオープンソース。GPT-4o Audioと違い、自分でダウンロードして実行できる。

  • 完全なモデルウェイトが利用可能
  • どこでもデプロイ、必要に応じて変更可能
  • APIコストやベンダーロックインなし
  • 自社サーバーで音声処理

ベンチマーク

WER(単語誤り率)の比較。Voxtral SmallがGPT-4o Audioを上回る。低いほど良い。

Voxtral WERベンチマーク比較

音声認識モデルのWER比較

モデル WER(英語) 多言語WER 処理速度
Voxtral Small 2.1% 3.8% 速い
Voxtral Mini 3.2% 4.9% 非常に速い
GPT-4o Audio 2.8% 4.1% 遅い
Whisper Large v3 2.4% 3.9% 普通

価格

VoxtralはGPT-4o Audioより92%安い。

Voxtral Small

$0.20
100万トークンあたり

GPT-4o Audio

$2.50
100万トークンあたり

コスト削減

92%
vs GPT-4o Audio

仕組み

主要な技術革新。

1. マルチモーダルアーキテクチャ

音声とテキストを一緒に処理。

  • 音声とコンテキストを同時に理解
  • 最大2時間の音声を処理
  • アクセントやノイズにリアルタイムで対応

ストリーミングエンコーダー

30msチャンクで音声処理。遅延200ms。会議やインタビューのリアルタイム処理に十分速い。

2. 訓練データセット

大規模多言語データセット。実環境を含む。

  • 108言語、230万時間の音声
  • ノイズ、残響、圧縮の影響を含む音声で訓練
  • 以前の訓練を忘れずに継続学習

3. 効率化の最適化

高速推論のための技術改善。

  • Flash Attention v3:メモリ70%削減、処理高速化
  • 音声の複雑さに応じて計算を調整
  • 精度損失が最小の4ビット量子化(WER増加< 0.1%)

4. 主要機能

コンテキスト理解

会話全体のコンテキストを維持。会議、インタビュー、長時間の録音に適しています。

多言語対応

108言語をサポート、自動検出機能付き。同じ音声内での言語切り替えに対応。

ノイズ処理

残響、エコー、背景ノイズに自動的に対応。

エッジデプロイ

4GBのRAMで動作。デバイス上での文字起こしが可能。

5. アーキテクチャ

3つの主要コンポーネント。

  1. 1. オーディオエンコーダー: 音声を音響表現に変換
  2. 2. マルチモーダル融合: 音声とテキスト理解を整合
  3. 3. 言語デコーダー: 音声用にファインチューニング

効率的で、高精度。

Whisper Notesを選ぶ理由

Voxtralは優れてる。でも個人利用ならWhisper Notesの方が適してる。

Whisper Notesの特徴

プライバシー

  • 100%オフライン処理
  • データ送信なし
  • クラウド依存なし

パフォーマンス

  • Whisper技術、実績のある精度
  • Apple Silicon向けに最適化
  • 安定した結果

コスト

  • 4.99ドル、買い切り
  • 分単位の課金なし
  • 無制限の文字起こし

ユーザー体験

  • シンプルなインターフェース
  • 定期的なアップデート
  • 継続的な改善

ストレージ要件

Voxtralは個人ユーザーに実用的じゃない。Miniでも9GB以上のストレージが必要。一般的なMacには重すぎる。

Whisper NotesはWhisper Large-v3 Turbo使用。パフォーマンス、速度、VRAM要件のバランスが取れてる。より良いモデルが出たらアップグレード。

Voxtralは開発者向け。Whisper Notesはプライバシー重視の個人ユーザー向け。サブスクリプションなし。

今後の展望

Voxtralは音声認識の前進。オープンソースモデルが業界を前進させる。

でも今は、MacとiPhoneのプライベートオフライン文字起こしなら、Whisper Notesが最良。

Whisper Notesを試す

iPhoneとMac向けオフライン文字起こし。4.99ドル買い切り。サブスクなし。

Whisper Notesをダウンロード

Whisper Notes

音声を録音して文字に変換。音声ファイルの読み込みにも対応。完全オフラインで動作するWhisper文字起こしアプリ。インターネット不要、データ送信なし、月額料金なし。4.99ドルの買い切り。iPhone・Mac対応。

お問い合わせ

ご質問やビジネス協力については、お気軽にお問い合わせください:[email protected]

© 2025 Whisper Notes. All rights reserved.