TL;DR — Mac向け3モデル比較
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5分の英語 | 2.91s (103×) | 5.8s (52×) | 20.92s (14.3×) |
| 27分の中国語 | 10.10s (161×) | 13.83s (118×) | 2 min 4s (13.1×) |
| 対応言語 | 25(ヨーロッパ言語) | 5(zh, en, ja, ko, yue) | 99+ |
| ダウンロード | 465 MB | 827 MB | 1.5 GB |
| メモリ | ~800 MB | ~700 MB | ~1.6 GB |
| 最適な用途 | 英語・ヨーロッパ言語 | 中国語、日本語、韓国語、広東語 | その他すべて(99+言語) |
* 速度ベンチマーク:Apple M4 Pro, 32 GB。5分の英語ポッドキャストと27分の中国語ポッドキャスト。リアルタイム係数 = 音声の長さ ÷ 処理時間(大きいほど速い)。SenseVoice は macOS のみ。iOS は Parakeet(ANE 経由)と Whisper を使用。
バージョン 1.4.8 より、Mac 版 Whisper Notes は中国語・日本語・韓国語・広東語の専用エンジンとして SenseVoice Small を搭載しました。Qwen3-ASR に代わり、CPU ではなく MLX 経由で Apple の GPU 上で動作します。27分の中国語ポッドキャストの処理が3分44秒から13.83秒に短縮されました。
Qwen3-ASR を置き換えた理由
Qwen3-ASR は優れたモデルでした。30言語と22の中国語方言に対応し、中国語の精度はほぼ最先端レベル。しかし、音声が長くなるほど深刻化する問題がありました——速度です。
Qwen3 は自己回帰型アーキテクチャを採用していました。Whisper と同じアプローチで、音声フレームを一つずつ処理し、先に進むことができません。27分の中国語ポッドキャストで73秒。使えなくはないですが、Parakeet V3 が英語で実現する即時結果とは程遠い体験です。
より根本的な問題はインフラにありました。Qwen3 の実装には sherpa-onnx(2,249行の Swift ラッパーを伴う C ライブラリ)を使用しており、すべてを CPU コアで処理していました。Mac の GPU は遊んでいたのです。
SenseVoice は両方の問題を解決しました。速度のための非自己回帰型アーキテクチャ。GPU アクセラレーションのための Apple MLX。その結果:同一ハードウェアで 16.2倍の高速化、コードベースも2,249行から288行に削減。
ベンチマーク
3つのモデルを同一の Apple M4 Pro、同一の音声ファイル、同一条件でテスト。クラウドなし。インターネットなし。純粋にシリコンの力のみ。
| モデル | 5分の英語 | 27分の中国語 | 速度 (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2.91s | 10.10s | 103–161× |
| SenseVoice Small | 5.8s | 13.83s | 52–118× |
| Whisper Large V3 Turbo | 20.92s | 2 min 4s | 13–14× |
| Qwen3-ASR(削除済み) | — | 73s | 4.7× |
SenseVoice は Parakeet V3 の約半分の速度ですが、それでも驚異的な速さです。27分のポッドキャストが14秒で完了。文字起こしボタンを押して一呼吸おけば、テキストが表示されています。
Whisper の2分4秒や旧 Qwen3 の73秒と比べてみてください。パラメータ数よりもアーキテクチャの方が重要なのです。
FunAudioLLM 論文の公式推論ベンチマーク:SenseVoice-Small は10秒の音声を70msで処理(A800 GPU)。Whisper-Large-V3 は1,281ms。生の推論レイテンシで18倍の差。
| モデル | 読み込み時間 | メモリ | ダウンロードサイズ |
|---|---|---|---|
| Parakeet V3 | 0.77s | ~800 MB | 465 MB |
| SenseVoice Small | 0.81s | ~700 MB | 827 MB |
| Whisper Small | 1.03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3.18s | ~1.6 GB | 3 GB |
* 読み込み時間とメモリは Apple M4 Pro, 32 GB で計測。
SenseVoice は1秒以内に読み込まれ、メモリ使用量も Parakeet より少ない。8 GB の Mac でも他のアプリと一緒に快適に動作します。
SenseVoice が速い理由:アーキテクチャ + ランタイム
Qwen3-ASR と SenseVoice の速度差は、2つの独立した要因から生まれています。
要因1:モデルアーキテクチャ。 Qwen3-ASR は自己回帰型で、前のトークンに依存しながらトークンを一つずつ生成します。SenseVoice は非自己回帰型(NAR)エンコーダーを使用し、音声全体を並列処理します。このアーキテクチャの違いだけで、ハードウェアに関係なく SenseVoice は根本的に高速です。
要因2:ランタイム。 Qwen3-ASR の実装は sherpa-onnx を使い CPU で動作していました。SenseVoice は Apple MLX で動作し、計算を GPU にルーティングします。Qwen3 も MLX で動かせたのか?はい。しかしそれでも SenseVoice より遅かったでしょう。自己回帰のボトルネックはランタイムではなくアーキテクチャにあるからです。
| Qwen3-ASR(旧) | SenseVoice(新) | |
|---|---|---|
| アーキテクチャ | 自己回帰型(トークンごと) | 非自己回帰型(並列処理) |
| ランタイム | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27分の中国語 | 224秒 | 13.83秒 |
| 総合高速化 | 基準値 | 16.2倍高速 |
| コードベース | 168 MB の C フレームワーク + 2,249行の Swift | 288行の Swift Actor |
* 同一の27分中国語ポッドキャスト、Apple M4 Pro。16.2倍の高速化はアーキテクチャ(NAR vs AR)とランタイム(GPU vs CPU)の両方の改善を含む。
コードもシンプルになりました。新しい SenseVoice の実装は MLX と直接通信する288行の Swift Actor 1つだけで、168 MB の C フレームワークを置き換えました。コードが減り、バグも減り、アプリも小さくなりました。
5言語を高品質に
SenseVoice はすべてをこなそうとはしません。5つの言語を扱います:
| 言語 | SenseVoice-Small | Whisper-Large-V3 | 勝者 |
|---|---|---|---|
| 中国語 (zh-CN) | 10.78% CER | 12.55% CER | SenseVoice (-14%) |
| 広東語 (yue) | 7.09% CER | 10.41% CER | SenseVoice (-32%) |
| 日本語 (ja) | 11.96% CER | 10.34% CER | Whisper(わずかに優位) |
| 韓国語 (ko) | 8.28% CER | 5.59% CER | Whisper |
| 英語 (en) | 14.71% WER | 9.39% WER | Whisper(Parakeet 推奨) |
* CommonVoice ベンチマーク、CER = 文字誤り率、WER = 単語誤り率。低いほど良い。出典:FunAudioLLM 論文 (2024)。SenseVoice-Small の推論レイテンシ:10秒の音声に70ms(A800 GPU)、Whisper-Large-V3 の15倍以上高速。
CommonVoice ベンチマーク:SenseVoice-Small(黄)vs Whisper-Small(青)vs Whisper-Large-V3(橙)。低いほど良い。出典:FunAudioLLM 論文
数字は正直な結果を示しています。SenseVoice は中国語と広東語の精度で Whisper を大幅に上回る一方、日本語・韓国語・英語では Whisper の方が正確です。しかし SenseVoice は Whisper-Large-V3 の 15倍以上高速です。実際の使用では、わずかな精度の差より速度の差の方が重要です。
広東語の結果は特筆に値します。Whisper-Small は広東語で38.97% CER——ほぼ使い物にならないレベルです。Whisper-Large-V3 でも10.41%。SenseVoice は7.09%。SenseVoice 以前は、Mac 上でローカルに広東語を文字起こしする良い方法がありませんでした。広東語を話す方にとって、このモデルは待ち望んでいたものです。
SenseVoice による韓国語文字起こし:タイムスタンプ付き字幕での動画インポート
実環境テスト:27分の中国語ポッドキャスト
中国語のインタビューポッドキャスト Thirteen Invitations(十三邀)の27分エピソードを、同一 M4 Pro 上で SenseVoice と Whisper Large V3 Turbo の両方で文字起こししました。ElevenLabs Scribe(クラウド)をリファレンスとして使用。両方のオンデバイスモデルでエラー数はほぼ同じですが、エラーの種類が異なります:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| 処理時間 | 13.83s | 2 min 4s |
| エラー数(5分サンプル) | ~15–20 | ~12–15 |
| 最悪のエラー | 时差→食堂(タイムゾーン→食堂) | 西昌→西藏(Xīchāng 市→チベット、4,000 km のずれ) |
| エラーパターン | 同音異義語の取り違え | 地理・事実関連のエラー |
* ElevenLabs Scribe(クラウドリファレンス、こちらも完璧ではない)との手動比較。両方のオンデバイスモデルは「根深蒂固」を正しく書き起こしたが、Scribe は誤った。
精度はほぼ同等。9倍高速。実際の中国語文字起こしでは、Whisper の読み込みが終わる前に SenseVoice が使えるトランスクリプトを出力しています。
どのモデルをいつ使うべきか
Mac 版 Whisper Notes には4つの音声モデルが搭載されています。それぞれ異なるシナリオに最適化されています:
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| 英語やヨーロッパ言語、最高速度 | Parakeet V3 | 103× リアルタイム、最低エラー率。デフォルト。 |
| 中国語、日本語、韓国語、広東語 | SenseVoice Small | 52–118× リアルタイム。広東語対応の唯一のモデル。 |
| 99+言語のいずれか(アラビア語、タイ語、ロシア語など) | Whisper Large V3 Turbo | 最も幅広い言語対応。遅いが万能。 |
| メモリ消費を抑えたい(古い Mac) | Whisper Small | 487 MB メモリ。8 GB の Mac でも快適。 |
設定 → 文字起こしモデル:言語に合ったエンジンを選択
設定のモデルピッカーに4つのオプションがすべて表示され、ダウンロードサイズ、対応言語数、メモリ要件が確認できます。SenseVoice は初回使用時にダウンロード(約827 MB)され、デバイスに保存されます。
トレードオフ
SenseVoice は万能モデルではありません。できないことは以下の通りです:
• 5言語のみ。 タイ語、ロシア語、アラビア語、ヒンディー語、その他 Whisper が対応する90+言語が必要な場合は、Whisper を使ってください。
• Mac のみ。 SenseVoice は Apple MLX で動作するため macOS が必要です。iPhone では利用できません。iOS ユーザーは Parakeet(ヨーロッパ言語向け)と Whisper をご利用ください。
• 静音時の挙動。 非常に短いまたは非常に静かなセグメントでは、選択した言語に関係なく SenseVoice が中国語を出力することがあります。言語を「自動」ではなく手動で設定すると軽減されます。
• ストリーミング非対応。 Whisper のストリーミングモードと異なり、SenseVoice は録音後に音声全体を処理します。長いファイルの場合、無音点で自動分割し、結果を順次表示します。
これらはバグではなくアーキテクチャ上の制約です。5言語で訓練されたモデルはその5言語を極めて高品質に処理します。Whisper の99+言語対応は、速度の低下と個別言語でのエラー率の上昇を伴います。
試してみてください
SenseVoice は Mac 版 Whisper Notes v1.4.8 以降で利用可能です。設定 → 文字起こしモデル → SenseVoice Small(約827 MB)からダウンロードしてください。Apple Silicon Mac(M1以降)が必要です。
Parakeet V3 をお使いで主に英語を音声入力している場合は、切り替える必要はありません。SenseVoice は中国語・日本語・韓国語・広東語が必要で、しかも高速に処理したいときのためのモデルです。
変更履歴:whispernotes.app/changelog
ご質問・フィードバック:mac@whispernotes.app