SenseVoice:Mac で中国語・日本語・韓国語の文字起こしが 52 倍速に

2026年5月12日
·
7 min read
·Whisper Notes Team

TL;DR — Mac向け3モデル比較

Parakeet V3 SenseVoice Small Whisper Large V3 Turbo
5分の英語 2.91s (103×) 5.8s (52×) 20.92s (14.3×)
27分の中国語 10.10s (161×) 13.83s (118×) 2 min 4s (13.1×)
対応言語 25(ヨーロッパ言語) 5(zh, en, ja, ko, yue) 99+
ダウンロード 465 MB 827 MB 1.5 GB
メモリ ~800 MB ~700 MB ~1.6 GB
最適な用途 英語・ヨーロッパ言語 中国語、日本語、韓国語、広東語 その他すべて(99+言語)

* 速度ベンチマーク:Apple M4 Pro, 32 GB。5分の英語ポッドキャストと27分の中国語ポッドキャスト。リアルタイム係数 = 音声の長さ ÷ 処理時間(大きいほど速い)。SenseVoice は macOS のみ。iOS は Parakeet(ANE 経由)と Whisper を使用。

バージョン 1.4.8 より、Mac 版 Whisper Notes は中国語・日本語・韓国語・広東語の専用エンジンとして SenseVoice Small を搭載しました。Qwen3-ASR に代わり、CPU ではなく MLX 経由で Apple の GPU 上で動作します。27分の中国語ポッドキャストの処理が3分44秒から13.83秒に短縮されました。

Qwen3-ASR を置き換えた理由

Qwen3-ASR は優れたモデルでした。30言語と22の中国語方言に対応し、中国語の精度はほぼ最先端レベル。しかし、音声が長くなるほど深刻化する問題がありました——速度です。

Qwen3 は自己回帰型アーキテクチャを採用していました。Whisper と同じアプローチで、音声フレームを一つずつ処理し、先に進むことができません。27分の中国語ポッドキャストで73秒。使えなくはないですが、Parakeet V3 が英語で実現する即時結果とは程遠い体験です。

より根本的な問題はインフラにありました。Qwen3 の実装には sherpa-onnx(2,249行の Swift ラッパーを伴う C ライブラリ)を使用しており、すべてを CPU コアで処理していました。Mac の GPU は遊んでいたのです。

SenseVoice は両方の問題を解決しました。速度のための非自己回帰型アーキテクチャ。GPU アクセラレーションのための Apple MLX。その結果:同一ハードウェアで 16.2倍の高速化、コードベースも2,249行から288行に削減。

ベンチマーク

3つのモデルを同一の Apple M4 Pro、同一の音声ファイル、同一条件でテスト。クラウドなし。インターネットなし。純粋にシリコンの力のみ。

モデル 5分の英語 27分の中国語 速度 (RTFx)
Parakeet V3 2.91s 10.10s 103–161×
SenseVoice Small 5.8s 13.83s 52–118×
Whisper Large V3 Turbo 20.92s 2 min 4s 13–14×
Qwen3-ASR(削除済み) 73s 4.7×

SenseVoice は Parakeet V3 の約半分の速度ですが、それでも驚異的な速さです。27分のポッドキャストが14秒で完了。文字起こしボタンを押して一呼吸おけば、テキストが表示されています。

Whisper の2分4秒や旧 Qwen3 の73秒と比べてみてください。パラメータ数よりもアーキテクチャの方が重要なのです。

FunAudioLLM 論文の公式推論速度比較表:SenseVoice-Small(10秒の音声に70ms)vs Whisper-Small(518ms)vs Whisper-Large-V3(1281ms)- モデルアーキテクチャ、パラメータ数、対応言語、RTF、レイテンシを比較

FunAudioLLM 論文の公式推論ベンチマーク:SenseVoice-Small は10秒の音声を70msで処理(A800 GPU)。Whisper-Large-V3 は1,281ms。生の推論レイテンシで18倍の差。

モデル 読み込み時間 メモリ ダウンロードサイズ
Parakeet V3 0.77s ~800 MB 465 MB
SenseVoice Small 0.81s ~700 MB 827 MB
Whisper Small 1.03s ~487 MB 600 MB
Whisper Large V3 Turbo 3.18s ~1.6 GB 3 GB

* 読み込み時間とメモリは Apple M4 Pro, 32 GB で計測。

SenseVoice は1秒以内に読み込まれ、メモリ使用量も Parakeet より少ない。8 GB の Mac でも他のアプリと一緒に快適に動作します。

SenseVoice が速い理由:アーキテクチャ + ランタイム

Qwen3-ASR と SenseVoice の速度差は、2つの独立した要因から生まれています。

要因1:モデルアーキテクチャ。 Qwen3-ASR は自己回帰型で、前のトークンに依存しながらトークンを一つずつ生成します。SenseVoice は非自己回帰型(NAR)エンコーダーを使用し、音声全体を並列処理します。このアーキテクチャの違いだけで、ハードウェアに関係なく SenseVoice は根本的に高速です。

要因2:ランタイム。 Qwen3-ASR の実装は sherpa-onnx を使い CPU で動作していました。SenseVoice は Apple MLX で動作し、計算を GPU にルーティングします。Qwen3 も MLX で動かせたのか?はい。しかしそれでも SenseVoice より遅かったでしょう。自己回帰のボトルネックはランタイムではなくアーキテクチャにあるからです。

Qwen3-ASR(旧) SenseVoice(新)
アーキテクチャ 自己回帰型(トークンごと) 非自己回帰型(並列処理)
ランタイム sherpa-onnx (CPU) Apple MLX (GPU)
27分の中国語 224秒 13.83秒
総合高速化 基準値 16.2倍高速
コードベース 168 MB の C フレームワーク + 2,249行の Swift 288行の Swift Actor

* 同一の27分中国語ポッドキャスト、Apple M4 Pro。16.2倍の高速化はアーキテクチャ(NAR vs AR)とランタイム(GPU vs CPU)の両方の改善を含む。

コードもシンプルになりました。新しい SenseVoice の実装は MLX と直接通信する288行の Swift Actor 1つだけで、168 MB の C フレームワークを置き換えました。コードが減り、バグも減り、アプリも小さくなりました。

5言語を高品質に

SenseVoice はすべてをこなそうとはしません。5つの言語を扱います:

言語 SenseVoice-Small Whisper-Large-V3 勝者
中国語 (zh-CN) 10.78% CER 12.55% CER SenseVoice (-14%)
広東語 (yue) 7.09% CER 10.41% CER SenseVoice (-32%)
日本語 (ja) 11.96% CER 10.34% CER Whisper(わずかに優位)
韓国語 (ko) 8.28% CER 5.59% CER Whisper
英語 (en) 14.71% WER 9.39% WER Whisper(Parakeet 推奨)

* CommonVoice ベンチマーク、CER = 文字誤り率、WER = 単語誤り率。低いほど良い。出典:FunAudioLLM 論文 (2024)。SenseVoice-Small の推論レイテンシ:10秒の音声に70ms(A800 GPU)、Whisper-Large-V3 の15倍以上高速。

CommonVoice ベンチマークにおける SenseVoice vs Whisper の精度比較:中国語、広東語、英語、日本語、韓国語、他25言語の WER/CER 棒グラフ

CommonVoice ベンチマーク:SenseVoice-Small(黄)vs Whisper-Small(青)vs Whisper-Large-V3(橙)。低いほど良い。出典:FunAudioLLM 論文

数字は正直な結果を示しています。SenseVoice は中国語と広東語の精度で Whisper を大幅に上回る一方、日本語・韓国語・英語では Whisper の方が正確です。しかし SenseVoice は Whisper-Large-V3 の 15倍以上高速です。実際の使用では、わずかな精度の差より速度の差の方が重要です。

広東語の結果は特筆に値します。Whisper-Small は広東語で38.97% CER——ほぼ使い物にならないレベルです。Whisper-Large-V3 でも10.41%。SenseVoice は7.09%。SenseVoice 以前は、Mac 上でローカルに広東語を文字起こしする良い方法がありませんでした。広東語を話す方にとって、このモデルは待ち望んでいたものです。

Mac 版 Whisper Notes での SenseVoice 韓国語文字起こし結果、動画からの正確な韓国語テキスト表示

SenseVoice による韓国語文字起こし:タイムスタンプ付き字幕での動画インポート

実環境テスト:27分の中国語ポッドキャスト

中国語のインタビューポッドキャスト Thirteen Invitations(十三邀)の27分エピソードを、同一 M4 Pro 上で SenseVoice と Whisper Large V3 Turbo の両方で文字起こししました。ElevenLabs Scribe(クラウド)をリファレンスとして使用。両方のオンデバイスモデルでエラー数はほぼ同じですが、エラーの種類が異なります:

SenseVoice Whisper Large V3
処理時間 13.83s 2 min 4s
エラー数(5分サンプル) ~15–20 ~12–15
最悪のエラー 时差→食堂(タイムゾーン→食堂) 西昌→西藏(Xīchāng 市→チベット、4,000 km のずれ)
エラーパターン 同音異義語の取り違え 地理・事実関連のエラー

* ElevenLabs Scribe(クラウドリファレンス、こちらも完璧ではない)との手動比較。両方のオンデバイスモデルは「根深蒂固」を正しく書き起こしたが、Scribe は誤った。

精度はほぼ同等。9倍高速。実際の中国語文字起こしでは、Whisper の読み込みが終わる前に SenseVoice が使えるトランスクリプトを出力しています。

どのモデルをいつ使うべきか

Mac 版 Whisper Notes には4つの音声モデルが搭載されています。それぞれ異なるシナリオに最適化されています:

用途 推奨モデル 理由
英語やヨーロッパ言語、最高速度 Parakeet V3 103× リアルタイム、最低エラー率。デフォルト。
中国語、日本語、韓国語、広東語 SenseVoice Small 52–118× リアルタイム。広東語対応の唯一のモデル。
99+言語のいずれか(アラビア語、タイ語、ロシア語など) Whisper Large V3 Turbo 最も幅広い言語対応。遅いが万能。
メモリ消費を抑えたい(古い Mac) Whisper Small 487 MB メモリ。8 GB の Mac でも快適。
Whisper Notes Mac のモデルピッカー。Parakeet V3、SenseVoice Small、Whisper Small、Whisper Large V3 Turbo がダウンロードサイズと対応言語とともに表示

設定 → 文字起こしモデル:言語に合ったエンジンを選択

設定のモデルピッカーに4つのオプションがすべて表示され、ダウンロードサイズ、対応言語数、メモリ要件が確認できます。SenseVoice は初回使用時にダウンロード(約827 MB)され、デバイスに保存されます。

トレードオフ

SenseVoice は万能モデルではありません。できないことは以下の通りです:

5言語のみ。 タイ語、ロシア語、アラビア語、ヒンディー語、その他 Whisper が対応する90+言語が必要な場合は、Whisper を使ってください。

Mac のみ。 SenseVoice は Apple MLX で動作するため macOS が必要です。iPhone では利用できません。iOS ユーザーは Parakeet(ヨーロッパ言語向け)と Whisper をご利用ください。

静音時の挙動。 非常に短いまたは非常に静かなセグメントでは、選択した言語に関係なく SenseVoice が中国語を出力することがあります。言語を「自動」ではなく手動で設定すると軽減されます。

ストリーミング非対応。 Whisper のストリーミングモードと異なり、SenseVoice は録音後に音声全体を処理します。長いファイルの場合、無音点で自動分割し、結果を順次表示します。

これらはバグではなくアーキテクチャ上の制約です。5言語で訓練されたモデルはその5言語を極めて高品質に処理します。Whisper の99+言語対応は、速度の低下と個別言語でのエラー率の上昇を伴います。

試してみてください

SenseVoice は Mac 版 Whisper Notes v1.4.8 以降で利用可能です。設定 → 文字起こしモデル → SenseVoice Small(約827 MB)からダウンロードしてください。Apple Silicon Mac(M1以降)が必要です。

Parakeet V3 をお使いで主に英語を音声入力している場合は、切り替える必要はありません。SenseVoice は中国語・日本語・韓国語・広東語が必要で、しかも高速に処理したいときのためのモデルです。

Mac 版をダウンロード

変更履歴:whispernotes.app/changelog

ご質問・フィードバック:mac@whispernotes.app