SenseVoice：Mac で中国語・日本語・韓国語の文字起こしが 52 倍速に

TL;DR — Mac向け3モデル比較

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5分の英語	2.91s (103×)	5.8s (52×)	20.92s (14.3×)
27分の中国語	10.10s (161×)	13.83s (118×)	2 min 4s (13.1×)
対応言語	25（ヨーロッパ言語）	5（zh, en, ja, ko, yue）	99+
ダウンロード	465 MB	827 MB	1.5 GB
メモリ	~800 MB	~700 MB	~1.6 GB
最適な用途	英語・ヨーロッパ言語	中国語、日本語、韓国語、広東語	その他すべて（99+言語）

* 速度ベンチマーク：Apple M4 Pro, 32 GB。5分の英語ポッドキャストと27分の中国語ポッドキャスト。リアルタイム係数 = 音声の長さ ÷ 処理時間（大きいほど速い）。SenseVoice は macOS のみ。iOS は Parakeet（ANE 経由）と Whisper を使用。

バージョン 1.4.8 より、Mac 版 Whisper Notes は中国語・日本語・韓国語・広東語の専用エンジンとして SenseVoice Small を搭載しました。Qwen3-ASR に代わり、CPU ではなく MLX 経由で Apple の GPU 上で動作します。27分の中国語ポッドキャストの処理が3分44秒から13.83秒に短縮されました。

Qwen3-ASR を置き換えた理由

Qwen3-ASR は優れたモデルでした。30言語と22の中国語方言に対応し、中国語の精度はほぼ最先端レベル。しかし、音声が長くなるほど深刻化する問題がありました——速度です。

Qwen3 は自己回帰型アーキテクチャを採用していました。Whisper と同じアプローチで、音声フレームを一つずつ処理し、先に進むことができません。27分の中国語ポッドキャストで73秒。使えなくはないですが、Parakeet V3 が英語で実現する即時結果とは程遠い体験です。

より根本的な問題はインフラにありました。Qwen3 の実装には sherpa-onnx（2,249行の Swift ラッパーを伴う C ライブラリ）を使用しており、すべてを CPU コアで処理していました。Mac の GPU は遊んでいたのです。

SenseVoice は両方の問題を解決しました。速度のための非自己回帰型アーキテクチャ。GPU アクセラレーションのための Apple MLX。その結果：同一ハードウェアで 16.2倍の高速化、コードベースも2,249行から288行に削減。

ベンチマーク

3つのモデルを同一の Apple M4 Pro、同一の音声ファイル、同一条件でテスト。クラウドなし。インターネットなし。純粋にシリコンの力のみ。

モデル	5分の英語	27分の中国語	速度 (RTFx)
Parakeet V3	2.91s	10.10s	103–161×
SenseVoice Small	5.8s	13.83s	52–118×
Whisper Large V3 Turbo	20.92s	2 min 4s	13–14×
Qwen3-ASR（削除済み）	—	73s	4.7×

SenseVoice は Parakeet V3 の約半分の速度ですが、それでも驚異的な速さです。27分のポッドキャストが14秒で完了。文字起こしボタンを押して一呼吸おけば、テキストが表示されています。

Whisper の2分4秒や旧 Qwen3 の73秒と比べてみてください。パラメータ数よりもアーキテクチャの方が重要なのです。

FunAudioLLM 論文の公式推論速度比較表：SenseVoice-Small（10秒の音声に70ms）vs Whisper-Small（518ms）vs Whisper-Large-V3（1281ms）- モデルアーキテクチャ、パラメータ数、対応言語、RTF、レイテンシを比較

FunAudioLLM 論文の公式推論ベンチマーク：SenseVoice-Small は10秒の音声を70msで処理（A800 GPU）。Whisper-Large-V3 は1,281ms。生の推論レイテンシで18倍の差。

モデル	読み込み時間	メモリ	ダウンロードサイズ
Parakeet V3	0.77s	~800 MB	465 MB
SenseVoice Small	0.81s	~700 MB	827 MB
Whisper Small	1.03s	~487 MB	600 MB
Whisper Large V3 Turbo	3.18s	~1.6 GB	3 GB

* 読み込み時間とメモリは Apple M4 Pro, 32 GB で計測。

SenseVoice は1秒以内に読み込まれ、メモリ使用量も Parakeet より少ない。8 GB の Mac でも他のアプリと一緒に快適に動作します。

SenseVoice が速い理由：アーキテクチャ + ランタイム

Qwen3-ASR と SenseVoice の速度差は、2つの独立した要因から生まれています。

要因1：モデルアーキテクチャ。 Qwen3-ASR は自己回帰型で、前のトークンに依存しながらトークンを一つずつ生成します。SenseVoice は非自己回帰型（NAR）エンコーダーを使用し、音声全体を並列処理します。このアーキテクチャの違いだけで、ハードウェアに関係なく SenseVoice は根本的に高速です。

要因2：ランタイム。 Qwen3-ASR の実装は sherpa-onnx を使い CPU で動作していました。SenseVoice は Apple MLX で動作し、計算を GPU にルーティングします。Qwen3 も MLX で動かせたのか？はい。しかしそれでも SenseVoice より遅かったでしょう。自己回帰のボトルネックはランタイムではなくアーキテクチャにあるからです。

	Qwen3-ASR（旧）	SenseVoice（新）
アーキテクチャ	自己回帰型（トークンごと）	非自己回帰型（並列処理）
ランタイム	sherpa-onnx (CPU)	Apple MLX (GPU)
27分の中国語	224秒	13.83秒
総合高速化	基準値	16.2倍高速
コードベース	168 MB の C フレームワーク + 2,249行の Swift	288行の Swift Actor

* 同一の27分中国語ポッドキャスト、Apple M4 Pro。16.2倍の高速化はアーキテクチャ（NAR vs AR）とランタイム（GPU vs CPU）の両方の改善を含む。

コードもシンプルになりました。新しい SenseVoice の実装は MLX と直接通信する288行の Swift Actor 1つだけで、168 MB の C フレームワークを置き換えました。コードが減り、バグも減り、アプリも小さくなりました。

5言語を高品質に

SenseVoice はすべてをこなそうとはしません。5つの言語を扱います：

言語	SenseVoice-Small	Whisper-Large-V3	勝者
中国語 (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
広東語 (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
日本語 (ja)	11.96% CER	10.34% CER	Whisper（わずかに優位）
韓国語 (ko)	8.28% CER	5.59% CER	Whisper
英語 (en)	14.71% WER	9.39% WER	Whisper（Parakeet 推奨）

* CommonVoice ベンチマーク、CER = 文字誤り率、WER = 単語誤り率。低いほど良い。出典：FunAudioLLM 論文 (2024)。SenseVoice-Small の推論レイテンシ：10秒の音声に70ms（A800 GPU）、Whisper-Large-V3 の15倍以上高速。

CommonVoice ベンチマークにおける SenseVoice vs Whisper の精度比較：中国語、広東語、英語、日本語、韓国語、他25言語の WER/CER 棒グラフ

CommonVoice ベンチマーク：SenseVoice-Small（黄）vs Whisper-Small（青）vs Whisper-Large-V3（橙）。低いほど良い。出典：FunAudioLLM 論文

数字は正直な結果を示しています。SenseVoice は中国語と広東語の精度で Whisper を大幅に上回る一方、日本語・韓国語・英語では Whisper の方が正確です。しかし SenseVoice は Whisper-Large-V3 の 15倍以上高速です。実際の使用では、わずかな精度の差より速度の差の方が重要です。

広東語の結果は特筆に値します。Whisper-Small は広東語で38.97% CER——ほぼ使い物にならないレベルです。Whisper-Large-V3 でも10.41%。SenseVoice は7.09%。SenseVoice 以前は、Mac 上でローカルに広東語を文字起こしする良い方法がありませんでした。広東語を話す方にとって、このモデルは待ち望んでいたものです。

Mac 版 Whisper Notes での SenseVoice 韓国語文字起こし結果、動画からの正確な韓国語テキスト表示

SenseVoice による韓国語文字起こし：タイムスタンプ付き字幕での動画インポート

実環境テスト：27分の中国語ポッドキャスト

中国語のインタビューポッドキャスト Thirteen Invitations（十三邀）の27分エピソードを、同一 M4 Pro 上で SenseVoice と Whisper Large V3 Turbo の両方で文字起こししました。ElevenLabs Scribe（クラウド）をリファレンスとして使用。両方のオンデバイスモデルでエラー数はほぼ同じですが、エラーの種類が異なります：

	SenseVoice	Whisper Large V3
処理時間	13.83s	2 min 4s
エラー数（5分サンプル）	~15–20	~12–15
最悪のエラー	时差→食堂（タイムゾーン→食堂）	西昌→西藏（Xīchāng 市→チベット、4,000 km のずれ）
エラーパターン	同音異義語の取り違え	地理・事実関連のエラー

* ElevenLabs Scribe（クラウドリファレンス、こちらも完璧ではない）との手動比較。両方のオンデバイスモデルは「根深蒂固」を正しく書き起こしたが、Scribe は誤った。

精度はほぼ同等。9倍高速。実際の中国語文字起こしでは、Whisper の読み込みが終わる前に SenseVoice が使えるトランスクリプトを出力しています。

どのモデルをいつ使うべきか

Mac 版 Whisper Notes には4つの音声モデルが搭載されています。それぞれ異なるシナリオに最適化されています：

用途	推奨モデル	理由
英語やヨーロッパ言語、最高速度	Parakeet V3	103× リアルタイム、最低エラー率。デフォルト。
中国語、日本語、韓国語、広東語	SenseVoice Small	52–118× リアルタイム。広東語対応の唯一のモデル。
99+言語のいずれか（アラビア語、タイ語、ロシア語など）	Whisper Large V3 Turbo	最も幅広い言語対応。遅いが万能。
メモリ消費を抑えたい（古い Mac）	Whisper Small	487 MB メモリ。8 GB の Mac でも快適。

Whisper Notes Mac のモデルピッカー。Parakeet V3、SenseVoice Small、Whisper Small、Whisper Large V3 Turbo がダウンロードサイズと対応言語とともに表示

設定 → 文字起こしモデル：言語に合ったエンジンを選択

設定のモデルピッカーに4つのオプションがすべて表示され、ダウンロードサイズ、対応言語数、メモリ要件が確認できます。SenseVoice は初回使用時にダウンロード（約827 MB）され、デバイスに保存されます。

トレードオフ

SenseVoice は万能モデルではありません。できないことは以下の通りです：

• 5言語のみ。 タイ語、ロシア語、アラビア語、ヒンディー語、その他 Whisper が対応する90+言語が必要な場合は、Whisper を使ってください。

• Mac のみ。 SenseVoice は Apple MLX で動作するため macOS が必要です。iPhone では利用できません。iOS ユーザーは Parakeet（ヨーロッパ言語向け）と Whisper をご利用ください。

• 静音時の挙動。 非常に短いまたは非常に静かなセグメントでは、選択した言語に関係なく SenseVoice が中国語を出力することがあります。言語を「自動」ではなく手動で設定すると軽減されます。

• ストリーミング非対応。 Whisper のストリーミングモードと異なり、SenseVoice は録音後に音声全体を処理します。長いファイルの場合、無音点で自動分割し、結果を順次表示します。

これらはバグではなくアーキテクチャ上の制約です。5言語で訓練されたモデルはその5言語を極めて高品質に処理します。Whisper の99+言語対応は、速度の低下と個別言語でのエラー率の上昇を伴います。

試してみてください

SenseVoice は Mac 版 Whisper Notes v1.4.8 以降で利用可能です。設定 → 文字起こしモデル → SenseVoice Small（約827 MB）からダウンロードしてください。Apple Silicon Mac（M1以降）が必要です。

Parakeet V3 をお使いで主に英語を音声入力している場合は、切り替える必要はありません。SenseVoice は中国語・日本語・韓国語・広東語が必要で、しかも高速に処理したいときのためのモデルです。

Mac 版をダウンロード

変更履歴：whispernotes.app/changelog

ご質問・フィードバック：mac@whispernotes.app