バージョン 1.3.2 から、Mac 版 Whisper Notes はデフォルトの音声エンジンとして NVIDIA Parakeet TDT 0.6B を搭載しています。英語の文字起こしにおいて Whisper Large V3 Turbo の 10 倍速く、精度も上です。他の言語が必要な場合は、Whisper モデルも引き続き利用できます。
デフォルトを切り替えた理由
Whisper は優秀なモデルですが、あくまで汎用モデルです。100 以上の言語に対応し、翻訳もタイムスタンプ生成もできる、まさにスイスアーミーナイフ。その代償がスピードです。英語のディクテーションのように「とにかく速く文字を出したい」用途には、オーバースペックなんですよね。
一番ストレスだったのは、Fn キーでシステム全体の音声入力を使うとき。約 1 分間話してから、文字起こし結果が表示されるまで 3〜5 秒待たされる。この間が流れを完全に壊すんです。話し終わって、カーソルを見つめて、何も出てこない——音声入力の快感が一瞬で消えます。
Parakeet はこれを根本から変えました。話し終わった瞬間に文字が表示される。言葉にした途端、もうそこにある。この感覚——シームレスで待ち時間ゼロの流れ——を一度体験すると、Whisper には本当に戻れなくなります。
Parakeet V3 はどのくらい速いのか
数字で見るのが一番わかりやすいです。同じ Mac で同じ 35 分の音声ファイルを処理した結果がこちら:
| モデル | 35 分の音声 |
|---|---|
| Whisper Large V3 Turbo | 3 分 |
| Parakeet TDT 0.6B v3 | 18 秒 |
10 倍速い。しかもモデルサイズが小さい(6 億 vs 8 億パラメータ)ので、メモリもバッテリーも消費が少ないです。
Parakeet v3 がこんなに速い理由
Whisper は音声を本の朗読のように処理します——一フレームずつ、一語ずつ、先に進むことなく。無音区間でも処理を続け、次の単語を推測し続けます。丁寧ではありますが、遅い。
Parakeet はまったく異なるアプローチを取ります。まず音声信号を 8 倍に圧縮して、重要な情報だけを残します。そして、フレームを一つずつ処理するのではなく、何の単語を言ったかだけでなく、その単語がどのくらいの長さかも同時に予測し、一気に先へジャンプします。無音?丸ごとスキップ。長い母音?何十回も繰り返さず、一回の予測で完了。
その結果、人間の脳のように音声を処理するモデルが生まれました——言葉に集中して、隙間は無視する。だからこそ、より少ないパラメータ、より高い精度で、10 倍のスピードを実現できるのです。
ベンチマーク:Parakeet v3 vs Whisper
Parakeet v3 は FLEURS、CoVoST、MLS ベンチマークで、パラメータ数 2〜4 倍のモデルに匹敵もしくは上回る性能
Hugging Face Open ASR Leaderboard では、Parakeet v3 がわずか 6 億パラメータでトップに立っています。Whisper Large V3 の 15.5 億パラメータの半分以下です:
| モデル | パラメータ数 | 平均 WER | 速度 (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
WER が低いほどエラーが少なく、RTFx が高いほど速い。Parakeet は両方で勝っています。6 億パラメータということは、このリストで最も小さいモデルでもあります。つまり Apple Silicon 上で軽快に動作し、メモリもバッテリーも最小限で済みます。
ハルシネーションとはおさらば
Whisper でディクテーションをしたことがある方なら、無音時にモデルが幻覚を起こすのを見たことがあるかもしれません。フレーズを繰り返したり、存在しない単語を作り出したり、突然「Subtitles by Amara.org」と出力したり。これは Whisper の自己回帰デコーダが、文字起こしすべき内容がなくても常にテキストを生成しようとするために起こります。
NVIDIA は Parakeet を 36,000 時間の純粋な非音声オーディオ(環境音、咳、無音)で訓練し、ターゲット出力をすべて空文字列に設定しました。モデルは「無音とは何か」を学習し、誰も話していないときは黙っています。「常時オン」のシステム全体ディクテーションにおいて、これは画期的です。考え事で間を置いても、画面にゴミテキストが出なくなります。
Parakeet が対応している言語
Parakeet v3 は 25 言語に対応しています:ブルガリア語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、イタリア語、ラトビア語、リトアニア語、マルタ語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、ウクライナ語。
ヨーロッパのほぼ全域をカバーしていますが、中国語、日本語、韓国語、アラビア語、ヒンディー語には対応していません。そのため、Whisper モデルはダウンロード可能なオプションとして残してあります。日本語や中国語でディクテーションする場合は、モデルピッカーから Whisper Large V3 Turbo を選んでください。英語やヨーロッパ言語であれば、Parakeet v3 のほうが断然優れたエンジンです。
モデルピッカー:Parakeet V3(デフォルト)、Whisper Small、Whisper Large V3 Turbo — すべてローカルで動作
Whisper Notes のモデルピッカー
設定を開いてモデルを切り替えられます:
- Parakeet V3(デフォルト)— 最速、英語とヨーロッパ言語に最適
- Whisper Small — 軽量、100 以上の言語に対応
- Whisper Large V3 Turbo — 多言語で最高精度のモデル
すべてのモデルは Mac 上で 100% ローカルに動作します。インターネット不要、クラウド不要、データがデバイスの外に出ることは一切ありません。
試してみてください
Parakeet v3 は Mac 版で今すぐ使えます。最新の DMG をダウンロードするだけです。フィードバックが良ければ、将来のアップデートで iOS 版にも Parakeet を搭載する予定です。
ご質問やフィードバックは support@whispernotes.app までメールでお気軽にどうぞ。