Mac でオフライン会議文字起こし：Zoom、Teams、Meet をローカルで録音

Mac向けのオフライン会議文字起こしを作りました。Zoom、Teams、Google Meetの通話を録音し、Parakeet V3でローカル文字起こしを行い、Gemma 4で要約を生成します。クラウドなし、通話にボットなし。$6.99の買い切り。

Whisper NotesがMac上でZoom会議を録音し、リアルタイム文字起こしで「自分」と「相手」の発言ラベルを表示

Whisper NotesでZoom通話を録音中 — 音声ソースによって「自分」と「相手」がラベル付けされる

よくある月曜日

午前10時、クライアントとのZoom会議。Whisper Notesを開いて録音ボタンを押す。アプリはシステム音声とマイクを同時にキャプチャする。会議にボットは入らない、誰にも通知は届かない、参加者リストには何も表示されない。

1時間後、通話が終わる。録音を停止。Parakeet V3が60分の音声を約1分で文字起こしする。すべてMacのNeural Engine上で完結。「要約」をタップすればGemma 4がポイントを抽出。「アクションアイテム」をタップすれば、言及されたタスクと期限がリストアップされる。議事録をクライアントに送る。音声データは一度もマシンの外に出ていない。

ワークフローはこれだけ。録音、文字起こし、要約。すべてローカル。

できること

録音

Whisper Notesはシステム音声をキャプチャします。スピーカーやヘッドフォンから出ている音、つまりMacで聞こえる音なら何でも文字起こしできます。Zoom、Teams、Google Meet、Webex、GoTo、Whereby、Jitsi、YouTube、ポッドキャスト、その他あらゆるアプリ。同時にマイクも録音するので、会話の両方が記録されます。

通話にボットは参加しません。これは思った以上に重要です。Zoom会議で「Otter.ai Notetaker has joined the meeting」というポップアップを見たことがあれば、その後どうなるかご存じでしょう。誰かがあれは何かと尋ね、誰かが不快に思い、会話の空気が変わる。システム音声キャプチャなら、録音していることを知っているのは自分だけです。

文字起こし

Parakeet V3はCoreML経由でApple Silicon上で動作します。英語と24のヨーロッパ言語をリアルタイムの約60倍の速度で処理し、60分の会議が約1分で完了します。中国語、日本語、韓国語の場合はSenseVoiceがCJKを52倍の速度で処理します。Pyannote VADが文字起こし前に無音区間を除去するため、モデルは実際の音声のみを処理します。

タイムスタンプ付きの文字起こしとインライン編集 — 任意のセグメントをクリックすると音声のその位置にジャンプ

AI機能 — すべてローカル

Gemma 4はMac上で動作します。APIキー不要、クラウド接続不要、利用制限なし。文字起こし後に：

•要約 — 60分の会議の要点を数秒で抽出
•アクションアイテム — タスクと期限を自動で抽出
•翻訳 — Apple Intelligenceで文字起こしを別の言語に翻訳
•チャット — 「価格について何を合意した？」と聞けば、文字起こし内容に基づいた回答が得られる

Whisper Notes AIアシスタントのサイドバー。要約、アクションアイテム、翻訳ボタンとチャットインターフェース

Gemma 4 AIサイドバー — 要約、アクションアイテム、翻訳、自由なチャット、すべてローカルで動作

なぜこう作ったのか

会議の音声は、企業が生み出すデータの中でも最も機密性が高いものの一つです。顧客との交渉、人事面談、取締役会、法律相談。漏洩すれば致命的な会話ばかりです。

多くの文字起こしツールはこうした音声をクラウドサーバーにアップロードし、そこで処理し、各社のデータ保持ポリシーに従って保存します。通話にボットを追加して全員に見えるようにするものもあります。録音を「モデル改善」のために無期限保持するものもあります。

私たちは別のアプローチを取りました。すべてMac上で動作します。ASRモデル、LLM、音声の保存、すべてローカルです。侵入されるサーバーがなく、読むべきデータ保持ポリシーがなく、第三者の召喚令状リスクがありません。GDPR、HIPAA、弁護士・依頼者間秘匿特権の対象となるチームにとって、このアーキテクチャ自体が重要なのです。

比較

	Whisper Notes	Otter.ai	Fireflies	Jamie
処理方式	100%オンデバイス	クラウド	クラウド	ハイブリッド
通話中のボット	なし	あり	あり	なし
価格	$6.99 買い切り	$16.99/mo (Pro)	from $18/mo	$24/mo
オフライン動作	対応	非対応	非対応	一部対応
AI要約	ローカル (Gemma 4)	クラウド	クラウド	クラウド
話者分離	未対応	対応	対応	対応

会議ごとに言語を選ぶ

会議の言語に合わせてモデルを選択してください：

英語 / ヨーロッパ言語	Parakeet V3 — リアルタイムの~60倍、6.32% WER、無音時のハルシネーションゼロ
中国語 / 日本語 / 韓国語	SenseVoice — 52倍速、広東語対応、MLXによるGPUアクセラレーション
その他の言語	Whisper Large V3 Turbo — 99言語対応、高精度、低速

まだ足りないもの

話者分離にはまだ対応していません。現在のWhisper Notesは音声を「自分」（マイク）と「相手」（システム音声）にラベル付けします。1対1や少人数の会議ならこれで十分ですが、10人の通話で誰が何を言ったかを把握するには不十分です。

当然これは次のステップであり、現在取り組んでいます。目標は、Parakeet V3やSenseVoiceと連携してローカルで動作する話者分離です。音声をどこにも送信する必要はありません。

iOSをダウンロード

macOSをダウンロード