Mac向けのオフライン会議文字起こしを作りました。Zoom、Teams、Google Meetの通話を録音し、Parakeet V3でローカル文字起こしを行い、Gemma 4で要約を生成します。クラウドなし、通話にボットなし。$6.99の買い切り。
Whisper NotesでZoom通話を録音中 — 音声ソースによって「自分」と「相手」がラベル付けされる
よくある月曜日
午前10時、クライアントとのZoom会議。Whisper Notesを開いて録音ボタンを押す。アプリはシステム音声とマイクを同時にキャプチャする。会議にボットは入らない、誰にも通知は届かない、参加者リストには何も表示されない。
1時間後、通話が終わる。録音を停止。Parakeet V3が60分の音声を約1分で文字起こしする。すべてMacのNeural Engine上で完結。「要約」をタップすればGemma 4がポイントを抽出。「アクションアイテム」をタップすれば、言及されたタスクと期限がリストアップされる。議事録をクライアントに送る。音声データは一度もマシンの外に出ていない。
ワークフローはこれだけ。録音、文字起こし、要約。すべてローカル。
できること
録音
Whisper Notesはシステム音声をキャプチャします。スピーカーやヘッドフォンから出ている音、つまりMacで聞こえる音なら何でも文字起こしできます。Zoom、Teams、Google Meet、Webex、GoTo、Whereby、Jitsi、YouTube、ポッドキャスト、その他あらゆるアプリ。同時にマイクも録音するので、会話の両方が記録されます。
通話にボットは参加しません。これは思った以上に重要です。Zoom会議で「Otter.ai Notetaker has joined the meeting」というポップアップを見たことがあれば、その後どうなるかご存じでしょう。誰かがあれは何かと尋ね、誰かが不快に思い、会話の空気が変わる。システム音声キャプチャなら、録音していることを知っているのは自分だけです。
文字起こし
Parakeet V3はCoreML経由でApple Silicon上で動作します。英語と24のヨーロッパ言語をリアルタイムの約60倍の速度で処理し、60分の会議が約1分で完了します。中国語、日本語、韓国語の場合はSenseVoiceがCJKを52倍の速度で処理します。Pyannote VADが文字起こし前に無音区間を除去するため、モデルは実際の音声のみを処理します。
タイムスタンプ付きの文字起こしとインライン編集 — 任意のセグメントをクリックすると音声のその位置にジャンプ
AI機能 — すべてローカル
Gemma 4はMac上で動作します。APIキー不要、クラウド接続不要、利用制限なし。文字起こし後に:
- •要約 — 60分の会議の要点を数秒で抽出
- •アクションアイテム — タスクと期限を自動で抽出
- •翻訳 — Apple Intelligenceで文字起こしを別の言語に翻訳
- •チャット — 「価格について何を合意した?」と聞けば、文字起こし内容に基づいた回答が得られる
Gemma 4 AIサイドバー — 要約、アクションアイテム、翻訳、自由なチャット、すべてローカルで動作
なぜこう作ったのか
会議の音声は、企業が生み出すデータの中でも最も機密性が高いものの一つです。顧客との交渉、人事面談、取締役会、法律相談。漏洩すれば致命的な会話ばかりです。
多くの文字起こしツールはこうした音声をクラウドサーバーにアップロードし、そこで処理し、各社のデータ保持ポリシーに従って保存します。通話にボットを追加して全員に見えるようにするものもあります。録音を「モデル改善」のために無期限保持するものもあります。
私たちは別のアプローチを取りました。すべてMac上で動作します。ASRモデル、LLM、音声の保存、すべてローカルです。侵入されるサーバーがなく、読むべきデータ保持ポリシーがなく、第三者の召喚令状リスクがありません。GDPR、HIPAA、弁護士・依頼者間秘匿特権の対象となるチームにとって、このアーキテクチャ自体が重要なのです。
比較
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| 処理方式 | 100%オンデバイス | クラウド | クラウド | ハイブリッド |
| 通話中のボット | なし | あり | あり | なし |
| 価格 | $6.99 買い切り | $16.99/mo (Pro) | from $18/mo | $24/mo |
| オフライン動作 | 対応 | 非対応 | 非対応 | 一部対応 |
| AI要約 | ローカル (Gemma 4) | クラウド | クラウド | クラウド |
| 話者分離 | 未対応 | 対応 | 対応 | 対応 |
会議ごとに言語を選ぶ
会議の言語に合わせてモデルを選択してください:
| 英語 / ヨーロッパ言語 | Parakeet V3 — リアルタイムの~60倍、6.32% WER、無音時のハルシネーションゼロ |
| 中国語 / 日本語 / 韓国語 | SenseVoice — 52倍速、広東語対応、MLXによるGPUアクセラレーション |
| その他の言語 | Whisper Large V3 Turbo — 99言語対応、高精度、低速 |
まだ足りないもの
話者分離にはまだ対応していません。現在のWhisper Notesは音声を「自分」(マイク)と「相手」(システム音声)にラベル付けします。1対1や少人数の会議ならこれで十分ですが、10人の通話で誰が何を言ったかを把握するには不十分です。
当然これは次のステップであり、現在取り組んでいます。目標は、Parakeet V3やSenseVoiceと連携してローカルで動作する話者分離です。音声をどこにも送信する必要はありません。