手元にICレコーダーの録音がある — 口述したメモ、インタビュー、診察後の所見。それをテキストにしたい。音声を1秒もアップロードせずに文字起こしする方法がこちら:レコーダーからファイルを書き出し、Whisper Notesに取り込むだけ。SenseVoiceがiPhoneまたはMacの上で、完全にローカルで文字起こしします。クラウドなし、アカウント不要、分単位の課金もなし。買い切り$6.99です。
今もボイスレコーダーを使い続けるのは誰か — そしてなぜ重要か
ボイスレコーダーは消えていません。話す方がタイプするより速く、しかも内容が「失っても漏らしても困る」ほど機密性の高い職業に、活躍の場を移しただけです。
- •弁護士は打ち合わせの合間に準備書面、面談メモ、書簡を口述します。その録音には依頼者名、訴訟戦略、秘匿特権の対象となる詳細が含まれ、第三者のサーバーに触れさせるわけにはいきません。
- •医師は診察のたびにカルテ所見や紹介状を吹き込みます。その音声は、最も生の形をした医療データです。
- •記者はボイスレコーダーやスマートフォンでインタビューを録音します。取材源の保護は、相手の声を他人のクラウドにアップロードしないことから始まります。
- •研究者は何時間ものフィールドインタビューや観察記録を集めます。多くの場合、録音を処理できる場所を明確に制限する倫理審査の取り決めのもとで。
4つの職業に共通するボトルネックはただ一つ:何時間分もの録音をテキストに変えることです。従来はタイピスト、外部のテープ起こし業者、あるいはクラウドサービスに頼るしかありませんでした — いずれも、あなたが話した内容をすべて聞く「人」または「サーバー」です。オフライン文字起こしは、この仲介者を丸ごと取り除きます。
録音からテキストまで、3ステップ
1. ボイスレコーダーからファイルを書き出す
レコーダーをUSBで接続して(または付属アプリを使って)、録音をMacかiPhoneにコピーします。オリンパス、フィリップス、ソニー、ズームなどのICレコーダーも、スマートフォンのボイスメモアプリも、ほとんどはMP3・WAV・M4Aで保存します。どの形式もそのまま使えます。変換は不要です。
2. Whisper Notesに取り込む
MacならファイルをWhisper Notesにドラッグ、iPhoneならアプリに共有するだけ。長さの制限はありません — 2分のメモも3時間のインタビューも問題なし。動画ファイルにも対応:MP4やMOVを取り込めば、音声トラックを文字起こしします。
| 形式 | 種類 | 対応 |
|---|---|---|
| MP3 | 音声 — 大半のICレコーダー | 対応、長さ無制限 |
| WAV | 音声 — 非圧縮レコーダー | 対応、長さ無制限 |
| M4A | 音声 — iPhoneのボイスメモ | 対応、長さ無制限 |
| MP4 | 動画 — 音声トラックを文字起こし | 対応、長さ無制限 |
| MOV | 動画 — 音声トラックを文字起こし | 対応、長さ無制限 |
3. ローカルで文字起こしし、好きな形式で書き出す
あとは文字起こしを実行するだけ。日本語の録音ならSenseVoice — 日本語・中国語・韓国語で最速のモデル、実時間の52倍速 — を選び、英語やヨーロッパ言語ならデフォルトのParakeet V3がWhisperの約10倍の速度、明瞭な音声で単語誤り率6.32%を発揮します。どちらの場合も、処理はすべてデバイス自身のチップ上で完結。結果はタイムスタンプ付きの段落で表示され、段落をクリックすると録音のその瞬間にジャンプ — 引用や投薬指示の確認が、数分ではなく数秒で終わります。
取り込んだ録音をタイムスタンプ付きで文字起こし — セグメントをクリックすると元の音声を再生
仕上げには、文書用にTXTで、録音が動画由来ならタイムスタンプ付きのSRT/VTTで書き出せます。先にインライン編集してもかまいません — 修正は音声との同期を保ったままです。
口述録音でオフラインがクラウドに勝る理由
クラウドの文字起こしサービスは、あなたの音声を自社サーバーにアップロードし、そこで処理し、自社の保存ポリシーに従って保管する仕組みです。ポッドキャストの一話なら問題ありません。しかし口述した依頼者向けの書面や患者の記録となると、それは本来抱える必要のない機密保持リスクです。
デバイス上で文字起こしすれば、守るべきものは最初から存在しません。何もデバイスの外に出ないからです。アップロードなし、アカウントなし、サーバーログなし、データ処理契約の交渉も不要。アーキテクチャそのものがプライバシー保護になっています:個人データを処理事業者に渡すことがないのは、処理事業者自体が存在しないからです。
| オフラインアプリ(Whisper Notes) | クラウド文字起こしサービス | |
|---|---|---|
| 音声の処理場所 | 自分のデバイス上 | 事業者のサーバー |
| 機密保持 | 音声はデバイスの外に一切出ない | 事業者のポリシー次第 |
| 個人情報保護・GDPR | アーキテクチャ上安全 — データ移転そのものがない | 処理契約や規約の確認が必要 |
| 料金 | 買い切り$6.99 | 月額サブスクまたは分単位の課金 |
| インターネットなしで動作 | 可 — 法廷、診察室、機内、調査現場 | 不可 |
| アカウント登録 | 不要 | 必要 |
録音量の多いユーザーにとっては経済性も重要です。毎日1時間口述するなら、分単位のクラウド料金はあっという間に積み上がり、サブスクは使わない月にも請求が来ます。買い切りなら、月に10分でも週に10時間でも、かかる費用は同じです。
文字起こしの精度を最大限に高めるには
プロの口述録音では、次の2つの設定が最も大きな差を生みます:
カスタム語彙。音声認識モデルは一般的な言葉で訓練されているため、あなたの分野で最も重要な単語 — 依頼者の姓、薬剤名、法令の条文、専門用語 — でこそつまずきます。Whisper Notesではこうした用語をカスタム語彙に登録でき、モデルは曖昧な音声を解決する手がかりとして活用します。よく口述する固有名詞を10個登録するだけで、繰り返し起きる誤変換の大半が消えます。
言語に合わせたモデル選び。口述する言語に合ったモデルを選びましょう:
| 日本語 / 中国語 / 韓国語 | SenseVoice — 日本語・中国語・韓国語・広東語で最速、実時間の52倍速 |
| 英語 / ヨーロッパ言語 | Parakeet V3 — ヨーロッパ25言語、単語誤り率6.32%、Whisperの10倍速、わずか465MB |
| その他の言語 | Whisper Large V3 Turbo — 100以上の言語、約1.5GB、速度は劣るが対応範囲は最も広い |
そして、アナログ口述時代からの習慣は今も有効です:レコーダーを口元近くに構え、一定のペースで話し、句読点を打ちやすい文で口述すること。クリアな音声を入れれば、クリアなテキストが出てきます。
よくある質問
昔のボイスレコーダーの録音も文字起こしできますか?
できます。レコーダーからファイルをコピーしてWhisper Notesに取り込むだけ — MP3、WAV、M4Aすべてに対応し、長さも無制限です。10年前の録音も今朝の録音とまったく同じように処理できます。精度を左右するのは音質であって、ファイルの古さではありません。
ボイスレコーダー文字起こしに最適なアプリは?
どのアプリも4つの基準で判断してください:音声がどこで処理されるか、どのファイル形式に対応するか、専門用語を扱えるか、1年使った場合の総コストはいくらか。録音の内容が機密 — 法律、医療、取材 — であれば、デバイス上での処理は譲れない条件だと私たちは考えます。まさにそのためにWhisper Notesを作りました:ローカル文字起こし、MP3/WAV/M4A/MP4/MOVを長さ無制限で取り込み、カスタム語彙、買い切り$6.99。
ボイスレコーダー文字起こしはインターネットなしでも動きますか?
Whisper Notesなら動きます — 完全オフラインです。音声認識モデルは一度ダウンロードすれば、あとはiPhoneやMac自身のチップ上で動作します。地下の法廷でも、機内でも、電波の届かない調査現場でも文字起こし可能。文字起こしに通信は一切必要ありません。
オフラインの文字起こしはどのくらい正確ですか?
Parakeet V3はクリアな音声で単語誤り率6.32%を達成しており、クラウドサービスに引けを取りません。日本語ならSenseVoiceが最速の選択肢です。残る誤りの多くは固有名詞や専門用語に集中しますが、それこそがカスタム語彙機能の出番です:よく使う名前や用語を登録すれば、まさにその単語での精度が目に見えて向上します。