Transkripsi Mesyuarat Luar Talian di Mac: Rakam Zoom, Teams & Meet Secara Tempatan

13 Mei 2026
·
8 min read
·Whisper Notes Team

Kami membina transkripsi mesyuarat luar talian untuk Mac. Ia merakam panggilan Zoom, Teams dan Google Meet, mentranskripsi secara setempat dengan Parakeet V3, dan meringkaskan dengan Gemma 4. Tiada awan, tiada bot dalam panggilan. $6.99 sekali bayar.

Whisper Notes merakam mesyuarat Zoom di Mac dengan transkripsi masa nyata menunjukkan label Saya dan Orang Lain

Merakam panggilan Zoom dalam Whisper Notes — "Saya" dan "Orang Lain" dilabelkan mengikut sumber audio

Isnin yang biasa

10 pagi, panggilan Zoom dengan pelanggan. Anda buka Whisper Notes, klik rakam. Aplikasi menangkap audio sistem dan mikrofon anda serentak — tiada siapa dalam mesyuarat melihat bot, tiada siapa menerima pemberitahuan, tiada apa-apa muncul dalam senarai peserta.

Sejam kemudian, panggilan tamat. Anda hentikan rakaman. Parakeet V3 mentranskripsi 60 minit audio dalam kira-kira satu minit, sepenuhnya pada Neural Engine Mac anda. Anda tekan Ringkasan — Gemma 4 mengekstrak perkara utama. Anda tekan Tindakan — ia mengeluarkan setiap tugas dan tarikh akhir yang disebut. Anda hantar nota mesyuarat kepada pelanggan. Audio tidak pernah meninggalkan mesin anda.

Itulah keseluruhan aliran kerja. Rakam, transkripsi, ringkaskan. Semua setempat.

Apa yang dilakukan

Rakaman

Whisper Notes menangkap audio sistem — bunyi yang keluar dari pembesar suara atau fon kepala anda. Jika anda boleh dengarnya di Mac anda, kami boleh mentranskripsinya. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcast, atau mana-mana aplikasi lain. Ia juga merakam mikrofon anda pada masa yang sama, jadi kedua-dua pihak perbualan ditangkap.

Tiada bot menyertai panggilan. Ini lebih penting daripada yang disangka. Jika anda pernah melihat "Otter.ai Notetaker has joined the meeting" muncul dalam panggilan Zoom, anda tahu apa yang berlaku seterusnya — seseorang bertanya apa itu, orang lain berasa tidak selesa, dan perbualan berubah. Dengan tangkapan audio sistem, tiada siapa tahu anda merakam kecuali anda sendiri.

Transkripsi

Parakeet V3 berjalan pada Apple Silicon melalui CoreML. Ia memproses bahasa Inggeris dan 24 bahasa Eropah pada kira-kira 60× masa nyata — mesyuarat 60 minit selesai dalam kira-kira satu minit. Untuk bahasa Cina, Jepun, atau Korea, SenseVoice mengendalikan CJK pada kelajuan 52×. Pyannote VAD membuang senyap sebelum transkripsi, jadi model hanya memproses pertuturan sebenar.

Paparan transkripsi Whisper Notes di Mac menunjukkan pengeditan teks sebaris dengan cap masa dan bentuk gelombang audio

Transkrip dengan cap masa dan pengeditan sebaris — klik mana-mana segmen untuk melompat ke detik itu dalam audio

Ciri AI — Semua setempat

Gemma 4 berjalan pada Mac anda. Tiada kunci API, tiada panggilan awan, tiada had penggunaan. Selepas transkripsi:

  • Ringkasan — perkara utama mesyuarat 60 minit, dalam beberapa saat
  • Tindakan — tugas dan tarikh akhir, diekstrak secara automatik
  • Terjemah — Apple Intelligence menterjemah transkrip ke bahasa lain
  • Sembang — tanya "apa yang kita persetujui tentang harga?" dan dapatkan jawapan berdasarkan transkrip
Bar sisi Pembantu AI Whisper Notes dengan butang Ringkasan, Tindakan, Terjemah dan antara muka sembang

Bar sisi AI Gemma 4 — Ringkasan, Tindakan, Terjemah dan sembang bebas, semuanya berjalan secara setempat

Mengapa kami membinanya begini

Audio mesyuarat adalah antara data paling sensitif yang dihasilkan oleh syarikat. Rundingan pelanggan, semakan HR, perbincangan lembaga pengarah, konsultasi undang-undang — jenis perbualan di mana kebocoran yang salah menamatkan kerjaya.

Kebanyakan alat transkripsi memuat naik audio ini ke pelayan awan, memprosesnya di sana, dan menyimpannya di bawah dasar pengekalan data mereka. Sesetengah menambah bot ke panggilan yang semua orang boleh lihat. Sesetengah menyimpan rakaman anda selama-lamanya untuk "penambahbaikan model."

Kami mengambil pendekatan berbeza: semuanya berjalan pada Mac anda. Model ASR, LLM, storan audio — semua setempat. Tiada pelayan untuk diceroboh, tiada dasar pengekalan data untuk dibaca, tiada risiko sepina pihak ketiga. Untuk pasukan di bawah GDPR, HIPAA, atau keistimewaan peguam-pelanggan, seni bina ini adalah tujuannya.

Perbandingan

Whisper Notes Otter.ai Fireflies Jamie
Pemprosesan 100% pada peranti Awan Awan Hibrid
Bot dalam panggilan Tidak Ya Ya Tidak
Harga $6.99 sekali bayar $16.99/bln (Pro) dari $18/bln $24/bln
Berfungsi luar talian Ya Tidak Tidak Separa
Ringkasan AI Setempat (Gemma 4) Awan Awan Awan
Pengecaman penutur Belum lagi Ya Ya Ya

Mesyuarat berbeza, bahasa berbeza

Pilih model yang sepadan dengan bahasa mesyuarat anda:

Inggeris / Eropah Parakeet V3 — ~60× masa nyata, 6.32% WER, sifar halusinasi pada senyap
Cina / Jepun / Korea SenseVoice — 52× kelajuan, mengendalikan Kantonis, dipercepatkan GPU melalui MLX
Bahasa lain Whisper Large V3 Turbo — 99 bahasa, ketepatan tinggi, lebih perlahan

Apa yang belum ada

Kami belum mempunyai pengecaman penutur. Buat masa ini, Whisper Notes melabelkan audio sebagai "Saya" (mikrofon anda) dan "Orang Lain" (audio sistem) — yang meliputi kebanyakan mesyuarat satu-satu dan kumpulan kecil. Tetapi untuk panggilan 10 orang di mana anda perlu tahu siapa yang berkata apa, itu tidak mencukupi.

Ia adalah langkah seterusnya yang jelas dan kami sedang mengusahakannya. Matlamatnya adalah pengecaman penutur setempat yang berjalan bersama Parakeet V3 dan SenseVoice, tanpa menghantar audio ke mana-mana.