Transkripsi Mesyuarat Luar Talian di Mac: Rakam Zoom, Teams & Meet Secara Tempatan

Kami membina transkripsi mesyuarat luar talian untuk Mac. Ia merakam panggilan Zoom, Teams dan Google Meet, mentranskripsi secara setempat dengan Parakeet V3, dan meringkaskan dengan Gemma 4. Tiada awan, tiada bot dalam panggilan. $6.99 sekali bayar.

Whisper Notes merakam mesyuarat Zoom di Mac dengan transkripsi masa nyata menunjukkan label Saya dan Orang Lain

Merakam panggilan Zoom dalam Whisper Notes — "Saya" dan "Orang Lain" dilabelkan mengikut sumber audio

Isnin yang biasa

10 pagi, panggilan Zoom dengan pelanggan. Anda buka Whisper Notes, klik rakam. Aplikasi menangkap audio sistem dan mikrofon anda serentak — tiada siapa dalam mesyuarat melihat bot, tiada siapa menerima pemberitahuan, tiada apa-apa muncul dalam senarai peserta.

Sejam kemudian, panggilan tamat. Anda hentikan rakaman. Parakeet V3 mentranskripsi 60 minit audio dalam kira-kira satu minit, sepenuhnya pada Neural Engine Mac anda. Anda tekan Ringkasan — Gemma 4 mengekstrak perkara utama. Anda tekan Tindakan — ia mengeluarkan setiap tugas dan tarikh akhir yang disebut. Anda hantar nota mesyuarat kepada pelanggan. Audio tidak pernah meninggalkan mesin anda.

Itulah keseluruhan aliran kerja. Rakam, transkripsi, ringkaskan. Semua setempat.

Apa yang dilakukan

Rakaman

Whisper Notes menangkap audio sistem — bunyi yang keluar dari pembesar suara atau fon kepala anda. Jika anda boleh dengarnya di Mac anda, kami boleh mentranskripsinya. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcast, atau mana-mana aplikasi lain. Ia juga merakam mikrofon anda pada masa yang sama, jadi kedua-dua pihak perbualan ditangkap.

Tiada bot menyertai panggilan. Ini lebih penting daripada yang disangka. Jika anda pernah melihat "Otter.ai Notetaker has joined the meeting" muncul dalam panggilan Zoom, anda tahu apa yang berlaku seterusnya — seseorang bertanya apa itu, orang lain berasa tidak selesa, dan perbualan berubah. Dengan tangkapan audio sistem, tiada siapa tahu anda merakam kecuali anda sendiri.

Transkripsi

Parakeet V3 berjalan pada Apple Silicon melalui CoreML. Ia memproses bahasa Inggeris dan 24 bahasa Eropah pada kira-kira 60× masa nyata — mesyuarat 60 minit selesai dalam kira-kira satu minit. Untuk bahasa Cina, Jepun, atau Korea, SenseVoice mengendalikan CJK pada kelajuan 52×. Pyannote VAD membuang senyap sebelum transkripsi, jadi model hanya memproses pertuturan sebenar.

Transkrip dengan cap masa dan pengeditan sebaris — klik mana-mana segmen untuk melompat ke detik itu dalam audio

Ciri AI — Semua setempat

Gemma 4 berjalan pada Mac anda. Tiada kunci API, tiada panggilan awan, tiada had penggunaan. Selepas transkripsi:

•Ringkasan — perkara utama mesyuarat 60 minit, dalam beberapa saat
•Tindakan — tugas dan tarikh akhir, diekstrak secara automatik
•Terjemah — Apple Intelligence menterjemah transkrip ke bahasa lain
•Sembang — tanya "apa yang kita persetujui tentang harga?" dan dapatkan jawapan berdasarkan transkrip

Bar sisi Pembantu AI Whisper Notes dengan butang Ringkasan, Tindakan, Terjemah dan antara muka sembang

Bar sisi AI Gemma 4 — Ringkasan, Tindakan, Terjemah dan sembang bebas, semuanya berjalan secara setempat

Mengapa kami membinanya begini

Audio mesyuarat adalah antara data paling sensitif yang dihasilkan oleh syarikat. Rundingan pelanggan, semakan HR, perbincangan lembaga pengarah, konsultasi undang-undang — jenis perbualan di mana kebocoran yang salah menamatkan kerjaya.

Kebanyakan alat transkripsi memuat naik audio ini ke pelayan awan, memprosesnya di sana, dan menyimpannya di bawah dasar pengekalan data mereka. Sesetengah menambah bot ke panggilan yang semua orang boleh lihat. Sesetengah menyimpan rakaman anda selama-lamanya untuk "penambahbaikan model."

Kami mengambil pendekatan berbeza: semuanya berjalan pada Mac anda. Model ASR, LLM, storan audio — semua setempat. Tiada pelayan untuk diceroboh, tiada dasar pengekalan data untuk dibaca, tiada risiko sepina pihak ketiga. Untuk pasukan di bawah GDPR, HIPAA, atau keistimewaan peguam-pelanggan, seni bina ini adalah tujuannya.

Perbandingan

	Whisper Notes	Otter.ai	Fireflies	Jamie
Pemprosesan	100% pada peranti	Awan	Awan	Hibrid
Bot dalam panggilan	Tidak	Ya	Ya	Tidak
Harga	$6.99 sekali bayar	$16.99/bln (Pro)	dari $18/bln	$24/bln
Berfungsi luar talian	Ya	Tidak	Tidak	Separa
Ringkasan AI	Setempat (Gemma 4)	Awan	Awan	Awan
Pengecaman penutur	Belum lagi	Ya	Ya	Ya

Mesyuarat berbeza, bahasa berbeza

Pilih model yang sepadan dengan bahasa mesyuarat anda:

Inggeris / Eropah	Parakeet V3 — ~60× masa nyata, 6.32% WER, sifar halusinasi pada senyap
Cina / Jepun / Korea	SenseVoice — 52× kelajuan, mengendalikan Kantonis, dipercepatkan GPU melalui MLX
Bahasa lain	Whisper Large V3 Turbo — 99 bahasa, ketepatan tinggi, lebih perlahan

Apa yang belum ada

Kami belum mempunyai pengecaman penutur. Buat masa ini, Whisper Notes melabelkan audio sebagai "Saya" (mikrofon anda) dan "Orang Lain" (audio sistem) — yang meliputi kebanyakan mesyuarat satu-satu dan kumpulan kecil. Tetapi untuk panggilan 10 orang di mana anda perlu tahu siapa yang berkata apa, itu tidak mencukupi.

Ia adalah langkah seterusnya yang jelas dan kami sedang mengusahakannya. Matlamatnya adalah pengecaman penutur setempat yang berjalan bersama Parakeet V3 dan SenseVoice, tanpa menghantar audio ke mana-mana.

Muat turun untuk iOS

Muat turun untuk macOS