Kami membina transkripsi mesyuarat luar talian untuk Mac. Ia merakam panggilan Zoom, Teams dan Google Meet, mentranskripsi secara setempat dengan Parakeet V3, dan meringkaskan dengan Gemma 4. Tiada awan, tiada bot dalam panggilan. $6.99 sekali bayar.
Merakam panggilan Zoom dalam Whisper Notes — "Saya" dan "Orang Lain" dilabelkan mengikut sumber audio
Isnin yang biasa
10 pagi, panggilan Zoom dengan pelanggan. Anda buka Whisper Notes, klik rakam. Aplikasi menangkap audio sistem dan mikrofon anda serentak — tiada siapa dalam mesyuarat melihat bot, tiada siapa menerima pemberitahuan, tiada apa-apa muncul dalam senarai peserta.
Sejam kemudian, panggilan tamat. Anda hentikan rakaman. Parakeet V3 mentranskripsi 60 minit audio dalam kira-kira satu minit, sepenuhnya pada Neural Engine Mac anda. Anda tekan Ringkasan — Gemma 4 mengekstrak perkara utama. Anda tekan Tindakan — ia mengeluarkan setiap tugas dan tarikh akhir yang disebut. Anda hantar nota mesyuarat kepada pelanggan. Audio tidak pernah meninggalkan mesin anda.
Itulah keseluruhan aliran kerja. Rakam, transkripsi, ringkaskan. Semua setempat.
Apa yang dilakukan
Rakaman
Whisper Notes menangkap audio sistem — bunyi yang keluar dari pembesar suara atau fon kepala anda. Jika anda boleh dengarnya di Mac anda, kami boleh mentranskripsinya. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcast, atau mana-mana aplikasi lain. Ia juga merakam mikrofon anda pada masa yang sama, jadi kedua-dua pihak perbualan ditangkap.
Tiada bot menyertai panggilan. Ini lebih penting daripada yang disangka. Jika anda pernah melihat "Otter.ai Notetaker has joined the meeting" muncul dalam panggilan Zoom, anda tahu apa yang berlaku seterusnya — seseorang bertanya apa itu, orang lain berasa tidak selesa, dan perbualan berubah. Dengan tangkapan audio sistem, tiada siapa tahu anda merakam kecuali anda sendiri.
Transkripsi
Parakeet V3 berjalan pada Apple Silicon melalui CoreML. Ia memproses bahasa Inggeris dan 24 bahasa Eropah pada kira-kira 60× masa nyata — mesyuarat 60 minit selesai dalam kira-kira satu minit. Untuk bahasa Cina, Jepun, atau Korea, SenseVoice mengendalikan CJK pada kelajuan 52×. Pyannote VAD membuang senyap sebelum transkripsi, jadi model hanya memproses pertuturan sebenar.
Transkrip dengan cap masa dan pengeditan sebaris — klik mana-mana segmen untuk melompat ke detik itu dalam audio
Ciri AI — Semua setempat
Gemma 4 berjalan pada Mac anda. Tiada kunci API, tiada panggilan awan, tiada had penggunaan. Selepas transkripsi:
- •Ringkasan — perkara utama mesyuarat 60 minit, dalam beberapa saat
- •Tindakan — tugas dan tarikh akhir, diekstrak secara automatik
- •Terjemah — Apple Intelligence menterjemah transkrip ke bahasa lain
- •Sembang — tanya "apa yang kita persetujui tentang harga?" dan dapatkan jawapan berdasarkan transkrip
Bar sisi AI Gemma 4 — Ringkasan, Tindakan, Terjemah dan sembang bebas, semuanya berjalan secara setempat
Mengapa kami membinanya begini
Audio mesyuarat adalah antara data paling sensitif yang dihasilkan oleh syarikat. Rundingan pelanggan, semakan HR, perbincangan lembaga pengarah, konsultasi undang-undang — jenis perbualan di mana kebocoran yang salah menamatkan kerjaya.
Kebanyakan alat transkripsi memuat naik audio ini ke pelayan awan, memprosesnya di sana, dan menyimpannya di bawah dasar pengekalan data mereka. Sesetengah menambah bot ke panggilan yang semua orang boleh lihat. Sesetengah menyimpan rakaman anda selama-lamanya untuk "penambahbaikan model."
Kami mengambil pendekatan berbeza: semuanya berjalan pada Mac anda. Model ASR, LLM, storan audio — semua setempat. Tiada pelayan untuk diceroboh, tiada dasar pengekalan data untuk dibaca, tiada risiko sepina pihak ketiga. Untuk pasukan di bawah GDPR, HIPAA, atau keistimewaan peguam-pelanggan, seni bina ini adalah tujuannya.
Perbandingan
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Pemprosesan | 100% pada peranti | Awan | Awan | Hibrid |
| Bot dalam panggilan | Tidak | Ya | Ya | Tidak |
| Harga | $6.99 sekali bayar | $16.99/bln (Pro) | dari $18/bln | $24/bln |
| Berfungsi luar talian | Ya | Tidak | Tidak | Separa |
| Ringkasan AI | Setempat (Gemma 4) | Awan | Awan | Awan |
| Pengecaman penutur | Belum lagi | Ya | Ya | Ya |
Mesyuarat berbeza, bahasa berbeza
Pilih model yang sepadan dengan bahasa mesyuarat anda:
| Inggeris / Eropah | Parakeet V3 — ~60× masa nyata, 6.32% WER, sifar halusinasi pada senyap |
| Cina / Jepun / Korea | SenseVoice — 52× kelajuan, mengendalikan Kantonis, dipercepatkan GPU melalui MLX |
| Bahasa lain | Whisper Large V3 Turbo — 99 bahasa, ketepatan tinggi, lebih perlahan |
Apa yang belum ada
Kami belum mempunyai pengecaman penutur. Buat masa ini, Whisper Notes melabelkan audio sebagai "Saya" (mikrofon anda) dan "Orang Lain" (audio sistem) — yang meliputi kebanyakan mesyuarat satu-satu dan kumpulan kecil. Tetapi untuk panggilan 10 orang di mana anda perlu tahu siapa yang berkata apa, itu tidak mencukupi.
Ia adalah langkah seterusnya yang jelas dan kami sedang mengusahakannya. Matlamatnya adalah pengecaman penutur setempat yang berjalan bersama Parakeet V3 dan SenseVoice, tanpa menghantar audio ke mana-mana.