Kami membuat transkripsi rapat offline untuk Mac. Merekam panggilan Zoom, Teams, dan Google Meet, mentranskripsi secara lokal dengan Parakeet V3, dan meringkasnya dengan Gemma 4. Tanpa cloud, tanpa bot di panggilan. $6.99 sekali bayar.
Merekam panggilan Zoom di Whisper Notes — "Saya" dan "Lainnya" diberi label berdasarkan sumber audio
Senin yang Biasa
Jam 10 pagi, panggilan Zoom dengan klien. Anda membuka Whisper Notes, klik rekam. Aplikasi menangkap audio sistem dan mikrofon secara bersamaan — tidak ada bot yang terlihat di rapat, tidak ada notifikasi, tidak ada yang muncul di daftar peserta.
Satu jam kemudian, panggilan selesai. Anda menghentikan rekaman. Parakeet V3 mentranskripsi 60 menit audio dalam sekitar satu menit, sepenuhnya di Neural Engine Mac Anda. Anda ketuk Ringkasan — Gemma 4 mengekstrak poin-poin utama. Anda ketuk Item Tindakan — ia mengeluarkan setiap tugas dan tenggat waktu yang disebutkan. Anda kirim catatan rapat ke klien. Audio tidak pernah meninggalkan mesin Anda.
Itulah seluruh alur kerjanya. Rekam, transkripsi, ringkas. Semua lokal.
Apa yang Bisa Dilakukan
Perekaman
Whisper Notes menangkap audio sistem — suara yang keluar dari speaker atau headphone Anda. Jika Anda bisa mendengarnya di Mac, kami bisa mentranskripsinya. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, podcast, atau aplikasi lainnya. Juga merekam mikrofon Anda secara bersamaan, sehingga kedua sisi percakapan terekam.
Tidak ada bot yang bergabung ke panggilan. Ini lebih penting dari yang terdengar. Jika Anda pernah melihat "Otter.ai Notetaker has joined the meeting" muncul di panggilan Zoom, Anda tahu apa yang terjadi selanjutnya — seseorang bertanya itu apa, seseorang lain merasa tidak nyaman, dan percakapan berubah. Dengan perekaman audio sistem, tidak ada yang tahu Anda merekam kecuali Anda sendiri.
Transkripsi
Parakeet V3 berjalan di Apple Silicon melalui CoreML. Memproses bahasa Inggris dan 24 bahasa Eropa dengan kecepatan sekitar 60× real-time — rapat 60 menit selesai dalam sekitar satu menit. Untuk bahasa Mandarin, Jepang, atau Korea, SenseVoice menangani CJK dengan kecepatan 52×. Pyannote VAD menghapus keheningan sebelum transkripsi, sehingga model hanya memproses ucapan yang sebenarnya.
Transkrip dengan timestamp dan pengeditan inline — klik segmen mana pun untuk melompat ke momen tersebut di audio
Fitur AI — Semua Lokal
Gemma 4 berjalan di Mac Anda. Tanpa API key, tanpa panggilan cloud, tanpa batas penggunaan. Setelah transkripsi:
- •Ringkasan — poin-poin utama rapat 60 menit, dalam hitungan detik
- •Item Tindakan — tugas dan tenggat waktu, diekstrak otomatis
- •Terjemahkan — Apple Intelligence menerjemahkan transkrip ke bahasa lain
- •Chat — tanya "apa yang kita sepakati soal harga?" dan dapatkan jawaban berdasarkan transkrip
Sidebar AI Gemma 4 — Ringkasan, Item Tindakan, Terjemahkan, dan chat bebas, semuanya berjalan secara lokal
Mengapa Kami Membangunnya Seperti Ini
Audio rapat adalah salah satu data paling sensitif yang dihasilkan perusahaan. Negosiasi klien, evaluasi HR, diskusi dewan, konsultasi hukum — jenis percakapan di mana kebocoran yang salah bisa mengakhiri karier.
Sebagian besar alat transkripsi mengunggah audio ini ke server cloud, memprosesnya di sana, dan menyimpannya sesuai kebijakan retensi data mereka. Beberapa menambahkan bot ke panggilan yang bisa dilihat semua orang. Beberapa menyimpan rekaman Anda tanpa batas waktu untuk "peningkatan model."
Kami mengambil pendekatan berbeda: semuanya berjalan di Mac Anda. Model ASR, LLM, penyimpanan audio — semua lokal. Tidak ada server yang bisa dibobol, tidak ada kebijakan retensi data yang perlu dibaca, tidak ada risiko subpoena pihak ketiga. Untuk tim yang tunduk pada GDPR, HIPAA, atau keistimewaan pengacara-klien, arsitektur ini adalah intinya.
Perbandingan
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Pemrosesan | 100% di perangkat | Cloud | Cloud | Hybrid |
| Bot di panggilan | Tidak | Ya | Ya | Tidak |
| Harga | $6.99 sekali bayar | $16.99/bln (Pro) | mulai $18/bln | $24/bln |
| Bisa offline | Ya | Tidak | Tidak | Sebagian |
| Ringkasan AI | Lokal (Gemma 4) | Cloud | Cloud | Cloud |
| Diarisasi pembicara | Belum tersedia | Ya | Ya | Ya |
Rapat Berbeda, Bahasa Berbeda
Pilih model yang sesuai dengan bahasa rapat Anda:
| Inggris / Eropa | Parakeet V3 — ~60× real-time, 6.32% WER, nol halusinasi pada keheningan |
| Mandarin / Jepang / Korea | SenseVoice — kecepatan 52×, mendukung Kanton, akselerasi GPU via MLX |
| Bahasa lainnya | Whisper Large V3 Turbo — 99 bahasa, akurasi tinggi, lebih lambat |
Yang Belum Ada
Kami belum memiliki diarisasi pembicara. Saat ini, Whisper Notes menandai audio sebagai "Saya" (mikrofon Anda) dan "Lainnya" (audio sistem) — yang mencakup sebagian besar rapat satu-satu dan kelompok kecil. Tapi untuk panggilan 10 orang di mana Anda perlu tahu siapa bilang apa, itu belum cukup.
Ini adalah langkah selanjutnya yang sudah jelas dan kami sedang mengerjakannya. Tujuannya adalah diarisasi lokal yang berjalan bersama Parakeet V3 dan SenseVoice, tanpa mengirim audio ke mana pun.