เราสร้างระบบถอดเสียงการประชุมแบบออฟไลน์สำหรับ Mac บันทึกการโทร Zoom, Teams และ Google Meet ถอดเสียงในเครื่องด้วย Parakeet V3 และสรุปด้วย Gemma 4 ไม่มีคลาวด์ ไม่มีบอทในการโทร จ่ายครั้งเดียว $6.99
บันทึกการโทร Zoom ใน Whisper Notes — "ฉัน" และ "คนอื่นๆ" ถูกติดป้ายตามแหล่งที่มาของเสียง
วันจันทร์ทั่วไป
10 โมงเช้า โทร Zoom กับลูกค้า คุณเปิด Whisper Notes กดบันทึก แอปจับเสียงระบบและไมโครโฟนของคุณพร้อมกัน — ไม่มีใครในการประชุมเห็นบอท ไม่มีใครได้รับการแจ้งเตือน ไม่มีอะไรปรากฏในรายชื่อผู้เข้าร่วม
หนึ่งชั่วโมงต่อมา การโทรจบ คุณหยุดบันทึก Parakeet V3 ถอดเสียง 60 นาทีในเวลาประมาณหนึ่งนาที ทั้งหมดบน Neural Engine ของ Mac คุณกดสรุป — Gemma 4 ดึงประเด็นสำคัญออกมา คุณกดรายการสิ่งที่ต้องทำ — ดึงทุกงานและกำหนดส่งที่ถูกกล่าวถึงออกมา คุณส่งบันทึกการประชุมให้ลูกค้า เสียงไม่เคยออกจากเครื่องของคุณ
นั่นคือขั้นตอนทั้งหมด บันทึก ถอดเสียง สรุป ทั้งหมดในเครื่อง
ทำอะไรได้บ้าง
การบันทึก
Whisper Notes จับเสียงระบบ — เสียงที่ออกมาจากลำโพงหรือหูฟังของคุณ ถ้าคุณได้ยินมันบน Mac เราก็ถอดเสียงได้ Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, พอดแคสต์ หรือแอปอื่นๆ นอกจากนี้ยังบันทึกไมโครโฟนของคุณพร้อมกัน ดังนั้นทั้งสองฝ่ายของการสนทนาจะถูกบันทึก
ไม่มีบอทเข้าร่วมการโทร สิ่งนี้สำคัญกว่าที่ฟังดู ถ้าคุณเคยเห็น "Otter.ai Notetaker has joined the meeting" โผล่ขึ้นมาในการโทร Zoom คุณจะรู้ว่าเกิดอะไรขึ้น — มีคนถามว่ามันคืออะไร คนอื่นรู้สึกอึดอัด และบทสนทนาเปลี่ยนไป การจับเสียงระบบทำให้ไม่มีใครรู้ว่าคุณกำลังบันทึกนอกจากตัวคุณเอง
การถอดเสียง
Parakeet V3 ทำงานบน Apple Silicon ผ่าน CoreML ประมวลผลภาษาอังกฤษและ 24 ภาษายุโรปด้วยความเร็วประมาณ 60× เรียลไทม์ — การประชุม 60 นาทีเสร็จในประมาณหนึ่งนาที สำหรับภาษาจีน ญี่ปุ่น หรือเกาหลี SenseVoice ประมวลผล CJK ด้วยความเร็ว 52× Pyannote VAD ตัดช่วงเงียบก่อนถอดเสียง ดังนั้นโมเดลจะประมวลผลเฉพาะเสียงพูดจริงเท่านั้น
บทถอดเสียงพร้อมเวลาและการแก้ไขแบบอินไลน์ — คลิกที่ส่วนใดก็ได้เพื่อข้ามไปยังช่วงเวลานั้นในเสียง
ฟีเจอร์ AI — ทั้งหมดในเครื่อง
Gemma 4 ทำงานบน Mac ของคุณ ไม่ต้องใช้ API key ไม่ต้องเชื่อมต่อคลาวด์ ไม่มีขีดจำกัดการใช้งาน หลังจากถอดเสียง:
- •สรุป — ประเด็นหลักของการประชุม 60 นาที ภายในไม่กี่วินาที
- •รายการสิ่งที่ต้องทำ — งานและกำหนดส่ง ดึงออกมาอัตโนมัติ
- •แปลภาษา — Apple Intelligence แปลบทถอดเสียงเป็นภาษาอื่น
- •แชท — ถามว่า "เราตกลงเรื่องราคาอะไรกัน?" แล้วได้คำตอบจากบทถอดเสียง
แถบด้านข้าง AI Gemma 4 — สรุป, รายการสิ่งที่ต้องทำ, แปลภาษา และแชทอิสระ ทั้งหมดทำงานในเครื่อง
ทำไมเราถึงสร้างแบบนี้
เสียงจากการประชุมเป็นข้อมูลที่ละเอียดอ่อนที่สุดอย่างหนึ่งที่บริษัทผลิตขึ้น การเจรจากับลูกค้า การประเมิน HR การประชุมคณะกรรมการ การปรึกษาทางกฎหมาย — ประเภทของการสนทนาที่การรั่วไหลผิดพลาดสามารถทำลายอาชีพได้
เครื่องมือถอดเสียงส่วนใหญ่อัปโหลดเสียงนี้ไปยังเซิร์ฟเวอร์คลาวด์ ประมวลผลที่นั่น และจัดเก็บตามนโยบายการเก็บรักษาข้อมูลของพวกเขา บางตัวเพิ่มบอทในการโทรที่ทุกคนเห็น บางตัวเก็บการบันทึกของคุณไว้ไม่จำกัดเวลาเพื่อ "ปรับปรุงโมเดล"
เราเลือกแนวทางที่แตกต่าง: ทุกอย่างทำงานบน Mac ของคุณ โมเดล ASR, LLM, การจัดเก็บเสียง — ทั้งหมดในเครื่อง ไม่มีเซิร์ฟเวอร์ให้ถูกเจาะ ไม่มีนโยบายเก็บรักษาข้อมูลให้อ่าน ไม่มีความเสี่ยงจากหมายศาลของบุคคลที่สาม สำหรับทีมที่อยู่ภายใต้ GDPR, HIPAA หรือเอกสิทธิ์ทนายความ-ลูกความ สถาปัตยกรรมนี้คือประเด็นสำคัญ
เปรียบเทียบ
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| การประมวลผล | 100% บนอุปกรณ์ | คลาวด์ | คลาวด์ | ไฮบริด |
| บอทในการโทร | ไม่มี | มี | มี | ไม่มี |
| ราคา | จ่ายครั้งเดียว $6.99 | $16.99/เดือน (Pro) | เริ่มต้น $18/เดือน | $24/เดือน |
| ใช้งานออฟไลน์ | ได้ | ไม่ได้ | ไม่ได้ | บางส่วน |
| สรุปด้วย AI | ในเครื่อง (Gemma 4) | คลาวด์ | คลาวด์ | คลาวด์ |
| แยกผู้พูด | ยังไม่มี | มี | มี | มี |
การประชุมต่างกัน ภาษาต่างกัน
เลือกโมเดลที่ตรงกับภาษาของการประชุม:
| อังกฤษ / ยุโรป | Parakeet V3 — ~60× เรียลไทม์, 6.32% WER, ไม่มี hallucination เมื่อเงียบ |
| จีน / ญี่ปุ่น / เกาหลี | SenseVoice — 52× ความเร็ว, รองรับกวางตุ้ง, เร่งด้วย GPU ผ่าน MLX |
| ภาษาอื่นๆ | Whisper Large V3 Turbo — 99 ภาษา, ความแม่นยำสูง, ช้ากว่า |
สิ่งที่ยังขาด
เรายังไม่มีการแยกผู้พูด ตอนนี้ Whisper Notes ติดป้ายเสียงเป็น "ฉัน" (ไมโครโฟนของคุณ) และ "คนอื่นๆ" (เสียงระบบ) — ซึ่งครอบคลุมการประชุมแบบตัวต่อตัวและกลุ่มเล็กส่วนใหญ่ แต่สำหรับการโทร 10 คนที่คุณต้องรู้ว่าใครพูดอะไร นั่นยังไม่พอ
นี่คือขั้นตอนถัดไปที่ชัดเจนและเรากำลังทำอยู่ เป้าหมายคือการแยกผู้พูดในเครื่องที่ทำงานร่วมกับ Parakeet V3 และ SenseVoice โดยไม่ส่งเสียงไปที่ไหนเลย