ถอดเสียงการประชุมออฟไลน์บน Mac: บันทึก Zoom, Teams และ Meet ในเครื่อง

13 พฤษภาคม 2569
·
8 min read
·Whisper Notes Team

เราสร้างระบบถอดเสียงการประชุมแบบออฟไลน์สำหรับ Mac บันทึกการโทร Zoom, Teams และ Google Meet ถอดเสียงในเครื่องด้วย Parakeet V3 และสรุปด้วย Gemma 4 ไม่มีคลาวด์ ไม่มีบอทในการโทร จ่ายครั้งเดียว $6.99

Whisper Notes บันทึกการประชุม Zoom บน Mac พร้อมการถอดเสียงแบบเรียลไทม์แสดงป้ายกำกับผู้พูด ฉัน และ คนอื่นๆ

บันทึกการโทร Zoom ใน Whisper Notes — "ฉัน" และ "คนอื่นๆ" ถูกติดป้ายตามแหล่งที่มาของเสียง

วันจันทร์ทั่วไป

10 โมงเช้า โทร Zoom กับลูกค้า คุณเปิด Whisper Notes กดบันทึก แอปจับเสียงระบบและไมโครโฟนของคุณพร้อมกัน — ไม่มีใครในการประชุมเห็นบอท ไม่มีใครได้รับการแจ้งเตือน ไม่มีอะไรปรากฏในรายชื่อผู้เข้าร่วม

หนึ่งชั่วโมงต่อมา การโทรจบ คุณหยุดบันทึก Parakeet V3 ถอดเสียง 60 นาทีในเวลาประมาณหนึ่งนาที ทั้งหมดบน Neural Engine ของ Mac คุณกดสรุป — Gemma 4 ดึงประเด็นสำคัญออกมา คุณกดรายการสิ่งที่ต้องทำ — ดึงทุกงานและกำหนดส่งที่ถูกกล่าวถึงออกมา คุณส่งบันทึกการประชุมให้ลูกค้า เสียงไม่เคยออกจากเครื่องของคุณ

นั่นคือขั้นตอนทั้งหมด บันทึก ถอดเสียง สรุป ทั้งหมดในเครื่อง

ทำอะไรได้บ้าง

การบันทึก

Whisper Notes จับเสียงระบบ — เสียงที่ออกมาจากลำโพงหรือหูฟังของคุณ ถ้าคุณได้ยินมันบน Mac เราก็ถอดเสียงได้ Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, พอดแคสต์ หรือแอปอื่นๆ นอกจากนี้ยังบันทึกไมโครโฟนของคุณพร้อมกัน ดังนั้นทั้งสองฝ่ายของการสนทนาจะถูกบันทึก

ไม่มีบอทเข้าร่วมการโทร สิ่งนี้สำคัญกว่าที่ฟังดู ถ้าคุณเคยเห็น "Otter.ai Notetaker has joined the meeting" โผล่ขึ้นมาในการโทร Zoom คุณจะรู้ว่าเกิดอะไรขึ้น — มีคนถามว่ามันคืออะไร คนอื่นรู้สึกอึดอัด และบทสนทนาเปลี่ยนไป การจับเสียงระบบทำให้ไม่มีใครรู้ว่าคุณกำลังบันทึกนอกจากตัวคุณเอง

การถอดเสียง

Parakeet V3 ทำงานบน Apple Silicon ผ่าน CoreML ประมวลผลภาษาอังกฤษและ 24 ภาษายุโรปด้วยความเร็วประมาณ 60× เรียลไทม์ — การประชุม 60 นาทีเสร็จในประมาณหนึ่งนาที สำหรับภาษาจีน ญี่ปุ่น หรือเกาหลี SenseVoice ประมวลผล CJK ด้วยความเร็ว 52× Pyannote VAD ตัดช่วงเงียบก่อนถอดเสียง ดังนั้นโมเดลจะประมวลผลเฉพาะเสียงพูดจริงเท่านั้น

มุมมองการถอดเสียงของ Whisper Notes บน Mac แสดงการแก้ไขข้อความแบบอินไลน์พร้อมเวลาและคลื่นเสียง

บทถอดเสียงพร้อมเวลาและการแก้ไขแบบอินไลน์ — คลิกที่ส่วนใดก็ได้เพื่อข้ามไปยังช่วงเวลานั้นในเสียง

ฟีเจอร์ AI — ทั้งหมดในเครื่อง

Gemma 4 ทำงานบน Mac ของคุณ ไม่ต้องใช้ API key ไม่ต้องเชื่อมต่อคลาวด์ ไม่มีขีดจำกัดการใช้งาน หลังจากถอดเสียง:

  • สรุป — ประเด็นหลักของการประชุม 60 นาที ภายในไม่กี่วินาที
  • รายการสิ่งที่ต้องทำ — งานและกำหนดส่ง ดึงออกมาอัตโนมัติ
  • แปลภาษา — Apple Intelligence แปลบทถอดเสียงเป็นภาษาอื่น
  • แชท — ถามว่า "เราตกลงเรื่องราคาอะไรกัน?" แล้วได้คำตอบจากบทถอดเสียง
แถบด้านข้าง AI Assistant ของ Whisper Notes พร้อมปุ่มสรุป รายการสิ่งที่ต้องทำ แปลภาษา และอินเทอร์เฟซแชท

แถบด้านข้าง AI Gemma 4 — สรุป, รายการสิ่งที่ต้องทำ, แปลภาษา และแชทอิสระ ทั้งหมดทำงานในเครื่อง

ทำไมเราถึงสร้างแบบนี้

เสียงจากการประชุมเป็นข้อมูลที่ละเอียดอ่อนที่สุดอย่างหนึ่งที่บริษัทผลิตขึ้น การเจรจากับลูกค้า การประเมิน HR การประชุมคณะกรรมการ การปรึกษาทางกฎหมาย — ประเภทของการสนทนาที่การรั่วไหลผิดพลาดสามารถทำลายอาชีพได้

เครื่องมือถอดเสียงส่วนใหญ่อัปโหลดเสียงนี้ไปยังเซิร์ฟเวอร์คลาวด์ ประมวลผลที่นั่น และจัดเก็บตามนโยบายการเก็บรักษาข้อมูลของพวกเขา บางตัวเพิ่มบอทในการโทรที่ทุกคนเห็น บางตัวเก็บการบันทึกของคุณไว้ไม่จำกัดเวลาเพื่อ "ปรับปรุงโมเดล"

เราเลือกแนวทางที่แตกต่าง: ทุกอย่างทำงานบน Mac ของคุณ โมเดล ASR, LLM, การจัดเก็บเสียง — ทั้งหมดในเครื่อง ไม่มีเซิร์ฟเวอร์ให้ถูกเจาะ ไม่มีนโยบายเก็บรักษาข้อมูลให้อ่าน ไม่มีความเสี่ยงจากหมายศาลของบุคคลที่สาม สำหรับทีมที่อยู่ภายใต้ GDPR, HIPAA หรือเอกสิทธิ์ทนายความ-ลูกความ สถาปัตยกรรมนี้คือประเด็นสำคัญ

เปรียบเทียบ

Whisper Notes Otter.ai Fireflies Jamie
การประมวลผล 100% บนอุปกรณ์ คลาวด์ คลาวด์ ไฮบริด
บอทในการโทร ไม่มี มี มี ไม่มี
ราคา จ่ายครั้งเดียว $6.99 $16.99/เดือน (Pro) เริ่มต้น $18/เดือน $24/เดือน
ใช้งานออฟไลน์ ได้ ไม่ได้ ไม่ได้ บางส่วน
สรุปด้วย AI ในเครื่อง (Gemma 4) คลาวด์ คลาวด์ คลาวด์
แยกผู้พูด ยังไม่มี มี มี มี

การประชุมต่างกัน ภาษาต่างกัน

เลือกโมเดลที่ตรงกับภาษาของการประชุม:

อังกฤษ / ยุโรป Parakeet V3 — ~60× เรียลไทม์, 6.32% WER, ไม่มี hallucination เมื่อเงียบ
จีน / ญี่ปุ่น / เกาหลี SenseVoice — 52× ความเร็ว, รองรับกวางตุ้ง, เร่งด้วย GPU ผ่าน MLX
ภาษาอื่นๆ Whisper Large V3 Turbo — 99 ภาษา, ความแม่นยำสูง, ช้ากว่า

สิ่งที่ยังขาด

เรายังไม่มีการแยกผู้พูด ตอนนี้ Whisper Notes ติดป้ายเสียงเป็น "ฉัน" (ไมโครโฟนของคุณ) และ "คนอื่นๆ" (เสียงระบบ) — ซึ่งครอบคลุมการประชุมแบบตัวต่อตัวและกลุ่มเล็กส่วนใหญ่ แต่สำหรับการโทร 10 คนที่คุณต้องรู้ว่าใครพูดอะไร นั่นยังไม่พอ

นี่คือขั้นตอนถัดไปที่ชัดเจนและเรากำลังทำอยู่ เป้าหมายคือการแยกผู้พูดในเครื่องที่ทำงานร่วมกับ Parakeet V3 และ SenseVoice โดยไม่ส่งเสียงไปที่ไหนเลย