การถอดเสียงออฟไลน์

ทำไมมันถึงใช้งานได้ในที่สุด

หลายปีมาแล้ว การถอดเสียงบนเครื่องหมายถึงช้ากว่าและแย่กว่า นั่นเปลี่ยนไปแล้ว

บริบทเล็กน้อย

เมื่อไม่กี่ปีก่อน ถ้าคุณต้องการการถอดเสียงที่แม่นยำ คุณต้องอัปโหลดเสียงไปยังเซิร์ฟเวอร์ของคนอื่น ตัวเลือกบนเครื่องมีอยู่ แต่แย่กว่าอย่างเห็นได้ชัด การแลกเปลี่ยนนั้นเป็นเรื่องจริง

แล้วหลายอย่างก็เกิดขึ้น OpenAI ปล่อย Whisper เป็นโมเดลเปิด Apple เริ่มส่งชิปที่มีฮาร์ดแวร์ AI เฉพาะ ทันใดนั้น โมเดลเดียวกันที่ขับเคลื่อนบริการคลาวด์ก็สามารถทำงานบนแล็ปท็อปได้

เราเริ่มสร้าง Whisper Notes ประมาณช่วงนั้น ส่วนใหญ่เพราะเราเองต้องการมัน ปรากฏว่าหลายคนก็กำลังมองหาสิ่งเดียวกัน

อะไรเปลี่ยนไป

สามสิ่งที่เคยทำให้การถอดเสียงคลาวด์เป็นตัวเลือกที่ชัดเจน ทั้งสามอย่างเปลี่ยนไปแล้ว

พลังการประมวลผล

โมเดล AI ที่ทำการถอดเสียงนั้นใหญ่—หลายร้อยล้านพารามิเตอร์ การรันพวกมันช้าและกินแบตเตอรี่บนฮาร์ดแวร์ผู้บริโภค

Neural Engine ของ Apple เปลี่ยนสิ่งนั้น มันเป็นชิปเฉพาะสำหรับงาน AI และมันอยู่ใน Mac ซีรีส์ M และ iPhone รุ่นล่าสุดทุกเครื่อง Whisper Large v3 Turbo ตอนนี้ทำงานได้สบายๆ บน MacBook Air

บนโทรศัพท์ เราใช้โมเดลขนาดเล็กที่ปรับแต่งสำหรับชิปมือถือ พวกมันไม่แม่นยำเท่าโมเดลใหญ่ แต่ยังดีกว่าการบอกเขียนในตัวส่วนใหญ่

ความแม่นยำ

นี่ทำให้เราประหลาดใจ เราคาดว่าโมเดลบนเครื่องจะ "พอใช้ได้" จริงๆ แล้วพวกมันค่อนข้างดี

Whisper Large v3 มีอัตราความผิดพลาดของคำที่ต่ำกว่าการบอกเขียนของระบบส่วนใหญ่ และช่องว่างระหว่าง API บนเครื่องและคลาวด์ก็เล็กลงมาก สำหรับการใช้งานส่วนใหญ่ คุณอาจจะไม่สังเกตเห็นความแตกต่าง

นั่นเปลี่ยนการคำนวณ ถ้าความแม่นยำเทียบเคียงกันได้ เหตุผลหลักในการอัปโหลดเสียงก็หายไป

ความเป็นส่วนตัว

เราไม่ได้มาที่นี่เพื่อทำให้คุณกลัวบริการคลาวด์ ส่วนใหญ่จัดการข้อมูลอย่างรับผิดชอบ

แต่มีความแตกต่างระหว่าง "พวกเขาสัญญาว่าจะไม่นำไปใช้ในทางที่ผิด" และ "พวกเขาไม่เคยมีมัน" เสียงของคุณเป็นไบโอเมตริก—ต่างจากรหัสผ่าน คุณเปลี่ยนมันไม่ได้ถ้ามีอะไรผิดพลาด

ด้วยการถอดเสียงบนเครื่อง เสียงของคุณอยู่บนอุปกรณ์ของคุณ ไม่ใช่เข้ารหัส-แล้ว-อัปโหลด แค่... อยู่ที่นั่น สำหรับบางคนนั่นสำคัญมาก สำหรับคนอื่น อาจจะไม่ เราสร้างสำหรับกลุ่มแรก

เมื่อไหร่ใช้อะไร

บนเครื่องไม่ใช่ตัวเลือกที่ถูกต้องเสมอไป นี่คือวิธีที่เราคิดเกี่ยวกับมัน

ต้องการการทำงานร่วมกันแบบเรียลไทม์?

เครื่องมือคลาวด์อย่าง Otter สร้างมาสำหรับสิ่งนั้น หลายคนแก้ไขบทถอดเสียงเดียวกันต้องการเซิร์ฟเวอร์กลาง นั่นคือการใช้คลาวด์ที่ดี

ใช้ Windows หรือ Android?

AI บนเครื่องยากกว่าบนแพลตฟอร์มเหล่านั้น—การสนับสนุนฮาร์ดแวร์ยังไม่สมบูรณ์ Dragon ใช้ได้สำหรับ Windows บน Android บริการคลาวด์มักเป็นตัวเลือกที่ใช้งานได้จริง

ต้องรู้ว่าใครพูดอะไร?

การระบุผู้พูด (diarization) ต้องใช้โมเดลเพิ่มเติม บริการคลาวด์อย่าง Rev จัดการเรื่องนี้ได้ดี เครื่องมือบนเครื่องกำลังตามทัน แต่นี่ยังเป็นพื้นที่ที่คลาวด์มีข้อได้เปรียบ

แค่ต้องการการถอดเสียงที่แม่นยำและส่วนตัว?

นั่นคือสิ่งที่เราโฟกัส ถ้าความกังวลหลักของคุณคือความเป็นส่วนตัวและความแม่นยำ และคุณอยู่บนฮาร์ดแวร์ Apple บนเครื่องตอนนี้ทำงานได้ดี

Whisper Notes ทำอะไร

มันรัน Whisper Large v3 Turbo บน Mac ของคุณ หรือโมเดลขนาดเล็กที่ปรับแต่งบน iPhone ของคุณ เสียงของคุณไม่เคยออกจากอุปกรณ์

บน Mac การถอดเสียงทำงานที่ประมาณ 10-15 เท่าของความเร็วเรียลไทม์โดยใช้ Neural Engine การบันทึกหนึ่งชั่วโมงใช้เวลาไม่กี่นาที บน iPhone ช้ากว่า แต่ใช้งานได้จริงสำหรับการบันทึกส่วนใหญ่

$4.99 ครั้งเดียว สำหรับทั้งสองแพลตฟอร์ม เราไม่ได้รันเซิร์ฟเวอร์ ดังนั้นเราไม่ต้องการการสมัครสมาชิก แค่นั้น

$4.99ซื้อครั้งเดียว Mac และ iPhone ไม่มีการสมัครสมาชิก ไม่มีการเก็บข้อมูล

รับ Whisper Notes

สรุปสั้นๆ

การถอดเสียงบนเครื่องเคยเป็นการแลกเปลี่ยน ตอนนี้มันเป็นค่าเริ่มต้นที่สมเหตุสมผลสำหรับหลายคน

ถ้าคุณต้องการการทำงานร่วมกันหรือทำงานบนแพลตฟอร์มที่ไม่ใช่ Apple บริการคลาวด์ยังมีเหตุผล ถ้าคุณต้องการการถอดเสียงที่แม่นยำและส่วนตัวบน Mac หรือ iPhone เป็นหลัก ตัวเลือกบนเครื่องก็ดีขึ้นมาก

เราใช้ Whisper Notes เองทุกวัน มันทำในสิ่งที่เราต้องการ

ลองดู

คุณสามารถทดสอบในโหมดเครื่องบินถ้าคุณต้องการยืนยันว่าไม่มีอะไรถูกอัปโหลด ทุกอย่างทำงานเหมือนกัน

รับ Whisper Notes

App Store • $4.99 • Mac และ iPhone

ซื้อครั้งเดียวครอบคลุมทั้งสองแพลตฟอร์ม

ที่เกี่ยวข้อง

เสียงเป็นข้อความออฟไลน์→Mac Whisper→ถอดเสียงออฟไลน์→