การถอดเสียงออฟไลน์
ทำไมมันถึงใช้งานได้ในที่สุด
หลายปีมาแล้ว การถอดเสียงบนเครื่องหมายถึงช้ากว่าและแย่กว่า นั่นเปลี่ยนไปแล้ว

บริบทเล็กน้อย
เมื่อไม่กี่ปีก่อน ถ้าคุณต้องการการถอดเสียงที่แม่นยำ คุณต้องอัปโหลดเสียงไปยังเซิร์ฟเวอร์ของคนอื่น ตัวเลือกบนเครื่องมีอยู่ แต่แย่กว่าอย่างเห็นได้ชัด การแลกเปลี่ยนนั้นเป็นเรื่องจริง
แล้วหลายอย่างก็เกิดขึ้น OpenAI ปล่อย Whisper เป็นโมเดลเปิด Apple เริ่มส่งชิปที่มีฮาร์ดแวร์ AI เฉพาะ ทันใดนั้น โมเดลเดียวกันที่ขับเคลื่อนบริการคลาวด์ก็สามารถทำงานบนแล็ปท็อปได้
เราเริ่มสร้าง Whisper Notes ประมาณช่วงนั้น ส่วนใหญ่เพราะเราเองต้องการมัน ปรากฏว่าหลายคนก็กำลังมองหาสิ่งเดียวกัน
อะไรเปลี่ยนไป
สามสิ่งที่เคยทำให้การถอดเสียงคลาวด์เป็นตัวเลือกที่ชัดเจน ทั้งสามอย่างเปลี่ยนไปแล้ว
พลังการประมวลผล
โมเดล AI ที่ทำการถอดเสียงนั้นใหญ่—หลายร้อยล้านพารามิเตอร์ การรันพวกมันช้าและกินแบตเตอรี่บนฮาร์ดแวร์ผู้บริโภค
Neural Engine ของ Apple เปลี่ยนสิ่งนั้น มันเป็นชิปเฉพาะสำหรับงาน AI และมันอยู่ใน Mac ซีรีส์ M และ iPhone รุ่นล่าสุดทุกเครื่อง Whisper Large v3 Turbo ตอนนี้ทำงานได้สบายๆ บน MacBook Air
บนโทรศัพท์ เราใช้โมเดลขนาดเล็กที่ปรับแต่งสำหรับชิปมือถือ พวกมันไม่แม่นยำเท่าโมเดลใหญ่ แต่ยังดีกว่าการบอกเขียนในตัวส่วนใหญ่
ความแม่นยำ
นี่ทำให้เราประหลาดใจ เราคาดว่าโมเดลบนเครื่องจะ "พอใช้ได้" จริงๆ แล้วพวกมันค่อนข้างดี
Whisper Large v3 มีอัตราความผิดพลาดของคำที่ต่ำกว่าการบอกเขียนของระบบส่วนใหญ่ และช่องว่างระหว่าง API บนเครื่องและคลาวด์ก็เล็กลงมาก สำหรับการใช้งานส่วนใหญ่ คุณอาจจะไม่สังเกตเห็นความแตกต่าง
นั่นเปลี่ยนการคำนวณ ถ้าความแม่นยำเทียบเคียงกันได้ เหตุผลหลักในการอัปโหลดเสียงก็หายไป
ความเป็นส่วนตัว
เราไม่ได้มาที่นี่เพื่อทำให้คุณกลัวบริการคลาวด์ ส่วนใหญ่จัดการข้อมูลอย่างรับผิดชอบ
แต่มีความแตกต่างระหว่าง "พวกเขาสัญญาว่าจะไม่นำไปใช้ในทางที่ผิด" และ "พวกเขาไม่เคยมีมัน" เสียงของคุณเป็นไบโอเมตริก—ต่างจากรหัสผ่าน คุณเปลี่ยนมันไม่ได้ถ้ามีอะไรผิดพลาด
ด้วยการถอดเสียงบนเครื่อง เสียงของคุณอยู่บนอุปกรณ์ของคุณ ไม่ใช่เข้ารหัส-แล้ว-อัปโหลด แค่... อยู่ที่นั่น สำหรับบางคนนั่นสำคัญมาก สำหรับคนอื่น อาจจะไม่ เราสร้างสำหรับกลุ่มแรก
เมื่อไหร่ใช้อะไร
บนเครื่องไม่ใช่ตัวเลือกที่ถูกต้องเสมอไป นี่คือวิธีที่เราคิดเกี่ยวกับมัน
ต้องการการทำงานร่วมกันแบบเรียลไทม์?
เครื่องมือคลาวด์อย่าง Otter สร้างมาสำหรับสิ่งนั้น หลายคนแก้ไขบทถอดเสียงเดียวกันต้องการเซิร์ฟเวอร์กลาง นั่นคือการใช้คลาวด์ที่ดี
ใช้ Windows หรือ Android?
AI บนเครื่องยากกว่าบนแพลตฟอร์มเหล่านั้น—การสนับสนุนฮาร์ดแวร์ยังไม่สมบูรณ์ Dragon ใช้ได้สำหรับ Windows บน Android บริการคลาวด์มักเป็นตัวเลือกที่ใช้งานได้จริง
ต้องรู้ว่าใครพูดอะไร?
การระบุผู้พูด (diarization) ต้องใช้โมเดลเพิ่มเติม บริการคลาวด์อย่าง Rev จัดการเรื่องนี้ได้ดี เครื่องมือบนเครื่องกำลังตามทัน แต่นี่ยังเป็นพื้นที่ที่คลาวด์มีข้อได้เปรียบ
แค่ต้องการการถอดเสียงที่แม่นยำและส่วนตัว?
นั่นคือสิ่งที่เราโฟกัส ถ้าความกังวลหลักของคุณคือความเป็นส่วนตัวและความแม่นยำ และคุณอยู่บนฮาร์ดแวร์ Apple บนเครื่องตอนนี้ทำงานได้ดี
Whisper Notes ทำอะไร
มันรัน Whisper Large v3 Turbo บน Mac ของคุณ หรือโมเดลขนาดเล็กที่ปรับแต่งบน iPhone ของคุณ เสียงของคุณไม่เคยออกจากอุปกรณ์
บน Mac การถอดเสียงทำงานที่ประมาณ 10-15 เท่าของความเร็วเรียลไทม์โดยใช้ Neural Engine การบันทึกหนึ่งชั่วโมงใช้เวลาไม่กี่นาที บน iPhone ช้ากว่า แต่ใช้งานได้จริงสำหรับการบันทึกส่วนใหญ่
$4.99 ครั้งเดียว สำหรับทั้งสองแพลตฟอร์ม เราไม่ได้รันเซิร์ฟเวอร์ ดังนั้นเราไม่ต้องการการสมัครสมาชิก แค่นั้น
สรุปสั้นๆ
การถอดเสียงบนเครื่องเคยเป็นการแลกเปลี่ยน ตอนนี้มันเป็นค่าเริ่มต้นที่สมเหตุสมผลสำหรับหลายคน
ถ้าคุณต้องการการทำงานร่วมกันหรือทำงานบนแพลตฟอร์มที่ไม่ใช่ Apple บริการคลาวด์ยังมีเหตุผล ถ้าคุณต้องการการถอดเสียงที่แม่นยำและส่วนตัวบน Mac หรือ iPhone เป็นหลัก ตัวเลือกบนเครื่องก็ดีขึ้นมาก
เราใช้ Whisper Notes เองทุกวัน มันทำในสิ่งที่เราต้องการ
ลองดู
คุณสามารถทดสอบในโหมดเครื่องบินถ้าคุณต้องการยืนยันว่าไม่มีอะไรถูกอัปโหลด ทุกอย่างทำงานเหมือนกัน
App Store • $4.99 • Mac และ iPhone
ซื้อครั้งเดียวครอบคลุมทั้งสองแพลตฟอร์ม