Parakeet V3 เป็นเอนจินเริ่มต้นบน Mac แล้ว — เร็วกว่า Whisper 10 เท่า

7 มีนาคม 2569
·
6 min read
·Whisper Notes Team

ตั้งแต่เวอร์ชัน 1.3.2 เป็นต้นไป Whisper Notes สำหรับ Mac ใช้ NVIDIA Parakeet TDT 0.6B เป็นเอนจินแปลงเสียงเป็นข้อความตัวเริ่มต้น มันเร็วกว่า Whisper Large V3 Turbo ถึง 10 เท่าสำหรับภาษาอังกฤษ แถมยังแม่นยำกว่าด้วย โมเดล Whisper ยังคงมีให้เลือกใช้ถ้าคุณต้องการภาษาอื่น

ทำไมเราถึงเปลี่ยนโมเดลเริ่มต้น

Whisper ดีนะ แต่มันถูกออกแบบมาเป็นโมเดลอเนกประสงค์ รองรับกว่า 100 ภาษา แปลภาษาได้ สร้าง timestamp ได้ — เหมือนมีดพับสวิสเลย แต่ข้อแลกเปลี่ยนคือความเร็ว ถ้าจะพิมพ์ดิกเทชันภาษาอังกฤษ ที่แค่อยากให้ตัวอักษรขึ้นจอเร็วๆ มันเกินความจำเป็นไป

มีอย่างหนึ่งที่กวนใจผมมาตลอด: ตอนใช้ ปุ่ม Fn สำหรับดิกเทชันทั้งระบบ กับ Whisper พูดจบประมาณ 1 นาที ต้องรอ 3–5 วินาทีกว่าข้อความจะโผล่ขึ้นมา ช่วงรอนั้นทำให้เสียจังหวะ หยุดพูด รอ จ้องเคอร์เซอร์ — มันทำลายความรู้สึกมหัศจรรย์ของการพิมพ์ด้วยเสียงไปเลย

Parakeet เปลี่ยนทุกอย่าง ความเร็วมันเร็วจนข้อความปรากฏขึ้นทันทีที่คุณหยุดพูด พูดปุ๊บ ตัวอักษรก็อยู่ตรงนั้นแล้ว พอลองสัมผัสความรู้สึกนั้น — ไหลลื่นไม่ต้องรอเลย — มันยากมากที่จะกลับไปใช้ Whisper

Parakeet V3 เร็วแค่ไหน?

ตัวเลขพูดได้ดังกว่าคำพูด นี่คือการเปรียบเทียบจริงๆ โดยใช้ไฟล์เสียง 35 นาทีบน Mac เครื่องเดียวกัน:

โมเดล เสียง 35 นาที
Whisper Large V3 Turbo 3 นาที
Parakeet TDT 0.6B v3 18 วินาที

เร็วกว่า 10 เท่า แถมเพราะโมเดลเล็กกว่า (600M เทียบกับ 800M พารามิเตอร์) จึงใช้หน่วยความจำน้อยกว่าและกินแบตน้อยกว่าด้วย

อะไรทำให้ Parakeet v3 เร็วขนาดนี้

Whisper ฟังเสียงเหมือนกับที่คุณอ่านหนังสือออกเสียง — ทีละคำ ทีละเฟรม ไม่เคยข้ามไปข้างหน้า แม้ช่วงเงียบก็ยังประมวลผลอยู่ ยังเดาว่าอะไรจะมาต่อ ละเอียดดี แต่ช้า

Parakeet ใช้วิธีที่ต่างออกไปโดยสิ้นเชิง มันบีบอัดสัญญาณเสียง 8 เท่าก่อนประมวลผล โมเดลจึงเห็นแค่ส่วนที่สำคัญ จากนั้นแทนที่จะไล่ทีละเฟรม มันทำนายไม่ใช่แค่ว่าคุณพูดคำอะไร แต่รวมถึงคำนั้นยาวแค่ไหน — แล้วกระโดดข้ามไปเลย ช่วงเงียบ? ข้ามทั้งหมด สระที่ลากยาว? ทำนายครั้งเดียวแทนที่จะหลายสิบครั้ง

ผลลัพธ์คือโมเดลที่ประมวลผลเสียงพูดเหมือนกับที่สมองคุณทำ — โฟกัสที่คำ ข้ามช่องว่าง นั่นคือเหตุผลที่มันเร็วกว่า 10 เท่าด้วยพารามิเตอร์น้อยกว่าแต่แม่นยำกว่า

Benchmark: Parakeet v3 เทียบกับ Whisper

เปรียบเทียบอัตราข้อผิดพลาดของคำ: Parakeet TDT 0.6B v3 เทียบกับ Whisper Large V3 เทียบกับ Seamless M4T บนหลายชุดข้อมูล benchmark

Parakeet v3 เทียบเท่าหรือเอาชนะโมเดลที่ใหญ่กว่า 2-4 เท่าใน benchmark FLEURS, CoVoST และ MLS

บน Hugging Face Open ASR Leaderboard Parakeet v3 ขึ้นอันดับ 1 ด้วยพารามิเตอร์แค่ 600M — น้อยกว่าครึ่งของ Whisper Large V3 ที่มี 1.55B:

โมเดล พารามิเตอร์ WER เฉลี่ย ความเร็ว (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER ต่ำกว่า = ผิดพลาดน้อยกว่า RTFx สูงกว่า = เร็วกว่า Parakeet ชนะทั้งสองด้าน ด้วยพารามิเตอร์ 600M มันยังเป็นโมเดลที่เล็กที่สุดในรายการ — หมายความว่ามันรันได้ลื่นมากบน Apple Silicon โดยใช้หน่วยความจำและแบตเตอรี่น้อยมาก

ไม่มีอาการหลอนอีกต่อไป

ถ้าคุณเคยใช้ Whisper สำหรับดิกเทชัน คุณคงเคยเห็นมันหลอนตอนเงียบ — พูดซ้ำวลีเดิม แต่งคำขึ้นมาเอง หรือพิมพ์ "Subtitles by Amara.org" ออกมาจากไหนไม่รู้ เรื่องนี้เกิดขึ้นเพราะ decoder แบบ autoregressive ของ Whisper คาดหวังจะสร้างข้อความตลอดเวลา แม้จะไม่มีอะไรให้ถอดเสียงก็ตาม

NVIDIA ฝึก Parakeet ด้วยเสียงที่ไม่ใช่คำพูด 36,000 ชั่วโมง (เสียงพื้นหลัง เสียงไอ ความเงียบ) จับคู่กับข้อความว่าง โมเดลเรียนรู้ว่าความเงียบเป็นยังไงและอยู่เงียบๆ สำหรับดิกเทชันทั้งระบบแบบเปิดตลอด นี่คือตัวเปลี่ยนเกม — ไม่มีข้อความขยะโผล่ขึ้นมาอีกต่อไปเวลาคุณหยุดคิด

ภาษาที่ Parakeet รองรับ

Parakeet v3 รองรับ 25 ภาษา: บัลแกเรีย, โครเอเชีย, เช็ก, เดนมาร์ก, ดัตช์, อังกฤษ, เอสโตเนีย, ฟินแลนด์, ฝรั่งเศส, เยอรมัน, กรีก, ฮังการี, อิตาลี, ลัตเวีย, ลิทัวเนีย, มอลตา, โปแลนด์, โปรตุเกส, โรมาเนีย, รัสเซีย, สโลวัก, สโลวีเนีย, สเปน, สวีเดน และยูเครน

ครอบคลุมยุโรปเกือบทั้งหมด แต่ไม่รองรับภาษาจีน ญี่ปุ่น เกาหลี อาหรับ หรือฮินดี นั่นคือเหตุผลที่เรายังเก็บโมเดล Whisper ไว้ให้ดาวน์โหลด ถ้าคุณดิกเทชันเป็นภาษาญี่ปุ่นหรือจีนกลาง ให้เลือก Whisper Large V3 Turbo จากตัวเลือกโมเดล สำหรับภาษาอังกฤษและภาษายุโรป Parakeet v3 เป็นเอนจินที่ดีกว่าอย่างชัดเจน

ตัวเลือกโมเดลบน Whisper Notes Mac แสดง Parakeet V3 เป็นค่าเริ่มต้น พร้อม Whisper Small และ Whisper Large V3 Turbo ให้ดาวน์โหลด

ตัวเลือกโมเดล: Parakeet V3 (ค่าเริ่มต้น), Whisper Small และ Whisper Large V3 Turbo — ทั้งหมดรันบนเครื่อง

ตัวเลือกโมเดลใน Whisper Notes

เปิดการตั้งค่าเพื่อสลับระหว่างโมเดล:

  • Parakeet V3 (ค่าเริ่มต้น) — เร็วที่สุด เหมาะสำหรับภาษาอังกฤษและภาษายุโรป
  • Whisper Small — เบา รองรับกว่า 100 ภาษา
  • Whisper Large V3 Turbo — โมเดลหลายภาษาที่แม่นยำที่สุด

ทุกโมเดลรัน 100% บนเครื่องของคุณ ไม่ต้องใช้อินเทอร์เน็ต ไม่มีคลาวด์ ไม่มีข้อมูลออกจากอุปกรณ์

ลองใช้เลย

Parakeet v3 พร้อมใช้งานแล้วในเวอร์ชัน Mac — แค่ดาวน์โหลด DMG ล่าสุด ถ้าฟีดแบ็กดี เราจะนำ Parakeet มาลงเวอร์ชัน iOS ในอัปเดตถัดไป

มีคำถามหรือข้อเสนอแนะ? ส่งอีเมลมาที่ support@whispernotes.app