Whisper Large V3 Turbo vs V3: เร็วกว่า 5 เท่าบน Mac (Benchmark)

6 พฤศจิกายน 2567
·
6 min read
·Whisper Notes Team

Whisper Large-v3 Turbo ของ OpenAI ลดดีโค้ดเดอร์จาก 32 เลเยอร์เหลือ 4 ลดพารามิเตอร์จาก 1.55B เหลือ 809M ผลลัพธ์คือ: การถอดเสียงเร็วขึ้น 2-5 เท่า ด้วยความแม่นยำเกือบเท่ากัน Whisper Notes นำเสนอบน Mac ที่มี Apple Silicon

การเปรียบเทียบสถาปัตยกรรม Whisper Large V3 Turbo กับ V3

V3 Turbo เทียบกับ V3: อะไรเปลี่ยนแปลง

Turbo ไม่ใช่สถาปัตยกรรมใหม่ เป็นโมเดล Whisper Large-v3 ตัวเดียวกันทุกประการ โดยดีโค้ดเดอร์ถูกตัดจาก 32 เลเยอร์เหลือ 4 แล้วปรับแต่งละเอียดเพื่อกู้คืนความแม่นยำ เอ็นโค้ดเดอร์ไม่ถูกแตะต้อง

Large-v3 Turbo Large-v3
พารามิเตอร์ 809M 1,550M
เลเยอร์ดีโค้ดเดอร์ 4 32
ภาษา 99 99
งานแปลภาษา ไม่รองรับ รองรับ
สัญญาอนุญาต MIT Apache 2.0

งานแปลภาษาถูกตัดออกจากข้อมูลฝึกของ Turbo อย่างชัดเจน โมเดล Large-v3 แบบเต็มรองรับ แต่ Whisper Notes ส่งมอบ Turbo เท่านั้น - การแปลจัดการแยกต่างหากผ่าน Apple Intelligence

เบนช์มาร์กความเร็ว: Whisper Notes บน Apple Silicon

ใน Whisper Notes สำหรับ Mac Turbo ทำงานผ่าน CoreML บน Neural Engine การประมวลผลเสียง 10 นาที:

อุปกรณ์ Whisper V3 V3 Turbo ความเร็วที่เพิ่มขึ้น
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

ความเร็วที่เพิ่มขึ้น 5 เท่าเฉพาะสำหรับ Whisper Notes บน Apple Silicon ซึ่งดีโค้ดเดอร์ขนาดเล็กได้ประโยชน์จากการเพิ่มประสิทธิภาพของ Neural Engine บน GPU ด้วยเฟรมเวิร์กอย่าง faster-whisper ช่องว่างจะลดลงเหลือ ~2.7 เท่า (ดูเบนช์มาร์กของชุมชนด้านล่าง)

ความแม่นยำ: การเปรียบเทียบ WER

Hugging Face Open ASR Leaderboard ทดสอบทั้งสองโมเดลบนชุดข้อมูลภาษาอังกฤษเดียวกัน อัตราข้อผิดพลาดของคำ (WER) ของ Turbo อยู่ภายในครึ่งจุดเปอร์เซ็นต์ของ V3 ในทุกเบนช์มาร์ก:

ชุดข้อมูล V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
WER เฉลี่ย 7.83% 7.44%

V3 แม่นยำกว่าเล็กน้อยในทุกชุดข้อมูล แต่ช่องว่างน้อยมาก - เฉลี่ย 0.39 จุดเปอร์เซ็นต์ สำหรับการถอดเสียงในโลกจริงส่วนใหญ่ คุณจะไม่ได้ยินความแตกต่าง

ในการประเมิน YouTube-commons สำหรับเสียงยาว (หนึ่งในเบนช์มาร์ก ASR โอเพนซอร์สที่ใหญ่ที่สุด) Turbo ได้คะแนน 13.40% WER เทียบกับ 13.20% ของ V3 - ด้วยอัตราส่วนเรียลไทม์ 129.5 เท่า เทียบกับ 55.3 เท่า นั่นคือเร็วกว่า 2.3 เท่าด้วยความแม่นยำเกือบเท่ากันบนเสียงจริง

เบนช์มาร์กชุมชน: GPU และ CPU

เบนช์มาร์กอิสระจากชุมชน faster-whisper และ whisper.cpp แสดงผลลัพธ์ที่สอดคล้องกันข้ามฮาร์ดแวร์ การถอดเสียง 13 นาทีด้วย faster-whisper บน GPU:

โมเดล ความละเอียด เวลา หน่วยความจำ GPU WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

แหล่งที่มา: เบนช์มาร์ก faster-whisper บน NVIDIA GPU, LibriSpeech clean validation split Turbo int8 ใช้เพียง 1.5 GB VRAM - พอดีกับ GPU 2 GB

การอนุมานแบบแบตช์บน RTX 3060 Laptop (6 GB VRAM, ความละเอียด int8) ผลักดันข้อได้เปรียบต่อไปอีก:

โมเดล ลำดับ แบตช์ (10) WER แบตช์
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

แหล่งที่มา: เบนช์มาร์ก NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, เสียงภาษาฝรั่งเศส, ความละเอียด int8

ด้วยการประมวลผลแบบแบตช์ Turbo ทำได้ WER ดีที่สุดจากทุกโมเดลที่ทดสอบ (7.7%) ขณะเดียวกันก็เร็วที่สุด เป็นจุดที่เหมาะสมที่สุดอย่างชัดเจนสำหรับการใช้งานจริง

ข้อจำกัดที่ทราบ (และ Whisper Notes จัดการอย่างไร)

ไม่มีการแปลในตัว

Turbo ถูกฝึกโดยไม่มีข้อมูลการแปล จะถอดเสียงเป็นภาษาต้นทางเท่านั้น - ต่างจาก Large-v3 ที่รองรับการแปลเสียงเป็นภาษาอังกฤษ

Whisper Notes - Apple Intelligence แปลบทถอดเสียงเป็นภาษาที่คุณเลือกโดยอัตโนมัติ ให้ผลลัพธ์สองภาษาไม่ว่าจะใช้โมเดลใด

ภาพหลอนมากขึ้นในเสียงที่มีสัญญาณรบกวน

รายงานจากชุมชนระบุว่า Turbo เกิดภาพหลอนมากกว่าในคลิปสั้นมากหรือการบันทึกที่มีเสียงรบกวนเมื่อเทียบกับ V3 ซึ่งเป็นไปตามคาดเนื่องจากดีโค้ดเดอร์ที่ลดลง (4 เลเยอร์ เทียบกับ 32)

Whisper Notes - เรียกใช้ Pyannote VAD ก่อนการถอดเสียง ตรวจจับส่วนที่มีเสียงพูดและตัดความเงียบ/เสียงรบกวนออก เพื่อให้โมเดลประมวลผลเฉพาะเสียงพูดจริง

คุณควรใช้โมเดลไหน?

อังกฤษ / ยุโรป Parakeet V3 - เร็วกว่า Whisper 10 เท่า ความแม่นยำดีกว่า
จีน / ญี่ปุ่น / เกาหลี SenseVoice - สร้างมาเฉพาะสำหรับ CJK ความเร็ว 52 เท่า
ภาษาอื่นๆ Whisper Large V3 Turbo - 99 ภาษา ความแม่นยำสูง ช้ากว่า