Whisper Large V3 Turbo vs V3: เร็วกว่า 5 เท่าบน Mac (Benchmark)

Whisper Large-v3 Turbo ของ OpenAI ลดดีโค้ดเดอร์จาก 32 เลเยอร์เหลือ 4 ลดพารามิเตอร์จาก 1.55B เหลือ 809M ผลลัพธ์คือ: การถอดเสียงเร็วขึ้น 2-5 เท่า ด้วยความแม่นยำเกือบเท่ากัน Whisper Notes นำเสนอบน Mac ที่มี Apple Silicon

การเปรียบเทียบสถาปัตยกรรม Whisper Large V3 Turbo กับ V3

V3 Turbo เทียบกับ V3: อะไรเปลี่ยนแปลง

Turbo ไม่ใช่สถาปัตยกรรมใหม่ เป็นโมเดล Whisper Large-v3 ตัวเดียวกันทุกประการ โดยดีโค้ดเดอร์ถูกตัดจาก 32 เลเยอร์เหลือ 4 แล้วปรับแต่งละเอียดเพื่อกู้คืนความแม่นยำ เอ็นโค้ดเดอร์ไม่ถูกแตะต้อง

	Large-v3 Turbo	Large-v3
พารามิเตอร์	809M	1,550M
เลเยอร์ดีโค้ดเดอร์	4	32
ภาษา	99	99
งานแปลภาษา	ไม่รองรับ	รองรับ
สัญญาอนุญาต	MIT	Apache 2.0

งานแปลภาษาถูกตัดออกจากข้อมูลฝึกของ Turbo อย่างชัดเจน โมเดล Large-v3 แบบเต็มรองรับ แต่ Whisper Notes ส่งมอบ Turbo เท่านั้น - การแปลจัดการแยกต่างหากผ่าน Apple Intelligence

เบนช์มาร์กความเร็ว: Whisper Notes บน Apple Silicon

ใน Whisper Notes สำหรับ Mac Turbo ทำงานผ่าน CoreML บน Neural Engine การประมวลผลเสียง 10 นาที:

อุปกรณ์	Whisper V3	V3 Turbo	ความเร็วที่เพิ่มขึ้น
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

ความเร็วที่เพิ่มขึ้น 5 เท่าเฉพาะสำหรับ Whisper Notes บน Apple Silicon ซึ่งดีโค้ดเดอร์ขนาดเล็กได้ประโยชน์จากการเพิ่มประสิทธิภาพของ Neural Engine บน GPU ด้วยเฟรมเวิร์กอย่าง faster-whisper ช่องว่างจะลดลงเหลือ ~2.7 เท่า (ดูเบนช์มาร์กของชุมชนด้านล่าง)

ความแม่นยำ: การเปรียบเทียบ WER

Hugging Face Open ASR Leaderboard ทดสอบทั้งสองโมเดลบนชุดข้อมูลภาษาอังกฤษเดียวกัน อัตราข้อผิดพลาดของคำ (WER) ของ Turbo อยู่ภายในครึ่งจุดเปอร์เซ็นต์ของ V3 ในทุกเบนช์มาร์ก:

ชุดข้อมูล	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
WER เฉลี่ย	7.83%	7.44%

V3 แม่นยำกว่าเล็กน้อยในทุกชุดข้อมูล แต่ช่องว่างน้อยมาก - เฉลี่ย 0.39 จุดเปอร์เซ็นต์ สำหรับการถอดเสียงในโลกจริงส่วนใหญ่ คุณจะไม่ได้ยินความแตกต่าง

ในการประเมิน YouTube-commons สำหรับเสียงยาว (หนึ่งในเบนช์มาร์ก ASR โอเพนซอร์สที่ใหญ่ที่สุด) Turbo ได้คะแนน 13.40% WER เทียบกับ 13.20% ของ V3 - ด้วยอัตราส่วนเรียลไทม์ 129.5 เท่า เทียบกับ 55.3 เท่า นั่นคือเร็วกว่า 2.3 เท่าด้วยความแม่นยำเกือบเท่ากันบนเสียงจริง

เบนช์มาร์กชุมชน: GPU และ CPU

เบนช์มาร์กอิสระจากชุมชน faster-whisper และ whisper.cpp แสดงผลลัพธ์ที่สอดคล้องกันข้ามฮาร์ดแวร์ การถอดเสียง 13 นาทีด้วย faster-whisper บน GPU:

โมเดล	ความละเอียด	เวลา	หน่วยความจำ GPU	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

แหล่งที่มา: เบนช์มาร์ก faster-whisper บน NVIDIA GPU, LibriSpeech clean validation split Turbo int8 ใช้เพียง 1.5 GB VRAM - พอดีกับ GPU 2 GB

การอนุมานแบบแบตช์บน RTX 3060 Laptop (6 GB VRAM, ความละเอียด int8) ผลักดันข้อได้เปรียบต่อไปอีก:

โมเดล	ลำดับ	แบตช์ (10)	WER แบตช์
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

แหล่งที่มา: เบนช์มาร์ก NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, เสียงภาษาฝรั่งเศส, ความละเอียด int8

ด้วยการประมวลผลแบบแบตช์ Turbo ทำได้ WER ดีที่สุดจากทุกโมเดลที่ทดสอบ (7.7%) ขณะเดียวกันก็เร็วที่สุด เป็นจุดที่เหมาะสมที่สุดอย่างชัดเจนสำหรับการใช้งานจริง

ข้อจำกัดที่ทราบ (และ Whisper Notes จัดการอย่างไร)

ไม่มีการแปลในตัว

Turbo ถูกฝึกโดยไม่มีข้อมูลการแปล จะถอดเสียงเป็นภาษาต้นทางเท่านั้น - ต่างจาก Large-v3 ที่รองรับการแปลเสียงเป็นภาษาอังกฤษ

Whisper Notes - Apple Intelligence แปลบทถอดเสียงเป็นภาษาที่คุณเลือกโดยอัตโนมัติ ให้ผลลัพธ์สองภาษาไม่ว่าจะใช้โมเดลใด

ภาพหลอนมากขึ้นในเสียงที่มีสัญญาณรบกวน

รายงานจากชุมชนระบุว่า Turbo เกิดภาพหลอนมากกว่าในคลิปสั้นมากหรือการบันทึกที่มีเสียงรบกวนเมื่อเทียบกับ V3 ซึ่งเป็นไปตามคาดเนื่องจากดีโค้ดเดอร์ที่ลดลง (4 เลเยอร์ เทียบกับ 32)

Whisper Notes - เรียกใช้ Pyannote VAD ก่อนการถอดเสียง ตรวจจับส่วนที่มีเสียงพูดและตัดความเงียบ/เสียงรบกวนออก เพื่อให้โมเดลประมวลผลเฉพาะเสียงพูดจริง

คุณควรใช้โมเดลไหน?

อังกฤษ / ยุโรป	Parakeet V3 - เร็วกว่า Whisper 10 เท่า ความแม่นยำดีกว่า
จีน / ญี่ปุ่น / เกาหลี	SenseVoice - สร้างมาเฉพาะสำหรับ CJK ความเร็ว 52 เท่า
ภาษาอื่นๆ	Whisper Large V3 Turbo - 99 ภาษา ความแม่นยำสูง ช้ากว่า

ดาวน์โหลดสำหรับ iOS

ดาวน์โหลดสำหรับ macOS