Whisper Large V3 Turbo vs V3: Mac पर 5 गुना तेज़ (बेंचमार्क)

6 नवंबर 2024
·
6 min read
·Whisper Notes Team

OpenAI का Whisper Large-v3 Turbo decoder को 32 लेयर्स से घटाकर 4 करता है, पैरामीटर्स को 1.55B से 809M तक कम करता है। परिणाम: लगभग समान सटीकता के साथ 2-5× तेज़ ट्रांसक्रिप्शन। Whisper Notes इसे Apple Silicon के साथ Mac पर उपलब्ध कराता है।

Whisper Large V3 Turbo बनाम V3 आर्किटेक्चर तुलना

V3 Turbo बनाम V3: क्या बदला

Turbo कोई नया आर्किटेक्चर नहीं है। यह ठीक वही Whisper Large-v3 मॉडल है जिसमें decoder को 32 लेयर्स से 4 तक प्रून किया गया है, फिर सटीकता पुनर्प्राप्त करने के लिए fine-tune किया गया है। encoder अपरिवर्तित है।

Large-v3 Turbo Large-v3
पैरामीटर्स 809M 1,550M
Decoder लेयर्स 4 32
भाषाएँ 99 99
अनुवाद कार्य समर्थित नहीं समर्थित
लाइसेंस MIT Apache 2.0

Turbo के प्रशिक्षण डेटा से अनुवाद कार्य को स्पष्ट रूप से बाहर रखा गया था। पूर्ण Large-v3 मॉडल इसे सपोर्ट करता है, लेकिन Whisper Notes केवल Turbo शिप करता है — अनुवाद Apple Intelligence के माध्यम से अलग से किया जाता है।

स्पीड बेंचमार्क: Apple Silicon पर Whisper Notes

Mac के लिए Whisper Notes में, Turbo Neural Engine पर CoreML के ज़रिए चलता है। 10 मिनट के ऑडियो की प्रोसेसिंग:

डिवाइस Whisper V3 V3 Turbo स्पीडअप
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

5× स्पीडअप Whisper Notes on Apple Silicon के लिए विशिष्ट है, जहाँ छोटा decoder Neural Engine ऑप्टिमाइज़ेशन से लाभ उठाता है। faster-whisper जैसे फ्रेमवर्क के साथ GPU पर, अंतर ~2.7× तक कम हो जाता है (नीचे कम्युनिटी बेंचमार्क देखें)।

सटीकता: WER तुलना

Hugging Face Open ASR Leaderboard दोनों मॉडलों का एक ही अंग्रेज़ी डेटासेट पर परीक्षण करता है। Turbo की शब्द त्रुटि दर (WER) हर बेंचमार्क में V3 के आधे अंक के भीतर है:

डेटासेट V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
औसत WER 7.83% 7.44%

V3 हर डेटासेट पर थोड़ा अधिक सटीक है, लेकिन अंतर छोटा है — औसतन 0.39 प्रतिशत अंक। अधिकांश वास्तविक ट्रांसक्रिप्शन में, आपको अंतर सुनाई नहीं देगा।

YouTube-commons लंबे-फॉर्म मूल्यांकन (सबसे बड़े ओपन-सोर्स ASR बेंचमार्क में से एक) पर, Turbo 13.40% WER स्कोर करता है बनाम V3 का 13.20% — जबकि 129.5× रियल-टाइम फैक्टर पर चलता है बनाम 55.3×। यानी वास्तविक ऑडियो पर लगभग समान सटीकता के साथ 2.3× तेज़।

कम्युनिटी बेंचमार्क: GPU और CPU

faster-whisper और whisper.cpp समुदायों के स्वतंत्र बेंचमार्क विभिन्न हार्डवेयर पर लगातार परिणाम दिखाते हैं। GPU पर faster-whisper के साथ 13 मिनट के ऑडियो का ट्रांसक्रिप्शन:

मॉडल प्रिसिज़न समय GPU मेमोरी WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

स्रोत: NVIDIA GPU पर faster-whisper बेंचमार्क, LibriSpeech clean वैलिडेशन स्प्लिट। Turbo int8 केवल 1.5 GB VRAM उपयोग करता है — यह 2 GB GPU में फिट हो जाता है।

RTX 3060 Laptop (6 GB VRAM, int8 प्रिसिज़न) पर बैच्ड इन्फेरेंस लाभ को और बढ़ाता है:

मॉडल क्रमिक बैच्ड (10) बैच्ड WER
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

स्रोत: NilaierMusic बेंचमार्क, Intel i7-12650H + RTX 3060 Laptop 6 GB, फ्रेंच ऑडियो, int8 प्रिसिज़न।

बैच्ड प्रोसेसिंग के साथ, Turbo सभी परीक्षित मॉडलों में सबसे अच्छा WER (7.7%) प्राप्त करता है और साथ ही सबसे तेज़ भी है। यह प्रोडक्शन उपयोग के लिए स्पष्ट रूप से सबसे अच्छा विकल्प है।

ज्ञात सीमाएँ (और Whisper Notes उन्हें कैसे संभालता है)

कोई अंतर्निहित अनुवाद नहीं

Turbo को अनुवाद डेटा के बिना प्रशिक्षित किया गया था। यह केवल स्रोत भाषा में ट्रांसक्राइब करता है — Large-v3 के विपरीत, जो ऑडियो→अंग्रेज़ी अनुवाद सपोर्ट करता है।

Whisper Notes — Apple Intelligence स्वचालित रूप से ट्रांसक्रिप्ट को आपकी चुनी हुई भाषा में अनुवाद करता है, चाहे कोई भी मॉडल उपयोग हो, द्विभाषी आउटपुट प्रदान करता है।

शोर वाले ऑडियो पर अधिक हैलुसिनेशन

कम्युनिटी रिपोर्ट बताती हैं कि Turbo बहुत छोटे क्लिप या शोर वाली रिकॉर्डिंग पर V3 की तुलना में अधिक हैलुसिनेट करता है। कम decoder (4 लेयर्स बनाम 32) को देखते हुए यह अपेक्षित है।

Whisper Notes — ट्रांसक्रिप्शन से पहले Pyannote VAD चलाता है, वॉइस सेगमेंट का पता लगाता है और साइलेंस/नॉइज़ हटाता है ताकि मॉडल केवल असली आवाज़ प्रोसेस करे।

आपको कौन सा मॉडल उपयोग करना चाहिए?

अंग्रेज़ी / यूरोपीय Parakeet V3 — Whisper से 10× तेज़, बेहतर सटीकता
चीनी / जापानी / कोरियाई SenseVoice — CJK के लिए निर्मित, 52× स्पीड
अन्य भाषाएँ Whisper Large V3 Turbo — 99 भाषाएँ, उच्च सटीकता, धीमा