OpenAI का Whisper Large-v3 Turbo decoder को 32 लेयर्स से घटाकर 4 करता है, पैरामीटर्स को 1.55B से 809M तक कम करता है। परिणाम: लगभग समान सटीकता के साथ 2-5× तेज़ ट्रांसक्रिप्शन। Whisper Notes इसे Apple Silicon के साथ Mac पर उपलब्ध कराता है।
V3 Turbo बनाम V3: क्या बदला
Turbo कोई नया आर्किटेक्चर नहीं है। यह ठीक वही Whisper Large-v3 मॉडल है जिसमें decoder को 32 लेयर्स से 4 तक प्रून किया गया है, फिर सटीकता पुनर्प्राप्त करने के लिए fine-tune किया गया है। encoder अपरिवर्तित है।
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| पैरामीटर्स | 809M | 1,550M |
| Decoder लेयर्स | 4 | 32 |
| भाषाएँ | 99 | 99 |
| अनुवाद कार्य | समर्थित नहीं | समर्थित |
| लाइसेंस | MIT | Apache 2.0 |
Turbo के प्रशिक्षण डेटा से अनुवाद कार्य को स्पष्ट रूप से बाहर रखा गया था। पूर्ण Large-v3 मॉडल इसे सपोर्ट करता है, लेकिन Whisper Notes केवल Turbo शिप करता है — अनुवाद Apple Intelligence के माध्यम से अलग से किया जाता है।
स्पीड बेंचमार्क: Apple Silicon पर Whisper Notes
Mac के लिए Whisper Notes में, Turbo Neural Engine पर CoreML के ज़रिए चलता है। 10 मिनट के ऑडियो की प्रोसेसिंग:
| डिवाइस | Whisper V3 | V3 Turbo | स्पीडअप |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
5× स्पीडअप Whisper Notes on Apple Silicon के लिए विशिष्ट है, जहाँ छोटा decoder Neural Engine ऑप्टिमाइज़ेशन से लाभ उठाता है। faster-whisper जैसे फ्रेमवर्क के साथ GPU पर, अंतर ~2.7× तक कम हो जाता है (नीचे कम्युनिटी बेंचमार्क देखें)।
सटीकता: WER तुलना
Hugging Face Open ASR Leaderboard दोनों मॉडलों का एक ही अंग्रेज़ी डेटासेट पर परीक्षण करता है। Turbo की शब्द त्रुटि दर (WER) हर बेंचमार्क में V3 के आधे अंक के भीतर है:
| डेटासेट | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| औसत WER | 7.83% | 7.44% |
V3 हर डेटासेट पर थोड़ा अधिक सटीक है, लेकिन अंतर छोटा है — औसतन 0.39 प्रतिशत अंक। अधिकांश वास्तविक ट्रांसक्रिप्शन में, आपको अंतर सुनाई नहीं देगा।
YouTube-commons लंबे-फॉर्म मूल्यांकन (सबसे बड़े ओपन-सोर्स ASR बेंचमार्क में से एक) पर, Turbo 13.40% WER स्कोर करता है बनाम V3 का 13.20% — जबकि 129.5× रियल-टाइम फैक्टर पर चलता है बनाम 55.3×। यानी वास्तविक ऑडियो पर लगभग समान सटीकता के साथ 2.3× तेज़।
कम्युनिटी बेंचमार्क: GPU और CPU
faster-whisper और whisper.cpp समुदायों के स्वतंत्र बेंचमार्क विभिन्न हार्डवेयर पर लगातार परिणाम दिखाते हैं। GPU पर faster-whisper के साथ 13 मिनट के ऑडियो का ट्रांसक्रिप्शन:
| मॉडल | प्रिसिज़न | समय | GPU मेमोरी | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
स्रोत: NVIDIA GPU पर faster-whisper बेंचमार्क, LibriSpeech clean वैलिडेशन स्प्लिट। Turbo int8 केवल 1.5 GB VRAM उपयोग करता है — यह 2 GB GPU में फिट हो जाता है।
RTX 3060 Laptop (6 GB VRAM, int8 प्रिसिज़न) पर बैच्ड इन्फेरेंस लाभ को और बढ़ाता है:
| मॉडल | क्रमिक | बैच्ड (10) | बैच्ड WER |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
स्रोत: NilaierMusic बेंचमार्क, Intel i7-12650H + RTX 3060 Laptop 6 GB, फ्रेंच ऑडियो, int8 प्रिसिज़न।
बैच्ड प्रोसेसिंग के साथ, Turbo सभी परीक्षित मॉडलों में सबसे अच्छा WER (7.7%) प्राप्त करता है और साथ ही सबसे तेज़ भी है। यह प्रोडक्शन उपयोग के लिए स्पष्ट रूप से सबसे अच्छा विकल्प है।
ज्ञात सीमाएँ (और Whisper Notes उन्हें कैसे संभालता है)
कोई अंतर्निहित अनुवाद नहीं
Turbo को अनुवाद डेटा के बिना प्रशिक्षित किया गया था। यह केवल स्रोत भाषा में ट्रांसक्राइब करता है — Large-v3 के विपरीत, जो ऑडियो→अंग्रेज़ी अनुवाद सपोर्ट करता है।
Whisper Notes — Apple Intelligence स्वचालित रूप से ट्रांसक्रिप्ट को आपकी चुनी हुई भाषा में अनुवाद करता है, चाहे कोई भी मॉडल उपयोग हो, द्विभाषी आउटपुट प्रदान करता है।
शोर वाले ऑडियो पर अधिक हैलुसिनेशन
कम्युनिटी रिपोर्ट बताती हैं कि Turbo बहुत छोटे क्लिप या शोर वाली रिकॉर्डिंग पर V3 की तुलना में अधिक हैलुसिनेट करता है। कम decoder (4 लेयर्स बनाम 32) को देखते हुए यह अपेक्षित है।
Whisper Notes — ट्रांसक्रिप्शन से पहले Pyannote VAD चलाता है, वॉइस सेगमेंट का पता लगाता है और साइलेंस/नॉइज़ हटाता है ताकि मॉडल केवल असली आवाज़ प्रोसेस करे।
आपको कौन सा मॉडल उपयोग करना चाहिए?
| अंग्रेज़ी / यूरोपीय | Parakeet V3 — Whisper से 10× तेज़, बेहतर सटीकता |
| चीनी / जापानी / कोरियाई | SenseVoice — CJK के लिए निर्मित, 52× स्पीड |
| अन्य भाषाएँ | Whisper Large V3 Turbo — 99 भाषाएँ, उच्च सटीकता, धीमा |