वर्शन 1.3.2 से, Whisper Notes for Mac में NVIDIA Parakeet TDT 0.6B डिफ़ॉल्ट स्पीच इंजन के रूप में आता है। यह अंग्रेज़ी के लिए Whisper Large V3 Turbo से 10 गुना तेज़ है, और ज़्यादा सटीक भी। अगर आपको दूसरी भाषाएँ चाहिए तो Whisper मॉडल अभी भी उपलब्ध हैं।
हमने डिफ़ॉल्ट क्यों बदला
Whisper बढ़िया है, लेकिन यह एक जनरल-परपज़ मॉडल की तरह बनाया गया था। 100 से ज़्यादा भाषाएँ, ट्रांसलेशन, टाइमस्टैम्प — एक स्विस आर्मी नाइफ़। इसकी कीमत है स्पीड। अंग्रेज़ी डिक्टेशन के लिए, जहाँ बस शब्द तेज़ी से स्क्रीन पर आने चाहिए, यह ज़रूरत से ज़्यादा है।
एक बात मुझे हमेशा खटकती थी: जब Fn-key सिस्टम-वाइड डिक्टेशन के साथ Whisper इस्तेमाल करता था, तो करीब 1 मिनट बोलने के बाद ट्रांसक्रिप्ट आने में 3-5 सेकंड लगते थे। वो रुकावट फ़्लो तोड़ देती है। बोलना बंद करो, इंतज़ार करो, कर्सर को घूरते रहो — वॉइस टाइपिंग का मज़ा ही ख़त्म हो जाता है।
Parakeet ने यह पूरी तरह बदल दिया। स्पीड इतनी तेज़ है कि बोलना बंद करते ही ट्रांसक्रिप्ट आ जाता है। बोलो, और शब्द बस वहाँ होते हैं। एक बार यह अनुभव हो जाए — बिना किसी इंतज़ार का यह सहज प्रवाह — तो Whisper पर वापस जाना बहुत मुश्किल लगता है।
Parakeet V3 कितना तेज़ है?
नंबर शब्दों से ज़्यादा बोलते हैं। यह रहा एक असली तुलना — 35 मिनट की ऑडियो फ़ाइल, एक ही Mac पर:
| मॉडल | 35 मिनट ऑडियो |
|---|---|
| Whisper Large V3 Turbo | 3 मिनट |
| Parakeet TDT 0.6B v3 | 18 सेकंड |
10 गुना तेज़। और चूँकि मॉडल छोटा है (600M बनाम 800M पैरामीटर), इसलिए मेमोरी और बैटरी भी कम खर्च होती है।
Parakeet v3 इतना तेज़ कैसे है
Whisper ऑडियो को ऐसे सुनता है जैसे आप किताब ज़ोर से पढ़ रहे हों — शब्द दर शब्द, फ़्रेम दर फ़्रेम, बिना कुछ स्किप किए। ख़ामोशी के दौरान भी यह प्रोसेस करता रहता है, अगला शब्द अनुमान लगाता रहता है। यह thorough है, लेकिन धीमा।
Parakeet का तरीक़ा बुनियादी तौर पर अलग है। यह प्रोसेसिंग से पहले ऑडियो सिग्नल को 8 गुना कंप्रेस करता है, ताकि मॉडल सिर्फ़ ज़रूरी चीज़ें देखे। फिर हर फ़्रेम पर मेहनत करने की बजाय, यह न सिर्फ़ अनुमान लगाता है कि आपने क्या कहा, बल्कि यह भी कि वो शब्द कितनी देर तक चला — और आगे कूद जाता है। ख़ामोशी? पूरी तरह स्किप। लंबा स्वर? दर्जनों की जगह एक प्रेडिक्शन।
नतीजा एक ऐसा मॉडल है जो स्पीच को वैसे ही प्रोसेस करता है जैसे आपका दिमाग़ करता है — शब्दों पर ध्यान देता है, गैप को नज़रअंदाज़ करता है। इसीलिए यह कम पैरामीटर और ज़्यादा एक्यूरेसी के साथ 10 गुना तेज़ है।
बेंचमार्क: Parakeet v3 बनाम Whisper
Parakeet v3 FLEURS, CoVoST, और MLS बेंचमार्क पर अपने से 2-4 गुना बड़े मॉडल से बराबरी या बेहतर प्रदर्शन करता है
Hugging Face Open ASR Leaderboard पर, Parakeet v3 सिर्फ़ 600M पैरामीटर के साथ टॉप पर है — Whisper Large V3 के 1.55B से आधे से भी कम:
| मॉडल | पैरामीटर | औसत WER | स्पीड (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
कम WER = कम ग़लतियाँ। ज़्यादा RTFx = ज़्यादा तेज़। Parakeet दोनों में जीतता है। 600M पैरामीटर के साथ, यह उस लिस्ट का सबसे छोटा मॉडल भी है — यानी यह Apple Silicon पर बेहतरीन चलता है, कम मेमोरी और कम बैटरी के साथ।
अब हैलुसिनेशन नहीं होंगे
अगर आपने Whisper का डिक्टेशन के लिए इस्तेमाल किया है, तो शायद देखा होगा कि ख़ामोशी में यह हैलुसिनेट करता है — फ़्रेज़ दोहराता है, शब्द गढ़ता है, या कहीं से "Subtitles by Amara.org" छाप देता है। ऐसा इसलिए होता है क्योंकि Whisper का ऑटोरिग्रेसिव डीकोडर हमेशा टेक्स्ट बनाने की उम्मीद रखता है, भले ही ट्रांसक्राइब करने को कुछ न हो।
NVIDIA ने Parakeet को 36,000 घंटे के शुद्ध नॉन-स्पीच ऑडियो (बैकग्राउंड शोर, खाँसी, ख़ामोशी) पर ट्रेन किया, जिसमें ख़ाली स्ट्रिंग टारगेट थे। मॉडल ने सीखा कि ख़ामोशी कैसी होती है और चुप रहता है। "हमेशा चालू" सिस्टम-वाइड डिक्टेशन के लिए यह गेम-चेंजर है — सोचने के लिए रुकने पर अब बेकार टेक्स्ट नहीं आएगा।
Parakeet किन भाषाओं को सपोर्ट करता है
Parakeet v3 25 भाषाओं को सपोर्ट करता है: बल्गेरियाई, क्रोएशियाई, चेक, डेनिश, डच, अंग्रेज़ी, एस्टोनियाई, फ़िनिश, फ़्रेंच, जर्मन, ग्रीक, हंगेरियाई, इतालवी, लातवियाई, लिथुआनियाई, माल्टीज़, पोलिश, पुर्तगाली, रोमानियाई, रूसी, स्लोवाक, स्लोवेनियाई, स्पेनिश, स्वीडिश, और यूक्रेनियाई।
यह ज़्यादातर यूरोप को कवर करता है, लेकिन चीनी, जापानी, कोरियाई, अरबी या हिंदी सपोर्ट नहीं करता। इसीलिए हमने Whisper मॉडल डाउनलोड करने योग्य विकल्पों के रूप में रखे हैं। अगर आप हिंदी, जापानी या मंदारिन में डिक्टेट करते हैं, तो मॉडल पिकर से Whisper Large V3 Turbo चुनें। अंग्रेज़ी और यूरोपीय भाषाओं के लिए, Parakeet v3 बस बेहतर इंजन है।
मॉडल पिकर: Parakeet V3 (डिफ़ॉल्ट), Whisper Small, और Whisper Large V3 Turbo — सभी लोकली चलते हैं
Whisper Notes में मॉडल पिकर
मॉडल बदलने के लिए Settings खोलें:
- Parakeet V3 (डिफ़ॉल्ट) — सबसे तेज़, अंग्रेज़ी और यूरोपीय भाषाओं के लिए सबसे अच्छा
- Whisper Small — हल्का, 100+ भाषाएँ
- Whisper Large V3 Turbo — सबसे सटीक बहुभाषी मॉडल
सभी मॉडल आपके Mac पर 100% लोकली चलते हैं। कोई इंटरनेट नहीं, कोई क्लाउड नहीं, आपका डेटा आपके डिवाइस से बाहर नहीं जाता।
आज़माइए
Parakeet v3 अभी Mac वर्शन में उपलब्ध है — बस लेटेस्ट DMG डाउनलोड करें। अगर फ़ीडबैक अच्छा रहा, तो हम भविष्य के अपडेट में Parakeet को iOS वर्शन में भी लाएँगे।
कोई सवाल या फ़ीडबैक? ईमेल करें support@whispernotes.app।