Parakeet V3 अब Mac का डिफ़ॉल्ट इंजन — Whisper से 10 गुना तेज़

7 मार्च 2026
·
6 min read
·Whisper Notes Team

वर्शन 1.3.2 से, Whisper Notes for Mac में NVIDIA Parakeet TDT 0.6B डिफ़ॉल्ट स्पीच इंजन के रूप में आता है। यह अंग्रेज़ी के लिए Whisper Large V3 Turbo से 10 गुना तेज़ है, और ज़्यादा सटीक भी। अगर आपको दूसरी भाषाएँ चाहिए तो Whisper मॉडल अभी भी उपलब्ध हैं।

हमने डिफ़ॉल्ट क्यों बदला

Whisper बढ़िया है, लेकिन यह एक जनरल-परपज़ मॉडल की तरह बनाया गया था। 100 से ज़्यादा भाषाएँ, ट्रांसलेशन, टाइमस्टैम्प — एक स्विस आर्मी नाइफ़। इसकी कीमत है स्पीड। अंग्रेज़ी डिक्टेशन के लिए, जहाँ बस शब्द तेज़ी से स्क्रीन पर आने चाहिए, यह ज़रूरत से ज़्यादा है।

एक बात मुझे हमेशा खटकती थी: जब Fn-key सिस्टम-वाइड डिक्टेशन के साथ Whisper इस्तेमाल करता था, तो करीब 1 मिनट बोलने के बाद ट्रांसक्रिप्ट आने में 3-5 सेकंड लगते थे। वो रुकावट फ़्लो तोड़ देती है। बोलना बंद करो, इंतज़ार करो, कर्सर को घूरते रहो — वॉइस टाइपिंग का मज़ा ही ख़त्म हो जाता है।

Parakeet ने यह पूरी तरह बदल दिया। स्पीड इतनी तेज़ है कि बोलना बंद करते ही ट्रांसक्रिप्ट आ जाता है। बोलो, और शब्द बस वहाँ होते हैं। एक बार यह अनुभव हो जाए — बिना किसी इंतज़ार का यह सहज प्रवाह — तो Whisper पर वापस जाना बहुत मुश्किल लगता है।

Parakeet V3 कितना तेज़ है?

नंबर शब्दों से ज़्यादा बोलते हैं। यह रहा एक असली तुलना — 35 मिनट की ऑडियो फ़ाइल, एक ही Mac पर:

मॉडल 35 मिनट ऑडियो
Whisper Large V3 Turbo 3 मिनट
Parakeet TDT 0.6B v3 18 सेकंड

10 गुना तेज़। और चूँकि मॉडल छोटा है (600M बनाम 800M पैरामीटर), इसलिए मेमोरी और बैटरी भी कम खर्च होती है।

Parakeet v3 इतना तेज़ कैसे है

Whisper ऑडियो को ऐसे सुनता है जैसे आप किताब ज़ोर से पढ़ रहे हों — शब्द दर शब्द, फ़्रेम दर फ़्रेम, बिना कुछ स्किप किए। ख़ामोशी के दौरान भी यह प्रोसेस करता रहता है, अगला शब्द अनुमान लगाता रहता है। यह thorough है, लेकिन धीमा।

Parakeet का तरीक़ा बुनियादी तौर पर अलग है। यह प्रोसेसिंग से पहले ऑडियो सिग्नल को 8 गुना कंप्रेस करता है, ताकि मॉडल सिर्फ़ ज़रूरी चीज़ें देखे। फिर हर फ़्रेम पर मेहनत करने की बजाय, यह न सिर्फ़ अनुमान लगाता है कि आपने क्या कहा, बल्कि यह भी कि वो शब्द कितनी देर तक चला — और आगे कूद जाता है। ख़ामोशी? पूरी तरह स्किप। लंबा स्वर? दर्जनों की जगह एक प्रेडिक्शन।

नतीजा एक ऐसा मॉडल है जो स्पीच को वैसे ही प्रोसेस करता है जैसे आपका दिमाग़ करता है — शब्दों पर ध्यान देता है, गैप को नज़रअंदाज़ करता है। इसीलिए यह कम पैरामीटर और ज़्यादा एक्यूरेसी के साथ 10 गुना तेज़ है।

बेंचमार्क: Parakeet v3 बनाम Whisper

शब्द त्रुटि दर तुलना: Parakeet TDT 0.6B v3 बनाम Whisper Large V3 बनाम Seamless M4T कई बेंचमार्क डेटासेट पर

Parakeet v3 FLEURS, CoVoST, और MLS बेंचमार्क पर अपने से 2-4 गुना बड़े मॉडल से बराबरी या बेहतर प्रदर्शन करता है

Hugging Face Open ASR Leaderboard पर, Parakeet v3 सिर्फ़ 600M पैरामीटर के साथ टॉप पर है — Whisper Large V3 के 1.55B से आधे से भी कम:

मॉडल पैरामीटर औसत WER स्पीड (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

कम WER = कम ग़लतियाँ। ज़्यादा RTFx = ज़्यादा तेज़। Parakeet दोनों में जीतता है। 600M पैरामीटर के साथ, यह उस लिस्ट का सबसे छोटा मॉडल भी है — यानी यह Apple Silicon पर बेहतरीन चलता है, कम मेमोरी और कम बैटरी के साथ।

अब हैलुसिनेशन नहीं होंगे

अगर आपने Whisper का डिक्टेशन के लिए इस्तेमाल किया है, तो शायद देखा होगा कि ख़ामोशी में यह हैलुसिनेट करता है — फ़्रेज़ दोहराता है, शब्द गढ़ता है, या कहीं से "Subtitles by Amara.org" छाप देता है। ऐसा इसलिए होता है क्योंकि Whisper का ऑटोरिग्रेसिव डीकोडर हमेशा टेक्स्ट बनाने की उम्मीद रखता है, भले ही ट्रांसक्राइब करने को कुछ न हो।

NVIDIA ने Parakeet को 36,000 घंटे के शुद्ध नॉन-स्पीच ऑडियो (बैकग्राउंड शोर, खाँसी, ख़ामोशी) पर ट्रेन किया, जिसमें ख़ाली स्ट्रिंग टारगेट थे। मॉडल ने सीखा कि ख़ामोशी कैसी होती है और चुप रहता है। "हमेशा चालू" सिस्टम-वाइड डिक्टेशन के लिए यह गेम-चेंजर है — सोचने के लिए रुकने पर अब बेकार टेक्स्ट नहीं आएगा।

Parakeet किन भाषाओं को सपोर्ट करता है

Parakeet v3 25 भाषाओं को सपोर्ट करता है: बल्गेरियाई, क्रोएशियाई, चेक, डेनिश, डच, अंग्रेज़ी, एस्टोनियाई, फ़िनिश, फ़्रेंच, जर्मन, ग्रीक, हंगेरियाई, इतालवी, लातवियाई, लिथुआनियाई, माल्टीज़, पोलिश, पुर्तगाली, रोमानियाई, रूसी, स्लोवाक, स्लोवेनियाई, स्पेनिश, स्वीडिश, और यूक्रेनियाई।

यह ज़्यादातर यूरोप को कवर करता है, लेकिन चीनी, जापानी, कोरियाई, अरबी या हिंदी सपोर्ट नहीं करता। इसीलिए हमने Whisper मॉडल डाउनलोड करने योग्य विकल्पों के रूप में रखे हैं। अगर आप हिंदी, जापानी या मंदारिन में डिक्टेट करते हैं, तो मॉडल पिकर से Whisper Large V3 Turbo चुनें। अंग्रेज़ी और यूरोपीय भाषाओं के लिए, Parakeet v3 बस बेहतर इंजन है।

Whisper Notes Mac मॉडल पिकर जिसमें Parakeet V3 डिफ़ॉल्ट के रूप में दिख रहा है, साथ में Whisper Small और Whisper Large V3 Turbo डाउनलोड करने योग्य विकल्पों के रूप में

मॉडल पिकर: Parakeet V3 (डिफ़ॉल्ट), Whisper Small, और Whisper Large V3 Turbo — सभी लोकली चलते हैं

Whisper Notes में मॉडल पिकर

मॉडल बदलने के लिए Settings खोलें:

  • Parakeet V3 (डिफ़ॉल्ट) — सबसे तेज़, अंग्रेज़ी और यूरोपीय भाषाओं के लिए सबसे अच्छा
  • Whisper Small — हल्का, 100+ भाषाएँ
  • Whisper Large V3 Turbo — सबसे सटीक बहुभाषी मॉडल

सभी मॉडल आपके Mac पर 100% लोकली चलते हैं। कोई इंटरनेट नहीं, कोई क्लाउड नहीं, आपका डेटा आपके डिवाइस से बाहर नहीं जाता।

आज़माइए

Parakeet v3 अभी Mac वर्शन में उपलब्ध है — बस लेटेस्ट DMG डाउनलोड करें। अगर फ़ीडबैक अच्छा रहा, तो हम भविष्य के अपडेट में Parakeet को iOS वर्शन में भी लाएँगे।

कोई सवाल या फ़ीडबैक? ईमेल करें support@whispernotes.app