TL;DR
| Parakeet V3 | Whisper Large V3 | |
|---|---|---|
| गति | 10× | 1× |
| समर्थित भाषाएँ | 25 | 100+ |
| अंग्रेज़ी त्रुटि दर (WER) | 6.32% | 7.44% |
| 25 भाषाओं की औसत त्रुटि दर (WER) | 12.0% | 12.6% |
| भ्रम | कोई नहीं | मौन में |
| सर्वोत्तम | अंग्रेज़ी और यूरोपीय | एशियाई, अरबी, 100+ |
* गति: 35 मिनट का ऑडियो, Apple Silicon. अंग्रेज़ी WER: Open ASR Leaderboard. 25 भाषा औसत: FLEURS बेंचमार्क.
वर्शन 1.3.2 से, Whisper Notes for Mac में NVIDIA Parakeet TDT 0.6B डिफ़ॉल्ट स्पीच इंजन के रूप में आता है। यह अंग्रेज़ी के लिए Whisper Large V3 Turbo से 10 गुना तेज़ है, और ज़्यादा सटीक भी। अगर आपको दूसरी भाषाएँ चाहिए तो Whisper मॉडल अभी भी उपलब्ध हैं।
हमने डिफ़ॉल्ट क्यों बदला
Whisper बढ़िया है, लेकिन यह एक जनरल-परपज़ मॉडल की तरह बनाया गया था। 100 से ज़्यादा भाषाएँ, ट्रांसलेशन, टाइमस्टैम्प — एक स्विस आर्मी नाइफ़। इसकी कीमत है स्पीड। अंग्रेज़ी डिक्टेशन के लिए, जहाँ बस शब्द तेज़ी से स्क्रीन पर आने चाहिए, यह ज़रूरत से ज़्यादा है।
एक बात मुझे हमेशा खटकती थी: जब Fn-key सिस्टम-वाइड डिक्टेशन के साथ Whisper इस्तेमाल करता था, तो करीब 1 मिनट बोलने के बाद ट्रांसक्रिप्ट आने में 3-5 सेकंड लगते थे। वो रुकावट फ़्लो तोड़ देती है। बोलना बंद करो, इंतज़ार करो, कर्सर को घूरते रहो — वॉइस टाइपिंग का मज़ा ही ख़त्म हो जाता है।
Parakeet ने यह पूरी तरह बदल दिया। स्पीड इतनी तेज़ है कि बोलना बंद करते ही ट्रांसक्रिप्ट आ जाता है। बोलो, और शब्द बस वहाँ होते हैं। एक बार यह अनुभव हो जाए — बिना किसी इंतज़ार का यह सहज प्रवाह — तो Whisper पर वापस जाना बहुत मुश्किल लगता है।
Parakeet V3 कितना तेज़ है?
नंबर शब्दों से ज़्यादा बोलते हैं। यह रहा एक असली तुलना — 35 मिनट की ऑडियो फ़ाइल, एक ही Mac पर:
| मॉडल | 35 मिनट ऑडियो |
|---|---|
| Whisper Large V3 Turbo | 3 मिनट |
| Parakeet TDT 0.6B v3 | 18 सेकंड |
10 गुना तेज़। और चूँकि मॉडल छोटा है (600M बनाम 800M पैरामीटर), इसलिए मेमोरी और बैटरी भी कम खर्च होती है।
Parakeet v3 इतना तेज़ कैसे है
Whisper ऑडियो को ऐसे सुनता है जैसे आप किताब ज़ोर से पढ़ रहे हों — शब्द दर शब्द, फ़्रेम दर फ़्रेम, बिना कुछ स्किप किए। ख़ामोशी के दौरान भी यह प्रोसेस करता रहता है, अगला शब्द अनुमान लगाता रहता है। यह thorough है, लेकिन धीमा।
Parakeet का तरीक़ा बुनियादी तौर पर अलग है। यह प्रोसेसिंग से पहले ऑडियो सिग्नल को 8 गुना कंप्रेस करता है, ताकि मॉडल सिर्फ़ ज़रूरी चीज़ें देखे। फिर हर फ़्रेम पर मेहनत करने की बजाय, यह न सिर्फ़ अनुमान लगाता है कि आपने क्या कहा, बल्कि यह भी कि वो शब्द कितनी देर तक चला — और आगे कूद जाता है। ख़ामोशी? पूरी तरह स्किप। लंबा स्वर? दर्जनों की जगह एक प्रेडिक्शन।
नतीजा एक ऐसा मॉडल है जो स्पीच को वैसे ही प्रोसेस करता है जैसे आपका दिमाग़ करता है — शब्दों पर ध्यान देता है, गैप को नज़रअंदाज़ करता है। इसीलिए यह कम पैरामीटर और ज़्यादा एक्यूरेसी के साथ 10 गुना तेज़ है।
बेंचमार्क: Parakeet v3 बनाम Whisper
Parakeet v3 FLEURS, CoVoST, और MLS बेंचमार्क पर अपने से 2-4 गुना बड़े मॉडल से बराबरी या बेहतर प्रदर्शन करता है
Hugging Face Open ASR Leaderboard पर, Parakeet v3 सिर्फ़ 600M पैरामीटर के साथ टॉप पर है — Whisper Large V3 के 1.55B से आधे से भी कम:
| मॉडल | पैरामीटर | औसत WER | स्पीड (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
कम WER = कम ग़लतियाँ। ज़्यादा RTFx = ज़्यादा तेज़। Parakeet दोनों में जीतता है। 600M पैरामीटर के साथ, यह उस लिस्ट का सबसे छोटा मॉडल भी है — यानी यह Apple Silicon पर बेहतरीन चलता है, कम मेमोरी और कम बैटरी के साथ।
बहुभाषी WER: सभी 25 भाषाएँ
ऊपर की लीडरबोर्ड सिर्फ़ अंग्रेज़ी को कवर करती है। यह रही पूरी तस्वीर — Whisper Notes में उपलब्ध तीनों मॉडल Parakeet द्वारा सपोर्ट की जाने वाली सभी 25 भाषाओं में कैसा प्रदर्शन करते हैं, FLEURS बेंचमार्क पर मापा गया। कम WER = कम ट्रांसक्रिप्शन ग़लतियाँ। हर पंक्ति में Large V3 और Parakeet के बीच सर्वश्रेष्ठ मान हाइलाइट किया गया है:
| भाषा | Whisper Small | Whisper Large V3 | Parakeet V3 |
|---|---|---|---|
| बल्गेरियाई | 37.3 | 12.9 | 12.6 |
| क्रोएशियाई | 33.4 | 11.1 | 12.5 |
| चेक | 37.6 | 11.3 | 11.0 |
| डेनिश | 32.8 | 12.6 | 18.4 |
| डच | 16.4 | 5.6 | 7.5 |
| अंग्रेज़ी | 6.1 | 4.3 | 4.9 |
| एस्टोनियाई | 51.3 | 19.1 | 17.7 |
| फ़िनिश | 24.0 | 7.7 | 13.2 |
| फ़्रेंच | 15.0 | 6.3 | 5.2 |
| जर्मन | 10.2 | 4.3 | 5.0 |
| ग्रीक | 30.8 | 27.0 | 20.7 |
| हंगेरियाई | 38.9 | 14.1 | 15.7 |
| इतालवी | 9.8 | 2.3 | 3.0 |
| लातवियाई | 53.2 | 18.3 | 22.8 |
| लिथुआनियाई | 65.6 | 22.3 | 20.4 |
| माल्टीज़ | 92.2 | 68.9 | 20.5 |
| पोलिश | 14.7 | 4.7 | 7.3 |
| पुर्तगाली | 7.3 | 3.7 | 4.8 |
| रोमानियाई | 29.8 | 8.2 | 12.4 |
| रूसी | 11.4 | 4.2 | 5.5 |
| स्लोवाक | 33.3 | 8.4 | 8.8 |
| स्लोवेनियाई | 49.3 | 19.9 | 24.0 |
| स्पेनिश | 5.6 | 3.1 | 3.5 |
| स्वीडिश | 20.8 | 7.9 | 15.1 |
| यूक्रेनियाई | 19.3 | 6.5 | 6.8 |
| औसत | 29.8 | 12.6 | 12.0 |
WER (%) FLEURS पर। Whisper Small का डेटा Radford et al. से; Large V3 और Parakeet V3 का डेटा NVIDIA Canary-1B-v2 पेपर से।
Whisper Large V3 ज़्यादातर अलग-अलग भाषाओं में आगे है — आख़िर वो 2.5 गुना बड़ा है। लेकिन Parakeet V3 औसत में उसकी बराबरी करता है (12.0% बनाम 12.6%), ग्रीक, फ़्रेंच, एस्टोनियाई और माल्टीज़ में स्पष्ट रूप से आगे है, और Whisper Small को हर जगह पीछे छोड़ता है (औसतन 60% कम ग़लतियाँ)। असली कहानी WER में किसी अंश की नहीं है — बल्कि पूरे पैकेज की है: Large V3 स्तर की सटीकता 23 गुना तेज़ स्पीड पर, 40% मेमोरी के साथ, शून्य हैलुसिनेशन, और सब कुछ आपके Mac पर लोकली चलता है।
अब हैलुसिनेशन नहीं होंगे
अगर आपने Whisper का डिक्टेशन के लिए इस्तेमाल किया है, तो शायद देखा होगा कि ख़ामोशी में यह हैलुसिनेट करता है — फ़्रेज़ दोहराता है, शब्द गढ़ता है, या कहीं से "Subtitles by Amara.org" छाप देता है। ऐसा इसलिए होता है क्योंकि Whisper का ऑटोरिग्रेसिव डीकोडर हमेशा टेक्स्ट बनाने की उम्मीद रखता है, भले ही ट्रांसक्राइब करने को कुछ न हो।
NVIDIA ने Parakeet को 36,000 घंटे के शुद्ध नॉन-स्पीच ऑडियो (बैकग्राउंड शोर, खाँसी, ख़ामोशी) पर ट्रेन किया, जिसमें ख़ाली स्ट्रिंग टारगेट थे। मॉडल ने सीखा कि ख़ामोशी कैसी होती है और चुप रहता है। "हमेशा चालू" सिस्टम-वाइड डिक्टेशन के लिए यह गेम-चेंजर है — सोचने के लिए रुकने पर अब बेकार टेक्स्ट नहीं आएगा।
Parakeet किन भाषाओं को सपोर्ट करता है
Parakeet v3 25 भाषाओं को सपोर्ट करता है: बल्गेरियाई, क्रोएशियाई, चेक, डेनिश, डच, अंग्रेज़ी, एस्टोनियाई, फ़िनिश, फ़्रेंच, जर्मन, ग्रीक, हंगेरियाई, इतालवी, लातवियाई, लिथुआनियाई, माल्टीज़, पोलिश, पुर्तगाली, रोमानियाई, रूसी, स्लोवाक, स्लोवेनियाई, स्पेनिश, स्वीडिश, और यूक्रेनियाई।
यह ज़्यादातर यूरोप को कवर करता है, लेकिन चीनी, जापानी, कोरियाई, अरबी या हिंदी सपोर्ट नहीं करता। इसीलिए हमने Whisper मॉडल डाउनलोड करने योग्य विकल्पों के रूप में रखे हैं। अगर आप हिंदी, जापानी या मंदारिन में डिक्टेट करते हैं, तो मॉडल पिकर से Whisper Large V3 Turbo चुनें। अंग्रेज़ी और यूरोपीय भाषाओं के लिए, Parakeet v3 बस बेहतर इंजन है।
मॉडल पिकर: Parakeet V3 (डिफ़ॉल्ट), Whisper Small, और Whisper Large V3 Turbo — सभी लोकली चलते हैं
Whisper Notes में मॉडल पिकर
मॉडल बदलने के लिए Settings खोलें:
- Parakeet V3 (डिफ़ॉल्ट) — सबसे तेज़, अंग्रेज़ी और यूरोपीय भाषाओं के लिए सबसे अच्छा
- Whisper Small — हल्का, 100+ भाषाएँ
- Whisper Large V3 Turbo — सबसे सटीक बहुभाषी मॉडल
सभी मॉडल आपके Mac पर 100% लोकली चलते हैं। कोई इंटरनेट नहीं, कोई क्लाउड नहीं, आपका डेटा आपके डिवाइस से बाहर नहीं जाता।
Parakeet V2 का क्या?
अगर आपने V2 इस्तेमाल किया है, तो शायद आप तुलना जानना चाहें। V2 केवल अंग्रेज़ी का मॉडल था — और इसकी अंग्रेज़ी सटीकता दरअसल V3 से थोड़ी बेहतर है (WER 6.05% vs 6.32%)। V3 ने यह छोटा अंतर 25 भाषाओं के सपोर्ट में बदल दिया। दोनों Whisper से काफ़ी ज़्यादा सटीक हैं।
| Parakeet V2 | Parakeet V3 | Whisper Large V3 | |
|---|---|---|---|
| अंग्रेज़ी WER | 6.05% | 6.32% | 7.44% |
| भाषाएँ | केवल अंग्रेज़ी | 25 | 100+ |
संक्षेप में: अगर आपको सिर्फ़ अंग्रेज़ी चाहिए, V2 और V3 दोनों बेहतरीन हैं। Whisper Notes में V3 डिफ़ॉल्ट है क्योंकि बहुभाषी सपोर्ट ज़्यादातर यूज़र्स के लिए ज़रूरी है — और अंग्रेज़ी सटीकता का अंतर नगण्य है।
आज़माइए
Parakeet v3 अभी Mac वर्शन में उपलब्ध है — बस लेटेस्ट DMG डाउनलोड करें। (अपडेट: Parakeet अब iOS के नवीनतम वर्शन में भी उपलब्ध है।)
कोई सवाल या फ़ीडबैक? ईमेल करें support@whispernotes.app।