Parakeet V3 vs Whisper: 10 गुना तेज़, बेहतर सटीकता (बेंचमार्क)

7 मार्च 2026
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
गति 10×
समर्थित भाषाएँ 25 100+
अंग्रेज़ी त्रुटि दर (WER) 6.32% 7.44%
25 भाषाओं की औसत त्रुटि दर (WER) 12.0% 12.6%
भ्रम कोई नहीं मौन में
सर्वोत्तम अंग्रेज़ी और यूरोपीय एशियाई, अरबी, 100+

* गति: 35 मिनट का ऑडियो, Apple Silicon. अंग्रेज़ी WER: Open ASR Leaderboard. 25 भाषा औसत: FLEURS बेंचमार्क.

वर्शन 1.3.2 से, Whisper Notes for Mac में NVIDIA Parakeet TDT 0.6B डिफ़ॉल्ट स्पीच इंजन के रूप में आता है। यह अंग्रेज़ी के लिए Whisper Large V3 Turbo से 10 गुना तेज़ है, और ज़्यादा सटीक भी। अगर आपको दूसरी भाषाएँ चाहिए तो Whisper मॉडल अभी भी उपलब्ध हैं।

हमने डिफ़ॉल्ट क्यों बदला

Whisper बढ़िया है, लेकिन यह एक जनरल-परपज़ मॉडल की तरह बनाया गया था। 100 से ज़्यादा भाषाएँ, ट्रांसलेशन, टाइमस्टैम्प — एक स्विस आर्मी नाइफ़। इसकी कीमत है स्पीड। अंग्रेज़ी डिक्टेशन के लिए, जहाँ बस शब्द तेज़ी से स्क्रीन पर आने चाहिए, यह ज़रूरत से ज़्यादा है।

एक बात मुझे हमेशा खटकती थी: जब Fn-key सिस्टम-वाइड डिक्टेशन के साथ Whisper इस्तेमाल करता था, तो करीब 1 मिनट बोलने के बाद ट्रांसक्रिप्ट आने में 3-5 सेकंड लगते थे। वो रुकावट फ़्लो तोड़ देती है। बोलना बंद करो, इंतज़ार करो, कर्सर को घूरते रहो — वॉइस टाइपिंग का मज़ा ही ख़त्म हो जाता है।

Parakeet ने यह पूरी तरह बदल दिया। स्पीड इतनी तेज़ है कि बोलना बंद करते ही ट्रांसक्रिप्ट आ जाता है। बोलो, और शब्द बस वहाँ होते हैं। एक बार यह अनुभव हो जाए — बिना किसी इंतज़ार का यह सहज प्रवाह — तो Whisper पर वापस जाना बहुत मुश्किल लगता है।

Parakeet V3 कितना तेज़ है?

नंबर शब्दों से ज़्यादा बोलते हैं। यह रहा एक असली तुलना — 35 मिनट की ऑडियो फ़ाइल, एक ही Mac पर:

मॉडल 35 मिनट ऑडियो
Whisper Large V3 Turbo 3 मिनट
Parakeet TDT 0.6B v3 18 सेकंड

10 गुना तेज़। और चूँकि मॉडल छोटा है (600M बनाम 800M पैरामीटर), इसलिए मेमोरी और बैटरी भी कम खर्च होती है।

Parakeet v3 इतना तेज़ कैसे है

Whisper ऑडियो को ऐसे सुनता है जैसे आप किताब ज़ोर से पढ़ रहे हों — शब्द दर शब्द, फ़्रेम दर फ़्रेम, बिना कुछ स्किप किए। ख़ामोशी के दौरान भी यह प्रोसेस करता रहता है, अगला शब्द अनुमान लगाता रहता है। यह thorough है, लेकिन धीमा।

Parakeet का तरीक़ा बुनियादी तौर पर अलग है। यह प्रोसेसिंग से पहले ऑडियो सिग्नल को 8 गुना कंप्रेस करता है, ताकि मॉडल सिर्फ़ ज़रूरी चीज़ें देखे। फिर हर फ़्रेम पर मेहनत करने की बजाय, यह न सिर्फ़ अनुमान लगाता है कि आपने क्या कहा, बल्कि यह भी कि वो शब्द कितनी देर तक चला — और आगे कूद जाता है। ख़ामोशी? पूरी तरह स्किप। लंबा स्वर? दर्जनों की जगह एक प्रेडिक्शन।

नतीजा एक ऐसा मॉडल है जो स्पीच को वैसे ही प्रोसेस करता है जैसे आपका दिमाग़ करता है — शब्दों पर ध्यान देता है, गैप को नज़रअंदाज़ करता है। इसीलिए यह कम पैरामीटर और ज़्यादा एक्यूरेसी के साथ 10 गुना तेज़ है।

बेंचमार्क: Parakeet v3 बनाम Whisper

शब्द त्रुटि दर तुलना: Parakeet TDT 0.6B v3 बनाम Whisper Large V3 बनाम Seamless M4T कई बेंचमार्क डेटासेट पर

Parakeet v3 FLEURS, CoVoST, और MLS बेंचमार्क पर अपने से 2-4 गुना बड़े मॉडल से बराबरी या बेहतर प्रदर्शन करता है

Hugging Face Open ASR Leaderboard पर, Parakeet v3 सिर्फ़ 600M पैरामीटर के साथ टॉप पर है — Whisper Large V3 के 1.55B से आधे से भी कम:

मॉडल पैरामीटर औसत WER स्पीड (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

कम WER = कम ग़लतियाँ। ज़्यादा RTFx = ज़्यादा तेज़। Parakeet दोनों में जीतता है। 600M पैरामीटर के साथ, यह उस लिस्ट का सबसे छोटा मॉडल भी है — यानी यह Apple Silicon पर बेहतरीन चलता है, कम मेमोरी और कम बैटरी के साथ।

बहुभाषी WER: सभी 25 भाषाएँ

ऊपर की लीडरबोर्ड सिर्फ़ अंग्रेज़ी को कवर करती है। यह रही पूरी तस्वीर — Whisper Notes में उपलब्ध तीनों मॉडल Parakeet द्वारा सपोर्ट की जाने वाली सभी 25 भाषाओं में कैसा प्रदर्शन करते हैं, FLEURS बेंचमार्क पर मापा गया। कम WER = कम ट्रांसक्रिप्शन ग़लतियाँ। हर पंक्ति में Large V3 और Parakeet के बीच सर्वश्रेष्ठ मान हाइलाइट किया गया है:

भाषा Whisper Small Whisper Large V3 Parakeet V3
बल्गेरियाई 37.3 12.9 12.6
क्रोएशियाई 33.4 11.1 12.5
चेक 37.6 11.3 11.0
डेनिश 32.8 12.6 18.4
डच 16.4 5.6 7.5
अंग्रेज़ी 6.1 4.3 4.9
एस्टोनियाई 51.3 19.1 17.7
फ़िनिश 24.0 7.7 13.2
फ़्रेंच 15.0 6.3 5.2
जर्मन 10.2 4.3 5.0
ग्रीक 30.8 27.0 20.7
हंगेरियाई 38.9 14.1 15.7
इतालवी 9.8 2.3 3.0
लातवियाई 53.2 18.3 22.8
लिथुआनियाई 65.6 22.3 20.4
माल्टीज़ 92.2 68.9 20.5
पोलिश 14.7 4.7 7.3
पुर्तगाली 7.3 3.7 4.8
रोमानियाई 29.8 8.2 12.4
रूसी 11.4 4.2 5.5
स्लोवाक 33.3 8.4 8.8
स्लोवेनियाई 49.3 19.9 24.0
स्पेनिश 5.6 3.1 3.5
स्वीडिश 20.8 7.9 15.1
यूक्रेनियाई 19.3 6.5 6.8
औसत 29.8 12.6 12.0

WER (%) FLEURS पर। Whisper Small का डेटा Radford et al. से; Large V3 और Parakeet V3 का डेटा NVIDIA Canary-1B-v2 पेपर से।

Whisper Large V3 ज़्यादातर अलग-अलग भाषाओं में आगे है — आख़िर वो 2.5 गुना बड़ा है। लेकिन Parakeet V3 औसत में उसकी बराबरी करता है (12.0% बनाम 12.6%), ग्रीक, फ़्रेंच, एस्टोनियाई और माल्टीज़ में स्पष्ट रूप से आगे है, और Whisper Small को हर जगह पीछे छोड़ता है (औसतन 60% कम ग़लतियाँ)। असली कहानी WER में किसी अंश की नहीं है — बल्कि पूरे पैकेज की है: Large V3 स्तर की सटीकता 23 गुना तेज़ स्पीड पर, 40% मेमोरी के साथ, शून्य हैलुसिनेशन, और सब कुछ आपके Mac पर लोकली चलता है।

अब हैलुसिनेशन नहीं होंगे

अगर आपने Whisper का डिक्टेशन के लिए इस्तेमाल किया है, तो शायद देखा होगा कि ख़ामोशी में यह हैलुसिनेट करता है — फ़्रेज़ दोहराता है, शब्द गढ़ता है, या कहीं से "Subtitles by Amara.org" छाप देता है। ऐसा इसलिए होता है क्योंकि Whisper का ऑटोरिग्रेसिव डीकोडर हमेशा टेक्स्ट बनाने की उम्मीद रखता है, भले ही ट्रांसक्राइब करने को कुछ न हो।

NVIDIA ने Parakeet को 36,000 घंटे के शुद्ध नॉन-स्पीच ऑडियो (बैकग्राउंड शोर, खाँसी, ख़ामोशी) पर ट्रेन किया, जिसमें ख़ाली स्ट्रिंग टारगेट थे। मॉडल ने सीखा कि ख़ामोशी कैसी होती है और चुप रहता है। "हमेशा चालू" सिस्टम-वाइड डिक्टेशन के लिए यह गेम-चेंजर है — सोचने के लिए रुकने पर अब बेकार टेक्स्ट नहीं आएगा।

Parakeet किन भाषाओं को सपोर्ट करता है

Parakeet v3 25 भाषाओं को सपोर्ट करता है: बल्गेरियाई, क्रोएशियाई, चेक, डेनिश, डच, अंग्रेज़ी, एस्टोनियाई, फ़िनिश, फ़्रेंच, जर्मन, ग्रीक, हंगेरियाई, इतालवी, लातवियाई, लिथुआनियाई, माल्टीज़, पोलिश, पुर्तगाली, रोमानियाई, रूसी, स्लोवाक, स्लोवेनियाई, स्पेनिश, स्वीडिश, और यूक्रेनियाई।

यह ज़्यादातर यूरोप को कवर करता है, लेकिन चीनी, जापानी, कोरियाई, अरबी या हिंदी सपोर्ट नहीं करता। इसीलिए हमने Whisper मॉडल डाउनलोड करने योग्य विकल्पों के रूप में रखे हैं। अगर आप हिंदी, जापानी या मंदारिन में डिक्टेट करते हैं, तो मॉडल पिकर से Whisper Large V3 Turbo चुनें। अंग्रेज़ी और यूरोपीय भाषाओं के लिए, Parakeet v3 बस बेहतर इंजन है।

Whisper Notes Mac मॉडल पिकर जिसमें Parakeet V3 डिफ़ॉल्ट के रूप में दिख रहा है, साथ में Whisper Small और Whisper Large V3 Turbo डाउनलोड करने योग्य विकल्पों के रूप में

मॉडल पिकर: Parakeet V3 (डिफ़ॉल्ट), Whisper Small, और Whisper Large V3 Turbo — सभी लोकली चलते हैं

Whisper Notes में मॉडल पिकर

मॉडल बदलने के लिए Settings खोलें:

  • Parakeet V3 (डिफ़ॉल्ट) — सबसे तेज़, अंग्रेज़ी और यूरोपीय भाषाओं के लिए सबसे अच्छा
  • Whisper Small — हल्का, 100+ भाषाएँ
  • Whisper Large V3 Turbo — सबसे सटीक बहुभाषी मॉडल

सभी मॉडल आपके Mac पर 100% लोकली चलते हैं। कोई इंटरनेट नहीं, कोई क्लाउड नहीं, आपका डेटा आपके डिवाइस से बाहर नहीं जाता।

Parakeet V2 का क्या?

अगर आपने V2 इस्तेमाल किया है, तो शायद आप तुलना जानना चाहें। V2 केवल अंग्रेज़ी का मॉडल था — और इसकी अंग्रेज़ी सटीकता दरअसल V3 से थोड़ी बेहतर है (WER 6.05% vs 6.32%)। V3 ने यह छोटा अंतर 25 भाषाओं के सपोर्ट में बदल दिया। दोनों Whisper से काफ़ी ज़्यादा सटीक हैं।

Parakeet V2 Parakeet V3 Whisper Large V3
अंग्रेज़ी WER 6.05% 6.32% 7.44%
भाषाएँ केवल अंग्रेज़ी 25 100+

संक्षेप में: अगर आपको सिर्फ़ अंग्रेज़ी चाहिए, V2 और V3 दोनों बेहतरीन हैं। Whisper Notes में V3 डिफ़ॉल्ट है क्योंकि बहुभाषी सपोर्ट ज़्यादातर यूज़र्स के लिए ज़रूरी है — और अंग्रेज़ी सटीकता का अंतर नगण्य है।

आज़माइए

Parakeet v3 अभी Mac वर्शन में उपलब्ध है — बस लेटेस्ट DMG डाउनलोड करें। (अपडेट: Parakeet अब iOS के नवीनतम वर्शन में भी उपलब्ध है।)

कोई सवाल या फ़ीडबैक? ईमेल करें support@whispernotes.app