संक्षेप — तीन Mac मॉडलों की तुलना
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 मिनट अंग्रेज़ी | 2.91s (103×) | 5.8s (52×) | 20.92s (14.3×) |
| 27 मिनट चीनी | 10.10s (161×) | 13.83s (118×) | 2 मिनट 4s (13.1×) |
| भाषाएँ | 25 (यूरोपीय) | 5 (zh, en, ja, ko, yue) | 99+ |
| डाउनलोड | 465 MB | 827 MB | 1.5 GB |
| मेमोरी | ~800 MB | ~700 MB | ~1.6 GB |
| सबसे उपयुक्त | अंग्रेज़ी & यूरोपीय भाषाएँ | चीनी, जापानी, कोरियाई, कैंटोनीज़ | बाकी सब (99+ भाषाएँ) |
* गति परीक्षण Apple M4 Pro, 32 GB पर। 5 मिनट का अंग्रेज़ी पॉडकास्ट और 27 मिनट का चीनी पॉडकास्ट। रीयलटाइम फैक्टर = ऑडियो अवधि ÷ प्रोसेसिंग समय (अधिक = तेज़)। SenseVoice केवल macOS के लिए है। iOS Parakeet (ANE के माध्यम से) और Whisper का उपयोग करता है।
संस्करण 1.4.8 से शुरू होकर, Mac के लिए Whisper Notes चीनी, जापानी, कोरियाई और कैंटोनीज़ ट्रांसक्रिप्शन के लिए समर्पित इंजन के रूप में SenseVoice Small के साथ आता है। यह Qwen3-ASR की जगह लेता है और CPU के बजाय MLX के माध्यम से Apple के GPU पर चलता है — 27 मिनट के चीनी पॉडकास्ट को 3 मिनट 44 सेकंड के बजाय 13.83 सेकंड में प्रोसेस करता है।
हमने Qwen3-ASR को क्यों बदला
Qwen3-ASR एक मज़बूत मॉडल था। यह 30 भाषाओं और 22 चीनी बोलियों को सपोर्ट करता था, और इसकी चीनी सटीकता लगभग अत्याधुनिक थी। लेकिन इसमें एक समस्या थी जो ऑडियो लंबा होने पर बढ़ती जाती थी: गति।
Qwen3 ऑटोरिग्रेसिव आर्किटेक्चर का उपयोग करता था — Whisper जैसा ही दृष्टिकोण, ऑडियो को फ्रेम दर फ्रेम प्रोसेस करना, कभी आगे नहीं बढ़ना। 27 मिनट के चीनी पॉडकास्ट पर इसे 73 सेकंड लगे। उपयोग योग्य, लेकिन Parakeet V3 जो अंग्रेज़ी के लिए तत्काल परिणाम देता है, उस अनुभव से दूर।
गहरी समस्या हमारा इंफ्रास्ट्रक्चर था। हमारा Qwen3 इंटीग्रेशन sherpa-onnx का उपयोग करता था, एक C लाइब्रेरी जिसमें 2,249 पंक्तियों का Swift रैपर था जो सब कुछ CPU कोर के माध्यम से रूट करता था। आपके Mac का CPU सारा काम करता था जबकि GPU बेकार बैठा रहता था।
SenseVoice ने दोनों समस्याएँ हल कीं। गति के लिए नॉन-ऑटोरिग्रेसिव आर्किटेक्चर। GPU एक्सेलेरेशन के लिए Apple MLX। परिणाम: उसी हार्डवेयर पर 16.2 गुना गति सुधार, कोडबेस 2,249 पंक्तियों से घटकर 288 हो गया।
बेंचमार्क
तीनों मॉडल एक ही Apple M4 Pro पर, एक ही ऑडियो फाइलों के साथ, एक ही स्थितियों में चलाए गए। कोई क्लाउड नहीं। कोई इंटरनेट नहीं। बस सिलिकॉन।
| मॉडल | 5 मिनट अंग्रेज़ी | 27 मिनट चीनी | गति (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2.91s | 10.10s | 103–161× |
| SenseVoice Small | 5.8s | 13.83s | 52–118× |
| Whisper Large V3 Turbo | 20.92s | 2 मिनट 4s | 13–14× |
| Qwen3-ASR (हटाया गया) | — | 73s | 4.7× |
SenseVoice, Parakeet V3 की लगभग आधी गति पर है — फिर भी असाधारण रूप से तेज़। 27 मिनट का पॉडकास्ट 14 सेकंड से कम में पूरा होता है। आप ट्रांसक्राइब दबाते हैं, एक साँस का इंतज़ार करते हैं, और टेक्स्ट तैयार है।
इसकी तुलना Whisper के 2 मिनट 4 सेकंड या पुराने Qwen3 के 73 सेकंड से करें। आर्किटेक्चर पैरामीटर काउंट से ज़्यादा मायने रखता है।
FunAudioLLM पेपर से आधिकारिक इंफरेंस बेंचमार्क: SenseVoice-Small 10 सेकंड के ऑडियो को 70ms में प्रोसेस करता है (A800 GPU)। Whisper-Large-V3 को 1,281ms लगते हैं। रॉ इंफरेंस लेटेंसी में 18 गुना अंतर।
| मॉडल | लोड समय | मेमोरी | डाउनलोड साइज़ |
|---|---|---|---|
| Parakeet V3 | 0.77s | ~800 MB | 465 MB |
| SenseVoice Small | 0.81s | ~700 MB | 827 MB |
| Whisper Small | 1.03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3.18s | ~1.6 GB | 3 GB |
* लोड समय और मेमोरी Apple M4 Pro, 32 GB पर मापी गई।
SenseVoice एक सेकंड से कम में लोड होता है और Parakeet से कम मेमोरी उपयोग करता है। 8 GB Mac पर, यह आपके अन्य ऐप्लिकेशनों के साथ आराम से चलता है।
SenseVoice तेज़ क्यों है: आर्किटेक्चर + रनटाइम
Qwen3-ASR और SenseVoice के बीच गति का अंतर दो स्वतंत्र कारकों से आता है।
कारक 1: मॉडल आर्किटेक्चर। Qwen3-ASR ऑटोरिग्रेसिव है — यह टेक्स्ट टोकन एक-एक करके जनरेट करता है, हर एक पिछले पर निर्भर। SenseVoice एक नॉन-ऑटोरिग्रेसिव (NAR) एनकोडर का उपयोग करता है जो पूरे ऑडियो को समानांतर में प्रोसेस करता है। यह आर्किटेक्चरल अंतर अकेले SenseVoice को मूल रूप से तेज़ बनाता है, चाहे आप इसे किसी भी हार्डवेयर पर चलाएँ।
कारक 2: रनटाइम। हमारा Qwen3-ASR इंटीग्रेशन sherpa-onnx का उपयोग करता था, जो CPU पर चलता था। SenseVoice Apple MLX के माध्यम से चलता है, कम्प्यूटेशन को GPU पर रूट करता है। क्या Qwen3 भी MLX पर चल सकता था? हाँ — लेकिन यह फिर भी SenseVoice से धीमा होता क्योंकि ऑटोरिग्रेसिव बॉटलनेक आर्किटेक्चर में है, रनटाइम में नहीं।
| Qwen3-ASR (पुराना) | SenseVoice (नया) | |
|---|---|---|
| आर्किटेक्चर | ऑटोरिग्रेसिव (टोकन दर टोकन) | नॉन-ऑटोरिग्रेसिव (समानांतर) |
| रनटाइम | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 मिनट चीनी | 224 सेकंड | 13.83 सेकंड |
| कुल गति सुधार | बेसलाइन | 16.2× तेज़ |
| कोडबेस | 168 MB C फ्रेमवर्क + 2,249 पंक्तियाँ Swift | 288 पंक्तियाँ Swift Actor |
* वही 27 मिनट का चीनी पॉडकास्ट, Apple M4 Pro। 16.2× गति सुधार आर्किटेक्चरल (NAR बनाम AR) और रनटाइम (GPU बनाम CPU) दोनों सुधारों को जोड़ता है।
कोड भी सरल हो गया। नया SenseVoice इम्प्लीमेंटेशन एक 288 पंक्तियों वाला Swift Actor है जो सीधे MLX से बात करता है, 168 MB C फ्रेमवर्क की जगह लेता है। कम कोड, कम बग, छोटा ऐप।
पाँच भाषाएँ, बेहतरीन तरीके से
SenseVoice सब कुछ करने की कोशिश नहीं करता। यह पाँच भाषाओं को संभालता है:
| भाषा | SenseVoice-Small | Whisper-Large-V3 | विजेता |
|---|---|---|---|
| चीनी (zh-CN) | 10.78% CER | 12.55% CER | SenseVoice (-14%) |
| कैंटोनीज़ (yue) | 7.09% CER | 10.41% CER | SenseVoice (-32%) |
| जापानी (ja) | 11.96% CER | 10.34% CER | Whisper (थोड़ा) |
| कोरियाई (ko) | 8.28% CER | 5.59% CER | Whisper |
| अंग्रेज़ी (en) | 14.71% WER | 9.39% WER | Whisper (Parakeet उपयोग करें) |
* CommonVoice बेंचमार्क, CER = कैरेक्टर एरर रेट, WER = वर्ड एरर रेट। कम बेहतर है। स्रोत: FunAudioLLM पेपर (2024)। SenseVoice-Small इंफरेंस लेटेंसी: 10s ऑडियो के लिए 70ms (A800 GPU), Whisper-Large-V3 से 15 गुना से अधिक तेज़।
CommonVoice बेंचमार्क: SenseVoice-Small (पीला) बनाम Whisper-Small (नीला) बनाम Whisper-Large-V3 (नारंगी)। कम बेहतर है। स्रोत: FunAudioLLM पेपर
आँकड़े एक ईमानदार कहानी बताते हैं। SenseVoice चीनी और कैंटोनीज़ सटीकता में Whisper को काफी अंतर से हराता है, जबकि Whisper जापानी, कोरियाई और अंग्रेज़ी के लिए अधिक सटीक है। लेकिन SenseVoice, Whisper-Large-V3 से 15 गुना से अधिक तेज़ है। अधिकांश वास्तविक उपयोगों में, गति का अंतर सटीकता के कुछ प्रतिशत अंकों से अधिक मायने रखता है।
कैंटोनीज़ परिणाम अलग से उल्लेखनीय है। Whisper-Small कैंटोनीज़ पर 38.97% CER स्कोर करता है — लगभग अनुपयोगी। Whisper-Large-V3 भी केवल 10.41% तक पहुँचता है। SenseVoice 7.09% हासिल करता है। SenseVoice से पहले, Mac पर स्थानीय रूप से कैंटोनीज़ ट्रांसक्राइब करने का कोई अच्छा तरीका नहीं था। अगर आप कैंटोनीज़ बोलते हैं, तो यह मॉडल आपके लिए बना है।
SenseVoice के साथ कोरियाई ट्रांसक्रिप्शन: टाइमस्टैम्प्ड सबटाइटल के साथ वीडियो इम्पोर्ट
वास्तविक परीक्षण: 27 मिनट का चीनी पॉडकास्ट
हमने Thirteen Invitations (十三邀), एक चीनी इंटरव्यू पॉडकास्ट का 27 मिनट का एपिसोड, उसी M4 Pro पर SenseVoice और Whisper Large V3 Turbo दोनों से ट्रांसक्राइब किया। ElevenLabs Scribe (क्लाउड) रेफरेंस के रूप में इस्तेमाल किया गया। दोनों ऑन-डिवाइस मॉडल लगभग समान संख्या में त्रुटियाँ करते हैं, लेकिन अलग-अलग प्रकार की:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| समय | 13.83s | 2 मिनट 4s |
| त्रुटियाँ (5 मिनट का नमूना) | ~15–20 | ~12–15 |
| सबसे खराब त्रुटि | 时差→食堂 (टाइमज़ोन→कैफेटेरिया) | 西昌→西藏 (शिचांग शहर→तिब्बत, 4,000 किमी की त्रुटि) |
| त्रुटि पैटर्न | समध्वनि अदला-बदली | भौगोलिक/तथ्यात्मक त्रुटियाँ |
* ElevenLabs Scribe (क्लाउड रेफरेंस, वह भी सटीक नहीं) के साथ मैनुअल तुलना। दोनों ऑन-डिवाइस मॉडल ने "根深蒂固" सही लिखा जहाँ Scribe गलत था।
तुलनीय सटीकता। 9 गुना तेज़। वास्तविक चीनी ट्रांसक्रिप्शन के लिए, SenseVoice आपको Whisper के लोड होने से पहले ही उपयोग योग्य ट्रांसक्रिप्ट दे देता है।
कौन सा मॉडल कब उपयोग करें
Mac के लिए Whisper Notes अब चार स्पीच मॉडल के साथ आता है। प्रत्येक अलग-अलग परिदृश्यों के लिए अनुकूलित है:
| आपकी ज़रूरत... | यह मॉडल उपयोग करें | क्यों |
|---|---|---|
| अंग्रेज़ी या यूरोपीय भाषाएँ, अधिकतम गति | Parakeet V3 | 103× रीयलटाइम, सबसे कम एरर रेट। डिफ़ॉल्ट। |
| चीनी, जापानी, कोरियाई, या कैंटोनीज़ | SenseVoice Small | 52–118× रीयलटाइम। कैंटोनीज़ सपोर्ट वाला एकमात्र मॉडल। |
| 99+ भाषाओं में से कोई भी (अरबी, थाई, रूसी, आदि) | Whisper Large V3 Turbo | सबसे व्यापक भाषा सपोर्ट। धीमा लेकिन सार्वभौमिक। |
| कम मेमोरी उपयोग (पुराने Mac) | Whisper Small | 487 MB मेमोरी। अन्य ऐप्स चलाने वाले 8 GB Mac के लिए अच्छा। |
सेटिंग्स → ट्रांसक्रिप्शन मॉडल: अपनी भाषा के लिए सही इंजन चुनें
सेटिंग्स में मॉडल पिकर चारों विकल्प डाउनलोड साइज़, भाषा संख्या और मेमोरी आवश्यकताओं के साथ दिखाता है। SenseVoice पहले उपयोग पर डाउनलोड होता है (~827 MB) और आपके डिवाइस पर रहता है।
समझौते
SenseVoice एक सार्वभौमिक मॉडल नहीं है। यह क्या नहीं कर सकता:
• केवल 5 भाषाएँ। अगर आपको थाई, रूसी, अरबी, हिंदी, या Whisper द्वारा सपोर्ट की जाने वाली अन्य 90+ भाषाओं में से किसी की ज़रूरत है, तो Whisper का उपयोग करें।
• केवल Mac। SenseVoice Apple MLX के माध्यम से चलता है, जिसके लिए macOS आवश्यक है। यह iPhone पर उपलब्ध नहीं है। iOS यूज़र्स के पास Parakeet (यूरोपीय भाषाओं के लिए) और Whisper है।
• शांत ऑडियो की समस्या। बहुत छोटे या बहुत शांत खंडों के दौरान, SenseVoice कभी-कभी चयनित भाषा की परवाह किए बिना चीनी आउटपुट दे सकता है। भाषा मैन्युअल सेट करने से ("Auto" के बजाय) यह कम होता है।
• स्ट्रीमिंग नहीं। Whisper के स्ट्रीमिंग मोड के विपरीत, SenseVoice रिकॉर्डिंग के बाद पूरा ऑडियो प्रोसेस करता है। लंबी फाइलों के लिए, यह शांत बिंदुओं पर स्वचालित विभाजन करता है और परिणाम क्रमिक रूप से दिखाता है।
ये आर्किटेक्चरल सीमाएँ हैं, बग नहीं। 5 भाषाओं पर प्रशिक्षित मॉडल उन 5 भाषाओं को अत्यंत अच्छी तरह करता है। Whisper का 99+ भाषा सपोर्ट धीमी गति और किसी भी व्यक्तिगत भाषा पर उच्च एरर रेट के साथ आता है।
आज़माएँ
SenseVoice Mac के लिए Whisper Notes v1.4.8 और बाद के संस्करणों में उपलब्ध है। इसे सेटिंग्स → ट्रांसक्रिप्शन मॉडल → SenseVoice Small (~827 MB) से डाउनलोड करें। इसके लिए Apple Silicon Mac (M1 या बाद का) आवश्यक है।
अगर आप Parakeet V3 पर हैं और मुख्य रूप से अंग्रेज़ी में डिक्टेट करते हैं, तो बदलने की ज़रूरत नहीं है। SenseVoice तब है जब आपको चीनी, जापानी, कोरियाई, या कैंटोनीज़ चाहिए — और आप इसे तेज़ चाहते हैं।
पूरा चेंजलॉग: whispernotes.app/changelog
प्रश्न या फीडबैक: mac@whispernotes.app