SenseVoice: Mac पर चीनी, जापानी और कोरियाई ट्रांसक्रिप्शन 52× तेज़

12 मई 2026
·
7 min read
·Whisper Notes Team

संक्षेप — तीन Mac मॉडलों की तुलना

Parakeet V3 SenseVoice Small Whisper Large V3 Turbo
5 मिनट अंग्रेज़ी 2.91s (103×) 5.8s (52×) 20.92s (14.3×)
27 मिनट चीनी 10.10s (161×) 13.83s (118×) 2 मिनट 4s (13.1×)
भाषाएँ 25 (यूरोपीय) 5 (zh, en, ja, ko, yue) 99+
डाउनलोड 465 MB 827 MB 1.5 GB
मेमोरी ~800 MB ~700 MB ~1.6 GB
सबसे उपयुक्त अंग्रेज़ी & यूरोपीय भाषाएँ चीनी, जापानी, कोरियाई, कैंटोनीज़ बाकी सब (99+ भाषाएँ)

* गति परीक्षण Apple M4 Pro, 32 GB पर। 5 मिनट का अंग्रेज़ी पॉडकास्ट और 27 मिनट का चीनी पॉडकास्ट। रीयलटाइम फैक्टर = ऑडियो अवधि ÷ प्रोसेसिंग समय (अधिक = तेज़)। SenseVoice केवल macOS के लिए है। iOS Parakeet (ANE के माध्यम से) और Whisper का उपयोग करता है।

संस्करण 1.4.8 से शुरू होकर, Mac के लिए Whisper Notes चीनी, जापानी, कोरियाई और कैंटोनीज़ ट्रांसक्रिप्शन के लिए समर्पित इंजन के रूप में SenseVoice Small के साथ आता है। यह Qwen3-ASR की जगह लेता है और CPU के बजाय MLX के माध्यम से Apple के GPU पर चलता है — 27 मिनट के चीनी पॉडकास्ट को 3 मिनट 44 सेकंड के बजाय 13.83 सेकंड में प्रोसेस करता है।

हमने Qwen3-ASR को क्यों बदला

Qwen3-ASR एक मज़बूत मॉडल था। यह 30 भाषाओं और 22 चीनी बोलियों को सपोर्ट करता था, और इसकी चीनी सटीकता लगभग अत्याधुनिक थी। लेकिन इसमें एक समस्या थी जो ऑडियो लंबा होने पर बढ़ती जाती थी: गति।

Qwen3 ऑटोरिग्रेसिव आर्किटेक्चर का उपयोग करता था — Whisper जैसा ही दृष्टिकोण, ऑडियो को फ्रेम दर फ्रेम प्रोसेस करना, कभी आगे नहीं बढ़ना। 27 मिनट के चीनी पॉडकास्ट पर इसे 73 सेकंड लगे। उपयोग योग्य, लेकिन Parakeet V3 जो अंग्रेज़ी के लिए तत्काल परिणाम देता है, उस अनुभव से दूर।

गहरी समस्या हमारा इंफ्रास्ट्रक्चर था। हमारा Qwen3 इंटीग्रेशन sherpa-onnx का उपयोग करता था, एक C लाइब्रेरी जिसमें 2,249 पंक्तियों का Swift रैपर था जो सब कुछ CPU कोर के माध्यम से रूट करता था। आपके Mac का CPU सारा काम करता था जबकि GPU बेकार बैठा रहता था।

SenseVoice ने दोनों समस्याएँ हल कीं। गति के लिए नॉन-ऑटोरिग्रेसिव आर्किटेक्चर। GPU एक्सेलेरेशन के लिए Apple MLX। परिणाम: उसी हार्डवेयर पर 16.2 गुना गति सुधार, कोडबेस 2,249 पंक्तियों से घटकर 288 हो गया।

बेंचमार्क

तीनों मॉडल एक ही Apple M4 Pro पर, एक ही ऑडियो फाइलों के साथ, एक ही स्थितियों में चलाए गए। कोई क्लाउड नहीं। कोई इंटरनेट नहीं। बस सिलिकॉन।

मॉडल 5 मिनट अंग्रेज़ी 27 मिनट चीनी गति (RTFx)
Parakeet V3 2.91s 10.10s 103–161×
SenseVoice Small 5.8s 13.83s 52–118×
Whisper Large V3 Turbo 20.92s 2 मिनट 4s 13–14×
Qwen3-ASR (हटाया गया) 73s 4.7×

SenseVoice, Parakeet V3 की लगभग आधी गति पर है — फिर भी असाधारण रूप से तेज़। 27 मिनट का पॉडकास्ट 14 सेकंड से कम में पूरा होता है। आप ट्रांसक्राइब दबाते हैं, एक साँस का इंतज़ार करते हैं, और टेक्स्ट तैयार है।

इसकी तुलना Whisper के 2 मिनट 4 सेकंड या पुराने Qwen3 के 73 सेकंड से करें। आर्किटेक्चर पैरामीटर काउंट से ज़्यादा मायने रखता है।

FunAudioLLM पेपर से आधिकारिक इंफरेंस स्पीड तुलना तालिका: SenseVoice-Small (10s ऑडियो के लिए 70ms) बनाम Whisper-Small (518ms) बनाम Whisper-Large-V3 (1281ms) - मॉडल आर्किटेक्चर, पैरामीटर, सपोर्टेड भाषाएँ, RTF, और लेटेंसी दिखाते हुए

FunAudioLLM पेपर से आधिकारिक इंफरेंस बेंचमार्क: SenseVoice-Small 10 सेकंड के ऑडियो को 70ms में प्रोसेस करता है (A800 GPU)। Whisper-Large-V3 को 1,281ms लगते हैं। रॉ इंफरेंस लेटेंसी में 18 गुना अंतर।

मॉडल लोड समय मेमोरी डाउनलोड साइज़
Parakeet V3 0.77s ~800 MB 465 MB
SenseVoice Small 0.81s ~700 MB 827 MB
Whisper Small 1.03s ~487 MB 600 MB
Whisper Large V3 Turbo 3.18s ~1.6 GB 3 GB

* लोड समय और मेमोरी Apple M4 Pro, 32 GB पर मापी गई।

SenseVoice एक सेकंड से कम में लोड होता है और Parakeet से कम मेमोरी उपयोग करता है। 8 GB Mac पर, यह आपके अन्य ऐप्लिकेशनों के साथ आराम से चलता है।

SenseVoice तेज़ क्यों है: आर्किटेक्चर + रनटाइम

Qwen3-ASR और SenseVoice के बीच गति का अंतर दो स्वतंत्र कारकों से आता है।

कारक 1: मॉडल आर्किटेक्चर। Qwen3-ASR ऑटोरिग्रेसिव है — यह टेक्स्ट टोकन एक-एक करके जनरेट करता है, हर एक पिछले पर निर्भर। SenseVoice एक नॉन-ऑटोरिग्रेसिव (NAR) एनकोडर का उपयोग करता है जो पूरे ऑडियो को समानांतर में प्रोसेस करता है। यह आर्किटेक्चरल अंतर अकेले SenseVoice को मूल रूप से तेज़ बनाता है, चाहे आप इसे किसी भी हार्डवेयर पर चलाएँ।

कारक 2: रनटाइम। हमारा Qwen3-ASR इंटीग्रेशन sherpa-onnx का उपयोग करता था, जो CPU पर चलता था। SenseVoice Apple MLX के माध्यम से चलता है, कम्प्यूटेशन को GPU पर रूट करता है। क्या Qwen3 भी MLX पर चल सकता था? हाँ — लेकिन यह फिर भी SenseVoice से धीमा होता क्योंकि ऑटोरिग्रेसिव बॉटलनेक आर्किटेक्चर में है, रनटाइम में नहीं।

Qwen3-ASR (पुराना) SenseVoice (नया)
आर्किटेक्चर ऑटोरिग्रेसिव (टोकन दर टोकन) नॉन-ऑटोरिग्रेसिव (समानांतर)
रनटाइम sherpa-onnx (CPU) Apple MLX (GPU)
27 मिनट चीनी 224 सेकंड 13.83 सेकंड
कुल गति सुधार बेसलाइन 16.2× तेज़
कोडबेस 168 MB C फ्रेमवर्क + 2,249 पंक्तियाँ Swift 288 पंक्तियाँ Swift Actor

* वही 27 मिनट का चीनी पॉडकास्ट, Apple M4 Pro। 16.2× गति सुधार आर्किटेक्चरल (NAR बनाम AR) और रनटाइम (GPU बनाम CPU) दोनों सुधारों को जोड़ता है।

कोड भी सरल हो गया। नया SenseVoice इम्प्लीमेंटेशन एक 288 पंक्तियों वाला Swift Actor है जो सीधे MLX से बात करता है, 168 MB C फ्रेमवर्क की जगह लेता है। कम कोड, कम बग, छोटा ऐप।

पाँच भाषाएँ, बेहतरीन तरीके से

SenseVoice सब कुछ करने की कोशिश नहीं करता। यह पाँच भाषाओं को संभालता है:

भाषा SenseVoice-Small Whisper-Large-V3 विजेता
चीनी (zh-CN) 10.78% CER 12.55% CER SenseVoice (-14%)
कैंटोनीज़ (yue) 7.09% CER 10.41% CER SenseVoice (-32%)
जापानी (ja) 11.96% CER 10.34% CER Whisper (थोड़ा)
कोरियाई (ko) 8.28% CER 5.59% CER Whisper
अंग्रेज़ी (en) 14.71% WER 9.39% WER Whisper (Parakeet उपयोग करें)

* CommonVoice बेंचमार्क, CER = कैरेक्टर एरर रेट, WER = वर्ड एरर रेट। कम बेहतर है। स्रोत: FunAudioLLM पेपर (2024)। SenseVoice-Small इंफरेंस लेटेंसी: 10s ऑडियो के लिए 70ms (A800 GPU), Whisper-Large-V3 से 15 गुना से अधिक तेज़।

चीनी, कैंटोनीज़, अंग्रेज़ी, जापानी, कोरियाई और 25 अन्य भाषाओं में CommonVoice बेंचमार्क पर SenseVoice बनाम Whisper सटीकता तुलना - WER/CER बार चार्ट

CommonVoice बेंचमार्क: SenseVoice-Small (पीला) बनाम Whisper-Small (नीला) बनाम Whisper-Large-V3 (नारंगी)। कम बेहतर है। स्रोत: FunAudioLLM पेपर

आँकड़े एक ईमानदार कहानी बताते हैं। SenseVoice चीनी और कैंटोनीज़ सटीकता में Whisper को काफी अंतर से हराता है, जबकि Whisper जापानी, कोरियाई और अंग्रेज़ी के लिए अधिक सटीक है। लेकिन SenseVoice, Whisper-Large-V3 से 15 गुना से अधिक तेज़ है। अधिकांश वास्तविक उपयोगों में, गति का अंतर सटीकता के कुछ प्रतिशत अंकों से अधिक मायने रखता है।

कैंटोनीज़ परिणाम अलग से उल्लेखनीय है। Whisper-Small कैंटोनीज़ पर 38.97% CER स्कोर करता है — लगभग अनुपयोगी। Whisper-Large-V3 भी केवल 10.41% तक पहुँचता है। SenseVoice 7.09% हासिल करता है। SenseVoice से पहले, Mac पर स्थानीय रूप से कैंटोनीज़ ट्रांसक्राइब करने का कोई अच्छा तरीका नहीं था। अगर आप कैंटोनीज़ बोलते हैं, तो यह मॉडल आपके लिए बना है।

Mac के लिए Whisper Notes में SenseVoice कोरियाई ट्रांसक्रिप्शन परिणाम, एक वीडियो से सटीक कोरियाई टेक्स्ट दिखा रहा है

SenseVoice के साथ कोरियाई ट्रांसक्रिप्शन: टाइमस्टैम्प्ड सबटाइटल के साथ वीडियो इम्पोर्ट

वास्तविक परीक्षण: 27 मिनट का चीनी पॉडकास्ट

हमने Thirteen Invitations (十三邀), एक चीनी इंटरव्यू पॉडकास्ट का 27 मिनट का एपिसोड, उसी M4 Pro पर SenseVoice और Whisper Large V3 Turbo दोनों से ट्रांसक्राइब किया। ElevenLabs Scribe (क्लाउड) रेफरेंस के रूप में इस्तेमाल किया गया। दोनों ऑन-डिवाइस मॉडल लगभग समान संख्या में त्रुटियाँ करते हैं, लेकिन अलग-अलग प्रकार की:

SenseVoice Whisper Large V3
समय 13.83s 2 मिनट 4s
त्रुटियाँ (5 मिनट का नमूना) ~15–20 ~12–15
सबसे खराब त्रुटि 时差→食堂 (टाइमज़ोन→कैफेटेरिया) 西昌→西藏 (शिचांग शहर→तिब्बत, 4,000 किमी की त्रुटि)
त्रुटि पैटर्न समध्वनि अदला-बदली भौगोलिक/तथ्यात्मक त्रुटियाँ

* ElevenLabs Scribe (क्लाउड रेफरेंस, वह भी सटीक नहीं) के साथ मैनुअल तुलना। दोनों ऑन-डिवाइस मॉडल ने "根深蒂固" सही लिखा जहाँ Scribe गलत था।

तुलनीय सटीकता। 9 गुना तेज़। वास्तविक चीनी ट्रांसक्रिप्शन के लिए, SenseVoice आपको Whisper के लोड होने से पहले ही उपयोग योग्य ट्रांसक्रिप्ट दे देता है।

कौन सा मॉडल कब उपयोग करें

Mac के लिए Whisper Notes अब चार स्पीच मॉडल के साथ आता है। प्रत्येक अलग-अलग परिदृश्यों के लिए अनुकूलित है:

आपकी ज़रूरत... यह मॉडल उपयोग करें क्यों
अंग्रेज़ी या यूरोपीय भाषाएँ, अधिकतम गति Parakeet V3 103× रीयलटाइम, सबसे कम एरर रेट। डिफ़ॉल्ट।
चीनी, जापानी, कोरियाई, या कैंटोनीज़ SenseVoice Small 52–118× रीयलटाइम। कैंटोनीज़ सपोर्ट वाला एकमात्र मॉडल।
99+ भाषाओं में से कोई भी (अरबी, थाई, रूसी, आदि) Whisper Large V3 Turbo सबसे व्यापक भाषा सपोर्ट। धीमा लेकिन सार्वभौमिक।
कम मेमोरी उपयोग (पुराने Mac) Whisper Small 487 MB मेमोरी। अन्य ऐप्स चलाने वाले 8 GB Mac के लिए अच्छा।
Whisper Notes Mac मॉडल पिकर Parakeet V3, SenseVoice Small, Whisper Small, और Whisper Large V3 Turbo को डाउनलोड साइज़ और भाषा सपोर्ट के साथ दिखा रहा है

सेटिंग्स → ट्रांसक्रिप्शन मॉडल: अपनी भाषा के लिए सही इंजन चुनें

सेटिंग्स में मॉडल पिकर चारों विकल्प डाउनलोड साइज़, भाषा संख्या और मेमोरी आवश्यकताओं के साथ दिखाता है। SenseVoice पहले उपयोग पर डाउनलोड होता है (~827 MB) और आपके डिवाइस पर रहता है।

समझौते

SenseVoice एक सार्वभौमिक मॉडल नहीं है। यह क्या नहीं कर सकता:

केवल 5 भाषाएँ। अगर आपको थाई, रूसी, अरबी, हिंदी, या Whisper द्वारा सपोर्ट की जाने वाली अन्य 90+ भाषाओं में से किसी की ज़रूरत है, तो Whisper का उपयोग करें।

केवल Mac। SenseVoice Apple MLX के माध्यम से चलता है, जिसके लिए macOS आवश्यक है। यह iPhone पर उपलब्ध नहीं है। iOS यूज़र्स के पास Parakeet (यूरोपीय भाषाओं के लिए) और Whisper है।

शांत ऑडियो की समस्या। बहुत छोटे या बहुत शांत खंडों के दौरान, SenseVoice कभी-कभी चयनित भाषा की परवाह किए बिना चीनी आउटपुट दे सकता है। भाषा मैन्युअल सेट करने से ("Auto" के बजाय) यह कम होता है।

स्ट्रीमिंग नहीं। Whisper के स्ट्रीमिंग मोड के विपरीत, SenseVoice रिकॉर्डिंग के बाद पूरा ऑडियो प्रोसेस करता है। लंबी फाइलों के लिए, यह शांत बिंदुओं पर स्वचालित विभाजन करता है और परिणाम क्रमिक रूप से दिखाता है।

ये आर्किटेक्चरल सीमाएँ हैं, बग नहीं। 5 भाषाओं पर प्रशिक्षित मॉडल उन 5 भाषाओं को अत्यंत अच्छी तरह करता है। Whisper का 99+ भाषा सपोर्ट धीमी गति और किसी भी व्यक्तिगत भाषा पर उच्च एरर रेट के साथ आता है।

आज़माएँ

SenseVoice Mac के लिए Whisper Notes v1.4.8 और बाद के संस्करणों में उपलब्ध है। इसे सेटिंग्स → ट्रांसक्रिप्शन मॉडल → SenseVoice Small (~827 MB) से डाउनलोड करें। इसके लिए Apple Silicon Mac (M1 या बाद का) आवश्यक है।

अगर आप Parakeet V3 पर हैं और मुख्य रूप से अंग्रेज़ी में डिक्टेट करते हैं, तो बदलने की ज़रूरत नहीं है। SenseVoice तब है जब आपको चीनी, जापानी, कोरियाई, या कैंटोनीज़ चाहिए — और आप इसे तेज़ चाहते हैं।

Mac के लिए डाउनलोड करें

पूरा चेंजलॉग: whispernotes.app/changelog

प्रश्न या फीडबैक: mac@whispernotes.app