SenseVoice: Mac पर चीनी, जापानी और कोरियाई ट्रांसक्रिप्शन 52× तेज़

संक्षेप — तीन Mac मॉडलों की तुलना

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 मिनट अंग्रेज़ी	2.91s (103×)	5.8s (52×)	20.92s (14.3×)
27 मिनट चीनी	10.10s (161×)	13.83s (118×)	2 मिनट 4s (13.1×)
भाषाएँ	25 (यूरोपीय)	5 (zh, en, ja, ko, yue)	99+
डाउनलोड	465 MB	827 MB	1.5 GB
मेमोरी	~800 MB	~700 MB	~1.6 GB
सबसे उपयुक्त	अंग्रेज़ी & यूरोपीय भाषाएँ	चीनी, जापानी, कोरियाई, कैंटोनीज़	बाकी सब (99+ भाषाएँ)

* गति परीक्षण Apple M4 Pro, 32 GB पर। 5 मिनट का अंग्रेज़ी पॉडकास्ट और 27 मिनट का चीनी पॉडकास्ट। रीयलटाइम फैक्टर = ऑडियो अवधि ÷ प्रोसेसिंग समय (अधिक = तेज़)। SenseVoice केवल macOS के लिए है। iOS Parakeet (ANE के माध्यम से) और Whisper का उपयोग करता है।

संस्करण 1.4.8 से शुरू होकर, Mac के लिए Whisper Notes चीनी, जापानी, कोरियाई और कैंटोनीज़ ट्रांसक्रिप्शन के लिए समर्पित इंजन के रूप में SenseVoice Small के साथ आता है। यह Qwen3-ASR की जगह लेता है और CPU के बजाय MLX के माध्यम से Apple के GPU पर चलता है — 27 मिनट के चीनी पॉडकास्ट को 3 मिनट 44 सेकंड के बजाय 13.83 सेकंड में प्रोसेस करता है।

हमने Qwen3-ASR को क्यों बदला

Qwen3-ASR एक मज़बूत मॉडल था। यह 30 भाषाओं और 22 चीनी बोलियों को सपोर्ट करता था, और इसकी चीनी सटीकता लगभग अत्याधुनिक थी। लेकिन इसमें एक समस्या थी जो ऑडियो लंबा होने पर बढ़ती जाती थी: गति।

Qwen3 ऑटोरिग्रेसिव आर्किटेक्चर का उपयोग करता था — Whisper जैसा ही दृष्टिकोण, ऑडियो को फ्रेम दर फ्रेम प्रोसेस करना, कभी आगे नहीं बढ़ना। 27 मिनट के चीनी पॉडकास्ट पर इसे 73 सेकंड लगे। उपयोग योग्य, लेकिन Parakeet V3 जो अंग्रेज़ी के लिए तत्काल परिणाम देता है, उस अनुभव से दूर।

गहरी समस्या हमारा इंफ्रास्ट्रक्चर था। हमारा Qwen3 इंटीग्रेशन sherpa-onnx का उपयोग करता था, एक C लाइब्रेरी जिसमें 2,249 पंक्तियों का Swift रैपर था जो सब कुछ CPU कोर के माध्यम से रूट करता था। आपके Mac का CPU सारा काम करता था जबकि GPU बेकार बैठा रहता था।

SenseVoice ने दोनों समस्याएँ हल कीं। गति के लिए नॉन-ऑटोरिग्रेसिव आर्किटेक्चर। GPU एक्सेलेरेशन के लिए Apple MLX। परिणाम: उसी हार्डवेयर पर 16.2 गुना गति सुधार, कोडबेस 2,249 पंक्तियों से घटकर 288 हो गया।

बेंचमार्क

तीनों मॉडल एक ही Apple M4 Pro पर, एक ही ऑडियो फाइलों के साथ, एक ही स्थितियों में चलाए गए। कोई क्लाउड नहीं। कोई इंटरनेट नहीं। बस सिलिकॉन।

मॉडल	5 मिनट अंग्रेज़ी	27 मिनट चीनी	गति (RTFx)
Parakeet V3	2.91s	10.10s	103–161×
SenseVoice Small	5.8s	13.83s	52–118×
Whisper Large V3 Turbo	20.92s	2 मिनट 4s	13–14×
Qwen3-ASR (हटाया गया)	—	73s	4.7×

SenseVoice, Parakeet V3 की लगभग आधी गति पर है — फिर भी असाधारण रूप से तेज़। 27 मिनट का पॉडकास्ट 14 सेकंड से कम में पूरा होता है। आप ट्रांसक्राइब दबाते हैं, एक साँस का इंतज़ार करते हैं, और टेक्स्ट तैयार है।

इसकी तुलना Whisper के 2 मिनट 4 सेकंड या पुराने Qwen3 के 73 सेकंड से करें। आर्किटेक्चर पैरामीटर काउंट से ज़्यादा मायने रखता है।

FunAudioLLM पेपर से आधिकारिक इंफरेंस स्पीड तुलना तालिका: SenseVoice-Small (10s ऑडियो के लिए 70ms) बनाम Whisper-Small (518ms) बनाम Whisper-Large-V3 (1281ms) - मॉडल आर्किटेक्चर, पैरामीटर, सपोर्टेड भाषाएँ, RTF, और लेटेंसी दिखाते हुए

FunAudioLLM पेपर से आधिकारिक इंफरेंस बेंचमार्क: SenseVoice-Small 10 सेकंड के ऑडियो को 70ms में प्रोसेस करता है (A800 GPU)। Whisper-Large-V3 को 1,281ms लगते हैं। रॉ इंफरेंस लेटेंसी में 18 गुना अंतर।

मॉडल	लोड समय	मेमोरी	डाउनलोड साइज़
Parakeet V3	0.77s	~800 MB	465 MB
SenseVoice Small	0.81s	~700 MB	827 MB
Whisper Small	1.03s	~487 MB	600 MB
Whisper Large V3 Turbo	3.18s	~1.6 GB	3 GB

* लोड समय और मेमोरी Apple M4 Pro, 32 GB पर मापी गई।

SenseVoice एक सेकंड से कम में लोड होता है और Parakeet से कम मेमोरी उपयोग करता है। 8 GB Mac पर, यह आपके अन्य ऐप्लिकेशनों के साथ आराम से चलता है।

SenseVoice तेज़ क्यों है: आर्किटेक्चर + रनटाइम

Qwen3-ASR और SenseVoice के बीच गति का अंतर दो स्वतंत्र कारकों से आता है।

कारक 1: मॉडल आर्किटेक्चर। Qwen3-ASR ऑटोरिग्रेसिव है — यह टेक्स्ट टोकन एक-एक करके जनरेट करता है, हर एक पिछले पर निर्भर। SenseVoice एक नॉन-ऑटोरिग्रेसिव (NAR) एनकोडर का उपयोग करता है जो पूरे ऑडियो को समानांतर में प्रोसेस करता है। यह आर्किटेक्चरल अंतर अकेले SenseVoice को मूल रूप से तेज़ बनाता है, चाहे आप इसे किसी भी हार्डवेयर पर चलाएँ।

कारक 2: रनटाइम। हमारा Qwen3-ASR इंटीग्रेशन sherpa-onnx का उपयोग करता था, जो CPU पर चलता था। SenseVoice Apple MLX के माध्यम से चलता है, कम्प्यूटेशन को GPU पर रूट करता है। क्या Qwen3 भी MLX पर चल सकता था? हाँ — लेकिन यह फिर भी SenseVoice से धीमा होता क्योंकि ऑटोरिग्रेसिव बॉटलनेक आर्किटेक्चर में है, रनटाइम में नहीं।

	Qwen3-ASR (पुराना)	SenseVoice (नया)
आर्किटेक्चर	ऑटोरिग्रेसिव (टोकन दर टोकन)	नॉन-ऑटोरिग्रेसिव (समानांतर)
रनटाइम	sherpa-onnx (CPU)	Apple MLX (GPU)
27 मिनट चीनी	224 सेकंड	13.83 सेकंड
कुल गति सुधार	बेसलाइन	16.2× तेज़
कोडबेस	168 MB C फ्रेमवर्क + 2,249 पंक्तियाँ Swift	288 पंक्तियाँ Swift Actor

* वही 27 मिनट का चीनी पॉडकास्ट, Apple M4 Pro। 16.2× गति सुधार आर्किटेक्चरल (NAR बनाम AR) और रनटाइम (GPU बनाम CPU) दोनों सुधारों को जोड़ता है।

कोड भी सरल हो गया। नया SenseVoice इम्प्लीमेंटेशन एक 288 पंक्तियों वाला Swift Actor है जो सीधे MLX से बात करता है, 168 MB C फ्रेमवर्क की जगह लेता है। कम कोड, कम बग, छोटा ऐप।

पाँच भाषाएँ, बेहतरीन तरीके से

SenseVoice सब कुछ करने की कोशिश नहीं करता। यह पाँच भाषाओं को संभालता है:

भाषा	SenseVoice-Small	Whisper-Large-V3	विजेता
चीनी (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
कैंटोनीज़ (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
जापानी (ja)	11.96% CER	10.34% CER	Whisper (थोड़ा)
कोरियाई (ko)	8.28% CER	5.59% CER	Whisper
अंग्रेज़ी (en)	14.71% WER	9.39% WER	Whisper (Parakeet उपयोग करें)

* CommonVoice बेंचमार्क, CER = कैरेक्टर एरर रेट, WER = वर्ड एरर रेट। कम बेहतर है। स्रोत: FunAudioLLM पेपर (2024)। SenseVoice-Small इंफरेंस लेटेंसी: 10s ऑडियो के लिए 70ms (A800 GPU), Whisper-Large-V3 से 15 गुना से अधिक तेज़।

चीनी, कैंटोनीज़, अंग्रेज़ी, जापानी, कोरियाई और 25 अन्य भाषाओं में CommonVoice बेंचमार्क पर SenseVoice बनाम Whisper सटीकता तुलना - WER/CER बार चार्ट

CommonVoice बेंचमार्क: SenseVoice-Small (पीला) बनाम Whisper-Small (नीला) बनाम Whisper-Large-V3 (नारंगी)। कम बेहतर है। स्रोत: FunAudioLLM पेपर

आँकड़े एक ईमानदार कहानी बताते हैं। SenseVoice चीनी और कैंटोनीज़ सटीकता में Whisper को काफी अंतर से हराता है, जबकि Whisper जापानी, कोरियाई और अंग्रेज़ी के लिए अधिक सटीक है। लेकिन SenseVoice, Whisper-Large-V3 से 15 गुना से अधिक तेज़ है। अधिकांश वास्तविक उपयोगों में, गति का अंतर सटीकता के कुछ प्रतिशत अंकों से अधिक मायने रखता है।

कैंटोनीज़ परिणाम अलग से उल्लेखनीय है। Whisper-Small कैंटोनीज़ पर 38.97% CER स्कोर करता है — लगभग अनुपयोगी। Whisper-Large-V3 भी केवल 10.41% तक पहुँचता है। SenseVoice 7.09% हासिल करता है। SenseVoice से पहले, Mac पर स्थानीय रूप से कैंटोनीज़ ट्रांसक्राइब करने का कोई अच्छा तरीका नहीं था। अगर आप कैंटोनीज़ बोलते हैं, तो यह मॉडल आपके लिए बना है।

Mac के लिए Whisper Notes में SenseVoice कोरियाई ट्रांसक्रिप्शन परिणाम, एक वीडियो से सटीक कोरियाई टेक्स्ट दिखा रहा है

SenseVoice के साथ कोरियाई ट्रांसक्रिप्शन: टाइमस्टैम्प्ड सबटाइटल के साथ वीडियो इम्पोर्ट

वास्तविक परीक्षण: 27 मिनट का चीनी पॉडकास्ट

हमने Thirteen Invitations (十三邀), एक चीनी इंटरव्यू पॉडकास्ट का 27 मिनट का एपिसोड, उसी M4 Pro पर SenseVoice और Whisper Large V3 Turbo दोनों से ट्रांसक्राइब किया। ElevenLabs Scribe (क्लाउड) रेफरेंस के रूप में इस्तेमाल किया गया। दोनों ऑन-डिवाइस मॉडल लगभग समान संख्या में त्रुटियाँ करते हैं, लेकिन अलग-अलग प्रकार की:

	SenseVoice	Whisper Large V3
समय	13.83s	2 मिनट 4s
त्रुटियाँ (5 मिनट का नमूना)	~15–20	~12–15
सबसे खराब त्रुटि	时差→食堂 (टाइमज़ोन→कैफेटेरिया)	西昌→西藏 (शिचांग शहर→तिब्बत, 4,000 किमी की त्रुटि)
त्रुटि पैटर्न	समध्वनि अदला-बदली	भौगोलिक/तथ्यात्मक त्रुटियाँ

* ElevenLabs Scribe (क्लाउड रेफरेंस, वह भी सटीक नहीं) के साथ मैनुअल तुलना। दोनों ऑन-डिवाइस मॉडल ने "根深蒂固" सही लिखा जहाँ Scribe गलत था।

तुलनीय सटीकता। 9 गुना तेज़। वास्तविक चीनी ट्रांसक्रिप्शन के लिए, SenseVoice आपको Whisper के लोड होने से पहले ही उपयोग योग्य ट्रांसक्रिप्ट दे देता है।

कौन सा मॉडल कब उपयोग करें

Mac के लिए Whisper Notes अब चार स्पीच मॉडल के साथ आता है। प्रत्येक अलग-अलग परिदृश्यों के लिए अनुकूलित है:

आपकी ज़रूरत...	यह मॉडल उपयोग करें	क्यों
अंग्रेज़ी या यूरोपीय भाषाएँ, अधिकतम गति	Parakeet V3	103× रीयलटाइम, सबसे कम एरर रेट। डिफ़ॉल्ट।
चीनी, जापानी, कोरियाई, या कैंटोनीज़	SenseVoice Small	52–118× रीयलटाइम। कैंटोनीज़ सपोर्ट वाला एकमात्र मॉडल।
99+ भाषाओं में से कोई भी (अरबी, थाई, रूसी, आदि)	Whisper Large V3 Turbo	सबसे व्यापक भाषा सपोर्ट। धीमा लेकिन सार्वभौमिक।
कम मेमोरी उपयोग (पुराने Mac)	Whisper Small	487 MB मेमोरी। अन्य ऐप्स चलाने वाले 8 GB Mac के लिए अच्छा।

Whisper Notes Mac मॉडल पिकर Parakeet V3, SenseVoice Small, Whisper Small, और Whisper Large V3 Turbo को डाउनलोड साइज़ और भाषा सपोर्ट के साथ दिखा रहा है

सेटिंग्स → ट्रांसक्रिप्शन मॉडल: अपनी भाषा के लिए सही इंजन चुनें

सेटिंग्स में मॉडल पिकर चारों विकल्प डाउनलोड साइज़, भाषा संख्या और मेमोरी आवश्यकताओं के साथ दिखाता है। SenseVoice पहले उपयोग पर डाउनलोड होता है (~827 MB) और आपके डिवाइस पर रहता है।

समझौते

SenseVoice एक सार्वभौमिक मॉडल नहीं है। यह क्या नहीं कर सकता:

• केवल 5 भाषाएँ। अगर आपको थाई, रूसी, अरबी, हिंदी, या Whisper द्वारा सपोर्ट की जाने वाली अन्य 90+ भाषाओं में से किसी की ज़रूरत है, तो Whisper का उपयोग करें।

• केवल Mac। SenseVoice Apple MLX के माध्यम से चलता है, जिसके लिए macOS आवश्यक है। यह iPhone पर उपलब्ध नहीं है। iOS यूज़र्स के पास Parakeet (यूरोपीय भाषाओं के लिए) और Whisper है।

• शांत ऑडियो की समस्या। बहुत छोटे या बहुत शांत खंडों के दौरान, SenseVoice कभी-कभी चयनित भाषा की परवाह किए बिना चीनी आउटपुट दे सकता है। भाषा मैन्युअल सेट करने से ("Auto" के बजाय) यह कम होता है।

• स्ट्रीमिंग नहीं। Whisper के स्ट्रीमिंग मोड के विपरीत, SenseVoice रिकॉर्डिंग के बाद पूरा ऑडियो प्रोसेस करता है। लंबी फाइलों के लिए, यह शांत बिंदुओं पर स्वचालित विभाजन करता है और परिणाम क्रमिक रूप से दिखाता है।

ये आर्किटेक्चरल सीमाएँ हैं, बग नहीं। 5 भाषाओं पर प्रशिक्षित मॉडल उन 5 भाषाओं को अत्यंत अच्छी तरह करता है। Whisper का 99+ भाषा सपोर्ट धीमी गति और किसी भी व्यक्तिगत भाषा पर उच्च एरर रेट के साथ आता है।

आज़माएँ

SenseVoice Mac के लिए Whisper Notes v1.4.8 और बाद के संस्करणों में उपलब्ध है। इसे सेटिंग्स → ट्रांसक्रिप्शन मॉडल → SenseVoice Small (~827 MB) से डाउनलोड करें। इसके लिए Apple Silicon Mac (M1 या बाद का) आवश्यक है।

अगर आप Parakeet V3 पर हैं और मुख्य रूप से अंग्रेज़ी में डिक्टेट करते हैं, तो बदलने की ज़रूरत नहीं है। SenseVoice तब है जब आपको चीनी, जापानी, कोरियाई, या कैंटोनीज़ चाहिए — और आप इसे तेज़ चाहते हैं।

Mac के लिए डाउनलोड करें

पूरा चेंजलॉग: whispernotes.app/changelog

प्रश्न या फीडबैक: mac@whispernotes.app