SenseVoice: نسخ أسرع 52 مرة للصينية واليابانية والكورية على Mac

ملخص — مقارنة ثلاثة نماذج Mac

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 دقائق إنجليزي	2.91 ثانية (103×)	5.8 ثانية (52×)	20.92 ثانية (14.3×)
27 دقيقة صيني	10.10 ثانية (161×)	13.83 ثانية (118×)	دقيقتان و4 ثوانٍ (13.1×)
اللغات	25 (أوروبية)	5 (zh, en, ja, ko, yue)	99+
التنزيل	465 MB	827 MB	1.5 GB
الذاكرة	~800 MB	~700 MB	~1.6 GB
الأفضل لـ	الإنجليزية & اللغات الأوروبية	الصينية، اليابانية، الكورية، الكانتونية	كل شيء آخر (99+ لغة)

* اختبارات السرعة على Apple M4 Pro، 32 GB. بودكاست إنجليزي مدته 5 دقائق وبودكاست صيني مدته 27 دقيقة. معامل الوقت الحقيقي = مدة الصوت ÷ وقت المعالجة (أعلى = أسرع). SenseVoice متاح فقط على macOS. يستخدم iOS نموذج Parakeet (عبر ANE) وWhisper.

بدءاً من الإصدار 1.4.8، يأتي Whisper Notes لنظام Mac مع SenseVoice Small كمحرك مخصص لتفريغ الصينية واليابانية والكورية والكانتونية. يحل محل Qwen3-ASR ويعمل على وحدة معالجة الرسومات من Apple عبر MLX بدلاً من المعالج المركزي — معالجة بودكاست صيني مدته 27 دقيقة في 13.83 ثانية بدلاً من 3 دقائق و44 ثانية.

لماذا استبدلنا Qwen3-ASR

كان Qwen3-ASR نموذجاً قوياً. دعم 30 لغة بالإضافة إلى 22 لهجة صينية، وكانت دقته في الصينية قريبة من أحدث ما توصلت إليه التقنية. لكنه عانى من مشكلة تزداد سوءاً كلما طال الصوت: السرعة.

استخدم Qwen3 بنية انحدار ذاتي — نفس نهج Whisper، يعالج الصوت إطاراً بإطار دون تخطي. في بودكاست صيني مدته 27 دقيقة، استغرق 73 ثانية. قابل للاستخدام، لكنه ليس تجربة النتيجة الفورية التي يقدمها Parakeet V3 للإنجليزية.

المشكلة الأعمق كانت في بنيتنا التحتية. استخدم تكامل Qwen3 لدينا sherpa-onnx، مكتبة C مع غلاف Swift من 2,249 سطراً يوجه كل شيء عبر أنوية المعالج المركزي. بينما كان معالج Mac يقوم بكل العمل، ظلت وحدة الرسومات خاملة.

حل SenseVoice كلتا المشكلتين. بنية غير انحدارية للسرعة. Apple MLX لتسريع وحدة الرسومات. النتيجة: تحسن في السرعة بمقدار 16.2 ضعف على نفس العتاد، مع تقليص قاعدة الكود من 2,249 سطراً إلى 288.

اختبار الأداء

تم تشغيل النماذج الثلاثة على نفس Apple M4 Pro، نفس ملفات الصوت، نفس الظروف. بلا سحابة. بلا إنترنت. معالج فقط.

النموذج	5 دقائق إنجليزي	27 دقيقة صيني	السرعة (RTFx)
Parakeet V3	2.91 ثانية	10.10 ثانية	103–161×
SenseVoice Small	5.8 ثانية	13.83 ثانية	52–118×
Whisper Large V3 Turbo	20.92 ثانية	دقيقتان و4 ثوانٍ	13–14×
Qwen3-ASR (تمت إزالته)	—	73 ثانية	4.7×

SenseVoice أبطأ بنحو النصف مقارنة بـ Parakeet V3 — لكنه لا يزال سريعاً بشكل استثنائي. بودكاست مدته 27 دقيقة ينتهي في أقل من 14 ثانية. تضغط على التفريغ، تنتظر نفساً واحداً، والنص جاهز.

قارن ذلك بـ Whisper في دقيقتين و4 ثوانٍ، أو Qwen3 القديم في 73 ثانية. البنية المعمارية أهم من عدد المعلمات.

جدول مقارنة سرعة الاستدلال الرسمي من ورقة FunAudioLLM: SenseVoice-Small (70 مللي ثانية لكل 10 ثوانٍ صوت) مقابل Whisper-Small (518 مللي ثانية) مقابل Whisper-Large-V3 (1281 مللي ثانية)

اختبار الاستدلال الرسمي من ورقة FunAudioLLM: SenseVoice-Small يعالج 10 ثوانٍ من الصوت في 70 مللي ثانية (A800 GPU). Whisper-Large-V3 يستغرق 1,281 مللي ثانية. فرق 18 ضعفاً في زمن الاستدلال الخام.

النموذج	وقت التحميل	الذاكرة	حجم التنزيل
Parakeet V3	0.77 ثانية	~800 MB	465 MB
SenseVoice Small	0.81 ثانية	~700 MB	827 MB
Whisper Small	1.03 ثانية	~487 MB	600 MB
Whisper Large V3 Turbo	3.18 ثانية	~1.6 GB	3 GB

* وقت التحميل والذاكرة تم قياسهما على Apple M4 Pro، 32 GB.

يُحمّل SenseVoice في أقل من ثانية ويستخدم ذاكرة أقل من Parakeet. على Mac بذاكرة 8 GB، يعمل بسلاسة إلى جانب تطبيقاتك الأخرى.

لماذا SenseVoice أسرع: البنية + بيئة التشغيل

فجوة السرعة بين Qwen3-ASR وSenseVoice تأتي من عاملين مستقلين.

العامل الأول: بنية النموذج. Qwen3-ASR انحداري ذاتي — يولّد الرموز النصية واحداً تلو الآخر، كل منها يعتمد على السابق. يستخدم SenseVoice مُشفّراً غير انحداري (NAR) يعالج الصوت بالكامل بالتوازي. هذا الفرق المعماري وحده يجعل SenseVoice أسرع جوهرياً، بغض النظر عن العتاد المستخدم.

العامل الثاني: بيئة التشغيل. تكامل Qwen3-ASR لدينا استخدم sherpa-onnx الذي يعمل على المعالج المركزي. يعمل SenseVoice عبر Apple MLX، موجهاً الحسابات إلى وحدة الرسومات. هل كان بإمكان Qwen3 العمل على MLX أيضاً؟ نعم — لكنه سيظل أبطأ من SenseVoice لأن عنق الزجاجة الانحداري في البنية وليس في بيئة التشغيل.

	Qwen3-ASR (القديم)	SenseVoice (الجديد)
البنية	انحداري ذاتي (رمز برمز)	غير انحداري (متوازي)
بيئة التشغيل	sherpa-onnx (CPU)	Apple MLX (GPU)
27 دقيقة صيني	224 ثانية	13.83 ثانية
التسريع الإجمالي	خط الأساس	أسرع بـ 16.2 ضعف
قاعدة الكود	إطار عمل C بحجم 168 MB + 2,249 سطر Swift	288 سطر Swift Actor

* نفس البودكاست الصيني 27 دقيقة، Apple M4 Pro. التسريع 16.2× يجمع بين تحسينات البنية (NAR مقابل AR) وبيئة التشغيل (GPU مقابل CPU).

أصبح الكود أبسط أيضاً. تنفيذ SenseVoice الجديد هو Swift Actor واحد من 288 سطراً يتواصل مباشرة مع MLX، ليحل محل إطار عمل C بحجم 168 MB. كود أقل، أخطاء أقل، تطبيق أصغر.

خمس لغات، بإتقان

لا يحاول SenseVoice فعل كل شيء. يتعامل مع خمس لغات:

اللغة	SenseVoice-Small	Whisper-Large-V3	الفائز
الصينية (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
الكانتونية (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
اليابانية (ja)	11.96% CER	10.34% CER	Whisper (بفارق طفيف)
الكورية (ko)	8.28% CER	5.59% CER	Whisper
الإنجليزية (en)	14.71% WER	9.39% WER	Whisper (استخدم Parakeet)

* اختبار CommonVoice، CER = معدل خطأ الأحرف، WER = معدل خطأ الكلمات. الأقل أفضل. المصدر: ورقة FunAudioLLM (2024). زمن استدلال SenseVoice-Small: 70 مللي ثانية لكل 10 ثوانٍ صوت (A800 GPU)، أسرع بأكثر من 15 ضعفاً من Whisper-Large-V3.

مقارنة دقة SenseVoice مقابل Whisper على اختبار CommonVoice عبر الصينية والكانتونية والإنجليزية واليابانية والكورية و25 لغة أخرى - رسم بياني WER/CER

اختبار CommonVoice: SenseVoice-Small (أصفر) مقابل Whisper-Small (أزرق) مقابل Whisper-Large-V3 (برتقالي). الأقل أفضل. المصدر: ورقة FunAudioLLM

الأرقام تروي قصة صادقة. يتفوق SenseVoice على Whisper في دقة الصينية والكانتونية بفارق كبير، بينما Whisper أكثر دقة لليابانية والكورية والإنجليزية. لكن SenseVoice أسرع بأكثر من 15 ضعفاً من Whisper-Large-V3. في معظم الاستخدامات الواقعية، فرق السرعة أهم من بضع نقاط مئوية في الدقة.

نتيجة الكانتونية تستحق تسليط الضوء عليها بشكل منفصل. Whisper-Small يسجل 38.97% CER في الكانتونية — غير قابل للاستخدام تقريباً. حتى Whisper-Large-V3 يحقق 10.41% فقط. SenseVoice يصل إلى 7.09%. قبل SenseVoice، لم تكن هناك طريقة جيدة لتفريغ الكانتونية محلياً على Mac. إذا كنت تتحدث الكانتونية، فهذا النموذج صُنع لك.

نتيجة تفريغ SenseVoice الكوري في Whisper Notes لنظام Mac تُظهر نصاً كورياً دقيقاً من فيديو

تفريغ كوري باستخدام SenseVoice: استيراد فيديو مع ترجمات مؤقتة

اختبار واقعي: بودكاست صيني مدته 27 دقيقة

قمنا بتفريغ حلقة مدتها 27 دقيقة من Thirteen Invitations (十三邀)، بودكاست مقابلات صيني، باستخدام SenseVoice وWhisper Large V3 Turbo على نفس M4 Pro. استُخدم ElevenLabs Scribe (سحابي) كمرجع. كلا النموذجين على الجهاز يرتكبان تقريباً نفس عدد الأخطاء، لكن من أنواع مختلفة:

	SenseVoice	Whisper Large V3
الوقت	13.83 ثانية	دقيقتان و4 ثوانٍ
الأخطاء (عينة 5 دقائق)	~15–20	~12–15
أسوأ خطأ	时差→食堂 (فرق التوقيت→مقصف)	西昌→西藏 (مدينة شيتشانغ→التبت، انحراف 4,000 كم)
نمط الأخطاء	استبدال متجانسات صوتية	أخطاء جغرافية/واقعية

* مقارنة يدوية مع ElevenLabs Scribe (مرجع سحابي، غير مثالي أيضاً). كلا النموذجين على الجهاز كتبا "根深蒂固" بشكل صحيح حيث أخطأ Scribe.

دقة مماثلة. أسرع بـ 9 أضعاف. للتفريغ الصيني في الواقع، يمنحك SenseVoice نصاً قابلاً للاستخدام قبل أن ينتهي Whisper من التحميل.

متى تستخدم أي نموذج

يأتي Whisper Notes لنظام Mac الآن مع أربعة نماذج كلام. كل منها محسّن لسيناريوهات مختلفة:

تحتاج إلى...	استخدم هذا النموذج	لماذا
الإنجليزية أو اللغات الأوروبية، أقصى سرعة	Parakeet V3	103× الوقت الحقيقي، أقل معدل خطأ. الافتراضي.
الصينية أو اليابانية أو الكورية أو الكانتونية	SenseVoice Small	52–118× الوقت الحقيقي. النموذج الوحيد بدعم الكانتونية.
أي من 99+ لغة (العربية، التايلاندية، الروسية، إلخ.)	Whisper Large V3 Turbo	أوسع دعم للغات. أبطأ لكنه شامل.
استهلاك ذاكرة أقل (أجهزة Mac القديمة)	Whisper Small	487 MB ذاكرة. جيد لأجهزة Mac بـ 8 GB مع تطبيقات أخرى.

منتقي نماذج Whisper Notes Mac يعرض Parakeet V3 وSenseVoice Small وWhisper Small وWhisper Large V3 Turbo مع أحجام التنزيل ودعم اللغات

الإعدادات → نموذج التفريغ: اختر المحرك المناسب للغتك

يعرض منتقي النماذج في الإعدادات الخيارات الأربعة مع أحجام التنزيل وعدد اللغات ومتطلبات الذاكرة. يُنزّل SenseVoice عند الاستخدام الأول (~827 MB) ويبقى على جهازك.

المقايضات

SenseVoice ليس نموذجاً شاملاً. إليك ما لا يستطيع فعله:

• 5 لغات فقط. إذا كنت تحتاج التايلاندية أو الروسية أو العربية أو الهندية أو أي من 90+ لغة أخرى يدعمها Whisper، استمر مع Whisper.

• Mac فقط. يعمل SenseVoice عبر Apple MLX الذي يتطلب macOS. غير متاح على iPhone. مستخدمو iOS لديهم Parakeet (للغات الأوروبية) وWhisper.

• مشكلة الصوت الخافت. أثناء المقاطع القصيرة جداً أو الهادئة جداً، قد يعود SenseVoice أحياناً إلى الإخراج بالصينية بغض النظر عن اللغة المحددة. تعيين اللغة يدوياً (بدلاً من "تلقائي") يقلل من هذا.

• بلا بث مباشر. على عكس وضع البث في Whisper، يعالج SenseVoice الصوت كاملاً بعد التسجيل. للملفات الطويلة، يقسم تلقائياً عند نقاط الصمت ويعرض النتائج تدريجياً.

هذه قيود معمارية وليست أخطاء. نموذج مدرّب على 5 لغات يتقن تلك اللغات الخمس بامتياز. دعم Whisper لـ 99+ لغة يأتي مع سرعة أبطأ ومعدلات خطأ أعلى في أي لغة فردية.

جرّبه

SenseVoice متاح في Whisper Notes لنظام Mac الإصدار 1.4.8 وما بعده. نزّله من الإعدادات → نموذج التفريغ → SenseVoice Small (~827 MB). يتطلب Mac بمعالج Apple Silicon (M1 أو أحدث).

إذا كنت تستخدم Parakeet V3 وتملي بالإنجليزية في الغالب، فلا حاجة للتبديل. SenseVoice مخصص عندما تحتاج الصينية أو اليابانية أو الكورية أو الكانتونية — وتريده سريعاً.

تنزيل لنظام Mac

سجل التغييرات الكامل: whispernotes.app/changelog

أسئلة أو ملاحظات: mac@whispernotes.app