ملخص — مقارنة ثلاثة نماذج Mac
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 دقائق إنجليزي | 2.91 ثانية (103×) | 5.8 ثانية (52×) | 20.92 ثانية (14.3×) |
| 27 دقيقة صيني | 10.10 ثانية (161×) | 13.83 ثانية (118×) | دقيقتان و4 ثوانٍ (13.1×) |
| اللغات | 25 (أوروبية) | 5 (zh, en, ja, ko, yue) | 99+ |
| التنزيل | 465 MB | 827 MB | 1.5 GB |
| الذاكرة | ~800 MB | ~700 MB | ~1.6 GB |
| الأفضل لـ | الإنجليزية & اللغات الأوروبية | الصينية، اليابانية، الكورية، الكانتونية | كل شيء آخر (99+ لغة) |
* اختبارات السرعة على Apple M4 Pro، 32 GB. بودكاست إنجليزي مدته 5 دقائق وبودكاست صيني مدته 27 دقيقة. معامل الوقت الحقيقي = مدة الصوت ÷ وقت المعالجة (أعلى = أسرع). SenseVoice متاح فقط على macOS. يستخدم iOS نموذج Parakeet (عبر ANE) وWhisper.
بدءاً من الإصدار 1.4.8، يأتي Whisper Notes لنظام Mac مع SenseVoice Small كمحرك مخصص لتفريغ الصينية واليابانية والكورية والكانتونية. يحل محل Qwen3-ASR ويعمل على وحدة معالجة الرسومات من Apple عبر MLX بدلاً من المعالج المركزي — معالجة بودكاست صيني مدته 27 دقيقة في 13.83 ثانية بدلاً من 3 دقائق و44 ثانية.
لماذا استبدلنا Qwen3-ASR
كان Qwen3-ASR نموذجاً قوياً. دعم 30 لغة بالإضافة إلى 22 لهجة صينية، وكانت دقته في الصينية قريبة من أحدث ما توصلت إليه التقنية. لكنه عانى من مشكلة تزداد سوءاً كلما طال الصوت: السرعة.
استخدم Qwen3 بنية انحدار ذاتي — نفس نهج Whisper، يعالج الصوت إطاراً بإطار دون تخطي. في بودكاست صيني مدته 27 دقيقة، استغرق 73 ثانية. قابل للاستخدام، لكنه ليس تجربة النتيجة الفورية التي يقدمها Parakeet V3 للإنجليزية.
المشكلة الأعمق كانت في بنيتنا التحتية. استخدم تكامل Qwen3 لدينا sherpa-onnx، مكتبة C مع غلاف Swift من 2,249 سطراً يوجه كل شيء عبر أنوية المعالج المركزي. بينما كان معالج Mac يقوم بكل العمل، ظلت وحدة الرسومات خاملة.
حل SenseVoice كلتا المشكلتين. بنية غير انحدارية للسرعة. Apple MLX لتسريع وحدة الرسومات. النتيجة: تحسن في السرعة بمقدار 16.2 ضعف على نفس العتاد، مع تقليص قاعدة الكود من 2,249 سطراً إلى 288.
اختبار الأداء
تم تشغيل النماذج الثلاثة على نفس Apple M4 Pro، نفس ملفات الصوت، نفس الظروف. بلا سحابة. بلا إنترنت. معالج فقط.
| النموذج | 5 دقائق إنجليزي | 27 دقيقة صيني | السرعة (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2.91 ثانية | 10.10 ثانية | 103–161× |
| SenseVoice Small | 5.8 ثانية | 13.83 ثانية | 52–118× |
| Whisper Large V3 Turbo | 20.92 ثانية | دقيقتان و4 ثوانٍ | 13–14× |
| Qwen3-ASR (تمت إزالته) | — | 73 ثانية | 4.7× |
SenseVoice أبطأ بنحو النصف مقارنة بـ Parakeet V3 — لكنه لا يزال سريعاً بشكل استثنائي. بودكاست مدته 27 دقيقة ينتهي في أقل من 14 ثانية. تضغط على التفريغ، تنتظر نفساً واحداً، والنص جاهز.
قارن ذلك بـ Whisper في دقيقتين و4 ثوانٍ، أو Qwen3 القديم في 73 ثانية. البنية المعمارية أهم من عدد المعلمات.
اختبار الاستدلال الرسمي من ورقة FunAudioLLM: SenseVoice-Small يعالج 10 ثوانٍ من الصوت في 70 مللي ثانية (A800 GPU). Whisper-Large-V3 يستغرق 1,281 مللي ثانية. فرق 18 ضعفاً في زمن الاستدلال الخام.
| النموذج | وقت التحميل | الذاكرة | حجم التنزيل |
|---|---|---|---|
| Parakeet V3 | 0.77 ثانية | ~800 MB | 465 MB |
| SenseVoice Small | 0.81 ثانية | ~700 MB | 827 MB |
| Whisper Small | 1.03 ثانية | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3.18 ثانية | ~1.6 GB | 3 GB |
* وقت التحميل والذاكرة تم قياسهما على Apple M4 Pro، 32 GB.
يُحمّل SenseVoice في أقل من ثانية ويستخدم ذاكرة أقل من Parakeet. على Mac بذاكرة 8 GB، يعمل بسلاسة إلى جانب تطبيقاتك الأخرى.
لماذا SenseVoice أسرع: البنية + بيئة التشغيل
فجوة السرعة بين Qwen3-ASR وSenseVoice تأتي من عاملين مستقلين.
العامل الأول: بنية النموذج. Qwen3-ASR انحداري ذاتي — يولّد الرموز النصية واحداً تلو الآخر، كل منها يعتمد على السابق. يستخدم SenseVoice مُشفّراً غير انحداري (NAR) يعالج الصوت بالكامل بالتوازي. هذا الفرق المعماري وحده يجعل SenseVoice أسرع جوهرياً، بغض النظر عن العتاد المستخدم.
العامل الثاني: بيئة التشغيل. تكامل Qwen3-ASR لدينا استخدم sherpa-onnx الذي يعمل على المعالج المركزي. يعمل SenseVoice عبر Apple MLX، موجهاً الحسابات إلى وحدة الرسومات. هل كان بإمكان Qwen3 العمل على MLX أيضاً؟ نعم — لكنه سيظل أبطأ من SenseVoice لأن عنق الزجاجة الانحداري في البنية وليس في بيئة التشغيل.
| Qwen3-ASR (القديم) | SenseVoice (الجديد) | |
|---|---|---|
| البنية | انحداري ذاتي (رمز برمز) | غير انحداري (متوازي) |
| بيئة التشغيل | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 دقيقة صيني | 224 ثانية | 13.83 ثانية |
| التسريع الإجمالي | خط الأساس | أسرع بـ 16.2 ضعف |
| قاعدة الكود | إطار عمل C بحجم 168 MB + 2,249 سطر Swift | 288 سطر Swift Actor |
* نفس البودكاست الصيني 27 دقيقة، Apple M4 Pro. التسريع 16.2× يجمع بين تحسينات البنية (NAR مقابل AR) وبيئة التشغيل (GPU مقابل CPU).
أصبح الكود أبسط أيضاً. تنفيذ SenseVoice الجديد هو Swift Actor واحد من 288 سطراً يتواصل مباشرة مع MLX، ليحل محل إطار عمل C بحجم 168 MB. كود أقل، أخطاء أقل، تطبيق أصغر.
خمس لغات، بإتقان
لا يحاول SenseVoice فعل كل شيء. يتعامل مع خمس لغات:
| اللغة | SenseVoice-Small | Whisper-Large-V3 | الفائز |
|---|---|---|---|
| الصينية (zh-CN) | 10.78% CER | 12.55% CER | SenseVoice (-14%) |
| الكانتونية (yue) | 7.09% CER | 10.41% CER | SenseVoice (-32%) |
| اليابانية (ja) | 11.96% CER | 10.34% CER | Whisper (بفارق طفيف) |
| الكورية (ko) | 8.28% CER | 5.59% CER | Whisper |
| الإنجليزية (en) | 14.71% WER | 9.39% WER | Whisper (استخدم Parakeet) |
* اختبار CommonVoice، CER = معدل خطأ الأحرف، WER = معدل خطأ الكلمات. الأقل أفضل. المصدر: ورقة FunAudioLLM (2024). زمن استدلال SenseVoice-Small: 70 مللي ثانية لكل 10 ثوانٍ صوت (A800 GPU)، أسرع بأكثر من 15 ضعفاً من Whisper-Large-V3.
اختبار CommonVoice: SenseVoice-Small (أصفر) مقابل Whisper-Small (أزرق) مقابل Whisper-Large-V3 (برتقالي). الأقل أفضل. المصدر: ورقة FunAudioLLM
الأرقام تروي قصة صادقة. يتفوق SenseVoice على Whisper في دقة الصينية والكانتونية بفارق كبير، بينما Whisper أكثر دقة لليابانية والكورية والإنجليزية. لكن SenseVoice أسرع بأكثر من 15 ضعفاً من Whisper-Large-V3. في معظم الاستخدامات الواقعية، فرق السرعة أهم من بضع نقاط مئوية في الدقة.
نتيجة الكانتونية تستحق تسليط الضوء عليها بشكل منفصل. Whisper-Small يسجل 38.97% CER في الكانتونية — غير قابل للاستخدام تقريباً. حتى Whisper-Large-V3 يحقق 10.41% فقط. SenseVoice يصل إلى 7.09%. قبل SenseVoice، لم تكن هناك طريقة جيدة لتفريغ الكانتونية محلياً على Mac. إذا كنت تتحدث الكانتونية، فهذا النموذج صُنع لك.
تفريغ كوري باستخدام SenseVoice: استيراد فيديو مع ترجمات مؤقتة
اختبار واقعي: بودكاست صيني مدته 27 دقيقة
قمنا بتفريغ حلقة مدتها 27 دقيقة من Thirteen Invitations (十三邀)، بودكاست مقابلات صيني، باستخدام SenseVoice وWhisper Large V3 Turbo على نفس M4 Pro. استُخدم ElevenLabs Scribe (سحابي) كمرجع. كلا النموذجين على الجهاز يرتكبان تقريباً نفس عدد الأخطاء، لكن من أنواع مختلفة:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| الوقت | 13.83 ثانية | دقيقتان و4 ثوانٍ |
| الأخطاء (عينة 5 دقائق) | ~15–20 | ~12–15 |
| أسوأ خطأ | 时差→食堂 (فرق التوقيت→مقصف) | 西昌→西藏 (مدينة شيتشانغ→التبت، انحراف 4,000 كم) |
| نمط الأخطاء | استبدال متجانسات صوتية | أخطاء جغرافية/واقعية |
* مقارنة يدوية مع ElevenLabs Scribe (مرجع سحابي، غير مثالي أيضاً). كلا النموذجين على الجهاز كتبا "根深蒂固" بشكل صحيح حيث أخطأ Scribe.
دقة مماثلة. أسرع بـ 9 أضعاف. للتفريغ الصيني في الواقع، يمنحك SenseVoice نصاً قابلاً للاستخدام قبل أن ينتهي Whisper من التحميل.
متى تستخدم أي نموذج
يأتي Whisper Notes لنظام Mac الآن مع أربعة نماذج كلام. كل منها محسّن لسيناريوهات مختلفة:
| تحتاج إلى... | استخدم هذا النموذج | لماذا |
|---|---|---|
| الإنجليزية أو اللغات الأوروبية، أقصى سرعة | Parakeet V3 | 103× الوقت الحقيقي، أقل معدل خطأ. الافتراضي. |
| الصينية أو اليابانية أو الكورية أو الكانتونية | SenseVoice Small | 52–118× الوقت الحقيقي. النموذج الوحيد بدعم الكانتونية. |
| أي من 99+ لغة (العربية، التايلاندية، الروسية، إلخ.) | Whisper Large V3 Turbo | أوسع دعم للغات. أبطأ لكنه شامل. |
| استهلاك ذاكرة أقل (أجهزة Mac القديمة) | Whisper Small | 487 MB ذاكرة. جيد لأجهزة Mac بـ 8 GB مع تطبيقات أخرى. |
الإعدادات → نموذج التفريغ: اختر المحرك المناسب للغتك
يعرض منتقي النماذج في الإعدادات الخيارات الأربعة مع أحجام التنزيل وعدد اللغات ومتطلبات الذاكرة. يُنزّل SenseVoice عند الاستخدام الأول (~827 MB) ويبقى على جهازك.
المقايضات
SenseVoice ليس نموذجاً شاملاً. إليك ما لا يستطيع فعله:
• 5 لغات فقط. إذا كنت تحتاج التايلاندية أو الروسية أو العربية أو الهندية أو أي من 90+ لغة أخرى يدعمها Whisper، استمر مع Whisper.
• Mac فقط. يعمل SenseVoice عبر Apple MLX الذي يتطلب macOS. غير متاح على iPhone. مستخدمو iOS لديهم Parakeet (للغات الأوروبية) وWhisper.
• مشكلة الصوت الخافت. أثناء المقاطع القصيرة جداً أو الهادئة جداً، قد يعود SenseVoice أحياناً إلى الإخراج بالصينية بغض النظر عن اللغة المحددة. تعيين اللغة يدوياً (بدلاً من "تلقائي") يقلل من هذا.
• بلا بث مباشر. على عكس وضع البث في Whisper، يعالج SenseVoice الصوت كاملاً بعد التسجيل. للملفات الطويلة، يقسم تلقائياً عند نقاط الصمت ويعرض النتائج تدريجياً.
هذه قيود معمارية وليست أخطاء. نموذج مدرّب على 5 لغات يتقن تلك اللغات الخمس بامتياز. دعم Whisper لـ 99+ لغة يأتي مع سرعة أبطأ ومعدلات خطأ أعلى في أي لغة فردية.
جرّبه
SenseVoice متاح في Whisper Notes لنظام Mac الإصدار 1.4.8 وما بعده. نزّله من الإعدادات → نموذج التفريغ → SenseVoice Small (~827 MB). يتطلب Mac بمعالج Apple Silicon (M1 أو أحدث).
إذا كنت تستخدم Parakeet V3 وتملي بالإنجليزية في الغالب، فلا حاجة للتبديل. SenseVoice مخصص عندما تحتاج الصينية أو اليابانية أو الكورية أو الكانتونية — وتريده سريعاً.
سجل التغييرات الكامل: whispernotes.app/changelog
أسئلة أو ملاحظات: mac@whispernotes.app