Parakeet V3 vs Whisper: أسرع 10 مرات، دقة أعلى (مقارنة مرجعية)

7 مارس 2026
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
السرعة 10×
اللغات المدعومة 25 100+
معدل خطأ الإنجليزية (WER) 6.32% 7.44%
متوسط معدل الخطأ لـ 25 لغة (WER) 12.0% 12.6%
الهلوسة لا شيء أثناء الصمت
الأفضل لـ الإنجليزية والأوروبية الآسيوية، العربية، 100+

* السرعة: صوت 35 دقيقة، Apple Silicon. WER الإنجليزية: Open ASR Leaderboard. معدل 25 لغة: معيار FLEURS.

بدءاً من الإصدار 1.3.2، أصبح تطبيق Whisper Notes لنظام Mac يعتمد على NVIDIA Parakeet TDT 0.6B كمحرك التعرف على الكلام الافتراضي. إنه أسرع بعشر مرات من Whisper Large V3 Turbo للإنجليزية، وأدق أيضاً. نماذج Whisper لا تزال متاحة إذا كنت تحتاج لغات أخرى.

لماذا غيّرنا المحرك الافتراضي

Whisper نموذج ممتاز، لكنه صُمم ليكون أداة متعددة الأغراض. يدعم أكثر من 100 لغة، يترجم، يولّد طوابع زمنية — سكين سويسري حقيقي. الثمن هو السرعة. للإملاء بالإنجليزية، حيث كل ما تريده هو أن تظهر الكلمات على الشاشة بسرعة، فهو أكثر مما تحتاج.

الشيء الذي كان يزعجني: عند استخدام الإملاء على مستوى النظام بزر Fn مع Whisper، بعد الانتهاء من كلام مدته دقيقة تقريباً، كنت أنتظر 3 إلى 5 ثوانٍ حتى يظهر النص. هذا التوقف يكسر الإيقاع. تتوقف عن الكلام، تنتظر، تحدّق في المؤشر — يقتل سحر الكتابة بالصوت.

Parakeet غيّر الأمر تماماً. السرعة مذهلة لدرجة أن النص يظهر لحظة توقفك عن الكلام. تتحدث، والكلمات تكون هناك فوراً. بمجرد أن تجرب هذا الشعور — التدفق السلس بدون أي انتظار — يصعب جداً العودة إلى Whisper.

ما مدى سرعة Parakeet V3؟

الأرقام أبلغ من الكلام. إليك مقارنة عملية باستخدام ملف صوتي مدته 35 دقيقة على نفس جهاز Mac:

النموذج ملف صوتي 35 دقيقة
Whisper Large V3 Turbo 3 دقائق
Parakeet TDT 0.6B v3 18 ثانية

أسرع بعشر مرات. ولأن النموذج أصغر حجماً (600 مليون مقابل 800 مليون معامل)، فإنه يستهلك ذاكرة وبطارية أقل أيضاً.

ما الذي يجعل Parakeet v3 بهذه السرعة

Whisper يستمع للصوت كما لو كنت تقرأ كتاباً بصوت عالٍ — كلمة بكلمة، إطار بإطار، بدون تخطي أي شيء. حتى أثناء الصمت، يظل يعالج ويخمّن ما سيأتي. هذا دقيق، لكنه بطيء.

Parakeet يتبع نهجاً مختلفاً جذرياً. يضغط الإشارة الصوتية 8 مرات قبل المعالجة، فلا يرى النموذج إلا ما يهم. ثم بدلاً من المرور على كل إطار، يتنبأ ليس فقط بالكلمة التي قلتها، بل بمدتها — ويقفز للأمام. الصمت؟ يتم تخطيه تماماً. حرف علة طويل؟ تنبؤ واحد بدلاً من عشرات.

النتيجة: نموذج يعالج الكلام كما يفعل دماغك — يركز على الكلمات ويتجاهل الفراغات. لهذا السبب هو أسرع بعشر مرات مع معاملات أقل ودقة أعلى.

المقاييس المرجعية: Parakeet v3 مقابل Whisper

مقارنة معدل خطأ الكلمات: Parakeet TDT 0.6B v3 مقابل Whisper Large V3 مقابل Seamless M4T عبر مجموعات بيانات مرجعية متعددة

Parakeet v3 يضاهي أو يتفوق على نماذج أكبر منه بمرتين إلى أربع مرات عبر مقاييس FLEURS وCoVoST وMLS

على لوحة المتصدرين Open ASR على Hugging Face، يتصدر Parakeet v3 القائمة بـ 600 مليون معامل فقط — أقل من نصف معاملات Whisper Large V3 البالغة 1.55 مليار:

النموذج المعاملات متوسط WER السرعة (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER أقل = أخطاء أقل. RTFx أعلى = أسرع. Parakeet يفوز في كليهما. مع 600 مليون معامل فقط، هو أصغر نموذج في تلك القائمة — ما يعني أنه يعمل بسلاسة على Apple Silicon مع أقل استهلاك للذاكرة والبطارية.

معدل خطأ الكلمات متعدد اللغات: جميع اللغات الـ 25

لوحة المتصدرين أعلاه تغطي الإنجليزية فقط. إليك الصورة الكاملة — كيف تقارن النماذج الثلاثة المتاحة في Whisper Notes عبر جميع اللغات الـ 25 التي يدعمها Parakeet، مقاسة على معيار FLEURS. WER أقل = أخطاء أقل في التفريغ. أفضل قيمة بين Large V3 وParakeet مُبرزة في كل صف:

اللغة Whisper Small Whisper Large V3 Parakeet V3
البلغارية 37.3 12.9 12.6
الكرواتية 33.4 11.1 12.5
التشيكية 37.6 11.3 11.0
الدنماركية 32.8 12.6 18.4
الهولندية 16.4 5.6 7.5
الإنجليزية 6.1 4.3 4.9
الإستونية 51.3 19.1 17.7
الفنلندية 24.0 7.7 13.2
الفرنسية 15.0 6.3 5.2
الألمانية 10.2 4.3 5.0
اليونانية 30.8 27.0 20.7
المجرية 38.9 14.1 15.7
الإيطالية 9.8 2.3 3.0
اللاتفية 53.2 18.3 22.8
الليتوانية 65.6 22.3 20.4
المالطية 92.2 68.9 20.5
البولندية 14.7 4.7 7.3
البرتغالية 7.3 3.7 4.8
الرومانية 29.8 8.2 12.4
الروسية 11.4 4.2 5.5
السلوفاكية 33.3 8.4 8.8
السلوفينية 49.3 19.9 24.0
الإسبانية 5.6 3.1 3.5
السويدية 20.8 7.9 15.1
الأوكرانية 19.3 6.5 6.8
المتوسط 29.8 12.6 12.0

WER (%) على FLEURS. بيانات Whisper Small من Radford et al.؛ بيانات Large V3 وParakeet V3 من ورقة NVIDIA Canary-1B-v2.

Whisper Large V3 يتقدم في معظم اللغات الفردية — فهو أكبر بـ 2.5 مرة في النهاية. لكن Parakeet V3 يضاهيه في المتوسط (12.0% مقابل 12.6%)، ويتفوق بوضوح في اليونانية والفرنسية والإستونية والمالطية، ويسحق Whisper Small على جميع الأصعدة (أخطاء أقل بنسبة 60% في المتوسط). القصة الحقيقية ليست في جزء من النسبة المئوية في WER — بل في الحزمة الكاملة: دقة بمستوى Large V3 بسرعة 23 ضعفاً، مع 40% من الذاكرة، بدون هلوسات، وكل شيء يعمل محلياً على جهاز Mac.

وداعاً للهلوسات

إذا استخدمت Whisper للإملاء من قبل، فغالباً رأيته يهلوس أثناء الصمت — يكرر عبارات، يخترع كلمات، أو يخرج بنص "Subtitles by Amara.org" من العدم. يحدث هذا لأن مفكك ترميز Whisper الانحداري يتوقع دائماً إنتاج نص، حتى عندما لا يوجد شيء يُفرّغ.

NVIDIA دربت Parakeet على 36,000 ساعة من الصوت غير الكلامي الخالص (ضوضاء خلفية، سعال، صمت) مقترنة بسلاسل نصية فارغة. تعلّم النموذج كيف يبدو الصمت ويبقى صامتاً. بالنسبة للإملاء المستمر على مستوى النظام، هذا تغيير جذري — لا مزيد من النصوص العشوائية التي تظهر عندما تتوقف للتفكير.

اللغات التي يدعمها Parakeet

يدعم Parakeet v3 خمساً وعشرين لغة: البلغارية، الكرواتية، التشيكية، الدنماركية، الهولندية، الإنجليزية، الإستونية، الفنلندية، الفرنسية، الألمانية، اليونانية، المجرية، الإيطالية، اللاتفية، الليتوانية، المالطية، البولندية، البرتغالية، الرومانية، الروسية، السلوفاكية، السلوفينية، الإسبانية، السويدية، والأوكرانية.

يغطي هذا معظم أوروبا، لكنه لا يدعم الصينية أو اليابانية أو الكورية أو العربية أو الهندية. لهذا أبقينا نماذج Whisper كخيارات قابلة للتحميل. إذا كنت تملي بالعربية أو اليابانية أو الصينية، اختر Whisper Large V3 Turbo من قائمة النماذج. للإنجليزية واللغات الأوروبية، Parakeet v3 هو ببساطة المحرك الأفضل.

واجهة اختيار النموذج في Whisper Notes لنظام Mac تُظهر Parakeet V3 كخيار افتراضي، مع Whisper Small وWhisper Large V3 Turbo كخيارات قابلة للتحميل

قائمة اختيار النموذج: Parakeet V3 (افتراضي)، Whisper Small، وWhisper Large V3 Turbo — جميعها تعمل محلياً

اختيار النموذج في Whisper Notes

افتح الإعدادات للتبديل بين النماذج:

  • Parakeet V3 (افتراضي) — الأسرع، الأفضل للإنجليزية واللغات الأوروبية
  • Whisper Small — خفيف الوزن، يدعم أكثر من 100 لغة
  • Whisper Large V3 Turbo — أدق نموذج متعدد اللغات

جميع النماذج تعمل محلياً 100% على جهاز Mac. بدون إنترنت، بدون سحابة، ولا تغادر بياناتك جهازك.

ماذا عن Parakeet V2؟

إذا كنت تستخدم V2 سابقاً، فقد تتساءل عن المقارنة. V2 كان نموذجاً للإنجليزية فقط — ودقته في الإنجليزية أفضل بقليل من V3 فعلياً (WER %6.05 مقابل %6.32). V3 يستبدل هذا الفرق الطفيف بدعم 25 لغة. كلاهما أدق بكثير من Whisper.

Parakeet V2 Parakeet V3 Whisper Large V3
WER الإنجليزية 6.05% 6.32% 7.44%
اللغات الإنجليزية فقط 25 100+

باختصار: إذا كنت تحتاج الإنجليزية فقط، فكلا V2 و V3 ممتازان. V3 هو الافتراضي في Whisper Notes لأن الدعم متعدد اللغات مهم لمعظم المستخدمين — والفرق في دقة الإنجليزية لا يُذكر.

جرّبه

Parakeet v3 متاح الآن في نسخة Mac — فقط حمّل أحدث ملف DMG. (تحديث: أصبح Parakeet متاحًا الآن في أحدث إصدار من iOS أيضًا.)

أسئلة أو ملاحظات؟ راسلنا على support@whispernotes.app.