Whisper Large V3 Turbo vs V3: أسرع 5 مرات على Mac (مقارنة مرجعية)

يقلّص Whisper Large-v3 Turbo من OpenAI وحدة فك التشفير من 32 طبقة إلى 4، ليخفض عدد المعلمات من 1.55B إلى 809M. النتيجة: نسخ أسرع بـ 2-5× مع دقة شبه مطابقة. يوفره Whisper Notes على Mac مع Apple Silicon.

V3 Turbo مقابل V3: ما الذي تغيّر

Turbo ليس بنية جديدة. إنه نفس نموذج Whisper Large-v3 تمامًا مع تقليم وحدة فك التشفير من 32 طبقة إلى 4، ثم ضبطه الدقيق لاستعادة الدقة. يبقى المشفّر دون تغيير.

	Large-v3 Turbo	Large-v3
المعلمات	809M	1,550M
طبقات فك التشفير	4	32
اللغات	99	99
مهمة الترجمة	غير مدعومة	مدعومة
الترخيص	MIT	Apache 2.0

تم استبعاد مهمة الترجمة صراحةً من بيانات تدريب Turbo. يدعمها نموذج Large-v3 الكامل، لكن Whisper Notes يشحن Turbo فقط — وتتم الترجمة بشكل منفصل عبر Apple Intelligence.

اختبار السرعة: Whisper Notes على Apple Silicon

في Whisper Notes لنظام Mac، يعمل Turbo عبر CoreML على Neural Engine. معالجة 10 دقائق من الصوت:

الجهاز	Whisper V3	V3 Turbo	التسريع
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

التسريع بمقدار 5× خاص بـ Whisper Notes على Apple Silicon، حيث يستفيد فك التشفير الأصغر من تحسين Neural Engine. على GPU مع أطر عمل مثل faster-whisper، تتقلص الفجوة إلى ~2.7× (انظر اختبارات المجتمع أدناه).

الدقة: مقارنة WER

يختبر Hugging Face Open ASR Leaderboard كلا النموذجين على نفس مجموعات البيانات الإنجليزية. معدل خطأ الكلمات (WER) لـ Turbo يقع ضمن نصف نقطة من V3 عبر جميع الاختبارات:

مجموعة البيانات	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
متوسط WER	7.83%	7.44%

V3 أكثر دقة بقليل في كل مجموعة بيانات، لكن الفرق صغير — 0.39 نقطة مئوية في المتوسط. في معظم حالات النسخ الواقعية، لن تلاحظ الفرق.

في تقييم YouTube-commons للتسجيلات الطويلة (أحد أكبر اختبارات ASR المفتوحة المصدر)، يسجّل Turbo نسبة 13.40% WER مقابل 13.20% لـ V3 — بينما يعمل بمعامل سرعة 129.5× مقابل 55.3×. أي أسرع بـ 2.3× مع دقة شبه مطابقة على الصوت الحقيقي.

اختبارات المجتمع: GPU و CPU

تُظهر الاختبارات المستقلة من مجتمعات faster-whisper و whisper.cpp نتائج متسقة عبر مختلف الأجهزة. نسخ 13 دقيقة من الصوت باستخدام faster-whisper على GPU:

النموذج	الدقة	الوقت	ذاكرة GPU	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

المصدر: اختبار faster-whisper على GPU من NVIDIA، مقطع التحقق النظيف من LibriSpeech. يستخدم Turbo int8 فقط 1.5 GB من VRAM — يتسع في GPU بسعة 2 GB.

المعالجة المجمّعة على RTX 3060 Laptop (6 GB VRAM، دقة int8) تزيد الميزة أكثر:

النموذج	تسلسلي	مجمّع (10)	WER مجمّع
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

المصدر: اختبار NilaierMusic، Intel i7-12650H + RTX 3060 Laptop 6 GB، صوت فرنسي، دقة int8.

مع المعالجة المجمّعة، يحقق Turbo أفضل WER بين جميع النماذج المختبرة (7.7%) وهو الأسرع في نفس الوقت. إنه الخيار الأمثل للاستخدام الإنتاجي.

القيود المعروفة (وكيف يتعامل معها Whisper Notes)

لا ترجمة مدمجة

تم تدريب Turbo بدون بيانات ترجمة. ينسخ بلغة المصدر فقط — بخلاف Large-v3 الذي يدعم ترجمة الصوت إلى الإنجليزية.

Whisper Notes — يترجم Apple Intelligence النصوص تلقائيًا إلى اللغة التي تختارها، مما يوفر مخرجات ثنائية اللغة بغض النظر عن النموذج المستخدم.

هلوسة أكثر مع الصوت المشوّش

تشير تقارير المجتمع إلى أن Turbo يهلوس أكثر مع المقاطع القصيرة جدًا أو التسجيلات المشوّشة مقارنةً بـ V3. متوقع نظرًا لتقليص وحدة فك التشفير (4 طبقات مقابل 32).

Whisper Notes — يُشغّل Pyannote VAD قبل النسخ، يكتشف مقاطع الكلام ويزيل الصمت/الضوضاء حتى يعالج النموذج الصوت الحقيقي فقط.

أي نموذج يجب أن تستخدم؟

الإنجليزية / الأوروبية	Parakeet V3 — أسرع 10× من Whisper، دقة أعلى
الصينية / اليابانية / الكورية	SenseVoice — مصمم لـ CJK، سرعة 52×
لغات أخرى	Whisper Large V3 Turbo — 99 لغة، دقة عالية، أبطأ

تحميل لنظام iOS

تحميل لنظام macOS