Whisper Large V3 Turbo vs V3: أسرع 5 مرات على Mac (مقارنة مرجعية)

6 نوفمبر 2024
·
6 min read
·Whisper Notes Team

يقلّص Whisper Large-v3 Turbo من OpenAI وحدة فك التشفير من 32 طبقة إلى 4، ليخفض عدد المعلمات من 1.55B إلى 809M. النتيجة: نسخ أسرع بـ 2-5× مع دقة شبه مطابقة. يوفره Whisper Notes على Mac مع Apple Silicon.

مقارنة بنية Whisper Large V3 Turbo و V3

V3 Turbo مقابل V3: ما الذي تغيّر

Turbo ليس بنية جديدة. إنه نفس نموذج Whisper Large-v3 تمامًا مع تقليم وحدة فك التشفير من 32 طبقة إلى 4، ثم ضبطه الدقيق لاستعادة الدقة. يبقى المشفّر دون تغيير.

Large-v3 Turbo Large-v3
المعلمات 809M 1,550M
طبقات فك التشفير 4 32
اللغات 99 99
مهمة الترجمة غير مدعومة مدعومة
الترخيص MIT Apache 2.0

تم استبعاد مهمة الترجمة صراحةً من بيانات تدريب Turbo. يدعمها نموذج Large-v3 الكامل، لكن Whisper Notes يشحن Turbo فقط — وتتم الترجمة بشكل منفصل عبر Apple Intelligence.

اختبار السرعة: Whisper Notes على Apple Silicon

في Whisper Notes لنظام Mac، يعمل Turbo عبر CoreML على Neural Engine. معالجة 10 دقائق من الصوت:

الجهاز Whisper V3 V3 Turbo التسريع
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

التسريع بمقدار 5× خاص بـ Whisper Notes على Apple Silicon، حيث يستفيد فك التشفير الأصغر من تحسين Neural Engine. على GPU مع أطر عمل مثل faster-whisper، تتقلص الفجوة إلى ~2.7× (انظر اختبارات المجتمع أدناه).

الدقة: مقارنة WER

يختبر Hugging Face Open ASR Leaderboard كلا النموذجين على نفس مجموعات البيانات الإنجليزية. معدل خطأ الكلمات (WER) لـ Turbo يقع ضمن نصف نقطة من V3 عبر جميع الاختبارات:

مجموعة البيانات V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
متوسط WER 7.83% 7.44%

V3 أكثر دقة بقليل في كل مجموعة بيانات، لكن الفرق صغير — 0.39 نقطة مئوية في المتوسط. في معظم حالات النسخ الواقعية، لن تلاحظ الفرق.

في تقييم YouTube-commons للتسجيلات الطويلة (أحد أكبر اختبارات ASR المفتوحة المصدر)، يسجّل Turbo نسبة 13.40% WER مقابل 13.20% لـ V3 — بينما يعمل بمعامل سرعة 129.5× مقابل 55.3×. أي أسرع بـ 2.3× مع دقة شبه مطابقة على الصوت الحقيقي.

اختبارات المجتمع: GPU و CPU

تُظهر الاختبارات المستقلة من مجتمعات faster-whisper و whisper.cpp نتائج متسقة عبر مختلف الأجهزة. نسخ 13 دقيقة من الصوت باستخدام faster-whisper على GPU:

النموذج الدقة الوقت ذاكرة GPU WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

المصدر: اختبار faster-whisper على GPU من NVIDIA، مقطع التحقق النظيف من LibriSpeech. يستخدم Turbo int8 فقط 1.5 GB من VRAM — يتسع في GPU بسعة 2 GB.

المعالجة المجمّعة على RTX 3060 Laptop (6 GB VRAM، دقة int8) تزيد الميزة أكثر:

النموذج تسلسلي مجمّع (10) WER مجمّع
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

المصدر: اختبار NilaierMusic، Intel i7-12650H + RTX 3060 Laptop 6 GB، صوت فرنسي، دقة int8.

مع المعالجة المجمّعة، يحقق Turbo أفضل WER بين جميع النماذج المختبرة (7.7%) وهو الأسرع في نفس الوقت. إنه الخيار الأمثل للاستخدام الإنتاجي.

القيود المعروفة (وكيف يتعامل معها Whisper Notes)

لا ترجمة مدمجة

تم تدريب Turbo بدون بيانات ترجمة. ينسخ بلغة المصدر فقط — بخلاف Large-v3 الذي يدعم ترجمة الصوت إلى الإنجليزية.

Whisper Notes — يترجم Apple Intelligence النصوص تلقائيًا إلى اللغة التي تختارها، مما يوفر مخرجات ثنائية اللغة بغض النظر عن النموذج المستخدم.

هلوسة أكثر مع الصوت المشوّش

تشير تقارير المجتمع إلى أن Turbo يهلوس أكثر مع المقاطع القصيرة جدًا أو التسجيلات المشوّشة مقارنةً بـ V3. متوقع نظرًا لتقليص وحدة فك التشفير (4 طبقات مقابل 32).

Whisper Notes — يُشغّل Pyannote VAD قبل النسخ، يكتشف مقاطع الكلام ويزيل الصمت/الضوضاء حتى يعالج النموذج الصوت الحقيقي فقط.

أي نموذج يجب أن تستخدم؟

الإنجليزية / الأوروبية Parakeet V3 — أسرع 10× من Whisper، دقة أعلى
الصينية / اليابانية / الكورية SenseVoice — مصمم لـ CJK، سرعة 52×
لغات أخرى Whisper Large V3 Turbo — 99 لغة، دقة عالية، أبطأ