يقلّص Whisper Large-v3 Turbo من OpenAI وحدة فك التشفير من 32 طبقة إلى 4، ليخفض عدد المعلمات من 1.55B إلى 809M. النتيجة: نسخ أسرع بـ 2-5× مع دقة شبه مطابقة. يوفره Whisper Notes على Mac مع Apple Silicon.
V3 Turbo مقابل V3: ما الذي تغيّر
Turbo ليس بنية جديدة. إنه نفس نموذج Whisper Large-v3 تمامًا مع تقليم وحدة فك التشفير من 32 طبقة إلى 4، ثم ضبطه الدقيق لاستعادة الدقة. يبقى المشفّر دون تغيير.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| المعلمات | 809M | 1,550M |
| طبقات فك التشفير | 4 | 32 |
| اللغات | 99 | 99 |
| مهمة الترجمة | غير مدعومة | مدعومة |
| الترخيص | MIT | Apache 2.0 |
تم استبعاد مهمة الترجمة صراحةً من بيانات تدريب Turbo. يدعمها نموذج Large-v3 الكامل، لكن Whisper Notes يشحن Turbo فقط — وتتم الترجمة بشكل منفصل عبر Apple Intelligence.
اختبار السرعة: Whisper Notes على Apple Silicon
في Whisper Notes لنظام Mac، يعمل Turbo عبر CoreML على Neural Engine. معالجة 10 دقائق من الصوت:
| الجهاز | Whisper V3 | V3 Turbo | التسريع |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
التسريع بمقدار 5× خاص بـ Whisper Notes على Apple Silicon، حيث يستفيد فك التشفير الأصغر من تحسين Neural Engine. على GPU مع أطر عمل مثل faster-whisper، تتقلص الفجوة إلى ~2.7× (انظر اختبارات المجتمع أدناه).
الدقة: مقارنة WER
يختبر Hugging Face Open ASR Leaderboard كلا النموذجين على نفس مجموعات البيانات الإنجليزية. معدل خطأ الكلمات (WER) لـ Turbo يقع ضمن نصف نقطة من V3 عبر جميع الاختبارات:
| مجموعة البيانات | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| متوسط WER | 7.83% | 7.44% |
V3 أكثر دقة بقليل في كل مجموعة بيانات، لكن الفرق صغير — 0.39 نقطة مئوية في المتوسط. في معظم حالات النسخ الواقعية، لن تلاحظ الفرق.
في تقييم YouTube-commons للتسجيلات الطويلة (أحد أكبر اختبارات ASR المفتوحة المصدر)، يسجّل Turbo نسبة 13.40% WER مقابل 13.20% لـ V3 — بينما يعمل بمعامل سرعة 129.5× مقابل 55.3×. أي أسرع بـ 2.3× مع دقة شبه مطابقة على الصوت الحقيقي.
اختبارات المجتمع: GPU و CPU
تُظهر الاختبارات المستقلة من مجتمعات faster-whisper و whisper.cpp نتائج متسقة عبر مختلف الأجهزة. نسخ 13 دقيقة من الصوت باستخدام faster-whisper على GPU:
| النموذج | الدقة | الوقت | ذاكرة GPU | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
المصدر: اختبار faster-whisper على GPU من NVIDIA، مقطع التحقق النظيف من LibriSpeech. يستخدم Turbo int8 فقط 1.5 GB من VRAM — يتسع في GPU بسعة 2 GB.
المعالجة المجمّعة على RTX 3060 Laptop (6 GB VRAM، دقة int8) تزيد الميزة أكثر:
| النموذج | تسلسلي | مجمّع (10) | WER مجمّع |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
المصدر: اختبار NilaierMusic، Intel i7-12650H + RTX 3060 Laptop 6 GB، صوت فرنسي، دقة int8.
مع المعالجة المجمّعة، يحقق Turbo أفضل WER بين جميع النماذج المختبرة (7.7%) وهو الأسرع في نفس الوقت. إنه الخيار الأمثل للاستخدام الإنتاجي.
القيود المعروفة (وكيف يتعامل معها Whisper Notes)
لا ترجمة مدمجة
تم تدريب Turbo بدون بيانات ترجمة. ينسخ بلغة المصدر فقط — بخلاف Large-v3 الذي يدعم ترجمة الصوت إلى الإنجليزية.
Whisper Notes — يترجم Apple Intelligence النصوص تلقائيًا إلى اللغة التي تختارها، مما يوفر مخرجات ثنائية اللغة بغض النظر عن النموذج المستخدم.
هلوسة أكثر مع الصوت المشوّش
تشير تقارير المجتمع إلى أن Turbo يهلوس أكثر مع المقاطع القصيرة جدًا أو التسجيلات المشوّشة مقارنةً بـ V3. متوقع نظرًا لتقليص وحدة فك التشفير (4 طبقات مقابل 32).
Whisper Notes — يُشغّل Pyannote VAD قبل النسخ، يكتشف مقاطع الكلام ويزيل الصمت/الضوضاء حتى يعالج النموذج الصوت الحقيقي فقط.
أي نموذج يجب أن تستخدم؟
| الإنجليزية / الأوروبية | Parakeet V3 — أسرع 10× من Whisper، دقة أعلى |
| الصينية / اليابانية / الكورية | SenseVoice — مصمم لـ CJK، سرعة 52× |
| لغات أخرى | Whisper Large V3 Turbo — 99 لغة، دقة عالية، أبطأ |