تفريغ Whisper الصوتي يعني تحويل الكلام إلى نص باستخدام Whisper من OpenAI — نموذج ذكاء اصطناعي مفتوح المصدر يمكن تشغيله في السحابة، أو على خادم، أو بالكامل على جهازك الخاص. يشرح هذا الدليل كيف يعمل Whisper، وأي حجم من النموذج تختار، ومدى دقته الفعلية، وأسرع طريقة لتشغيله دون اتصال على Mac أو iPhone.
ما هو Whisper بالضبط؟
Whisper هو نموذج للتعرف التلقائي على الكلام (ASR) أصدرته OpenAI في سبتمبر 2022 برخصة MIT. وهو عبارة عن Transformer من نوع encoder-decoder دُرِّب على أكثر من 680,000 ساعة من الصوت متعدد اللغات، ويتولى التفريغ النصي في نحو 100 لغة إضافة إلى الترجمة إلى الإنجليزية.
الجزء الذي يهمك فعلاً: أوزان النموذج مفتوحة. على عكس واجهات API الصوتية من Google أو Amazon، لا يُشترط أن يعمل Whisper على خادم يملكه غيرك. وقد نشأ حوله نظام بيئي كامل للتشغيل المحلي — whisper.cpp وfaster-whisper وتطبيقات أصلية مثل Whisper Notes. هذا ما يجعل التفريغ النصي الخاص وغير المتصل بالإنترنت ممكناً حقاً.
أحجام نماذج Whisper: أيها تستخدم
يأتي Whisper بستة أحجام رئيسية. الأكبر يعني دقة أعلى وسرعة أقل:
| النموذج | المعاملات | السرعة | الأنسب لـ |
|---|---|---|---|
| tiny | 39M | الأسرع | المسودات السريعة والأجهزة الضعيفة |
| base | 74M | سريع جداً | الصوت البسيط والنقي |
| small | 244M | سريع | توازن جيد بين السرعة والدقة على الهاتف |
| medium | 769M | متوسط | نادراً ما يكون الخيار الصحيح اليوم |
| large-v3 | 1.55B | الأبطأ | أقصى دقة، والصوت الصعب |
| large-v3-turbo | 809M | أسرع من large-v3 بنحو 5 مرات | الخيار الافتراضي في 2026 |
بالنسبة للجميع تقريباً، الجواب هو large-v3-turbo: يحتفظ بمُرمِّز large-v3 لكنه يقلّص طبقات فك الترميز من 32 إلى 4، محققاً دقة شبه مطابقة بجزء يسير من الحوسبة. أجرينا اختباراته المفصلة في Whisper Large V3 Turbo مقابل V3.
ما مدى دقة تفريغ Whisper؟
على الصوت الإنجليزي النقي، تصل النماذج الكبيرة إلى معدل خطأ في الكلمات (WER) يقارب 5-8% — أي ما يضاهي التفريغ البشري الاحترافي لمعظم الأغراض العملية. وتنخفض الدقة مع الضوضاء الخلفية واللهجات الثقيلة وتداخل الأصوات واللغات قليلة الموارد.
لدى Whisper نمط فشل شهير واحد: الهلوسة أثناء الصمت. فمُفكِّك الترميز الانحداري الذاتي لديه يخترع أحياناً عبارات مكررة أو عناوين ترجمات حين لا يتحدث أحد. النماذج الأحدث تعالج ذلك — دُرِّب Parakeet V3 من NVIDIA صراحةً على صوت غير كلامي ولم يُنتج أي هلوسة في اختباراتنا (الاختبار الكامل لـ Parakeet V3 مقابل Whisper).
وللصينية واليابانية والكورية والكانتونية، يتفوق نموذج متخصص على Whisper في السرعة وعلامات الترقيم معاً: انظر SenseVoice مقابل Whisper للغات CJK.
5 طرق لتشغيل تفريغ Whisper
| الطريقة | التكلفة | الخصوصية | الإعداد |
|---|---|---|---|
| OpenAI API | الدفع لكل دقيقة صوت | يُرفع الصوت | مفتاح API + برمجة |
| openai-whisper (تطبيق Python المرجعي) | مجاني | محلي 100% | بيئة Python، ويُنصح بمعالج رسوميات |
| whisper.cpp / faster-whisper | مجاني | محلي 100% | سطر الأوامر |
| تطبيق أصلي (Whisper Notes) | $6.99 مرة واحدة، مع تجربة مجانية على Mac | على الجهاز 100% | لا شيء |
| أدوات العروض التجريبية على الويب | خطط مجانية محدودة | يُرفع الصوت | لا شيء |
القاعدة العامة: إن كنت تعيش داخل الطرفية، فإن faster-whisper ممتاز. وإن كنت تبني منتجاً، فالـ API منطقي (سعر المطورين $0.006 لكل دقيقة صوت). أما إن كنت تريد فقط تفريغ تسجيلاتك بخصوصية دون لمس Python، فاستخدم تطبيقاً أصلياً — هذا هو السبب الكامل لوجود تطبيقات Whisper لنظام Mac.
تريد مقارنة أدوات العمل دون اتصال على نطاق أوسع — بما في ذلك خيارات Windows وAndroid؟ اطلع على دليلنا الشامل لتحويل الكلام إلى نص دون اتصال.
Whisper مقابل النماذج المحلية الأحدث (2026)
بدأ Whisper عصر التفريغ المحلي، لكنه لم يعد وحيداً. السرعات أدناه مُقاسة على جهاز Mac بمعالج M4 Pro:
| النموذج | اللغات | السرعة | الميزة الأبرز |
|---|---|---|---|
| Whisper Large V3 Turbo | +100 | ~12x من الزمن الفعلي | أوسع تغطية لغوية |
| Parakeet V3 | 25 (لغات أوروبية) | ~100x من الزمن الفعلي | WER بنسبة 6.32%، دون هلوسة أثناء الصمت |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x من الزمن الفعلي | الأفضل للصينية واليابانية والكورية |
النماذج الثلاثة كلها تعمل محلياً داخل Whisper Notes، ويمكنك التبديل بينها لكل تسجيل. اختبارات المقارنة جنباً إلى جنب موجودة على صفحة مقارنة نماذج Whisper.
كيف تشغّل تفريغ Whisper دون اتصال على Mac وiPhone
لا سطر أوامر، لا Python، لا سحابة:
- نزِّل Whisper Notes لنظام Mac (تجربة مجانية) أو لجهاز iPhone ($6.99 مرة واحدة).
- اختر نموذجاً: Whisper Large V3 Turbo لتغطية لغوية واسعة، وParakeet V3 لسرعة الإنجليزية، وSenseVoice للغات CJK. يُنزَّل مرة واحدة ثم يعمل دون اتصال إلى الأبد.
- سجّل مباشرة، أو أملِ في أي تطبيق بالضغط المستمر على زر Fn، أو أسقط ملفات صوت وفيديو (MP3، WAV، M4A، MP4).
- يتدفق النص أثناء المعالجة. صدِّر بصيغة TXT أو SRT.
متشكك في «دون اتصال»؟ فعِّل وضع الطيران أولاً. سيعمل التفريغ بأقصى سرعته — لا يُرفع أي شيء، أبداً.
ما مدى دقة تفريغ Whisper للغة العربية؟ وأي نموذج تختار؟
للعربية، الخيار هو Whisper Large V3 Turbo: فهي من بين أكثر من 100 لغة يغطيها، بينما لا يدعمها Parakeet V3 (لغات أوروبية فقط) ولا SenseVoice (متخصص في الصينية واليابانية والكورية). النموذج بحجم ~1.5GB يُنزَّل مرة واحدة داخل Whisper Notes ثم يعمل بالكامل دون اتصال على Mac وiPhone معاً. يتعامل مع الفصحى جيداً، وتتحسن النتائج مع الصوت النقي والميكروفون القريب؛ أما اللهجات المحلية الثقيلة فقد تخفض الدقة قليلاً — لذلك جرّبه مجاناً على Mac بتسجيلاتك الحقيقية قبل الشراء.
الأسئلة الشائعة
هل تفريغ Whisper مجاني؟
النموذج نفسه مجاني ومفتوح المصدر (رخصة MIT). تشغيله عبر أدوات سطر الأوامر مثل whisper.cpp لا يكلف شيئاً لكنه يتطلب إعداداً. وتفرض OpenAI API رسوماً لكل دقيقة صوت. أما التطبيقات الأصلية فتجهّز النماذج مقابل رسم صغير — Whisper Notes بسعر $6.99 مرة واحدة، مع تجربة مجانية على Mac.
هل يمكن تشغيل تفريغ Whisper دون اتصال؟
نعم — هذا هو مغزى الأوزان المفتوحة. بمجرد وجود ملف النموذج على جهازك، لا حاجة إلى الإنترنت. يشغّل Whisper Notes نموذج Whisper Large V3 Turbo على Apple Silicon عبر CoreML/Metal، دون اتصال بالكامل. ويمكنك التحقق بوضع الطيران.
أي نموذج Whisper هو الأكثر دقة؟
يمتلك large-v3 أفضل دقة خام. ويضاهيه large-v3-turbo بفارق جزء من الواحد بالمئة في WER بينما يعمل أسرع بنحو 5 مرات، ولهذا صار الافتراضي في معظم الأدوات اليوم.
هل يدعم Whisper لغتي؟
يغطي Whisper نحو 100 لغة، وهو الأقوى في اللغات وفيرة الموارد (الإنجليزية والإسبانية والألمانية والفرنسية والعربية وغيرها). أما للصينية واليابانية والكورية والكانتونية، فيقدم SenseVoice ترقيماً أفضل وسرعة أعلى بكثير على Apple Silicon.
هل يوجد تطبيق تفريغ Whisper لجهاز iPhone؟
نعم. يشغّل Whisper Notes نماذج Whisper المُحسَّنة لمحرك iPhone العصبي (iPhone 12 والأحدث) — سجِّل، واستورد من المذكرات الصوتية أو الملفات، وفرِّغ النص بالكامل على الجهاز مقابل $6.99، دون اشتراك.