بدءاً من الإصدار 1.3.2، أصبح تطبيق Whisper Notes لنظام Mac يعتمد على NVIDIA Parakeet TDT 0.6B كمحرك التعرف على الكلام الافتراضي. إنه أسرع بعشر مرات من Whisper Large V3 Turbo للإنجليزية، وأدق أيضاً. نماذج Whisper لا تزال متاحة إذا كنت تحتاج لغات أخرى.
لماذا غيّرنا المحرك الافتراضي
Whisper نموذج ممتاز، لكنه صُمم ليكون أداة متعددة الأغراض. يدعم أكثر من 100 لغة، يترجم، يولّد طوابع زمنية — سكين سويسري حقيقي. الثمن هو السرعة. للإملاء بالإنجليزية، حيث كل ما تريده هو أن تظهر الكلمات على الشاشة بسرعة، فهو أكثر مما تحتاج.
الشيء الذي كان يزعجني: عند استخدام الإملاء على مستوى النظام بزر Fn مع Whisper، بعد الانتهاء من كلام مدته دقيقة تقريباً، كنت أنتظر 3 إلى 5 ثوانٍ حتى يظهر النص. هذا التوقف يكسر الإيقاع. تتوقف عن الكلام، تنتظر، تحدّق في المؤشر — يقتل سحر الكتابة بالصوت.
Parakeet غيّر الأمر تماماً. السرعة مذهلة لدرجة أن النص يظهر لحظة توقفك عن الكلام. تتحدث، والكلمات تكون هناك فوراً. بمجرد أن تجرب هذا الشعور — التدفق السلس بدون أي انتظار — يصعب جداً العودة إلى Whisper.
ما مدى سرعة Parakeet V3؟
الأرقام أبلغ من الكلام. إليك مقارنة عملية باستخدام ملف صوتي مدته 35 دقيقة على نفس جهاز Mac:
| النموذج | ملف صوتي 35 دقيقة |
|---|---|
| Whisper Large V3 Turbo | 3 دقائق |
| Parakeet TDT 0.6B v3 | 18 ثانية |
أسرع بعشر مرات. ولأن النموذج أصغر حجماً (600 مليون مقابل 800 مليون معامل)، فإنه يستهلك ذاكرة وبطارية أقل أيضاً.
ما الذي يجعل Parakeet v3 بهذه السرعة
Whisper يستمع للصوت كما لو كنت تقرأ كتاباً بصوت عالٍ — كلمة بكلمة، إطار بإطار، بدون تخطي أي شيء. حتى أثناء الصمت، يظل يعالج ويخمّن ما سيأتي. هذا دقيق، لكنه بطيء.
Parakeet يتبع نهجاً مختلفاً جذرياً. يضغط الإشارة الصوتية 8 مرات قبل المعالجة، فلا يرى النموذج إلا ما يهم. ثم بدلاً من المرور على كل إطار، يتنبأ ليس فقط بالكلمة التي قلتها، بل بمدتها — ويقفز للأمام. الصمت؟ يتم تخطيه تماماً. حرف علة طويل؟ تنبؤ واحد بدلاً من عشرات.
النتيجة: نموذج يعالج الكلام كما يفعل دماغك — يركز على الكلمات ويتجاهل الفراغات. لهذا السبب هو أسرع بعشر مرات مع معاملات أقل ودقة أعلى.
المقاييس المرجعية: Parakeet v3 مقابل Whisper
Parakeet v3 يضاهي أو يتفوق على نماذج أكبر منه بمرتين إلى أربع مرات عبر مقاييس FLEURS وCoVoST وMLS
على لوحة المتصدرين Open ASR على Hugging Face، يتصدر Parakeet v3 القائمة بـ 600 مليون معامل فقط — أقل من نصف معاملات Whisper Large V3 البالغة 1.55 مليار:
| النموذج | المعاملات | متوسط WER | السرعة (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
WER أقل = أخطاء أقل. RTFx أعلى = أسرع. Parakeet يفوز في كليهما. مع 600 مليون معامل فقط، هو أصغر نموذج في تلك القائمة — ما يعني أنه يعمل بسلاسة على Apple Silicon مع أقل استهلاك للذاكرة والبطارية.
وداعاً للهلوسات
إذا استخدمت Whisper للإملاء من قبل، فغالباً رأيته يهلوس أثناء الصمت — يكرر عبارات، يخترع كلمات، أو يخرج بنص "Subtitles by Amara.org" من العدم. يحدث هذا لأن مفكك ترميز Whisper الانحداري يتوقع دائماً إنتاج نص، حتى عندما لا يوجد شيء يُفرّغ.
NVIDIA دربت Parakeet على 36,000 ساعة من الصوت غير الكلامي الخالص (ضوضاء خلفية، سعال، صمت) مقترنة بسلاسل نصية فارغة. تعلّم النموذج كيف يبدو الصمت ويبقى صامتاً. بالنسبة للإملاء المستمر على مستوى النظام، هذا تغيير جذري — لا مزيد من النصوص العشوائية التي تظهر عندما تتوقف للتفكير.
اللغات التي يدعمها Parakeet
يدعم Parakeet v3 خمساً وعشرين لغة: البلغارية، الكرواتية، التشيكية، الدنماركية، الهولندية، الإنجليزية، الإستونية، الفنلندية، الفرنسية، الألمانية، اليونانية، المجرية، الإيطالية، اللاتفية، الليتوانية، المالطية، البولندية، البرتغالية، الرومانية، الروسية، السلوفاكية، السلوفينية، الإسبانية، السويدية، والأوكرانية.
يغطي هذا معظم أوروبا، لكنه لا يدعم الصينية أو اليابانية أو الكورية أو العربية أو الهندية. لهذا أبقينا نماذج Whisper كخيارات قابلة للتحميل. إذا كنت تملي بالعربية أو اليابانية أو الصينية، اختر Whisper Large V3 Turbo من قائمة النماذج. للإنجليزية واللغات الأوروبية، Parakeet v3 هو ببساطة المحرك الأفضل.
قائمة اختيار النموذج: Parakeet V3 (افتراضي)، Whisper Small، وWhisper Large V3 Turbo — جميعها تعمل محلياً
اختيار النموذج في Whisper Notes
افتح الإعدادات للتبديل بين النماذج:
- Parakeet V3 (افتراضي) — الأسرع، الأفضل للإنجليزية واللغات الأوروبية
- Whisper Small — خفيف الوزن، يدعم أكثر من 100 لغة
- Whisper Large V3 Turbo — أدق نموذج متعدد اللغات
جميع النماذج تعمل محلياً 100% على جهاز Mac. بدون إنترنت، بدون سحابة، ولا تغادر بياناتك جهازك.
جرّبه
Parakeet v3 متاح الآن في نسخة Mac — فقط حمّل أحدث ملف DMG. إذا كانت ردود الفعل إيجابية، سنجلب Parakeet لنسخة iOS في تحديث مستقبلي.
أسئلة أو ملاحظات؟ راسلنا على support@whispernotes.app.