بنينا تفريغ اجتماعات بدون اتصال لنظام Mac. يسجّل مكالمات Zoom وTeams وGoogle Meet، ويفرّغها محليًا باستخدام Parakeet V3، ويلخّصها بواسطة Gemma 4. بدون سحابة، بدون بوت في المكالمة. $6.99 مرة واحدة.
تسجيل مكالمة Zoom في Whisper Notes — يُصنَّف «أنا» و«آخرون» حسب مصدر الصوت
يوم اثنين عادي
الساعة 10 صباحًا، مكالمة Zoom مع عميل. تفتح Whisper Notes وتضغط تسجيل. التطبيق يلتقط صوت النظام والميكروفون في آنٍ واحد — لا أحد في الاجتماع يرى بوتًا، لا أحد يتلقى إشعارًا، لا شيء يظهر في قائمة المشاركين.
بعد ساعة تنتهي المكالمة. توقف التسجيل. يفرّغ Parakeet V3 ستين دقيقة من الصوت في حوالي دقيقة واحدة، بالكامل على Neural Engine في جهاز Mac. اضغط تلخيص — يستخرج Gemma 4 النقاط الرئيسية. اضغط المهام — يسحب كل مهمة وموعد نهائي ذُكر. ترسل ملاحظات الاجتماع للعميل. الصوت لم يغادر جهازك أبدًا.
هذا هو سير العمل بالكامل. سجّل، فرّغ، لخّص. كل شيء محلي.
ما الذي يفعله
التسجيل
يلتقط Whisper Notes صوت النظام — الصوت الخارج من السماعات أو سماعات الرأس. إذا كنت تسمعه على Mac، يمكننا تفريغه. Zoom وTeams وGoogle Meet وWebex وGoTo وWhereby وJitsi وYouTube والبودكاست أو أي تطبيق آخر. كما يسجّل الميكروفون في الوقت نفسه، فيُلتقط طرفا المحادثة.
لا ينضم بوت إلى المكالمة. هذا أهم مما يبدو. إذا رأيت يومًا "Otter.ai Notetaker has joined the meeting" تظهر في مكالمة Zoom، تعرف ما يحدث بعدها — أحدهم يسأل ما هذا، آخر يشعر بعدم الارتياح، ويتغير مسار الحوار. مع التقاط صوت النظام، لا أحد يعلم أنك تسجّل سواك.
التفريغ
يعمل Parakeet V3 على Apple Silicon عبر CoreML. يعالج الإنجليزية و24 لغة أوروبية بسرعة تقارب 60 ضعف الوقت الفعلي — اجتماع مدته 60 دقيقة ينتهي في نحو دقيقة. للصينية واليابانية والكورية، يتولى SenseVoice معالجة CJK بسرعة 52 ضعفًا. يزيل Pyannote VAD الصمت قبل التفريغ، فلا يعالج النموذج سوى الكلام الفعلي.
النص المفرَّغ مع طوابع زمنية وتحرير مباشر — انقر على أي مقطع للانتقال إلى تلك اللحظة في الصوت
ميزات الذكاء الاصطناعي — كلها محلية
يعمل Gemma 4 على جهاز Mac. بدون مفتاح API، بدون اتصال سحابي، بدون حدود استخدام. بعد التفريغ:
- •تلخيص — النقاط الرئيسية لاجتماع مدته 60 دقيقة، في ثوانٍ
- •المهام — المهام والمواعيد النهائية، تُستخرج تلقائيًا
- •ترجمة — Apple Intelligence يترجم النص المفرّغ إلى لغة أخرى
- •محادثة — اسأل "ما الذي اتفقنا عليه بشأن التسعير؟" واحصل على إجابة مستندة إلى النص المفرّغ
الشريط الجانبي لذكاء Gemma 4 — تلخيص، مهام، ترجمة، ومحادثة حرة، كل ذلك يعمل محليًا
لماذا بنيناه بهذه الطريقة
صوت الاجتماعات من أكثر البيانات حساسية التي تنتجها الشركة. مفاوضات العملاء، ومراجعات الموارد البشرية، ونقاشات مجلس الإدارة، والاستشارات القانونية — نوع المحادثات التي يمكن لتسريب واحد أن ينهي مسيرات مهنية.
معظم أدوات التفريغ ترفع هذا الصوت إلى خوادم سحابية وتعالجه هناك وتخزّنه وفق سياسات الاحتفاظ بالبيانات الخاصة بها. بعضها يضيف بوتًا إلى المكالمة يراه الجميع. بعضها يحتفظ بتسجيلاتك إلى أجل غير مسمى من أجل "تحسين النموذج".
اخترنا نهجًا مختلفًا: كل شيء يعمل على جهاز Mac. نموذج ASR وLLM وتخزين الصوت — كله محلي. لا يوجد خادم يمكن اختراقه، ولا سياسة احتفاظ بالبيانات تحتاج لقراءتها، ولا خطر استدعاء قضائي من طرف ثالث. بالنسبة للفرق الخاضعة لـ GDPR أو HIPAA أو سرية المحامي-العميل، هذه البنية هي الهدف بحد ذاتها.
المقارنة
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| المعالجة | 100% على الجهاز | سحابة | سحابة | هجين |
| بوت في المكالمة | لا | نعم | نعم | لا |
| السعر | $6.99 مرة واحدة | $16.99/شهر (Pro) | من $18/شهر | $24/شهر |
| يعمل بدون اتصال | نعم | لا | لا | جزئيًا |
| ملخص بالذكاء الاصطناعي | محلي (Gemma 4) | سحابة | سحابة | سحابة |
| فصل المتحدثين | ليس بعد | نعم | نعم | نعم |
اجتماعات مختلفة، لغات مختلفة
اختر النموذج الذي يطابق لغة اجتماعك:
| الإنجليزية / الأوروبية | Parakeet V3 — ~60 ضعف الوقت الفعلي، 6.32% WER، صفر هلوسات على الصمت |
| الصينية / اليابانية / الكورية | SenseVoice — سرعة 52 ضعفًا، يدعم الكانتونية، تسريع GPU عبر MLX |
| لغات أخرى | Whisper Large V3 Turbo — 99 لغة، دقة عالية، أبطأ |
ما ينقص
لا نملك بعد ميزة فصل المتحدثين. حاليًا يصنّف Whisper Notes الصوت كـ "أنا" (الميكروفون) و"آخرون" (صوت النظام) — وهذا يكفي لمعظم الاجتماعات الثنائية والمجموعات الصغيرة. لكن لمكالمة فيها 10 أشخاص وتحتاج معرفة من قال ماذا، هذا لا يكفي.
هذه هي الخطوة التالية البديهية ونعمل عليها. الهدف هو فصل متحدثين محلي يعمل بجانب Parakeet V3 وSenseVoice، دون إرسال الصوت إلى أي مكان.