
اعثر على السبب الجذري لحالات فشل CI الخاصة بتعلّم الآلة في دقائق باستخدام Gemini 3.5 Flash
إن تصحيح خطأ في خط أنابيب تدريب تعلّم الآلة مهمة بطيئة ومجهدة. تقوم بجلب السجلات من تشغيلين مختلفين في CI، وتقارنها بالقيم الذهبية، وتغوص في سجل commits للعثور على التراجع، ثم تكتب تقريرًا يشرح ما حدث وما السبب, بينما ينتظر فريقك. تقوم هذه الحالة الاستخدامية بأتمتة التحقيق بالكامل.
من خلال الجمع بين مهارة ml-failure-audit ونموذج Gemini 3.5 Flash من Google وواجهة Gemini Agent API بوصفها محرك استدلال عن بُعد، يمكن لقوة العمل متعددة الوكلاء في Eigent تدقيق فشل CI من البداية إلى النهاية: جلب السجلات، واستخراج القيم المرجعية، وتتبع الأدلة، وتفويض التحليل الثقيل، وإنتاج مخرجات منظمة, وكل ذلك من خلال prompt واحد.
اختر Gemini 3.5 Flash كنموذجك
انتقل إلى الإعدادات → Agents → Model واختر Gemini 3.5 Flash من قائمة النماذج السحابية. إذا كنت تفضّل استخدام بيانات اعتماد API الخاصة بك، فأضف مفتاح Gemini الخاص بك عبر الإعدادات → Agents → API Keys → Gemini.
تم تحسين Gemini 3.5 Flash للاستدلال السريع وبتكلفة فعّالة في المهام ذات السياق الطويل, وهو بالضبط ما يتطلبه تحليل سجلات CI.
فعّل Gemini Agent API بوصفه وكيلًا فرعيًا عن بُعد
انتقل إلى الإعدادات → Agents → Remote Agents وفعّل Gemini Agent API. سيؤدي ذلك إلى تسجيل Gemini Agent بوصفه وكيلًا فرعيًا قابلًا للاستدعاء داخل قوة العمل في Eigent.
بمجرد التفعيل، يمكن لـ Developer Agent أن يسلّم مهام الاستدلال المكثفة حسابيًا, مثل تحليل السبب الجذري عبر مئات أسطر السجل, مباشرة إلى Gemini Agent، بدلًا من معالجة كل شيء في استدعاء نموذج واحد. يمنحك ذلك إعدادًا ثنائي المستويات: تتولى وكلاء Eigent المحليون التنسيق واستخدام الأدوات، بينما يتولى Gemini Agent الاستدلال العميق.
ارفع مهارة ml-failure-audit
انتقل إلى الإعدادات → Agents → Skills وارفع حزمة المهارة ml-failure-audit. يمكنك أيضًا تصفح Skill Hub: ml-failure-audit للاطلاع على تفاصيل المهارة وخطوات التثبيت. تحدد هذه المهارة كيف ينبغي لـ Eigent التعامل مع تدقيق حالات فشل CI: ما الأصول التي يجب جمعها، وما المقارنات التي يجب تشغيلها، وما الأدلة التي يجب استخراجها، وكيفية هيكلة التقرير النهائي.
بعد الرفع، يمكن لأي وكيل في قوة العمل استدعاء هذه المهارة عند التعامل مع مهام تدقيق ML.
أرسل مهمتك إلى Eigent
بعد إعداد كل شيء، اكتب prompt المهمة في دردشة Eigent:
اتبع المهارة {{ml-failure-audit}}، واستخدم وكيلًا فرعيًا عن بُعد لإنهاء المهام الفرعية المعقدة.
يرجى تدقيق فشل CI الخاص بالقيم الذهبية في التدريب المسبق MIMO VLM لمستودع Megatron-LM. أقدّم لك checkout محليًا من NVIDIA/Megatron-LM عند commit <your-commit-sha> وأصول CI التي أرفقتها (على سبيل المثال، سجلات تشغيل ناجحة وفاشلة). إن workload الفاشل هو تحقق تقارب frozen start على 8 وحدات GPU باستخدام sequence packing، وحجم batch عالمي 32، وإجمالي طول تسلسل packed يبلغ 3200، وpacking buffer 4، و100 تكرار تدريب.
يرجى تحديد ما إذا كان الفشل تراجعًا حقيقيًا في تقارب/صحة النموذج أم مشكلة في metric/gating policy. استخدم كود المقارنة للقيم الذهبية في المستودع وسجلات CI كدليل. لا تعِد تشغيل تدريب GPU.
أخرج answer.json في جذر المستودع مع source_refs وextracted_facts وcalculations وfinal_answer وvalidation. وأخرج أيضًا answer.md موجزًا.
أدرج رابط المستودع، وcheckout commit الهدف، وأرفق أصول CI التي تريد مقارنتها. تبدأ Eigent فورًا في تخطيط التحقيق.
ثبّت مهارة ml-failure-audit قبل تشغيل هذا prompt.
أحضر مدخلاتك الخاصة: استبدل <your-commit-sha> بالـ commit الذي تريد تدقيقه، وافتح ذلك الإصدار في مساحة العمل، وأرفق أصول CI الخاصة بك (على سبيل المثال، سجلات تشغيل ناجحة مقابل فاشلة، أو captures لـ stderr، أو مخرجات مهمة CI المصدّرة). يمكنك تكييف مثال Megatron-LM مع أي مستودع وأي فشل تتحقق منه.
يخطط Coordinator Agent للمهمة ويوزعها
يقرأ Coordinator Agent في Eigent prompt ويجزّئه إلى خطة تدقيق منظمة. يحدد المراحل الأساسية, جلب السجلات، واستخراج البيانات، وتتبع الأدلة، وتوليد التقرير, ويُسنِد التحقيق الكامل إلى Developer Agent.
لا يكتفي Coordinator بالتفويض الأعمى: بل يمرر مرجع المهارة، وسياق المستودع، وملفات سجلات CI حتى يبدأ Developer Agent بكل ما يحتاج إليه.
يحمّل Developer Agent المهارة ويجلب السجلات
تتمثل أول خطوة يقوم بها Developer Agent في تحميل مهارة ml-failure-audit، وقراءة تعليماتها لفهم منهجية التدقيق.
ثم يشغّل 4 أوامر بالتوازي لجلب بيانات سجلات CI, مع سحب سجلي الفشل والبيانات الوصفية ذات الصلة في الوقت نفسه. يعني تنفيذ الأدوات بالتوازي أن مرحلة جمع البيانات تكتمل في جزء صغير من الوقت الذي ستستغرقه بشكل تسلسلي.
استخرج القيم الذهبية وتتبع commit الإصلاح
بعد الحصول على السجلات، يشغّل Developer Agent script Python لاستخراج القيم المرجعية الذهبية, مقاييس التدريب المتوقعة، أو منحنيات الخسارة، أو أرقام benchmark التي ينبغي أن ينتجها تشغيل CI ناجح. ثم يقارنها بالقيم المسجلة في سجلات الفشل لتحديد أين وبأي مقدار انحرفت الأمور.
بعد ذلك، يبحث Developer Agent في سجل commits الخاص بـ Megatron-LM للعثور على commit الإصلاح, تغيير الشفرة المحدد الذي يُحتمل أنه مسؤول عن التراجع. يعمل هذا الـ commit كدليل ملموس في تقرير التدقيق، إذ يمنح المراجعين رابطًا مباشرًا بين الفشل الملحوظ والتغيير البرمجي الأساسي.
فوّض الاستدلال العميق إلى Gemini Agent
بمجرد تجميع الأدلة الخام, فروق السجلات، ومقارنات القيم الذهبية، والـ commit المتعقب, يستدعي Developer Agent Gemini Agent لتنفيذ خطوة الاستدلال الثقيلة.
يحلل Gemini Agent السياق الكامل: ما الذي تغير في الشفرة، وكيف أثّر ذلك التغيير على سلوك التدريب، وما هو السبب الجذري الأكثر احتمالًا. وبعد دقائق، يعيد تقرير تدقيق كاملًا ومنظمًا يغطي تشخيص الفشل، والعوامل المساهمة، والإصلاح الموصى به.
يكتب Developer Agent تقارير التدقيق النهائية
يأخذ Developer Agent تحليل Gemini Agent ويكتب مخرجين في مساحة العمل:
-
answer.json: سجل تدقيق قابل للقراءة آليًا مع حقول منظمة لنوع الفشل، والسبب الجذري، والمقاييس المتأثرة، وcommit الأدلة، والحل الموصى به. مفيد لخطوط الأنابيب المؤتمتة، أو أنظمة التذاكر، أو لوحات تحكم CI. -
answer.md: ملخص تدقيق موجز وسهل القراءة يغطي ما فشل، ولماذا فشل، وما الأدلة، وما الخطوة التالية. جاهز للصق في تعليق PR أو سلسلة Slack أو تقرير حادث.
يُكتب كلا الملفين مباشرة إلى مجلد مساحة العمل ويكونان متاحين فورًا.
لماذا تهم هذه العملية
من المعروف أن حالات فشل CI الخاصة بتعلّم الآلة صعبة التصحيح لأن الإشارة تكون مدفونة في مخرجات سجلات كثيفة، وغالبًا ما يعيش السبب الجذري في commits سابقة بعدة خطوات من العرض الظاهر. تعالج هذه العملية ذلك بثلاث قدرات تعمل معًا:
- استرجاع السجلات بالتوازي يزيل الاختناق التسلسلي المتمثل في جلب الأصول واحدًا تلو الآخر.
- استخراج القيم الذهبية باستخدام Python يطبق مقارنة رقمية دقيقة بدلًا من الاعتماد على مطابقة الأنماط أو الفحص اليدوي.
- Gemini Agent بوصفه وكيلًا فرعيًا للاستدلال يرفع خطوة الاستدلال الأكثر تعقيدًا إلى نموذج مُحسن لها، مع إبقاء التنسيق خفيفًا والتحليل عميقًا.
النتيجة هي تدقيق للسبب الجذري كان سيستغرق من المهندس 30–60 دقيقة من العمل المركز، ويُنجز في بضع دقائق، مع أثر منظم للأصول.
ما الذي تختبره بعد ذلك
بمجرد اكتمال أول تدقيق لك، وسّع سير العمل مع prompts متابعة مثل:
شغّل التدقيق نفسه على أحدث ثلاث حالات فشل CI وقارن الأسباب الجذرية.
بعد العثور على commit الإصلاح، افتح issue في GitHub مع تقرير التدقيق مُعبّأ مسبقًا.
جدولة trigger ليلي لتدقيق أي حالات فشل CI جديدة ونشر answer.md على Slack.
بدّل إلى نموذج مختلف, جرّب Gemini 3.5 Pro لتحليل أعمق أو Gemini Flash Lite لاستجابة أسرع.
نصائح للحصول على نتائج أفضل
- أرفق أصول CI الخاصة بك بشكل صريح. تعمل مهارة ml-failure-audit بأفضل صورة عندما توفر checkout للـ commit بالإضافة إلى السجلات أو exports التي تريد مقارنتها (على سبيل المثال، تشغيل ناجح وتشغيل فاشل).
- أدرج رابط المستودع. يستخدمه Developer Agent للبحث في سجل commits عن commit الإصلاح. يوفّر الرابط المباشر إلى المستودع خطوة بحث.
- حدّد ملفات الإخراج. إن طلب
answer.jsonوanswer.mdمعًا يخبر Developer Agent بإنتاج الصيغتين, وهو أمر مفيد إذا كنت تحتاج إلى مخرجات قابلة للقراءة آليًا لخط أنابيب CI ومخرجات قابلة للقراءة البشرية لفريقك. - استخدم Gemini Agent للمهام الثقيلة في الاستدلال. يعمل نمط الوكيل الفرعي عن بُعد بأفضل صورة عندما تتولى الوكلاء المحليون جمع البيانات ويتولى Gemini Agent التركيب. تجنّب استدعاءه لعمليات البحث البسيطة التي يمكن لاستخدام الأدوات المحلي إنجازها أسرع.


