logo
  • 环境
  • 企业版
  • 价格
DeveloperMay 19, 2026

使用 Gemini 3.5 Flash 和 Eigent 上的 Gemini Agent 审计 ML CI 失败

Regina BaiRegina Bai
使用 Gemini 3.5 Flash 和 Eigent 上的 Gemini Agent 审计 ML CI 失败
Automate Everything with
AI Workforce on Desktop
Download Eigent

使用 Gemini 3.5 Flash 在几分钟内找出 ML CI 失败的根因

调试损坏的 ML 训练流水线既慢又繁琐。你要从两个不同的 CI 运行中拉取日志,将它们与 golden values 对比,翻查提交历史以找到回归点,然后再写一份报告解释哪里出了问题以及原因,而你的团队还在等待。这个用例将整个调查过程自动化了。

通过将 ml-failure-audit 技能与 Google 的 Gemini 3.5 Flash 模型以及作为远程推理引擎的 Gemini Agent API 结合,Eigent 的多 agent 团队可以端到端审计一次 CI 失败:获取日志、提取参考值、追踪证据、委派繁重分析,并生成结构化交付物,全部只需一个提示词。

1选择 Gemini 3.5 Flash 作为你的模型

前往 Settings → Agents → Model,从云模型列表中选择 Gemini 3.5 Flash。如果你更希望使用自己的 API 凭据,可以在 Settings → API Keys → Gemini 下填入自己的 Gemini key。

Gemini 3.5 Flash 针对长上下文任务进行了快速且高性价比的推理优化,这正是 CI 日志分析所需要的。

2启用 Gemini Agent API 作为远程子代理

前往 Settings → Agents → Remote Agents,打开 Gemini Agent API 开关。这会将 Gemini Agent 注册为 Eigent 团队中可调用的子代理。

启用后,你的 Developer Agent 可以把计算密集型推理任务,例如对数百行日志进行根因分析,直接交给 Gemini Agent,而不是在一次模型调用中处理所有内容。这样你就拥有了一个双层架构:Eigent 的本地 agents 负责编排和工具使用,而 Gemini Agent 负责深度推理。

3上传 ml-failure-audit Skill

前往 Settings → Agents → Skills 并上传 ml-failure-audit skill 包。你也可以浏览 Skill Hub: ml-failure-audit 了解该 skill 的详细信息和安装步骤。这个 skill 定义了 Eigent 应如何处理 CI 失败审计:需要收集哪些工件、执行哪些比较、获取哪些证据,以及如何构建最终报告。

上传后,团队中的任何 agent 在处理 ML 审计任务时都可以调用该 skill。

4将你的任务发送给 Eigent

完成所有配置后,将你的任务提示输入 Eigent 的聊天窗口:

遵循 {{ml-failure-audit}} skill,并使用 remote sub agent 完成复杂子任务。

请审计这个 Megatron-LM MIMO VLM pretraining golden metric CI 失败。我提供了一个本地 NVIDIA/Megatron-LM 检出版本,位于 commit <your-commit-sha>,以及我附加的 CI 工件(例如通过和失败运行的日志)。失败的工作负载是一个 8-GPU frozen start convergence check,使用 sequence packing、global batch size 32、total packed sequence length 3200、packing buffer 4,以及 100 次训练迭代。

请判断这个失败是真实的模型 convergence/correctness 回归,还是 metric/gating policy 问题。请使用仓库中的 golden value comparison 代码和 CI 日志作为证据。不要重新运行 GPU training。

在仓库根目录生成 answer.json,包含 source_refs、extracted_facts、calculations、final_answer 和 validation。还要生成一份简洁的 answer.md。

请包含 repository URL、你的目标 commit 检出版本,并附上你希望比较的 CI 工件。Eigent 会立即开始规划调查。

在运行此提示词之前,请先安装 ml-failure-audit skill。

自带输入: 将 <your-commit-sha> 替换为你要审计的 commit,在你的工作区检出该版本,并附上你自己的 CI 工件(例如通过与失败运行的日志、stderr 捕获内容或导出的 CI job 输出)。你可以将 Megatron-LM 示例改造为任何你正在调查的仓库和失败场景。

5Coordinator Agent 规划并分配任务

Eigent 的 Coordinator Agent 会读取提示词,并将其拆解为结构化审计计划。它会识别关键阶段,日志检索、数据提取、证据追踪和报告生成,并将整个调查分配给 Developer Agent。

Coordinator 不会机械地盲目委派:它会一并传递 skill 引用、仓库上下文和 CI 日志工件,让 Developer Agent 一开始就拥有所需的一切。

6Developer Agent 加载 skill 并获取日志

Developer Agent 的第一步是加载 ml-failure-audit skill,读取其中的说明以理解审计方法。

然后它会并行运行 4 个命令 来抓取 CI 日志数据,同时拉取两份失败日志以及任何相关元数据。并行工具执行意味着数据收集阶段所花时间只是顺序执行的一小部分。

7提取 golden values 并追踪修复提交

拿到日志后,Developer Agent 会运行一个 Python 脚本 来提取 golden reference values,即通过 CI 运行应产生的预期训练指标、loss 曲线或基准数值。然后它会将这些数值与失败日志中记录的值进行 diff,以准确找出偏离发生的位置以及偏离幅度。

接着,Developer Agent 会搜索 Megatron-LM 的提交历史,找到 fix commit,最有可能导致回归的具体代码变更。这个 commit 会作为审计报告中的确凿证据,为审阅者提供失败现象与底层代码变更之间的直接关联。

8将深度推理委派给 Gemini Agent

一旦原始证据整理完毕,日志 diff、golden value 对比以及追踪到的 commit,Developer Agent 就会调用 Gemini Agent 来执行最繁重的推理步骤。

Gemini Agent 会分析完整上下文:代码发生了什么变化、该变化如何影响训练行为,以及最可能的根因是什么。几分钟后,它会返回一份完整、结构化的审计报告,涵盖失败诊断、影响因素和建议修复方案。

9Developer Agent 编写最终审计报告

Developer Agent 会吸收 Gemini Agent 的分析结果,并在工作区中写入两个交付物:

  • answer.json: 一份机器可读的审计记录,包含失败类型、根因、受影响指标、证据 commit 和建议解决方案等结构化字段。适用于自动化流水线、工单系统或 CI 仪表盘。

  • answer.md: 一份简洁、可供人阅读的审计摘要,说明失败了什么、为什么失败、证据是什么,以及下一步该做什么。可直接粘贴到 PR 评论、Slack 线程或事故报告中。

这两个文件都会直接写入工作区文件夹,并可立即访问。

10为什么这个工作流很重要

ML CI 失败之所以极难调试,是因为信号被淹没在密集的日志输出中,而且根因通常出现在距离症状若干次提交之前。这个工作流通过三个协同工作的能力来解决这一问题:

  • 并行日志检索 消除了逐个拉取工件的顺序瓶颈。
  • 基于 Python 的 golden value 提取 通过精确数值比较,而不是依赖模式匹配或人工检查。
  • 将 Gemini Agent 作为推理子代理 将最复杂的推断步骤卸载给最擅长它的模型,同时保持编排轻量、分析深入。

结果就是,一次原本需要工程师 30–60 分钟专注工作的根因审计,现在只需几分钟即可交付,并附带结构化工件链路。

11接下来可以尝试什么

当你的第一次审计完成后,可以用如下后续提示词扩展工作流:

针对最近的三个 CI 失败执行相同审计,并比较根因。

找到修复 commit 之后,使用审计报告预填充一个 GitHub issue。

设置一个夜间触发器,审计任何新的 CI 失败并将 answer.md 发布到 Slack。

替换为不同的模型,尝试用 Gemini 3.5 Pro 获得更深入的分析,或用 Gemini Flash Lite 获得更快的响应。

12提升效果的技巧

  • 明确附上你的 CI 工件。 ml-failure-audit skill 在你提供 commit 检出版本以及想要比较的日志或导出内容时效果最好(例如,一次通过运行和一次失败运行)。
  • 包含 repository URL。 Developer Agent 会用它在提交历史中搜索 fix commit。直接链接到仓库可以省去一个搜索步骤。
  • 明确输出文件。 要求同时生成 answer.json 和 answer.md,可以让 Developer Agent 输出两种格式,如果你需要给 CI 流水线使用机器可读输出、同时又需要给团队使用人类可读输出,这会很有用。
  • 将 Gemini Agent 用于重推理任务。 当本地 agents 负责数据收集、Gemini Agent 负责综合时,远程子代理模式效果最佳。不要把它用于本地工具可以更快完成的简单查询。

Other use cases

收据和发票的自动化 VAT 申报

收据和发票的自动化 VAT 申报

请处理“VAT”文件夹中的所有收据和发票,包括照片、扫描的 PDF 和电子发票。最终输出应只包含两个文件:(1) vat_return.xlsx——Excel 文件应为每张收据或发票包含一行,列出所有提取字段,显示每一项是否符合 VAT 追回资格,显示每个符合条件项目的可追回 VAT 金额,包含不可追回项目的排除原因,清晰标记需要人工复核的项目,并包含一个显示可追回 VAT 总金额的汇总工作表。(2) vat_return.html——创建一个可直接打开并与财务团队共享的独立 HTML 文件。HTML 文件应显示所有 VAT 追回项目、每个项目的可追回 VAT 金额、被排除的项目及其排除原因、需要人工复核的项目,以及可追回 VAT 总金额。不要猜测任何不确定的信息。

长程任务:Eigent 单智能体 Harness 中的 GLM-5.1 vs GLM-5.2

长程任务:Eigent 单智能体 Harness 中的 GLM-5.1 vs GLM-5.2

对 AI 基础设施生态系统中的 26 家公司进行深入研究——这是整个 AI 价值链中最确定的主线。覆盖以下 6 个子行业(每个子行业选择具有代表性的公司,从大型龙头到较小参与者):AI 数据中心(算力基础设施 / 建设扩张);GPU / AI 芯片(训练与推理硅片、ASIC、IP);服务器、网络与光模块(交换机、NIC、光互连);电力、液冷与储能(电源、散热、能源管理);AI 云 / 计算平台(超大规模云厂商、GPU 云、算力租赁平台);支撑生态(HBM / 先进封装、晶圆代工、连接器及其他关键组件)。对于每家公司,研究:公司名称、子行业、总部 / 国家;核心产品及其在 AI 链中的具体角色;上市或非上市(若上市,注明股票代码 + 交易所;若非上市,注明最新估值 / 融资轮次);市值或估值规模(用于排序);在生态中的定位与护城河(1–2 句);主要客户 / 竞争对手。排序方式:在每个子行业内按从大到小排序(按市值 / 估值)。整体结构采用自上而下:从完整的硬件生态全景 → 到每一家单独公司。输出要求:首先生成结构化数据文件 ai_infra_data.json——包含全部 26 家公司及上述字段、6 个子行业分类、上市/非上市标记,以及跨公司比较矩阵(子行业 × 关键维度)。然后基于该 JSON 生成一份精美的 HTML 报告:包含生态全景 / 分层图、行业分区、公司卡片、清晰的上市与非上市视觉区分(标签或颜色编码)、市值排名图表,以及可排序 / 可筛选的比较表。设计应专业、信息密集且具交互性。请先验证研究数据的准确性(上市状态、股票代码、估值——使用最新数据并引用来源),然后再生成报告。以单智能体模式提交该任务。

使用 Eigent 同时构建 10 款中国新年 HTML5 游戏

使用 Eigent 同时构建 10 款中国新年 HTML5 游戏

使用 HTML、CSS 和 JS(不使用任何库)构建 10 款彼此独立且完整的游戏,主题均与 2026 年春节(马年)相关。游戏必须有趣、原创、打磨完善、适配移动端。包含计分、难度递增、重玩按钮和流畅视觉效果。覆盖:街机、解谜、无尽跑酷、反应、策略、记忆、双人本地、放置、复古像素,以及 1 款实验性游戏。

Automate everything with AI workforce on desktop
Download Eigent

立即体验 Eigent

下载开源桌面应用,在本地用 AI 工作团队开始自动化。

下载 Eigent
Eigent

获取关于 AI 员工自动化的最新更新和教程。

产品Eigent环境定价企业版
探索解决方案使用场景技能插件博客
开发者文档GitHubCAMEL-AI开源基金合作伙伴
下载开源版
公司关于我们品牌加入我们使用条款隐私政策安全与信任Cookie 政策退款与试用政策

保留所有权利 © 2026 EIGENT UK LTD

Eigent 1.0 新版本发布!download