logo
  • 環境
  • 企業方案
  • 價格方案
DeveloperMay 19, 2026

使用 Gemini 3.5 Flash 與 Eigent 上的 Gemini Agent 稽核 ML CI 失敗

Regina BaiRegina Bai
使用 Gemini 3.5 Flash 與 Eigent 上的 Gemini Agent 稽核 ML CI 失敗
Automate Everything with
AI Workforce on Desktop
Download Eigent

用 Gemini 3.5 Flash 在幾分鐘內找出 ML CI 失敗的根因

除錯一條損壞的 ML 訓練流程既緩慢又繁瑣。你需要從兩次不同的 CI 執行中拉取日誌,與 golden values 比對,翻查 commit 歷史找出回歸來源,然後撰寫報告說明出了什麼問題以及原因,同時你的團隊還在等待。這個使用案例將整個調查流程全面自動化。

透過結合 ml-failure-audit 技能、Google 的 Gemini 3.5 Flash 模型,以及作為遠端推理引擎的 Gemini Agent API,Eigent 的多代理工作團隊可以端到端稽核 CI 失敗:抓取日誌、提取參考值、追蹤證據、委派繁重分析,並產出結構化交付物,全部只需要一個提示詞。

1將 Gemini 3.5 Flash 選為你的模型

前往 Settings → Agents → Model,並從雲端模型清單中選擇 Gemini 3.5 Flash。如果你偏好使用自己的 API 憑證,可以在 Settings → API Keys → Gemini 下輸入自己的 Gemini 金鑰。

Gemini 3.5 Flash 針對長上下文任務的快速、具成本效益推理進行了最佳化,這正是 CI 日誌分析所需要的能力。

2啟用 Gemini Agent API 作為遠端子代理

前往 Settings → Agents → Remote Agents,並開啟 Gemini Agent API。這會將 Gemini Agent 註冊為 Eigent 工作團隊內可呼叫的子代理。

啟用後,你的 Developer Agent 就能把計算密集型的推理任務,例如跨數百行日誌的根因分析,直接交給 Gemini Agent,而不是在單次模型呼叫中處理所有事情。這會形成雙層架構:Eigent 的本地 agents 負責協同編排與工具使用,而 Gemini Agent 負責深度推理。

3上傳 ml-failure-audit 技能

前往 Settings → Agents → Skills,並上傳 ml-failure-audit 技能套件。你也可以瀏覽 Skill Hub: ml-failure-audit 以查看技能詳情與安裝步驟。這個技能定義了 Eigent 應如何進行 CI 失敗稽核:要收集哪些工件、要執行哪些比較、要蒐集哪些證據,以及最終報告應如何組織。

上傳完成後,工作團隊中的任何 agent 都可以在處理 ML 稽核任務時呼叫此技能。

4將你的任務送交給 Eigent

完成所有設定後,將你的任務提示詞輸入 Eigent 的聊天中:

遵循 {{ml-failure-audit}} 技能,並使用遠端子代理來完成複雜的子任務。

請稽核這個 Megatron-LM MIMO VLM pretraining golden metric CI 失敗。我提供了一份本機 NVIDIA/Megatron-LM checkout,commit 為 <your-commit-sha>,以及我附加的 CI 工件(例如通過與失敗執行的日誌)。失敗的工作負載是一個 8-GPU frozen start convergence check,使用 sequence packing、global batch size 32、total packed sequence length 3200、packing buffer 4,以及 100 次 training iterations。

請判斷這個失敗究竟是真正的模型收斂/正確性回歸,還是 metric/gating policy 問題。請使用倉庫的 golden value 比對程式碼與 CI 日誌作為證據。不要重新執行 GPU 訓練。

請在倉庫根目錄輸出 answer.json,內含 source_refs、extracted_facts、calculations、final_answer 與 validation。也請輸出一份精簡的 answer.md。

請包含倉庫 URL、你的目標 commit checkout,並附上你要比對的 CI 工件。Eigent 會立即開始規劃調查。

在執行此提示詞之前,請先安裝 ml-failure-audit 技能。

**帶上你自己的輸入:**將 <your-commit-sha> 替換成你要稽核的 commit,在你的工作區中 checkout 該版本,並附上你自己的 CI 工件(例如通過/失敗執行的日誌、stderr 擷取,或匯出的 CI job 輸出)。你可以把 Megatron-LM 範例改成任何你正在調查的倉庫與失敗情境。

5Coordinator Agent 規劃並指派任務

Eigent 的 Coordinator Agent 會讀取提示詞,並將其拆解為結構化的稽核計畫。它會識別關鍵階段,日誌擷取、資料提取、證據追蹤與報告生成,並將整個調查指派給一個 Developer Agent。

Coordinator 不只是盲目轉派:它會一併傳遞技能參考、倉庫上下文與 CI 日誌工件,讓 Developer Agent 一開始就具備所需的一切。

6Developer Agent 載入技能並抓取日誌

Developer Agent 的第一步是載入 ml-failure-audit 技能,閱讀其指示以理解稽核方法。

接著它會平行執行 4 個命令來取得 CI 日誌資料,同時抓取兩份失敗日誌與任何相關中繼資料。平行工具執行意味著資料收集階段只需一小部分時間即可完成,而不是按序執行。

7提取 golden values 並追蹤修正 commit

在取得日誌後,Developer Agent 會執行一個 Python 腳本來提取 golden 參考值,也就是通過的 CI 執行應該產生的預期訓練指標、loss 曲線或 benchmark 數值。接著它會將這些值與失敗日誌中記錄的數值進行 diff,比對出究竟在哪裡、以及偏離了多少。

下一步,Developer Agent 會搜尋 Megatron-LM 的 commit 歷史,找出 修正 commit,最有可能造成回歸的特定程式碼變更。這個 commit 會作為稽核報告中的具體證據,讓審閱者能直接把觀察到的失敗與底層程式碼變更連結起來。

8將深度推理委派給 Gemini Agent

一旦原始證據組裝完成,日誌 diff、golden value 比對,以及追蹤到的 commit,Developer Agent 就會呼叫 Gemini Agent 來執行繁重的推理步驟。

Gemini Agent 會分析完整上下文:程式碼發生了什麼變化、該變化如何影響訓練行為,以及最可能的根因是什麼。幾分鐘後,它會回傳一份完整且結構化的稽核報告,涵蓋失敗診斷、促成因素,以及建議的修正方式。

9Developer Agent 撰寫最終稽核報告

Developer Agent 會採用 Gemini Agent 的分析,並在工作區中寫入兩個交付物:

  • answer.json: 可供機器讀取的稽核記錄,包含結構化欄位,如失敗類型、根因、受影響的指標、證據 commit 與建議修正。適用於自動化流程、工單系統或 CI 儀表板。

  • answer.md: 精簡、適合人類閱讀的稽核摘要,涵蓋發生了什麼失敗、為什麼失敗、證據是什麼,以及下一步該做什麼。可直接貼到 PR 留言、Slack 討論串或事件報告中。

這兩個檔案都會直接寫入工作區資料夾,並立即可供存取。

10為什麼這個工作流程很重要

ML CI 失敗之所以難以除錯,主要是因為訊號被埋在密集的日誌輸出中,而根因往往存在於距離症狀好幾個 commit 之前。這個工作流程透過三項協同運作的能力來解決這個問題:

  • 平行日誌擷取 消除了逐一抓取工件的順序瓶頸。
  • 基於 Python 的 golden value 提取 以精確的數值比較取代模式比對或人工檢視。
  • 將 Gemini Agent 作為推理子代理,把最複雜的推論步驟卸載給最適合它的模型,同時保持編排輕量、分析深入。

最終得到的是一份根因稽核,原本可能需要工程師 30–60 分鐘的專注工作,如今幾分鐘內即可交付,並附帶結構化的工件軌跡。

11下一步可以嘗試什麼

當你的第一次稽核完成後,可以透過以下後續提示詞延伸工作流程:

對最近三次 CI 失敗執行相同的稽核,並比較根因。

找到修正 commit 後,開一個預先填入稽核報告的 GitHub issue。

排程每日夜間觸發,稽核任何新的 CI 失敗,並將 answer.md 發到 Slack。

換用不同模型,試試 Gemini 3.5 Pro 進行更深入的分析,或用 Gemini Flash Lite 以獲得更快的回應。

12取得更好結果的提示

  • 明確附上你的 CI 工件。 ml-failure-audit 技能在你提供 commit checkout 加上要比對的日誌或匯出檔(例如通過執行與失敗執行)時效果最佳。
  • 包含倉庫 URL。 Developer Agent 會用它來搜尋 commit 歷史以找出修正 commit。直接提供倉庫連結可以省下一個搜尋步驟。
  • 指定你的輸出檔案。 要求同時產生 answer.json 與 answer.md,可讓 Developer Agent 同時輸出兩種格式,如果你需要給 CI 流程使用的機器可讀輸出,以及給團隊閱讀的人類可讀輸出,這會非常有用。
  • 將 Gemini Agent 用於重推理任務。 當本地 agents 能處理資料收集,而 Gemini Agent 負責綜合時,遠端子代理模式效果最佳。避免把它用在本地工具就能更快完成的簡單查詢上。

Other use cases

收據與發票的自動化 VAT 申報

收據與發票的自動化 VAT 申報

請處理 "VAT" 資料夾中的所有收據與發票,包括照片、掃描 PDF 與數位發票。最終輸出應只包含兩個檔案:(1) vat_return.xlsx — 這個 Excel 檔應每筆收據或發票占一列,列出所有擷取的欄位,顯示每筆項目是否符合 VAT 退稅資格,顯示每筆符合資格項目的可回收 VAT 金額,包含不可回收項目的排除原因,清楚標示需要人工審核的項目,並包含一個顯示可回收 VAT 總額的摘要工作表。(2) vat_return.html — 建立一個可直接開啟並分享給會計團隊的獨立 HTML 檔。HTML 檔應顯示所有 VAT 回收項目、每筆項目的可回收 VAT 金額、被排除的項目及其排除原因、需要人工審核的項目,以及可回收 VAT 總額。不要猜測任何不確定的資訊。

長時程任務:在 Eigent 單代理架構中比較 GLM-5.1 與 GLM-5.2

長時程任務:在 Eigent 單代理架構中比較 GLM-5.1 與 GLM-5.2

對 AI 基礎設施生態系中的 26 家公司進行深度研究——這是整個 AI 價值鏈中最確定的主線。涵蓋以下 6 個子領域(各自選出具代表性的公司,從大型領導者到較小玩家皆納入):AI 資料中心(運算基礎設施/建置);GPU/AI 晶片(訓練與推論矽晶片、ASIC、IP);伺服器、網路與光模組(交換器、NIC、光互連);電力、液冷與儲能(電源供應、散熱、能源管理);AI 雲端/算力平台(超大型雲端業者、GPU 雲、算力租賃平台);支援生態系(HBM/先進封裝、晶圓代工、連接器與其他關鍵零組件)。針對每家公司,研究:公司名稱、子領域、總部/國家;核心產品及其在 AI 供應鏈中的具體角色;上市或未上市(若上市,提供代號+交易所;若未上市,註明最新估值/融資輪次);市值或估值規模(用於排序);在生態系中的定位與護城河(1–2 句);主要客戶/競爭對手。排序方式:在每個子領域內,依規模由大到小排名(依市值/估值)。整體結構採由上而下:從完整硬體生態系全景一路展開到每一家公司的細節。輸出要求:首先產生結構化資料檔 ai_infra_data.json——包含全部 26 家公司與上述欄位、6 個子領域分類、上市/未上市旗標,以及跨公司比較矩陣(子領域 × 關鍵維度)。接著根據該 JSON 產生一份精緻的 HTML 報告:包含生態系全景/分層圖、產業區塊、公司卡片、清楚的上市/未上市視覺標示(標籤或色彩編碼)、市值排名圖表,以及可排序/可篩選的比較表。設計要專業、資訊密集且具互動性。先驗證研究資料的準確性(上市狀態、代號、估值——使用最新數據並引用來源),再產生報告。以單代理模式執行此任務。

使用 Eigent 同時打造 10 款中國新年 HTML5 遊戲

使用 Eigent 同時打造 10 款中國新年 HTML5 遊戲

使用 HTML、CSS 和 JS(不使用任何函式庫)打造 10 款獨立且完整的遊戲,主題圍繞 2026 年中國新年(馬年)。遊戲必須有趣、原創、精緻、適合行動裝置。請包含計分、難度遞增、重新開始按鈕與流暢視覺效果。涵蓋:街機、益智、無盡跑酷、反應、策略、記憶、2 人本機、放置、復古像素,以及 1 款實驗性遊戲。

Automate everything with AI workforce on desktop
Download Eigent

立即體驗 Eigent

下載開源桌面應用,在本地以 AI 工作團隊開始自動化。

下載 Eigent
Eigent

掌握 AI 工作團隊自動化的最新更新與教學內容。

產品Eigent環境價格方案企業方案
探索解決方案使用情境技能插件部落格
開發者文件GitHubCAMEL-AI開源基金合作夥伴
下載開源版
公司關於我們品牌招募使用條款隱私權政策安全與信任Cookie 政策退款與試用政策

版權所有 © 2026 EIGENT UK LTD

Eigent 1.0 全新版本發佈!download