環境
企業方案
價格方案

DeveloperMay 19, 2026

使用 Gemini 3.5 Flash 與 Eigent 上的 Gemini Agent 稽核 ML CI 失敗

Regina Bai

使用 Gemini 3.5 Flash 與 Eigent 上的 Gemini Agent 稽核 ML CI 失敗

Automate Everything with
AI Workforce on DesktopDownload Eigent

用 Gemini 3.5 Flash 在幾分鐘內找出 ML CI 失敗的根因

除錯一條損壞的 ML 訓練流程既緩慢又繁瑣。你需要從兩次不同的 CI 執行中拉取日誌，與 golden values 比對，翻查 commit 歷史找出回歸來源，然後撰寫報告說明出了什麼問題以及原因，同時你的團隊還在等待。這個使用案例將整個調查流程全面自動化。

透過結合 ml-failure-audit 技能、Google 的 Gemini 3.5 Flash 模型，以及作為遠端推理引擎的 Gemini Agent API，Eigent 的多代理工作團隊可以端到端稽核 CI 失敗：抓取日誌、提取參考值、追蹤證據、委派繁重分析，並產出結構化交付物，全部只需要一個提示詞。

將 Gemini 3.5 Flash 選為你的模型

前往 Settings → Agents → Model，並從雲端模型清單中選擇 Gemini 3.5 Flash。如果你偏好使用自己的 API 憑證，可以在 Settings → API Keys → Gemini 下輸入自己的 Gemini 金鑰。

Gemini 3.5 Flash 針對長上下文任務的快速、具成本效益推理進行了最佳化，這正是 CI 日誌分析所需要的能力。

啟用 Gemini Agent API 作為遠端子代理

前往 Settings → Agents → Remote Agents，並開啟 Gemini Agent API。這會將 Gemini Agent 註冊為 Eigent 工作團隊內可呼叫的子代理。

啟用後，你的 Developer Agent 就能把計算密集型的推理任務，例如跨數百行日誌的根因分析，直接交給 Gemini Agent，而不是在單次模型呼叫中處理所有事情。這會形成雙層架構：Eigent 的本地 agents 負責協同編排與工具使用，而 Gemini Agent 負責深度推理。

上傳 ml-failure-audit 技能

前往 Settings → Agents → Skills，並上傳 ml-failure-audit 技能套件。你也可以瀏覽 Skill Hub: ml-failure-audit 以查看技能詳情與安裝步驟。這個技能定義了 Eigent 應如何進行 CI 失敗稽核：要收集哪些工件、要執行哪些比較、要蒐集哪些證據，以及最終報告應如何組織。

上傳完成後，工作團隊中的任何 agent 都可以在處理 ML 稽核任務時呼叫此技能。

將你的任務送交給 Eigent

完成所有設定後，將你的任務提示詞輸入 Eigent 的聊天中：

遵循 {{ml-failure-audit}} 技能，並使用遠端子代理來完成複雜的子任務。

請稽核這個 Megatron-LM MIMO VLM pretraining golden metric CI 失敗。我提供了一份本機 NVIDIA/Megatron-LM checkout，commit 為 <your-commit-sha>，以及我附加的 CI 工件（例如通過與失敗執行的日誌）。失敗的工作負載是一個 8-GPU frozen start convergence check，使用 sequence packing、global batch size 32、total packed sequence length 3200、packing buffer 4，以及 100 次 training iterations。

請判斷這個失敗究竟是真正的模型收斂／正確性回歸，還是 metric／gating policy 問題。請使用倉庫的 golden value 比對程式碼與 CI 日誌作為證據。不要重新執行 GPU 訓練。

請在倉庫根目錄輸出 answer.json，內含 source_refs、extracted_facts、calculations、final_answer 與 validation。也請輸出一份精簡的 answer.md。

請包含倉庫 URL、你的目標 commit checkout，並附上你要比對的 CI 工件。Eigent 會立即開始規劃調查。

在執行此提示詞之前，請先安裝 ml-failure-audit 技能。

**帶上你自己的輸入：**將 <your-commit-sha> 替換成你要稽核的 commit，在你的工作區中 checkout 該版本，並附上你自己的 CI 工件（例如通過／失敗執行的日誌、stderr 擷取，或匯出的 CI job 輸出）。你可以把 Megatron-LM 範例改成任何你正在調查的倉庫與失敗情境。

Coordinator Agent 規劃並指派任務

Eigent 的 Coordinator Agent 會讀取提示詞，並將其拆解為結構化的稽核計畫。它會識別關鍵階段，日誌擷取、資料提取、證據追蹤與報告生成，並將整個調查指派給一個 Developer Agent。

Coordinator 不只是盲目轉派：它會一併傳遞技能參考、倉庫上下文與 CI 日誌工件，讓 Developer Agent 一開始就具備所需的一切。

Developer Agent 載入技能並抓取日誌

Developer Agent 的第一步是載入 ml-failure-audit 技能，閱讀其指示以理解稽核方法。

接著它會平行執行 4 個命令來取得 CI 日誌資料，同時抓取兩份失敗日誌與任何相關中繼資料。平行工具執行意味著資料收集階段只需一小部分時間即可完成，而不是按序執行。

提取 golden values 並追蹤修正 commit

在取得日誌後，Developer Agent 會執行一個 Python 腳本來提取 golden 參考值，也就是通過的 CI 執行應該產生的預期訓練指標、loss 曲線或 benchmark 數值。接著它會將這些值與失敗日誌中記錄的數值進行 diff，比對出究竟在哪裡、以及偏離了多少。

下一步，Developer Agent 會搜尋 Megatron-LM 的 commit 歷史，找出 修正 commit，最有可能造成回歸的特定程式碼變更。這個 commit 會作為稽核報告中的具體證據，讓審閱者能直接把觀察到的失敗與底層程式碼變更連結起來。

將深度推理委派給 Gemini Agent

一旦原始證據組裝完成，日誌 diff、golden value 比對，以及追蹤到的 commit，Developer Agent 就會呼叫 Gemini Agent 來執行繁重的推理步驟。

Gemini Agent 會分析完整上下文：程式碼發生了什麼變化、該變化如何影響訓練行為，以及最可能的根因是什麼。幾分鐘後，它會回傳一份完整且結構化的稽核報告，涵蓋失敗診斷、促成因素，以及建議的修正方式。

Developer Agent 撰寫最終稽核報告

Developer Agent 會採用 Gemini Agent 的分析，並在工作區中寫入兩個交付物：

answer.json: 可供機器讀取的稽核記錄，包含結構化欄位，如失敗類型、根因、受影響的指標、證據 commit 與建議修正。適用於自動化流程、工單系統或 CI 儀表板。
answer.md: 精簡、適合人類閱讀的稽核摘要，涵蓋發生了什麼失敗、為什麼失敗、證據是什麼，以及下一步該做什麼。可直接貼到 PR 留言、Slack 討論串或事件報告中。

這兩個檔案都會直接寫入工作區資料夾，並立即可供存取。

為什麼這個工作流程很重要

ML CI 失敗之所以難以除錯，主要是因為訊號被埋在密集的日誌輸出中，而根因往往存在於距離症狀好幾個 commit 之前。這個工作流程透過三項協同運作的能力來解決這個問題：

平行日誌擷取 消除了逐一抓取工件的順序瓶頸。
基於 Python 的 golden value 提取 以精確的數值比較取代模式比對或人工檢視。
將 Gemini Agent 作為推理子代理，把最複雜的推論步驟卸載給最適合它的模型，同時保持編排輕量、分析深入。

最終得到的是一份根因稽核，原本可能需要工程師 30–60 分鐘的專注工作，如今幾分鐘內即可交付，並附帶結構化的工件軌跡。

下一步可以嘗試什麼

當你的第一次稽核完成後，可以透過以下後續提示詞延伸工作流程：

對最近三次 CI 失敗執行相同的稽核，並比較根因。

找到修正 commit 後，開一個預先填入稽核報告的 GitHub issue。

排程每日夜間觸發，稽核任何新的 CI 失敗，並將 answer.md 發到 Slack。

換用不同模型，試試 Gemini 3.5 Pro 進行更深入的分析，或用 Gemini Flash Lite 以獲得更快的回應。

取得更好結果的提示

明確附上你的 CI 工件。 ml-failure-audit 技能在你提供 commit checkout 加上要比對的日誌或匯出檔（例如通過執行與失敗執行）時效果最佳。
包含倉庫 URL。 Developer Agent 會用它來搜尋 commit 歷史以找出修正 commit。直接提供倉庫連結可以省下一個搜尋步驟。
指定你的輸出檔案。 要求同時產生 answer.json 與 answer.md，可讓 Developer Agent 同時輸出兩種格式，如果你需要給 CI 流程使用的機器可讀輸出，以及給團隊閱讀的人類可讀輸出，這會非常有用。
將 Gemini Agent 用於重推理任務。 當本地 agents 能處理資料收集，而 Gemini Agent 負責綜合時，遠端子代理模式效果最佳。避免把它用在本地工具就能更快完成的簡單查詢上。

Other use cases

收據與發票的自動化 VAT 申報

收據與發票的自動化 VAT 申報

請處理 "VAT" 資料夾中的所有收據與發票，包括照片、掃描 PDF 與數位發票。最終輸出應只包含兩個檔案：(1) vat_return.xlsx — 這個 Excel 檔應每筆收據或發票占一列，列出所有擷取的欄位，顯示每筆項目是否符合 VAT 退稅資格，顯示每筆符合資格項目的可回收 VAT 金額，包含不可回收項目的排除原因，清楚標示需要人工審核的項目，並包含一個顯示可回收 VAT 總額的摘要工作表。(2) vat_return.html — 建立一個可直接開啟並分享給會計團隊的獨立 HTML 檔。HTML 檔應顯示所有 VAT 回收項目、每筆項目的可回收 VAT 金額、被排除的項目及其排除原因、需要人工審核的項目，以及可回收 VAT 總額。不要猜測任何不確定的資訊。

長時程任務：在 Eigent 單代理架構中比較 GLM-5.1 與 GLM-5.2

長時程任務：在 Eigent 單代理架構中比較 GLM-5.1 與 GLM-5.2

對 AI 基礎設施生態系中的 26 家公司進行深度研究——這是整個 AI 價值鏈中最確定的主線。涵蓋以下 6 個子領域（各自選出具代表性的公司，從大型領導者到較小玩家皆納入）：AI 資料中心（運算基礎設施／建置）；GPU／AI 晶片（訓練與推論矽晶片、ASIC、IP）；伺服器、網路與光模組（交換器、NIC、光互連）；電力、液冷與儲能（電源供應、散熱、能源管理）；AI 雲端／算力平台（超大型雲端業者、GPU 雲、算力租賃平台）；支援生態系（HBM／先進封裝、晶圓代工、連接器與其他關鍵零組件）。針對每家公司，研究：公司名稱、子領域、總部／國家；核心產品及其在 AI 供應鏈中的具體角色；上市或未上市（若上市，提供代號＋交易所；若未上市，註明最新估值／融資輪次）；市值或估值規模（用於排序）；在生態系中的定位與護城河（1–2 句）；主要客戶／競爭對手。排序方式：在每個子領域內，依規模由大到小排名（依市值／估值）。整體結構採由上而下：從完整硬體生態系全景一路展開到每一家公司的細節。輸出要求：首先產生結構化資料檔 ai_infra_data.json——包含全部 26 家公司與上述欄位、6 個子領域分類、上市／未上市旗標，以及跨公司比較矩陣（子領域 × 關鍵維度）。接著根據該 JSON 產生一份精緻的 HTML 報告：包含生態系全景／分層圖、產業區塊、公司卡片、清楚的上市／未上市視覺標示（標籤或色彩編碼）、市值排名圖表，以及可排序／可篩選的比較表。設計要專業、資訊密集且具互動性。先驗證研究資料的準確性（上市狀態、代號、估值——使用最新數據並引用來源），再產生報告。以單代理模式執行此任務。

使用 Eigent 同時打造 10 款中國新年 HTML5 遊戲

使用 Eigent 同時打造 10 款中國新年 HTML5 遊戲

使用 HTML、CSS 和 JS（不使用任何函式庫）打造 10 款獨立且完整的遊戲，主題圍繞 2026 年中國新年（馬年）。遊戲必須有趣、原創、精緻、適合行動裝置。請包含計分、難度遞增、重新開始按鈕與流暢視覺效果。涵蓋：街機、益智、無盡跑酷、反應、策略、記憶、2 人本機、放置、復古像素，以及 1 款實驗性遊戲。

Automate everything with AI workforce on desktop

Download Eigent

立即體驗 Eigent

下載開源桌面應用，在本地以 AI 工作團隊開始自動化。

掌握 AI 工作團隊自動化的最新更新與教學內容。

產品Eigent 環境價格方案企業方案

探索解決方案使用情境技能插件部落格

開發者文件 GitHub CAMEL-AI 開源基金合作夥伴

下載開源版

公司關於我們品牌招募使用條款隱私權政策安全與信任 Cookie 政策退款與試用政策

版權所有 © 2026 EIGENT UK LTD

Eigent 1.0 全新版本發佈！