
Encontre a Causa Raiz de Falhas de CI de ML em Minutos com Gemini 3.5 Flash
Depurar um pipeline quebrado de treinamento de ML é um trabalho lento e tedioso. Você extrai logs de duas execuções diferentes de CI, faz diff deles contra valores golden, vasculha o histórico de commits para encontrar a regressão e depois escreve um relatório explicando o que deu errado e por quê, tudo enquanto sua equipe espera. Este caso de uso automatiza toda essa investigação.
Ao combinar a skill ml-failure-audit com o modelo Gemini 3.5 Flash do Google e a API do Gemini Agent como um mecanismo remoto de raciocínio, a força de trabalho multiagente do Eigent pode auditar uma falha de CI de ponta a ponta: buscar logs, extrair valores de referência, rastrear evidências, delegar a análise pesada e produzir entregáveis estruturados, tudo a partir de um único prompt.
Selecione Gemini 3.5 Flash como Seu Modelo
Vá para Configurações → Agentes → Modelo e selecione Gemini 3.5 Flash na lista de modelos em nuvem. Se preferir usar suas próprias credenciais de API, traga sua própria chave Gemini inserindo-a em Configurações → Chaves de API → Gemini.
O Gemini 3.5 Flash é otimizado para inferência rápida e econômica em tarefas de contexto longo, exatamente o que a análise de logs de CI exige.
Ative a API do Gemini Agent como um Subagente Remoto
Vá para Configurações → Agentes → Agentes Remotos e ative a API do Gemini Agent. Isso registra o Gemini Agent como um subagente invocável dentro da força de trabalho do Eigent.
Uma vez ativado, seu Developer Agent pode delegar tarefas de raciocínio computacionalmente intensivas, como análise de causa raiz em centenas de linhas de log, diretamente ao Gemini Agent, em vez de processar tudo em uma única chamada ao modelo. Isso oferece uma configuração em duas camadas: os agentes locais do Eigent cuidam da orquestração e do uso de ferramentas, enquanto o Gemini Agent lida com o raciocínio profundo.
Envie o ml-failure-audit Skill
Acesse Configurações → Agentes → Skills e envie o pacote da skill ml-failure-audit. Você também pode navegar pelo Skill Hub: ml-failure-audit para ver os detalhes da skill e as etapas de instalação. A skill define como o Eigent deve abordar auditorias de falhas de CI: quais artefatos coletar, quais comparações executar, quais evidências reunir e como estruturar o relatório final.
Depois de enviada, qualquer agente da força de trabalho pode invocar essa skill ao lidar com tarefas de auditoria de ML.
Envie Sua Tarefa para o Eigent
Com tudo configurado, digite seu prompt de tarefa no chat do Eigent:
Siga a skill {{ml-failure-audit}} e use um subagente remoto para concluir subtarefas complexas.
Por favor, audite esta falha de CI de golden metric de pré treinamento MIMO VLM do Megatron-LM. Estou fornecendo um checkout local do NVIDIA/Megatron-LM no commit <your-commit-sha> e os artefatos de CI que anexei (por exemplo, logs de execução com sucesso e com falha). A carga de trabalho com falha é uma verificação de convergência frozen start em 8 GPUs usando sequence packing, tamanho de lote global 32, comprimento total de sequência empacotada 3200, buffer de empacotamento 4 e 100 iterações de treinamento.
Por favor, decida se a falha é uma regressão real de convergência/correção do modelo ou um problema de métrica/política de gate. Use o código de comparação de valores golden do repositório e os logs de CI como evidência. Não execute novamente o treinamento em GPU.
Produza answer.json na raiz do repositório com source_refs, extracted_facts, calculations, final_answer e validation. Produza também um answer.md conciso.
Inclua a URL do repositório, seu checkout do commit de destino e anexe os artefatos de CI que você deseja comparar. O Eigent inicia imediatamente o planejamento da investigação.
Instale a skill ml-failure-audit antes de executar este prompt.
Traga suas próprias entradas: substitua <your-commit-sha> pelo commit que você quer auditar, faça checkout dessa revisão no seu workspace e anexe seus próprios artefatos de CI (por exemplo, logs de execução com sucesso vs. com falha, capturas de stderr ou saída exportada do job de CI). Você pode adaptar o exemplo do Megatron-LM a qualquer repositório e falha que esteja investigando.
O Agente Coordinator Planeja e Distribui a Tarefa
O Coordinator Agent do Eigent lê o prompt e o decompõe em um plano estruturado de auditoria. Ele identifica as fases principais, recuperação de logs, extração de dados, rastreamento de evidências e geração de relatório, e atribui toda a investigação a um Developer Agent.
O Coordinator não apenas delega cegamente: ele repassa a referência da skill, o contexto do repositório e os artefatos de log de CI para que o Developer Agent comece com tudo de que precisa.
O Developer Agent Carrega a Skill e Busca os Logs
A primeira ação do Developer Agent é carregar a skill ml-failure-audit, lendo suas instruções para entender a metodologia de auditoria.
Em seguida, ele executa 4 comandos em paralelo para obter os dados de log de CI, puxando simultaneamente os dois logs de falha e quaisquer metadados relevantes. A execução paralela de ferramentas significa que a fase de coleta de dados termina em uma fração do tempo que levaria de forma sequencial.
Extraia os Valores Golden e Rastreie o Commit de Correção
Com os logs em mãos, o Developer Agent executa um script Python para extrair os valores de referência golden, as métricas de treinamento esperadas, curvas de loss ou números de benchmark que uma execução de CI com sucesso deveria produzir. Em seguida, ele faz diff desses valores com os registrados nos logs com falha para identificar exatamente onde e em quanto as coisas divergiram.
Depois, o Developer Agent pesquisa o histórico de commits do Megatron-LM para encontrar o commit de correção, a mudança de código específica com maior probabilidade de ser responsável pela regressão. Esse commit serve como evidência concreta no relatório de auditoria, fornecendo aos revisores um vínculo direto entre a falha observada e a mudança de código subjacente.
Delegue o Raciocínio Profundo ao Gemini Agent
Assim que a evidência bruta é reunida, diffs de log, comparações de valores golden e o commit rastreado, o Developer Agent chama o Gemini Agent para executar a etapa de raciocínio pesado.
O Gemini Agent analisa o contexto completo: o que mudou no código, como essa mudança afetou o comportamento de treinamento e qual é a causa raiz mais provável. Minutos depois, ele retorna um relatório de auditoria completo e estruturado cobrindo o diagnóstico da falha, os fatores contribuintes e a correção recomendada.
O Developer Agent Escreve os Relatórios Finais de Auditoria
O Developer Agent pega a análise do Gemini Agent e escreve dois entregáveis no workspace:
-
answer.json: um registro de auditoria legível por máquina com campos estruturados para o tipo de falha, causa raiz, métricas afetadas, commit de evidência e resolução recomendada. Útil para pipelines automatizados, sistemas de tickets ou painéis de CI. -
answer.md: um resumo de auditoria conciso e legível por humanos cobrindo o que falhou, por que falhou, a evidência e o que fazer em seguida. Pronto para colar em um comentário de PR, thread do Slack ou relatório de incidente.
Ambos os arquivos são gravados diretamente na pasta do workspace e ficam acessíveis imediatamente.
Por Que Este Fluxo de Trabalho Importa
Falhas de CI de ML são notoriamente difíceis de depurar porque o sinal está enterrado em uma saída de log densa e a causa raiz muitas vezes está em commits vários passos antes do sintoma. Este fluxo de trabalho resolve isso com três capacidades atuando em conjunto:
- Recuperação paralela de logs elimina o gargalo sequencial de puxar artefatos um por um.
- Extração de valores golden baseada em Python aplica comparação numérica precisa em vez de depender de correspondência de padrões ou inspeção manual.
- Gemini Agent como subagente de raciocínio descarrega a etapa de inferência mais complexa para um modelo otimizado para isso, mantendo a orquestração leve e a análise profunda.
O resultado é uma auditoria de causa raiz que levaria 30–60 minutos de trabalho focado de um engenheiro, entregue em poucos minutos, com um rastro estruturado de artefatos.
O Que Testar em Seguida
Depois que sua primeira auditoria estiver concluída, expanda o fluxo de trabalho com prompts de acompanhamento como:
Execute a mesma auditoria nas três falhas de CI mais recentes e compare as causas raiz.
Depois de encontrar o commit de correção, abra um issue no GitHub com o relatório de auditoria já preenchido.
Agende um gatilho noturno para auditar quaisquer novas falhas de CI e postar o answer.md no Slack.
Troque por outro modelo, experimente Gemini 3.5 Pro para uma análise mais profunda ou Gemini Flash Lite para uma resposta mais rápida.
Dicas para Melhores Resultados
- Anexe seus artefatos de CI explicitamente. A skill ml-failure-audit funciona melhor quando você fornece o checkout do commit junto com os logs ou exports que deseja comparar (por exemplo, uma execução com sucesso e uma execução com falha).
- Inclua a URL do repositório. O Developer Agent a usa para pesquisar o histórico de commits em busca do commit de correção. Um link direto para o repositório economiza uma etapa de busca.
- Especifique seus arquivos de saída. Pedir tanto
answer.jsonquantoanswer.mddiz ao Developer Agent para produzir ambos os formatos, útil se você precisar de saída legível por máquina para um pipeline de CI e saída legível por humanos para sua equipe. - Use o Gemini Agent para tarefas que exigem raciocínio pesado. O padrão de subagente remoto funciona melhor quando os agentes locais lidam com a coleta de dados e o Gemini Agent lida com a síntese. Evite chamá-lo para consultas simples que o uso de ferramentas locais pode resolver mais rapidamente.


