Ambientes
Empresas
Preços

DeveloperMay 19, 2026

Audite falhas de CI de ML com Gemini no Eigent

Regina Bai

Audite Falhas de CI de ML com Gemini 3.5 Flash e o Gemini Agent no Eigent

Automate Everything with
AI Workforce on DesktopDownload Eigent

Encontre a Causa Raiz de Falhas de CI de ML em Minutos com Gemini 3.5 Flash

Depurar um pipeline quebrado de treinamento de ML é um trabalho lento e tedioso. Você extrai logs de duas execuções diferentes de CI, faz diff deles contra valores golden, vasculha o histórico de commits para encontrar a regressão e depois escreve um relatório explicando o que deu errado e por quê, tudo enquanto sua equipe espera. Este caso de uso automatiza toda essa investigação.

Ao combinar a skill ml-failure-audit com o modelo Gemini 3.5 Flash do Google e a API do Gemini Agent como um mecanismo remoto de raciocínio, a força de trabalho multiagente do Eigent pode auditar uma falha de CI de ponta a ponta: buscar logs, extrair valores de referência, rastrear evidências, delegar a análise pesada e produzir entregáveis estruturados, tudo a partir de um único prompt.

Selecione Gemini 3.5 Flash como Seu Modelo

Vá para Configurações → Agentes → Modelo e selecione Gemini 3.5 Flash na lista de modelos em nuvem. Se preferir usar suas próprias credenciais de API, traga sua própria chave Gemini inserindo-a em Configurações → Chaves de API → Gemini.

O Gemini 3.5 Flash é otimizado para inferência rápida e econômica em tarefas de contexto longo, exatamente o que a análise de logs de CI exige.

Ative a API do Gemini Agent como um Subagente Remoto

Vá para Configurações → Agentes → Agentes Remotos e ative a API do Gemini Agent. Isso registra o Gemini Agent como um subagente invocável dentro da força de trabalho do Eigent.

Uma vez ativado, seu Developer Agent pode delegar tarefas de raciocínio computacionalmente intensivas, como análise de causa raiz em centenas de linhas de log, diretamente ao Gemini Agent, em vez de processar tudo em uma única chamada ao modelo. Isso oferece uma configuração em duas camadas: os agentes locais do Eigent cuidam da orquestração e do uso de ferramentas, enquanto o Gemini Agent lida com o raciocínio profundo.

Envie o ml-failure-audit Skill

Acesse Configurações → Agentes → Skills e envie o pacote da skill ml-failure-audit. Você também pode navegar pelo Skill Hub: ml-failure-audit para ver os detalhes da skill e as etapas de instalação. A skill define como o Eigent deve abordar auditorias de falhas de CI: quais artefatos coletar, quais comparações executar, quais evidências reunir e como estruturar o relatório final.

Depois de enviada, qualquer agente da força de trabalho pode invocar essa skill ao lidar com tarefas de auditoria de ML.

Envie Sua Tarefa para o Eigent

Com tudo configurado, digite seu prompt de tarefa no chat do Eigent:

Siga a skill {{ml-failure-audit}} e use um subagente remoto para concluir subtarefas complexas.

Por favor, audite esta falha de CI de golden metric de pré treinamento MIMO VLM do Megatron-LM. Estou fornecendo um checkout local do NVIDIA/Megatron-LM no commit <your-commit-sha> e os artefatos de CI que anexei (por exemplo, logs de execução com sucesso e com falha). A carga de trabalho com falha é uma verificação de convergência frozen start em 8 GPUs usando sequence packing, tamanho de lote global 32, comprimento total de sequência empacotada 3200, buffer de empacotamento 4 e 100 iterações de treinamento.

Por favor, decida se a falha é uma regressão real de convergência/correção do modelo ou um problema de métrica/política de gate. Use o código de comparação de valores golden do repositório e os logs de CI como evidência. Não execute novamente o treinamento em GPU.

Produza answer.json na raiz do repositório com source_refs, extracted_facts, calculations, final_answer e validation. Produza também um answer.md conciso.

Inclua a URL do repositório, seu checkout do commit de destino e anexe os artefatos de CI que você deseja comparar. O Eigent inicia imediatamente o planejamento da investigação.

Instale a skill ml-failure-audit antes de executar este prompt.

Traga suas próprias entradas: substitua <your-commit-sha> pelo commit que você quer auditar, faça checkout dessa revisão no seu workspace e anexe seus próprios artefatos de CI (por exemplo, logs de execução com sucesso vs. com falha, capturas de stderr ou saída exportada do job de CI). Você pode adaptar o exemplo do Megatron-LM a qualquer repositório e falha que esteja investigando.

O Agente Coordinator Planeja e Distribui a Tarefa

O Coordinator Agent do Eigent lê o prompt e o decompõe em um plano estruturado de auditoria. Ele identifica as fases principais, recuperação de logs, extração de dados, rastreamento de evidências e geração de relatório, e atribui toda a investigação a um Developer Agent.

O Coordinator não apenas delega cegamente: ele repassa a referência da skill, o contexto do repositório e os artefatos de log de CI para que o Developer Agent comece com tudo de que precisa.

O Developer Agent Carrega a Skill e Busca os Logs

A primeira ação do Developer Agent é carregar a skill ml-failure-audit, lendo suas instruções para entender a metodologia de auditoria.

Em seguida, ele executa 4 comandos em paralelo para obter os dados de log de CI, puxando simultaneamente os dois logs de falha e quaisquer metadados relevantes. A execução paralela de ferramentas significa que a fase de coleta de dados termina em uma fração do tempo que levaria de forma sequencial.

Extraia os Valores Golden e Rastreie o Commit de Correção

Com os logs em mãos, o Developer Agent executa um script Python para extrair os valores de referência golden, as métricas de treinamento esperadas, curvas de loss ou números de benchmark que uma execução de CI com sucesso deveria produzir. Em seguida, ele faz diff desses valores com os registrados nos logs com falha para identificar exatamente onde e em quanto as coisas divergiram.

Depois, o Developer Agent pesquisa o histórico de commits do Megatron-LM para encontrar o commit de correção, a mudança de código específica com maior probabilidade de ser responsável pela regressão. Esse commit serve como evidência concreta no relatório de auditoria, fornecendo aos revisores um vínculo direto entre a falha observada e a mudança de código subjacente.

Delegue o Raciocínio Profundo ao Gemini Agent

Assim que a evidência bruta é reunida, diffs de log, comparações de valores golden e o commit rastreado, o Developer Agent chama o Gemini Agent para executar a etapa de raciocínio pesado.

O Gemini Agent analisa o contexto completo: o que mudou no código, como essa mudança afetou o comportamento de treinamento e qual é a causa raiz mais provável. Minutos depois, ele retorna um relatório de auditoria completo e estruturado cobrindo o diagnóstico da falha, os fatores contribuintes e a correção recomendada.

O Developer Agent Escreve os Relatórios Finais de Auditoria

O Developer Agent pega a análise do Gemini Agent e escreve dois entregáveis no workspace:

answer.json: um registro de auditoria legível por máquina com campos estruturados para o tipo de falha, causa raiz, métricas afetadas, commit de evidência e resolução recomendada. Útil para pipelines automatizados, sistemas de tickets ou painéis de CI.
answer.md: um resumo de auditoria conciso e legível por humanos cobrindo o que falhou, por que falhou, a evidência e o que fazer em seguida. Pronto para colar em um comentário de PR, thread do Slack ou relatório de incidente.

Ambos os arquivos são gravados diretamente na pasta do workspace e ficam acessíveis imediatamente.

Por Que Este Fluxo de Trabalho Importa

Falhas de CI de ML são notoriamente difíceis de depurar porque o sinal está enterrado em uma saída de log densa e a causa raiz muitas vezes está em commits vários passos antes do sintoma. Este fluxo de trabalho resolve isso com três capacidades atuando em conjunto:

Recuperação paralela de logs elimina o gargalo sequencial de puxar artefatos um por um.
Extração de valores golden baseada em Python aplica comparação numérica precisa em vez de depender de correspondência de padrões ou inspeção manual.
Gemini Agent como subagente de raciocínio descarrega a etapa de inferência mais complexa para um modelo otimizado para isso, mantendo a orquestração leve e a análise profunda.

O resultado é uma auditoria de causa raiz que levaria 30–60 minutos de trabalho focado de um engenheiro, entregue em poucos minutos, com um rastro estruturado de artefatos.

O Que Testar em Seguida

Depois que sua primeira auditoria estiver concluída, expanda o fluxo de trabalho com prompts de acompanhamento como:

Execute a mesma auditoria nas três falhas de CI mais recentes e compare as causas raiz.

Depois de encontrar o commit de correção, abra um issue no GitHub com o relatório de auditoria já preenchido.

Agende um gatilho noturno para auditar quaisquer novas falhas de CI e postar o answer.md no Slack.

Troque por outro modelo, experimente Gemini 3.5 Pro para uma análise mais profunda ou Gemini Flash Lite para uma resposta mais rápida.

Dicas para Melhores Resultados

Anexe seus artefatos de CI explicitamente. A skill ml-failure-audit funciona melhor quando você fornece o checkout do commit junto com os logs ou exports que deseja comparar (por exemplo, uma execução com sucesso e uma execução com falha).
Inclua a URL do repositório. O Developer Agent a usa para pesquisar o histórico de commits em busca do commit de correção. Um link direto para o repositório economiza uma etapa de busca.
Especifique seus arquivos de saída. Pedir tanto answer.json quanto answer.md diz ao Developer Agent para produzir ambos os formatos, útil se você precisar de saída legível por máquina para um pipeline de CI e saída legível por humanos para sua equipe.
Use o Gemini Agent para tarefas que exigem raciocínio pesado. O padrão de subagente remoto funciona melhor quando os agentes locais lidam com a coleta de dados e o Gemini Agent lida com a síntese. Evite chamá-lo para consultas simples que o uso de ferramentas locais pode resolver mais rapidamente.

Other use cases

Declaração de IVA automatizada a partir de recibos e faturas

Declaração de IVA automatizada a partir de recibos e faturas

Processe todos os recibos e faturas na pasta "VAT", incluindo fotos, PDFs digitalizados e faturas digitais. A saída final deve incluir apenas dois arquivos: (1) vat_return.xlsx — o arquivo Excel deve incluir uma linha por recibo ou fatura, listar todos os campos extraídos, mostrar se cada item é elegível para recuperação de IVA, mostrar o valor de IVA recuperável para cada item elegível, incluir o motivo de exclusão para itens não recuperáveis, sinalizar claramente os itens que exigem revisão manual e incluir uma planilha de resumo mostrando o valor total de IVA recuperável. (2) vat_return.html — crie um arquivo HTML autônomo que possa ser aberto diretamente e compartilhado com a equipe de contabilidade. O arquivo HTML deve mostrar todos os itens de recuperação de IVA, o valor de IVA recuperável de cada item, os itens excluídos e os motivos da exclusão, os itens que exigem revisão manual e o valor total de IVA recuperável. Não invente nenhuma informação incerta.

Tarefa de longo horizonte: GLM-5.1 vs GLM-5.2 no Eigent

Tarefa de longo horizonte: GLM-5.1 vs GLM-5.2 no Eigent

Faça uma pesquisa aprofundada sobre 26 empresas do ecossistema de infraestrutura de IA — o principal fio condutor mais certo de toda a cadeia de valor da IA. Cubra estes 6 subsegmentos (escolha empresas representativas em cada um, de líderes de grande capitalização até participantes menores): Data Center de IA (infraestrutura de computação / expansão); GPU / Chips de IA (silício para treinamento e inferência, ASICs, IP); Servidores, Rede e Módulos Ópticos (switches, NICs, interconexão óptica); Energia, Resfriamento Líquido e Armazenamento de Energia (fonte de alimentação, térmica, gestão de energia); Cloud de IA / Plataforma de Computação (hyperscalers, GPU clouds, plataformas de aluguel de computação); Ecossistema de Suporte (HBM / empacotamento avançado, foundry, conectores e outros componentes críticos). Para cada empresa, pesquise: nome da empresa, subsegmento, sede / país; produtos principais e seu papel específico na cadeia de IA; pública ou privada (ticker + bolsa se listada; se privada, informe a avaliação / rodada de captação mais recente); valor de mercado ou tamanho da avaliação (usado para ranqueamento); posicionamento e moat no ecossistema (1–2 frases); principais clientes / concorrentes. Ordenação: dentro de cada subsegmento, classifique da maior para a menor (por valor de mercado / avaliação). Estruture tudo de forma top-down: do panorama completo do ecossistema de hardware até cada empresa individual. Requisitos de saída: Primeiro, gere um arquivo de dados estruturado ai_infra_data.json — contendo todas as 26 empresas com os campos acima, as 6 classificações de subsegmentos, uma flag público/privado e uma matriz de comparação entre empresas (subsegmento × dimensões-chave). Depois, gere um relatório HTML refinado a partir desse JSON: inclua um diagrama do panorama / camadas do ecossistema, seções por setor, cards de empresas, um indicador visual claro para público vs. privado (tags ou codificação por cor), um gráfico de ranqueamento por valor de mercado e uma tabela de comparação ordenável / filtrável. Faça o design profissional, rico em informações e interativo. Verifique primeiro a precisão dos dados da pesquisa (status de listagem, tickers, avaliações — use as cifras mais recentes e cite as fontes), e só então gere o relatório. Envie a tarefa em modo single-agent.

Crie 10 jogos HTML5 de Ano Novo Chinês com Eigent

Crie 10 jogos HTML5 de Ano Novo Chinês com Eigent

Crie 10 jogos separados e COMPLETOS com temas relacionados ao Ano Novo Chinês de 2026 (Cavalo) em HTML, CSS e JS (sem bibliotecas). Os jogos devem ser divertidos, originais, polidos e otimizados para dispositivos móveis. Inclua pontuação, dificuldade progressiva, botões de reiniciar e visuais suaves. Cubra: arcade, puzzle, endless runner, reação, estratégia, memória, 2 jogadores local, idle, pixel art retrô e 1 jogo experimental.

Automate everything with AI workforce on desktop

Download Eigent

Experimente o Eigent hoje

Baixe o app desktop open source e comece a automatizar com uma força de trabalho de IA na sua máquina.

Receba as últimas novidades e tutoriais sobre automação de workforce com IA.

ProdutoEigent Ambientes Preços Empresarial

ExplorarSoluções Casos de uso Habilidades Plugins Blog

DesenvolvedoresDocumentação GitHub CAMEL-AI Fundo Open Source Parceiro

BaixarPara código aberto

EmpresaSobre nós Marca Carreiras Termos de uso Política de privacidade Segurança e confiança Política de cookies Política de reembolso e teste

Todos os direitos reservados © 2026 EIGENT UK LTD

Nova versão do Eigent 1.0 lançada!