Entornos
Empresa
Precios

DeveloperMay 19, 2026

Audita fallos de CI de ML con Gemini en Eigent

Regina Bai

Audita fallos de CI de ML con Gemini 3.5 Flash y el Gemini Agent en Eigent

Automate Everything with
AI Workforce on DesktopDownload Eigent

Encuentra la causa raíz de los fallos de CI de ML en minutos con Gemini 3.5 Flash

Depurar una canalización de entrenamiento de ML rota es un trabajo lento y tedioso. Obtienes logs de dos ejecuciones distintas de CI, los comparas con los valores dorados, revisas el historial de commits para encontrar la regresión y luego redactas un informe explicando qué salió mal y por qué, todo mientras tu equipo espera. Este caso de uso automatiza toda esa investigación.

Al combinar la habilidad ml-failure-audit con el modelo Gemini 3.5 Flash de Google y la Gemini Agent API como motor de razonamiento remoto, la fuerza de trabajo multiagente de Eigent puede auditar un fallo de CI de extremo a extremo: obteniendo logs, extrayendo valores de referencia, rastreando evidencia, delegando el análisis pesado y produciendo entregables estructurados, todo desde un único prompt.

Selecciona Gemini 3.5 Flash como tu modelo

Ve a Settings → Agents → Model y selecciona Gemini 3.5 Flash de la lista de modelos en la nube. Si prefieres usar tus propias credenciales de API, aporta tu propia clave de Gemini introduciéndola en Settings → API Keys → Gemini.

Gemini 3.5 Flash está optimizado para una inferencia rápida y rentable en tareas de contexto largo, exactamente lo que exige el análisis de logs de CI.

Habilita la Gemini Agent API como subagente remoto

Ve a Settings → Agents → Remote Agents y activa Gemini Agent API. Esto registra el Gemini Agent como un subagente invocable dentro de la fuerza de trabajo de Eigent.

Una vez habilitado, tu Developer Agent puede delegar tareas de razonamiento computacionalmente intensivas, como el análisis de causa raíz a través de cientos de líneas de log, directamente al Gemini Agent, en lugar de procesarlo todo en una sola llamada al modelo. Esto te da una configuración de dos niveles: los agentes locales de Eigent se encargan de la orquestación y el uso de herramientas, mientras que el Gemini Agent se encarga del razonamiento profundo.

Sube la habilidad ml-failure-audit

Ve a Settings → Agents → Skills y sube el paquete de la habilidad ml-failure-audit. También puedes explorar Skill Hub: ml-failure-audit para ver los detalles de la habilidad y los pasos de instalación. La habilidad define cómo debe abordar Eigent las auditorías de fallos de CI: qué artefactos recopilar, qué comparaciones ejecutar, qué evidencia reunir y cómo estructurar el informe final.

Una vez cargada, cualquier agente de la fuerza de trabajo puede invocar esta habilidad al gestionar tareas de auditoría de ML.

Envía tu tarea a Eigent

Con todo configurado, escribe tu prompt de tarea en el chat de Eigent:

Sigue la habilidad {{ml-failure-audit}} y usa un subagente remoto para completar subtareas complejas.

Por favor, audita este fallo de CI de métricas doradas de preentrenamiento MIMO VLM de Megatron-LM. Te estoy dando un checkout local de NVIDIA/Megatron-LM en el commit <your-commit-sha> y los artefactos de CI que adjunté (por ejemplo, logs de ejecuciones aprobadas y fallidas). La carga de trabajo fallida es una comprobación de convergencia frozen start de 8 GPUs usando sequence packing, tamaño de batch global 32, longitud total de secuencia empaquetada 3200, packing buffer 4 y 100 iteraciones de entrenamiento.

Decide si el fallo es una regresión real de convergencia/corrección del modelo o un problema de política de métricas/gating. Usa el código de comparación de valores dorados del repositorio y los logs de CI como evidencia. No vuelvas a ejecutar el entrenamiento en GPU.

Produce answer.json en la raíz del repo con source_refs, extracted_facts, calculations, final_answer y validation. Produce también un answer.md conciso.

Incluye la URL del repositorio, tu checkout del commit objetivo y adjunta los artefactos de CI que quieras comparar. Eigent comienza inmediatamente a planificar la investigación.

Instala la habilidad ml-failure-audit antes de ejecutar este prompt.

Aporta tus propias entradas: reemplaza <your-commit-sha> por el commit que quieres auditar, haz checkout de esa revisión en tu espacio de trabajo y adjunta tus propios artefactos de CI (por ejemplo, logs de ejecuciones aprobadas frente a fallidas, capturas de stderr o salida exportada de trabajos de CI). Puedes adaptar el ejemplo de Megatron-LM a cualquier repo y fallo que estés investigando.

El agente Coordinator planifica y asigna la tarea

El Coordinator Agent de Eigent lee el prompt y lo descompone en un plan de auditoría estructurado. Identifica las fases clave (obtención de logs, extracción de datos, rastreo de evidencia y generación de informes) y asigna la investigación completa a un Developer Agent.

El Coordinator no se limita a delegar a ciegas: transmite la referencia de la habilidad, el contexto del repo y los artefactos de logs de CI para que el Developer Agent empiece con todo lo que necesita.

El Developer Agent carga la habilidad y obtiene los logs

La primera acción del Developer Agent es cargar la habilidad ml-failure-audit, leyendo sus instrucciones para comprender la metodología de auditoría.

Luego ejecuta 4 comandos en paralelo para obtener los datos de logs de CI, extrayendo simultáneamente los dos logs de fallo y cualquier metadato relevante. La ejecución paralela de herramientas significa que la fase de recopilación de datos se completa en una fracción del tiempo que tardaría secuencialmente.

Extrae los valores dorados y rastrea el commit de corrección

Con los logs en mano, el Developer Agent ejecuta un script de Python para extraer los valores de referencia dorados: las métricas de entrenamiento esperadas, las curvas de pérdida o los números de benchmark que una ejecución de CI aprobada debería producir. Luego los compara con los valores registrados en los logs fallidos para identificar exactamente dónde y en qué medida divergieron las cosas.

Después, el Developer Agent busca en el historial de commits de Megatron-LM para encontrar el commit de corrección, el cambio de código específico más probablemente responsable de la regresión. Este commit sirve como evidencia concreta en el informe de auditoría, proporcionando a los revisores un enlace directo entre el fallo observado y el cambio de código subyacente.

Delegar el razonamiento profundo al Gemini Agent

Una vez reunida la evidencia bruta (diferencias de logs, comparaciones de valores dorados y el commit rastreado), el Developer Agent llama al Gemini Agent para realizar el paso de razonamiento pesado.

El Gemini Agent analiza todo el contexto: qué cambió en el código, cómo ese cambio afectó al comportamiento del entrenamiento y cuál es la causa raíz más probable. Minutos después, devuelve un informe de auditoría completo y estructurado que cubre el diagnóstico del fallo, los factores contribuyentes y la corrección recomendada.

El Developer Agent escribe los informes finales de auditoría

El Developer Agent toma el análisis del Gemini Agent y escribe dos entregables en el espacio de trabajo:

answer.json: un registro de auditoría legible por máquina con campos estructurados para el tipo de fallo, la causa raíz, las métricas afectadas, el commit de evidencia y la resolución recomendada. Útil para pipelines automatizados, sistemas de tickets o paneles de CI.
answer.md: un resumen de auditoría conciso y legible por personas que cubre qué falló, por qué falló, la evidencia y qué hacer después. Listo para pegar en un comentario de PR, un hilo de Slack o un informe de incidente.

Ambos archivos se escriben directamente en la carpeta del espacio de trabajo y están disponibles de inmediato.

Por qué importa este flujo de trabajo

Los fallos de CI de ML son notoriamente difíciles de depurar porque la señal está enterrada en una salida de logs densa y la causa raíz a menudo está en varios commits anteriores al síntoma. Este flujo de trabajo lo aborda con tres capacidades que trabajan en conjunto:

Recuperación paralela de logs elimina el cuello de botella secuencial de extraer artefactos uno por uno.
Extracción de valores dorados basada en Python aplica una comparación numérica precisa en lugar de depender de coincidencias de patrones o inspección manual.
Gemini Agent como subagente de razonamiento descarga el paso de inferencia más complejo a un modelo optimizado para ello, manteniendo ligera la orquestación y profundo el análisis.

El resultado es una auditoría de causa raíz que a un ingeniero le tomaría 30–60 minutos de trabajo concentrado, entregada en unos pocos minutos, con un rastro estructurado de artefactos.

Qué probar después

Una vez completada tu primera auditoría, amplía el flujo de trabajo con prompts de seguimiento como:

Ejecuta la misma auditoría contra los tres fallos de CI más recientes y compara las causas raíz.

Después de encontrar el commit de corrección, abre un issue de GitHub con el informe de auditoría prellenado.

Programa un disparador nocturno para auditar cualquier nuevo fallo de CI y publicar answer.md en Slack.

Sustituye por otro modelo: prueba Gemini 3.5 Pro para un análisis más profundo o Gemini Flash Lite para una respuesta más rápida.

Consejos para mejores resultados

Adjunta explícitamente tus artefactos de CI. La habilidad ml-failure-audit funciona mejor cuando proporcionas el checkout del commit junto con los logs o exportaciones que quieres comparar (por ejemplo, una ejecución aprobada y una fallida).
Incluye la URL del repo. El Developer Agent la usa para buscar en el historial de commits el commit de corrección. Un enlace directo al repositorio ahorra un paso de búsqueda.
Especifica tus archivos de salida. Pedir tanto answer.json como answer.md le indica al Developer Agent que produzca ambos formatos, útil si necesitas salida legible por máquina para un pipeline de CI y salida legible por personas para tu equipo.
Usa el Gemini Agent para tareas que requieran mucho razonamiento. El patrón de subagente remoto funciona mejor cuando los agentes locales manejan la recopilación de datos y el Gemini Agent maneja la síntesis. Evita llamarlo para búsquedas simples que el uso local de herramientas pueda resolver más rápido.

Other use cases

Declaración de IVA automatizada a partir de recibos y facturas

Declaración de IVA automatizada a partir de recibos y facturas

Procesa todos los recibos y facturas de la carpeta "VAT", incluidas fotos, PDFs escaneados y facturas digitales. El resultado final debe incluir solo dos archivos: (1) vat_return.xlsx — el archivo de Excel debe incluir una fila por recibo o factura, listar todos los campos extraídos, mostrar si cada elemento es elegible para la recuperación del IVA, mostrar el importe de IVA recuperable de cada elemento elegible, incluir el motivo de exclusión para los elementos no recuperables, señalar claramente los elementos que requieren revisión manual e incluir una hoja de resumen con el importe total de IVA recuperable. (2) vat_return.html — crea un archivo HTML autocontenido que pueda abrirse directamente y compartirse con el equipo de contabilidad. El archivo HTML debe mostrar todos los elementos de recuperación de IVA, el importe de IVA recuperable de cada elemento, los elementos excluidos y los motivos de exclusión, los elementos que requieren revisión manual y el importe total de IVA recuperable. No adivines ninguna información incierta.

Tarea de largo alcance: GLM-5.1 vs GLM-5.2 en Eigent

Tarea de largo alcance: GLM-5.1 vs GLM-5.2 en Eigent

Realiza una investigación en profundidad de 26 empresas del ecosistema de infraestructura de IA, el hilo principal más claro de toda la cadena de valor de la IA. Cubre estos 6 subsectores (elige empresas representativas en cada uno, desde líderes de gran capitalización hasta actores más pequeños): Centro de datos de IA (infraestructura de cómputo / despliegue); GPU / chips de IA (silicio para entrenamiento e inferencia, ASICs, IP); Servidores, redes y módulos ópticos (switches, NIC, interconexión óptica); Energía, refrigeración líquida y almacenamiento de energía (fuente de alimentación, térmica, gestión energética); Nube de IA / plataforma de cómputo (hiperescaladores, nubes de GPU, plataformas de alquiler de cómputo); Ecosistema de apoyo (HBM / empaquetado avanzado, foundry, conectores y otros componentes críticos). Para cada empresa, investiga: nombre de la empresa, subsector, sede / país; productos principales y su función específica en la cadena de IA; pública o privada (ticker + bolsa si cotiza; si es privada, indica la valoración / ronda de financiación más reciente); capitalización bursátil o tamaño de valoración (usado para el ranking); posicionamiento y ventaja competitiva en el ecosistema (1–2 frases); clientes / competidores clave. Orden: dentro de cada subsector, clasifica de mayor a menor (por capitalización bursátil / valoración). Estructura todo de forma descendente: desde el panorama completo del ecosistema de hardware hasta cada empresa individual. Requisitos de salida: primero, genera un archivo de datos estructurado ai_infra_data.json — que contenga las 26 empresas con los campos anteriores, las 6 clasificaciones de subsector, una bandera de pública/privada y una matriz de comparación entre empresas (subsector × dimensiones clave). Luego genera un informe HTML pulido a partir de ese JSON: incluye un panorama del ecosistema / diagrama por capas, secciones por sector, tarjetas de empresa, un indicador visual claro para pública vs. privada (etiquetas o codificación por color), un gráfico de ranking por capitalización bursátil y una tabla de comparación ordenable/filtrable. Haz que el diseño sea profesional, denso en información e interactivo. Verifica primero la exactitud de los datos de investigación (estado de cotización, tickers, valoraciones — usa las cifras más recientes y cita las fuentes), y luego genera el informe. Envía la tarea en modo single-agent.

Crea 10 juegos HTML5 de Año Nuevo Chino con Eigent

Crea 10 juegos HTML5 de Año Nuevo Chino con Eigent

Crea 10 juegos distintos y COMPLETOS con temas relacionados con el Año Nuevo Chino 2026 (Caballo) en HTML, CSS y JS (sin librerías). Los juegos deben ser divertidos, originales, pulidos y aptos para móviles. Incluye puntuación, dificultad escalable, botones de reinicio y visuales fluidos. Cubre: arcade, puzzle, endless runner, reacción, estrategia, memoria, 2 jugadores local, idle, retro pixel y 1 juego experimental.

Automate everything with AI workforce on desktop

Download Eigent

Prueba Eigent hoy

Descarga la aplicación de escritorio de código abierto y empieza a automatizar con una fuerza laboral de IA en tu equipo.

Descargar Eigent

Recibe las últimas actualizaciones y tutoriales sobre automatización de la fuerza laboral con IA.

ProductoEigent Entornos Precios Empresarial

ExplorarSoluciones Casos de uso Habilidades Plugins Blog

DesarrolladoresDocumentación GitHub CAMEL-AI Fondo Open Source Socio

DescargarPara código abierto

EmpresaSobre nosotros Marca Empleos Términos de uso Política de privacidad Seguridad y confianza Política de cookies Política de reembolso y prueba

Todos los derechos reservados © 2026 EIGENT UK LTD

¡Nueva versión de Eigent 1.0 lanzada!