2026 · Infraestructura · Activo
Inspector — Agente Autónomo de Monitorización
Sistema de monitorización inteligente con detección de anomalías, clasificación de riesgos y auto-reparación
Problema
Los sistemas de monitorización tradicionales (Nagios, Zabbix) alertan pero no reparan. Cada incidente requiere intervención manual aunque sea recurrente.
Solución
Agente autónomo que no solo detecta anomalías (CPU, disco, connectivity) sino que las clasifica por riesgo y ejecuta acciones correctivas automáticas basadas en runbooks configurables.
Logros clave
- Anomaly detection con umbrales adaptativos por servicio
- Risk classifier: 4 niveles (info → warning → critical → emergency)
- Fix executor con runbooks Python reutilizables
- Scheduler con retries exponenciales y circuit breaker
- API REST para integración con otros sistemas
Contexto
En un servidor con 30+ contenedores, los incidentes son inevitables. La mayoría son recuperables (disco lleno, servicio caído, red temporalmente off). El problema es que requieren atención manual aunque la solución sea conocida.
Cómo funciona
Inspector corre como un servicio más en el ecosistema Podman. Cada minuto:
- Chequea salud de servicios (HTTP health checks, disco, CPU, connectivity)
- Clasifica el riesgo según impacto y urgencia
- Ejecuta el fix automático si existe un runbook
- Escala si el fix no funciona después de N intentos
- Notifica el resultado por Telegram