Volver a proyectos
2026 · Infraestructura · Activo

Inspector — Agente Autónomo de Monitorización

Sistema de monitorización inteligente con detección de anomalías, clasificación de riesgos y auto-reparación

Python FastAPI SQLite Docker APScheduler Prometheus Código

Problema

Los sistemas de monitorización tradicionales (Nagios, Zabbix) alertan pero no reparan. Cada incidente requiere intervención manual aunque sea recurrente.

Solución

Agente autónomo que no solo detecta anomalías (CPU, disco, connectivity) sino que las clasifica por riesgo y ejecuta acciones correctivas automáticas basadas en runbooks configurables.

Logros clave

  • Anomaly detection con umbrales adaptativos por servicio
  • Risk classifier: 4 niveles (info → warning → critical → emergency)
  • Fix executor con runbooks Python reutilizables
  • Scheduler con retries exponenciales y circuit breaker
  • API REST para integración con otros sistemas

Contexto

En un servidor con 30+ contenedores, los incidentes son inevitables. La mayoría son recuperables (disco lleno, servicio caído, red temporalmente off). El problema es que requieren atención manual aunque la solución sea conocida.

Cómo funciona

Inspector corre como un servicio más en el ecosistema Podman. Cada minuto:

  1. Chequea salud de servicios (HTTP health checks, disco, CPU, connectivity)
  2. Clasifica el riesgo según impacto y urgencia
  3. Ejecuta el fix automático si existe un runbook
  4. Escala si el fix no funciona después de N intentos
  5. Notifica el resultado por Telegram