2026 · ML & IA · Estable

LLaMA Models — Framework de Optimización Local

Framework de benchmark y optimización de modelos LLM locales para inferencia eficiente en hardware AMD

Python llama.cpp ROCm Vulkan Jinja2 Bash Docker Código

Problema

Ejecutar LLMs localmente en hardware AMD (Radeon 680M) requiere perfiles de optimización específicos. No existía una herramienta para probar, benchmarkear y generar configuraciones óptimas.

Solución

Framework modular que descarga, configura, benchmarkea y genera perfiles óptimos para cualquier modelo GGUF en hardware AMD, con soporte para ROCm y Vulkan.

Logros clave

Benchmarking automático de throughput, latency y memory usage
Generación de profiles .ini optimizados por hardware
Templates Jinja2 para configuración dinámica
Soporte para múltiples backends: ROCm, Vulkan, CPU
Container Docker con dependencias pre-instaladas

Contexto

Correr modelos localmente en una Radeon 680M iGPU requería probar combinaciones interminables de capas en GPU, tamaño de contexto, y batch size. Automatizar este proceso ahorró horas de prueba manual.

Resultado

Perfiles optimizados para modelos de 7B a 14B params con throughput utilizable (>15 tok/s en 7B via Vulkan).