LLaMA Models — Framework de Optimización Local
Framework de benchmark y optimización de modelos LLM locales para inferencia eficiente en hardware AMD
Problema
Ejecutar LLMs localmente en hardware AMD (Radeon 680M) requiere perfiles de optimización específicos. No existía una herramienta para probar, benchmarkear y generar configuraciones óptimas.
Solución
Framework modular que descarga, configura, benchmarkea y genera perfiles óptimos para cualquier modelo GGUF en hardware AMD, con soporte para ROCm y Vulkan.
Logros clave
- Benchmarking automático de throughput, latency y memory usage
- Generación de profiles .ini optimizados por hardware
- Templates Jinja2 para configuración dinámica
- Soporte para múltiples backends: ROCm, Vulkan, CPU
- Container Docker con dependencias pre-instaladas
Contexto
Correr modelos localmente en una Radeon 680M iGPU requería probar combinaciones interminables de capas en GPU, tamaño de contexto, y batch size. Automatizar este proceso ahorró horas de prueba manual.
Resultado
Perfiles optimizados para modelos de 7B a 14B params con throughput utilizable (>15 tok/s en 7B via Vulkan).