🧠 Minitron: La receta de NVIDIA para comprimir modelos gigantes sin perder inteligencia

La inteligencia artificial no necesita ser colosal para ser brillante. Desde NVIDIA llega Minitron, una propuesta que pone en práctica un sueño largamente perseguido: modelos de lenguaje grandes (LLM) más pequeños, más rápidos y más accesibles —sin sacrificar demasiada inteligencia por el camino.

🧬 ¿Qué es Minitron?

Desarrollado como parte del estudio “LLM Pruning and Distillation in Practice: The Minitron Approach” (arXiv:2408.11796), este enfoque combina dos técnicas clave para comprimir modelos como LLaMA 3.1 8B y Mistral NeMo 12B en versiones mucho más ligeras:

Poda estructurada: recorta el número de capas y reduce el tamaño de componentes internos sin romper la arquitectura.
Destilación de conocimiento: entrena un modelo más pequeño (el “estudiante”) para que imite al grande (el “profesor”).

Pero hay truco: NVIDIA añade una fase extra llamada “corrección del profesor”, donde afinan el modelo original en tareas específicas antes de empezar la destilación. Esto resulta clave cuando no se dispone del dataset original de preentrenamiento.

⚡ Resultados que importan

MN-Minitron-8B, basado en Mistral NeMo 12B, supera a otros modelos de tamaño similar en múltiples benchmarks con 40 veces menos tokens de entrenamiento.
Llama-3.1-Minitron-4B, una versión comprimida del LLaMA original, logra mantener un rendimiento competitivo usando una fracción de los recursos.
Mejora en velocidad de inferencia de hasta 2,7× frente al modelo original.

La magia de Minitron está en su eficiencia: menos recursos, más rendimiento, modelos más democratizados.