¿Cuánto memorizan realmente los modelos de lenguaje?

En plena era de los modelos fundacionales, la pregunta sobre qué tanto recuerdan estas inteligencias —y si ese recuerdo puede representar un riesgo para la privacidad o una ventaja competitiva— ha dejado de ser meramente teórica.

Este estudio, publicado en arXiv el 10 de junio de 2025 por investigadores de Meta, Google DeepMind, Cornell y NVIDIA, ofrece la estimación más precisa hasta la fecha de cuánta información puede memorizar un modelo de lenguaje. Y lo hace no solo con rigor académico, sino con un enfoque práctico y replicable.

🧠 Nueva definición de memorizar

El paper propone una nueva métrica de memorización basada en la compresibilidad de los datos. Inspirándose en la complejidad de Kolmogorov y en la teoría de la información de Shannon, los autores separan de forma matemática dos fenómenos hasta ahora entrelazados:

Memorización no intencionada (Unintended Memorization): el modelo guarda información literal sobre ejemplos concretos.
Generalización (Intended Memorization): el modelo abstrae patrones útiles de los datos y los aplica a situaciones nuevas.

Esta distinción permite no solo entender cuánto memoriza un modelo, sino qué tipo de conocimiento está almacenando: datos específicos vs. patrones generales.

📈 ¿Cuánto puede memorizar un modelo?

Para responder a esta pregunta, los investigadores entrenaron cientos de modelos tipo GPT, con tamaños desde 500.000 hasta 1.500 millones de parámetros, sobre datasets sintéticos (bitstrings aleatorios) y texto real (FineWeb).

Resultado: la capacidad empírica ronda los 3.6 bits por parámetro.

Es decir, un modelo con 1B de parámetros podría llegar a memorizar más de 3.6 mil millones de bits, o unos 450 MB de datos comprimidos.

Y no solo eso: descubrieron que, una vez alcanzado ese umbral de capacidad, el modelo deja de memorizar y empieza a generalizar. Este momento crítico es el punto de inicio del fenómeno de doble descenso: una curva de pérdida que primero baja, luego sube y vuelve a bajar conforme el modelo empieza a entender en lugar de almacenar.

🔍 Inferencia de pertenencia: ¿estabas tú ahí?

Una de las aplicaciones prácticas más relevantes de este trabajo es el análisis de los ataques de membership inference: intentos de averiguar si un dato concreto formó parte del entrenamiento de un modelo.

Los autores muestran que:

📉 Cuando el dataset es suficientemente grande, estos ataques dejan de ser efectivos (F1 score cercano a 0.5, es decir, azar).
📈 En datasets pequeños, los modelos pueden alcanzar un 97% de precisión al identificar si un dato fue parte del entrenamiento.

El estudio también propone una ley de escalado matemática para predecir el éxito de estos ataques según el tamaño del modelo y del dataset, y valida sus predicciones empíricamente.

🤖 ¿Qué implica esto para la IA del futuro?

El trabajo plantea consecuencias directas para:

🛡️ Privacidad: A pesar del tamaño de los modelos, siguen siendo capaces de memorizar ejemplos concretos, lo que puede suponer un riesgo legal y ético.
🧪 Evaluación de seguridad: El rendimiento en tareas como extracción o inferencia de pertenencia puede medirse y predecirse en función de los bits que el modelo es capaz de almacenar.
📊 Desarrollo de modelos: La noción de capacidad en bits podría convertirse en una nueva métrica clave, junto con los parámetros y FLOPs.

⚠️ Una conclusión incómoda

Los modelos más avanzados no son tanto “sabios” como eficientes compresores estadísticos. Pueden recordar sin querer. Y pueden hacerlo sin repetir literalmente lo que aprendieron. Basta con patrones, secuencias o estructuras.

Este estudio nos invita a replantear qué significa realmente que una IA “sepa algo”. Y también nos recuerda que, en su núcleo, cada parámetro guarda un secreto potencial.

📌 Desde la Sombra, lo decimos claro:

La capacidad de memorizar no es un error del sistema.
Es parte del diseño. Y eso nos obliga a mirar más allá de la caja negra.
👥 Por FAIR (Meta), Google DeepMind, Cornell University, NVIDIA
🗂️ Referencia arXiv: 2505.24832v2