La inteligencia artificial avanza hacia modelos multimodales capaces de procesar texto, imágenes y emociones con una fluidez cada vez más humana. Pero… ¿realmente entienden lo que ven? ¿Pueden razonar éticamente? ¿Respetan los valores humanos?
Con estas preguntas en mente, investigadores del Vector Institute han presentado HumaniBench, un nuevo framework que plantea un enfoque inédito para evaluar modelos de IA: no solo por su rendimiento, sino por su alineación con lo humano.
🧬 ¿Qué es HumaniBench?
HumaniBench no es otro benchmark más. Es una herramienta diseñada para responder a una necesidad urgente: saber si los modelos de IA comprenden y razonan de forma compatible con principios como justicia, empatía, equidad y robustez.
Incluye:
- +32.000 imágenes del mundo real
- Preguntas asociadas generadas por GPT-4o y validadas por humanos
- Evaluaciones sobre razonamiento visual, lenguaje, perturbaciones, sesgos, multilingüismo y más
Y todo bajo una filosofía clara: medir no solo si el modelo acierta, sino cómo y por qué acierta.
🧪 Siete pruebas clave
HumaniBench evalúa los LMMs (Large Multimodal Models) en estas tareas:
- Visual Question Answering (VQA)
- VQA multilingüe
- Anclaje visual (vínculo entre imagen y razonamiento)
- Robustez ante distorsiones
- Evaluación empática
- Capacidad de razonamiento explícito
- Desempeño en contextos éticos o ambiguos
📊 ¿Cómo se desempeñan los modelos actuales?
El benchmark analizó 15 modelos, tanto propietarios (como Gemini, Claude, GPT-4o) como open source (como Qwen-VL-Max, Llava-Next o OpenFlamingo).
Los hallazgos más relevantes:
- Los modelos cerrados obtienen mejores resultados generales, pero también tienen puntos ciegos en tareas de empatía y robustez.
- Los modelos open source aún tienen mucho margen de mejora en razonamiento visual y alineación ética.
- La diversidad lingüística sigue siendo una deuda pendiente para la mayoría.
🌍 ¿Por qué importa?
Estamos entrando en una era donde la IA no solo traduce texto o genera imágenes, sino que toma decisiones en espacios compartidos con personas. Educación, medicina, justicia, cultura: todo puede verse afectado por sesgos o errores si no entendemos cómo y por qué los modelos llegan a ciertas conclusiones.
HumaniBench no pretende dar respuestas cerradas, sino abrir conversaciones. Sirve como espejo: no solo mide la IA, sino nuestra propia expectativa de humanidad.
📎 Recursos abiertos
En Sombraradio apostamos por una tecnología que no solo sea potente, sino justa, cuidadosa y humana.
¿Qué otros aspectos crees que deberían evaluarse en una IA que convive con nosotros?