Etiqueta evaluación de modelos

Radar IA

🧠 Claude 4 bajo la lupa: ¿Qué está pasando con sus benchmarks?

Desde su lanzamiento, Claude 4 ha generado grandes expectativas como el buque insignia de Anthropic, con promesas de ser más seguro, ético y potente que sus predecesores. Pero en los últimos días, el debate se ha centrado menos en sus…

Redacción Sombra Radio
mayo 29, 2025

IA Cotidiana

🧠 HumaniBench: evaluando la IA multimodal desde una perspectiva humana

🧠 HumaniBench: ¿Puede la IA ver con empatía?

La inteligencia artificial avanza hacia modelos multimodales capaces de procesar texto, imágenes y emociones con una fluidez cada vez más humana. Pero… ¿realmente entienden lo que ven? ¿Pueden razonar éticamente? ¿Respetan los valores humanos? Con estas preguntas en mente, investigadores…

Redacción Sombra Radio
mayo 26, 2025