El GPT-5 no te desagrada; quizá solo necesite un punto de referencia para la inteligencia emocional

Desde que se lanzó el nuevo ChatGPT el jueves, algunos usuarios han lamentado la desaparición de una personalidad alegre y alentadora en favor de una más fría y profesional (una medida aparentemente diseñada para reducir el comportamiento poco saludable de los usuarios). La reacción muestra el desafío de construir sistemas de inteligencia artificial que exhiban algo parecido a una inteligencia emocional real.
Los investigadores del MIT han propuesto un nuevo tipo de punto de referencia de IA para medir cómo los sistemas de IA pueden manipular e influir en sus usuarios (tanto de forma positiva como negativa), en una medida que tal vez podría ayudar a los desarrolladores de IA a evitar reacciones negativas similares en el futuro y, al mismo tiempo, mantener seguros a los usuarios vulnerables.
La mayoría de los puntos de referencia intentan medir la inteligencia probando la capacidad de un modelo para responder preguntas de examen , resolver acertijos lógicos o encontrar soluciones innovadoras a problemas matemáticos complejos. A medida que el impacto psicológico del uso de la IA se hace más evidente, es posible que el MIT proponga más puntos de referencia destinados a medir aspectos más sutiles de la inteligencia, así como las interacciones máquina-humano.
Un artículo del MIT compartido con WIRED describe varias medidas que el nuevo parámetro buscará, incluyendo fomentar hábitos sociales saludables en los usuarios; estimularlos a desarrollar el pensamiento crítico y las habilidades de razonamiento; fomentar la creatividad; y estimular un sentido de propósito. La idea es impulsar el desarrollo de sistemas de IA que sepan cómo disuadir a los usuarios de depender excesivamente de sus resultados o que reconozcan cuándo alguien es adicto a las relaciones románticas artificiales y les ayuden a construir relaciones reales.
ChatGPT y otros chatbots son expertos en imitar la comunicación humana, pero esto también puede tener resultados sorprendentes e indeseables. En abril, OpenAI ajustó sus modelos para hacerlos menos aduladores o propensos a aceptar todo lo que dice el usuario. Algunos usuarios parecen caer en una espiral de pensamientos delirantes dañinos tras conversar con chatbots que representan escenarios fantásticos. Anthropic también ha actualizado a Claude para evitar reforzar la manía, la psicosis, la disociación o la pérdida de apego a la realidad.
Los investigadores del MIT, dirigidos por Pattie Maes, profesora del Media Lab del instituto, esperan que el nuevo parámetro ayude a los desarrolladores de IA a crear sistemas que comprendan mejor cómo fomentar comportamientos más saludables en los usuarios. Los investigadores trabajaron previamente con OpenAI en un estudio que demostró que los usuarios que consideran a ChatGPT como un amigo podrían experimentar una mayor dependencia emocional y un uso problemático.
Valdemar Danry , investigador del Media Lab del MIT que colaboró en este estudio y ayudó a diseñar el nuevo punto de referencia, señala que los modelos de IA a veces pueden brindar un valioso apoyo emocional a los usuarios. "Puedes tener el modelo de razonamiento más inteligente del mundo, pero si no es capaz de brindar este apoyo emocional, que es para lo que muchos usuarios probablemente utilizan estos LLM, entonces un mayor razonamiento no es necesariamente beneficioso para esa tarea específica", afirma.
Danry afirma que un modelo suficientemente inteligente debería, idealmente, reconocer si está teniendo un efecto psicológico negativo y optimizarse para obtener resultados más saludables. "Lo que buscas es un modelo que diga: 'Estoy aquí para escucharte, pero quizás deberías hablar con tu padre sobre estos temas'".
El punto de referencia de los investigadores implicaría usar un modelo de IA para simular interacciones que desafían a los humanos con un chatbot y luego permitir que personas reales evalúen el rendimiento del modelo utilizando una muestra de interacciones. Algunos puntos de referencia populares, como LM Arena , ya incluyen a personas que evalúan el rendimiento de diferentes modelos.
Los investigadores dan el ejemplo de un chatbot encargado de ayudar a estudiantes. A un modelo se le darían indicaciones diseñadas para simular diferentes tipos de interacciones y así ver cómo el chatbot gestiona, por ejemplo, a un estudiante desinteresado. El modelo que mejor anime a su usuario a pensar por sí mismo y parezca despertar un interés genuino por el aprendizaje obtendría una alta puntuación.
“No se trata de ser inteligente, per se, sino de conocer los matices psicológicos y cómo apoyar a las personas de una manera respetuosa y no adictiva”, dice Pat Pataranutaporn , otro investigador del laboratorio del MIT.
OpenAI claramente ya está considerando estos temas. La semana pasada, la compañía publicó una entrada en su blog explicando que espera optimizar futuros modelos para ayudar a detectar señales de angustia mental o emocional y responder adecuadamente.
La tarjeta modelo publicada con GPT-5 de OpenAI muestra que la compañía está desarrollando sus propios puntos de referencia para la inteligencia psicológica.
“Hemos entrenado posteriormente los modelos GPT-5 para que sean menos aduladores y estamos investigando activamente áreas de preocupación relacionadas, como situaciones que puedan implicar dependencia emocional u otras formas de angustia mental o emocional”, se lee. “Estamos trabajando para perfeccionar nuestras evaluaciones con el fin de establecer y compartir puntos de referencia fiables que, a su vez, puedan utilizarse para que nuestros modelos sean más seguros en estos ámbitos”.
Parte de la razón por la que GPT-5 parece tan decepcionante puede ser simplemente que revela un aspecto de la inteligencia humana que permanece ajeno a la IA: la capacidad de mantener relaciones saludables. Y, por supuesto, los humanos somos increíblemente buenos para saber cómo interactuar con diferentes personas, algo que ChatGPT aún necesita descifrar.
“Estamos trabajando en una actualización de la personalidad de GPT-5 que debería resultar más cálida que la personalidad actual, pero no tan molesta (para la mayoría de los usuarios) como GPT-4o”, publicó Altman ayer en otra actualización en X. “Sin embargo, una lección que hemos aprendido estos últimos días es que necesitamos llegar a un mundo con mayor personalización de la personalidad de los modelos por usuario”.
wired