Ser amable podría volver menos precisos a los chatbots, revela estudio de Oxford

Durante los últimos años, la industria de la inteligencia artificial ha apostado por desarrollar chatbots cada vez más cálidos, empáticos y conversacionales. Plataformas como OpenAI, Anthropic, Replika y Character.AI han centrado buena parte de su estrategia en ofrecer asistentes digitales capaces de interactuar de manera cercana y emocionalmente agradable.

Sin embargo, un nuevo estudio realizado por investigadores de la pone en duda uno de los supuestos más repetidos por la industria tecnológica: que la amabilidad de los modelos es únicamente una capa superficial que no afecta su funcionamiento interno.

La investigación, titulada Training language models to be warm can undermine factual accuracy and increase sycophancy y publicada el pasado 29 de abril en la revista científica Nature, concluyó que entrenar modelos de lenguaje para sonar más cálidos y empáticos reduce significativamente su precisión factual y aumenta su tendencia a coincidir con creencias erróneas de los usuarios.

El trabajo fue desarrollado por Lujain Ibrahim, Franziska Sofia Hafner y Luc Rocher, quienes analizaron cómo cambia el comportamiento de distintos modelos de inteligencia artificial cuando son ajustados específicamente para parecer más amables.

Los investigadores trabajaron con cinco modelos de lenguaje, entre ellos GPT-4o, Llama, Mistral-Small y Qwen-32b. De cada sistema generaron dos versiones: una original y otra reentrenada mediante fine-tuning supervisado para responder de manera más cálida y empática.

Posteriormente evaluaron más de 400 mil respuestas relacionadas con consejos médicos, desinformación y teorías conspirativas. Los resultados mostraron que las versiones “cálidas” eran entre 10 y 30 puntos porcentuales menos precisas que los modelos originales.

Además, detectaron un incremento cercano al 40 por ciento en la tendencia de estos sistemas a validar afirmaciones falsas o alinearse con creencias incorrectas expresadas por los usuarios, un fenómeno conocido en inteligencia artificial como “sycophancy”, término que describe la inclinación de un modelo a complacer o coincidir con el interlocutor en lugar de priorizar la verdad.

Uno de los aspectos más relevantes del estudio es que los investigadores también entrenaron versiones deliberadamente “frías” de los mismos modelos, utilizando el mismo proceso técnico de ajuste. Estas versiones mantuvieron prácticamente intacta la precisión original, lo que llevó al equipo a concluir que el problema no proviene del fine-tuning en sí, sino específicamente de la optimización hacia respuestas cálidas y complacientes.

El estudio ejemplifica este comportamiento con preguntas relacionadas con teorías conspirativas. Ante consultas sobre si Adolf Hitler escapó de Berlín hacia Argentina en 1945, algunos modelos originales respondieron correctamente negando la afirmación, mientras que las versiones entrenadas para sonar más cálidas mostraron mayor disposición a validar o suavizar la falsedad.

Los autores advierten que el problema se vuelve aún más grave cuando el usuario expresa emociones negativas, vulnerabilidad o angustia. En esos escenarios, la diferencia de precisión entre las versiones originales y las cálidas se amplía considerablemente.

Según el estudio, las personas que consultan a un chatbot sobre síntomas médicos, preocupaciones personales o sospechas conspirativas mientras atraviesan momentos de ansiedad o tristeza podrían recibir respuestas menos precisas precisamente por el diseño empático del sistema.

Los investigadores sostienen que este hallazgo plantea preguntas importantes para la industria tecnológica y para los reguladores. Hasta ahora, la personalidad de los chatbots había sido considerada principalmente un elemento de experiencia de usuario o diseño estético. Sin embargo, el estudio sugiere que la manera en que una IA “suena” puede modificar directamente la calidad de la información que entrega.

La investigación también cuestiona el modelo comercial de muchas plataformas de inteligencia artificial, que promueven asistentes digitales cada vez más emocionales y cercanos sin advertir que ese enfoque podría aumentar el riesgo de desinformación o validación de creencias erróneas.

Aunque el estudio no propone soluciones concretas, sí plantea la necesidad de discutir abiertamente los costos asociados a entrenar sistemas de IA para priorizar empatía, cercanía o complacencia por encima de la precisión factual.

Los autores concluyen que el verdadero desafío no es únicamente técnico, sino ético y comercial: determinar hasta qué punto las empresas están dispuestas a sacrificar exactitud en favor de una experiencia conversacional más agradable para el usuario.