{"id":2026,"date":"2026-03-04T08:08:00","date_gmt":"2026-03-04T07:08:00","guid":{"rendered":"https:\/\/techy44.okdiario.com\/?p=2026"},"modified":"2026-03-02T14:43:57","modified_gmt":"2026-03-02T13:43:57","slug":"ya-existe-una-clasificacion-para-medir-si-la-ia-realmente-te-ayuda-cuando-te-sientes-deprimido-enfrenta-a-humanos-contra-llm-en-dialogos-emocionales-reales","status":"publish","type":"post","link":"https:\/\/okdiario.com\/techy\/ya-existe-una-clasificacion-para-medir-si-la-ia-realmente-te-ayuda-cuando-te-sientes-deprimido-enfrenta-a-humanos-contra-llm-en-dialogos-emocionales-reales\/2026\/","title":{"rendered":"Ya existe una clasificaci\u00f3n para medir si la IA realmente te ayuda cuando te sientes deprimido: enfrenta a humanos contra LLM en di\u00e1logos emocionales reales"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Cada vez m\u00e1s gente no solo pide a la inteligencia artificial que le resuma textos o le escriba correos. Tambi\u00e9n le cuenta preocupaciones, dudas de salud o problemas de pareja, igual que har\u00eda en un chat con una amiga a \u00faltima hora del d\u00eda. La gran pregunta es obvia, aunque un poco inc\u00f3moda. \u00bfPuede un modelo de lenguaje dar apoyo emocional de verdad o solo parece que lo hace?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Un equipo de investigaci\u00f3n de <a href=\"https:\/\/hippocraticai.com\/about\/\" target=\"_blank\" rel=\"noopener\">Hippocratic AI<\/a> junto a <a href=\"https:\/\/www.stanford.edu\/\" target=\"_blank\" rel=\"noopener\">Stanford University<\/a>,<a href=\"https:\/\/ucsd.edu\/\" target=\"_blank\" rel=\"noopener\">University of California San Diego<\/a> y <a href=\"https:\/\/www.utexas.edu\/\" target=\"_blank\" rel=\"noopener\">University of Texas at Austin<\/a> ha dise\u00f1ado un marco llamado <a href=\"https:\/\/arxiv.org\/abs\/2601.19922\" target=\"_blank\" rel=\"noopener\">HEART<\/a> para medirlo. En gran medida, su conclusi\u00f3n es clara. Algunos modelos de \u00faltima generaci\u00f3n se acercan e incluso superan la media de respuestas humanas en empat\u00eda percibida, aunque las personas siguen mostrando ventaja cuando la conversaci\u00f3n se complica.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Por qu\u00e9 hace falta medir la empat\u00eda de los chatbots<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Cuando alguien busca apoyo emocional no solo quiere datos correctos. Necesita que la otra parte entienda c\u00f3mo se siente, ajuste el tono y respete sus l\u00edmites. Para los humanos esto suele ser intuitivo. Para la IA, no tanto.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Laya Iyer y Kriti Aggarwal, junto a Subhabrata Mukherjee y el resto del equipo de Hippocratic AI, parten de un problema pr\u00e1ctico. En contextos como la salud o la atenci\u00f3n al paciente se espera confianza, empat\u00eda y buenas maneras, no solo respuestas r\u00e1pidas. Seg\u00fan explican, los benchmarks cl\u00e1sicos se centran casi siempre en tareas y ex\u00e1menes de conocimiento.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Por eso plantean que la empat\u00eda conversacional es una capacidad distinta. No basta con que el modelo razone bien o escriba frases fluidas. Lo importante es c\u00f3mo acompa\u00f1a a una persona a lo largo de varios turnos, sobre todo cuando aparece frustraci\u00f3n, enfado o resistencia.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Qu\u00e9 es exactamente el marco HEART<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">HEART resume cinco dimensiones de una conversaci\u00f3n de apoyo. Human alignment mide lo cerca que est\u00e1 la respuesta de lo que la mayor\u00eda de personas considera un apoyo adecuado, empathetic responsiveness se fija en c\u00f3mo reconoce y valida emociones, attunement eval\u00faa si el modelo sigue el hilo y el estado emocional, resonance recoge si el mensaje llega y se siente cercano y task following comprueba si respeta la petici\u00f3n original.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Para construir el benchmark, el equipo reuni\u00f3 di\u00e1logos reales de apoyo emocional con varios intercambios entre usuario y sistema. A partir de cada uno emparejaron respuestas de personas y respuestas de modelos de lenguaje y pidieron a jueces humanos, que no sab\u00edan qui\u00e9n hab\u00eda escrito cada mensaje, que valoraran cu\u00e1l les parec\u00eda m\u00e1s \u00fatil y emp\u00e1tico.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Adem\u00e1s incluyeron un conjunto de modelos adicionales que actuaban como jueces LLM as judge con su propio razonamiento escrito. Todo se apoy\u00f3 en una r\u00fabrica tomada de la investigaci\u00f3n en comunicaci\u00f3n y asesoramiento psicol\u00f3gico, pensada para capturar c\u00f3mo evoluciona una conversaci\u00f3n de apoyo a lo largo del tiempo.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Qu\u00e9 descubrieron sobre humanos, modelos y empat\u00eda percibida<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Los resultados muestran patrones llamativos. Varios modelos punteros se acercan o incluso superan la media de las respuestas humanas en empat\u00eda percibida y consistencia en la conversaci\u00f3n. En torno a ocho de cada diez comparaciones entre pares generan el mismo veredicto entre jueces humanos y modelos que juzgan, un nivel similar al acuerdo entre personas.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Sin embargo, el trabajo tambi\u00e9n identifica los puntos d\u00e9biles de la IA. Los humanos siguen siendo mejores para reformular de manera flexible, poner nombre a la tensi\u00f3n cuando el ambiente se vuelve denso y cambiar de tono con matices, sobre todo en turnos adversariales en los que el usuario responde con enfado o desconfianza. Es ese tipo de giro que cualquiera reconoce cuando una amiga te dice algo como \u00abentiendo que est\u00e9s harto, vamos a bajar un poco el ritmo y ver qu\u00e9 necesitas ahora\u00bb.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Las explicaciones que dan los jueces autom\u00e1ticos cuando justifican sus elecciones se apoyan en las mismas dimensiones de HEART que usan los jueces humanos. Seg\u00fan el equipo, esto sugiere una convergencia emergente en los criterios que se usan para definir qu\u00e9 es un buen apoyo emocional en una conversaci\u00f3n. HEART coloca as\u00ed la calidad del apoyo como un eje propio, separado del simple razonamiento l\u00f3gico o de la correcci\u00f3n gramatical.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Del laboratorio a la atenci\u00f3n con IA en tiempo real<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">El marco tambi\u00e9n se us\u00f3 para evaluar un modelo llamado <a href=\"https:\/\/hippocraticai.com\/polaris-3\/\" target=\"_blank\" rel=\"noopener\">Polaris<\/a>, desarrollado en Hippocratic AI. En las pruebas, Polaris alcanz\u00f3 puntuaciones de apoyo percibido muy cercanas a las mejores IA del momento y comparables a respuestas humanas, con tiempos de reacci\u00f3n por debajo de medio segundo. En la pr\u00e1ctica, eso significa que un asistente de voz podr\u00eda mantener una conversaci\u00f3n que se siente emp\u00e1tica sin largas pausas entre frase y frase.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">El equipo quiere extender ahora HEART a otros formatos, como sistemas multimodales que combinen voz, texto e imagen o asistentes de voz que funcionen en tiempo real. Tambi\u00e9n planean pasar de medir empat\u00eda percibida a seguir c\u00f3mo de apoyadas se sienten las personas con el tiempo, teniendo en cuenta diferencias culturales en la forma de mostrar cuidado y cercan\u00eda.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Al final del d\u00eda, lo que intenta hacer HEART es se\u00f1alar qu\u00e9 habilidades de apoyo importan de verdad y c\u00f3mo pueden repartirse entre humanos y m\u00e1quinas para complementar la atenci\u00f3n emocional. No convierte a los modelos en terapeutas de un d\u00eda para otro, pero s\u00ed ofrece un term\u00f3metro compartido para entender d\u00f3nde la IA se acerca al juicio social humano y d\u00f3nde todav\u00eda se queda corta.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">El estudio principal se ha publicado en <a href=\"https:\/\/arxiv.org\/abs\/2601.19922\" target=\"_blank\" rel=\"noopener\"><em>arXiv<\/em><\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Cada vez m\u00e1s gente no solo pide a la inteligencia artificial que le resuma textos o le escriba correos. Tambi\u00e9n &#8230; <\/p>\n<p class=\"read-more-container\"><a title=\"Ya existe una clasificaci\u00f3n para medir si la IA realmente te ayuda cuando te sientes deprimido: enfrenta a humanos contra LLM en di\u00e1logos emocionales reales\" class=\"read-more button\" href=\"https:\/\/okdiario.com\/techy\/ya-existe-una-clasificacion-para-medir-si-la-ia-realmente-te-ayuda-cuando-te-sientes-deprimido-enfrenta-a-humanos-contra-llm-en-dialogos-emocionales-reales\/2026\/#more-2026\" aria-label=\"Leer m\u00e1s sobre Ya existe una clasificaci\u00f3n para medir si la IA realmente te ayuda cuando te sientes deprimido: enfrenta a humanos contra LLM en di\u00e1logos emocionales reales\">Read more<\/a><\/p>\n","protected":false},"author":7,"featured_media":2027,"comment_status":"open","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6],"tags":[],"class_list":["post-2026","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-inteligencia-artificial","resize-featured-image"],"_links":{"self":[{"href":"https:\/\/okdiario.com\/techy\/wp-json\/wp\/v2\/posts\/2026","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/okdiario.com\/techy\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/okdiario.com\/techy\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/okdiario.com\/techy\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/okdiario.com\/techy\/wp-json\/wp\/v2\/comments?post=2026"}],"version-history":[{"count":1,"href":"https:\/\/okdiario.com\/techy\/wp-json\/wp\/v2\/posts\/2026\/revisions"}],"predecessor-version":[{"id":2028,"href":"https:\/\/okdiario.com\/techy\/wp-json\/wp\/v2\/posts\/2026\/revisions\/2028"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/okdiario.com\/techy\/wp-json\/wp\/v2\/media\/2027"}],"wp:attachment":[{"href":"https:\/\/okdiario.com\/techy\/wp-json\/wp\/v2\/media?parent=2026"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/okdiario.com\/techy\/wp-json\/wp\/v2\/categories?post=2026"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/okdiario.com\/techy\/wp-json\/wp\/v2\/tags?post=2026"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}