¿Tiene la inteligencia artificial ojo clínico en la consulta?
Un equipo de investigadores estadounidenses ha puesto a prueba a la inteligencia artificial evaluando sus dotes comunicativas
Fact checked
Este artículo de OkSalud ha sido verificado para garantizar la mayor precisión y veracidad posible: se incluyen, en su mayoría, estudios médicos, enlaces a medios acreditados en la temática y se menciona a instituciones académicas de investigación. Todo el contenido de OkSalud está revisado pero, si consideras que es dudoso, inexacto u obsoleto, puedes contactarnos para poder realizar las posibles modificaciones pertinentes.
Un equipo de investigación ha diseñado un nuevo método para evaluar con mayor precisión la capacidad de la inteligencia artificial (IA) para tomar decisiones clínicas en escenarios realistas que se parecen mucho a las interacciones con los pacientes en la vida real. El análisis señala que los modelos tienen buenos resultados en los diagnósticos basados en preguntas estándar, pero experimentan dificultades cuando la información llega en forma de conversación. Por eso, proponen una serie de recomendaciones para mejorar esta tecnología y aproximarla a la práctica diaria de la medicina antes de incorporarla a las consultas.
Son numerosas las propuestas para aprovechar la IA y aliviar con ella la carga de trabajo de los médicos en procesos como la clasificación de pacientes, la recogida de datos para la historia clínica e incluso el diagnóstico de algunas enfermedades. Ese grupo de herramientas se conocen como «grandes modelos de lenguaje», o LLM, por sus siglas en inglés. Ahora se ha visto que funcionan bien en las pruebas médicas convencionales, pero no tanto en el mundo real, donde la comunicación es muy diferente.
Esta observación la han planteado expertos de las universidades estadounidenses Harvard y Stanford, que firman un nuevo estudio en la revista científica Nature Medicine.
Pregunta-respuesta
En su análisis, los científicos diseñaron una prueba que han llamado CRAFT-MD, que ha evaluado cuatro LLM en la práctica clínica. Los cuatro coincidieron en obtener buenos resultados cuando la información podía recogerse en un esquema del tipo pregunta-respuesta, pero no tanto cuando llegaba en un esquema más parecido a la comunicación real entre los médicos y sus pacientes.
Esta carencia viene a desvelar una doble necesidad: la de crear evaluaciones más precisas de los modelos de IA que se quieren usar en la práctica y, además, la de mejorar la habilidad de esta tecnología para desenvolverse en escenarios reales.
Cuando se utilizan pruebas como CRAFT-MD, no solamente se pueden evaluar mejor las herramientas basadas en IA, sino que se puede hacer que sean más eficaces.
En palabras de Pranav Rajpurkar, uno de los autores, «el trabajo revela una sorprendente paradoja, los modelos de IA superan los exámenes de medicina con resultados excelentes, pero no se les da tan bien el tira y afloja típico de la consulta de un médico».
Se muestra convencido de que la naturaleza dinámica de las conversaciones médicas, la necesidad de hacer la pregunta correcta en el momento adecuado, de agrupar datos que se presentan dispersos y de razonar a partir de los síntomas «son retos que superan con creces el hecho de responder a preguntas con múltiples respuestas posibles». También ha explicado que al pasar de los test estándar a las conversaciones naturales, incluso los modelos más sofisticados de IA pierden una sustancial tasa de precisión en sus diagnósticos.
Hasta el momento, los desarrolladores de modelos de IA plantean a las herramientas preguntas médicas con múltiples respuestas posibles, normalmente extraídas de los exámenes que pasan los estudiantes de medicina como parte de su proceso formativo hasta tener el título.
Shreya Johri, estudiante de doctorado y también autora del estudio, explica que ese modo de hacer las cosas «da por hecho que toda la información relevante se presenta de forma clara y concisa, y muchas veces con términos médicos que simplifican el proceso de diagnóstico, pero en la vida real el proceso es mucho más confuso. Necesitamos una prueba que refleje la realidad mejor y, así, nos permita predecir la precisión del modelo».