Estudio revela fallas críticas en los consejos médicos de los chatbots de IA
Un estudio internacional realizado por el Instituto Lundquist para la Innovación Biomédica analizó el desempeño de los principales modelos de inteligencia artificial en temas de salud. El informe evaluó la fiabilidad de herramientas como Gemini, DeepSeek, Meta AI, ChatGPT y Grok.
Los resultados indican que el uso de estas plataformas para obtener consejos médicos representa un riesgo para los usuarios. Según la investigación, la mitad de las respuestas basadas en evidencia científica presentaron algún nivel de problemática para la salud pública.
Los científicos diseñaron 250 consultas sobre cinco categorías críticas: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. La intención fue replicar las búsquedas habituales de los ciudadanos y evaluar la fiabilidad de las respuestas obtenidas en entornos digitales.
El análisis determinó que el 20 % de las respuestas fueron clasificadas como altamente problemáticas. Este tipo de contenido tiene el potencial de dirigir a los pacientes hacia tratamientos ineficaces o causar daños directos si se siguen las recomendaciones sin la debida supervisión profesional.
Uno de los aspectos señalados es la seguridad con la que los sistemas presentan la información. Los chatbots suelen expresarse con un tono de certeza absoluta, omitiendo advertencias sobre las limitaciones de su conocimiento o la falta de rigor en sus fuentes.
Nicholas Tiller, autor principal del estudio, explicó que estos modelos carecen de la capacidad intrínseca para verificar datos. Al estar diseñados para predecir secuencias de palabras, no pueden ponderar qué fuentes son precisas y cuáles no, promoviendo un falso equilibrio entre ciencia y pseudociencia.
El chatbot Grok obtuvo los resultados más deficientes en el relevamiento, con un 58 % de sus respuestas catalogadas como problemáticas. En contrapartida, Gemini presentó el menor número de fallos críticos entre las herramientas analizadas durante la investigación.
La complejidad del lenguaje también fue un factor de riesgo detectado. Las respuestas requieren un nivel de comprensión equivalente a un graduado universitario, lo que representa una barrera para la salud pública y la accesibilidad de la información clara para la comunidad.
La investigación detectó el fenómeno de las alucinaciones, donde los sistemas inventan títulos de estudios y nombres de autores con apariencia de veracidad. La calidad de las referencias bibliográficas alcanzó apenas un 40 % de integridad en las pruebas realizadas.
Redactado con información de NA