SALUD
Una investigación internacional analizó el comportamiento de varios sistemas de inteligencia artificial al responder preguntas relacionadas con salud y encontró deficiencias que pueden afectar la calidad de la información que reciben los usuarios. El estudio estableció que cerca de la mitad de las respuestas evaluadas presentaron imprecisiones o falta de rigor científico, mientras que alrededor del veinte por ciento fueron consideradas altamente problemáticas por el riesgo de orientar decisiones inadecuadas cuando no existe acompañamiento profesional.
Los investigadores explican que estos modelos no operan con conocimiento propio ni con criterios de verificación de datos. Su funcionamiento se basa en la predicción de palabras a partir de grandes volúmenes de texto previamente analizados, lo que impide que puedan contrastar fuentes, evaluar la calidad de la evidencia disponible o distinguir con claridad entre información científica y contenidos sin respaldo. En varios ejercicios de prueba se identificaron referencias bibliográficas inexistentes, títulos de estudios que no corresponden a publicaciones reales y autores que no figuran en registros académicos.
El informe advierte que la forma en que estas plataformas redactan sus respuestas influye en la percepción del usuario. El tono suele ser seguro y fluido, lo que transmite una sensación de certeza que no siempre se corresponde con la precisión del contenido. Esta forma de presentación, sumada a explicaciones extensas y técnicas, incrementa la confianza del lector incluso cuando la información contiene errores, omisiones o interpretaciones inexactas.
Otro aspecto observado es la complejidad del lenguaje utilizado. Las respuestas tienden a emplear términos técnicos equivalentes al nivel de formación de un profesional universitario, lo que dificulta la comprensión de buena parte del público. Esta barrera puede llevar a que las personas interpreten de manera errónea indicaciones relacionadas con síntomas, tratamientos o diagnósticos, especialmente cuando no cuentan con orientación médica.
La evaluación incluyó cinco sistemas de uso extendido como Gemini, DeepSeek, Meta AI, ChatGPT y Grok. Los resultados mostraron diferencias en la proporción de respuestas problemáticas entre unos y otros, aunque el estudio subraya que en todos los casos se encontraron fallas relevantes. Grok registró el mayor número de respuestas catalogadas como altamente problemáticas dentro de la muestra analizada.
Los autores del estudio señalan que estas herramientas pueden ser útiles como apoyo informativo general, pero no deben asumirse como fuentes confiables para tomar decisiones en salud. Recomiendan que cualquier duda médica sea consultada directamente con profesionales y que la información obtenida a través de estos sistemas sea contrastada con fuentes verificables y especializadas.
