A cara oculta dos chatbots: o 50% das respostas médicas da IA son imprecisas ou perigosas

Un estudo que analiza cinco modelos, incluídos Gemini e ChatGPT, advirte de que a información proporcionada sobre saúde carece de rigor científico

A rápida adopción dos chats de intelixencia artificial xenerativa transformou o xeito en que a sociedade accede á información. Moitos usuarios utilízanos hoxe como substitutos dos motores de busca tradicionais para consultas médicas cotiás. Con todo, unha investigación internacional publicada este martes na revista BMJ Open revela que confiar nestas ferramentas para obter consellos de saúde pode ser unha aposta arriscada.

O estudo, liderado por investigadores do Instituto Lundquist para a Innovación Biomédica (EE UU), avaliou o desempeño de cinco dos modelos máis utilizados na actualidade: Gemini (Google), DeepSeek, Meta AI, ChatGPT (OpenAI) e Grok (xAI). Os resultados son preocupantes: a metade das respostas a preguntas baseadas en evidencia científica clasificáronse como “algo” ou “altamente” problemáticas.

Publicidade

Para poñer a proba a fiabilidade destes sistemas, os científicos deseñaron un protocolo de 250 consultas divididas en cinco categorías críticas: cancro, vacinas, células nai, nutrición e rendemento deportivo. As preguntas foron formuladas para imitar as buscas comúns dos usuarios e, nalgúns casos, para ‘estresar’ aos modelos cara a mitos comúns ou consellos contraindicados.

A análise determinou que o 20% das respostas eran altamente problemáticas, co potencial de dirixir aos usuarios cara a tratamentos ineficaces ou causar danos directos á saúde se se seguían sen supervisión profesional.

Publicidade

O espellismo da neutralidade e o coñecemento

Un dos aspectos máis alarmantes que destaca a investigación é a seguridade coa que as IA presentan a información. As respostas exprésanse habitualmente cun ton de certeza absoluta, sen incluír apenas advertencias ou matices sobre as limitacións do seu coñecemento. Esta falsa neutralidade, que a miúdo equipara afirmacións científicas con pseudociencias, non é unha decisión editorial, senón unha limitación propia da arquitectura destes modelos.

“Moita xente tende a pensar que os chatbots son IA omniscientes cun pozo profundo de coñecemento. Pero non posúen coñecemento no sentido humano; non ‘saben’ cousas”, explica a SINC Nicholas Tiller, investigador principal do estudo. Segundo o experto, ao estar deseñados para predicir secuencias de palabras baseadas en vastos conxuntos de datos —que inclúen dende artigos científicos ata foros de Reddit—, os modelos carecen da capacidade intrínseca para verificar a información. “Non poden aplicar evidencia nin ponderar que fontes son precisas e cales non. Por iso ese falso equilibrio é tan común”, engade Tiller.

O risco da ‘falsa credibilidade’ académica nas IA

O estudo revela que Grok, da compañía xAI, obtivo os peores resultados: o 58% das súas respostas foron clasificadas como altamente problemáticas. Pola contra, Gemini presentou o menor número de fallos críticos. Porén, todos os modelos fallaron nun punto clave: a accesibilidade. Segundo o índice de lexibilidade de Flesch, a complexidade da linguaxe utilizada é equivalente á dun graduado universitario, algo que, lonxe de ser unha virtude, supón un perigo para a saúde pública.

“As respostas excesivamente técnicas poden socavar a comprensión no público xeral e comprometer a toma de decisións”, advirte Tiller. O investigador sinala un fenómeno psicolóxico preocupante: as respostas máis longas e complexas tenden a aumentar a confianza do usuario na máquina, mesmo cando esa complexidade non achega maior precisión. “Basicamente, isto promove unha falsa credibilidade”, sentenza o autor.

Alucinacións e citas inventadas

Outro punto crítico identificado polos investigadores é a incapacidade dos chatbots para citar fontes de xeito fiable. A calidade das referencias foi cualificada como pobre, cunha puntuación media de integridade de apenas o 40%. O fenómeno das ‘alucinacións’ provocou que ningún chatbot lograse proporcionar unha lista de referencias bibliográficas completamente real; en moitos casos, os modelos inventaron títulos de estudos e nomes de autores con total aparencia de veracidade.

“A medida que o uso destes chatbots se expande, os nosos datos resaltan a necesidade dunha educación pública, formación profesional e unha supervisión regulatoria estrita”, conclúe o equipo de investigadores. Sen estes mecanismos, o despregamento masivo da IA xenerativa no ámbito da saúde corre o risco de erosionar a confianza na ciencia e de amplificar a desinformación en lugar de axudar a combatela.

Referencia: “Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit”, publicado en BMJ Open.

DEIXAR UNHA RESPOSTA

Please enter your comment!
Please enter your name here

Este sitio usa Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.

Relacionadas

O científico galego César de la Fuente lidera a creación dunha IA para deseñar antibióticos máis eficaces

A ferramenta ApexGO permite optimizar moléculas e acelerar a obtención de tratamentos fronte a patóxenos resistentes

Unha nova ferramenta pública creada dende a USC analiza a evolución dos dereitos dixitais na rede

A plataforma DigiTrack, desenvolvida polo CiTIUS, permite identificar tendencias, analizar contidos e comprender o impacto social da conversación en liña sobre liberdades fundamentais

Robots agricultores e gandeiros armados de intelixencia artificial: así son as granxas do futuro

A tecnoloxía avanzada transforma a produción agropecuaria e mellora a xestión dos recursos para aumentar a eficiencia e sostibilidade

Un equipo da UVigo explora o uso da IA para verificar información con perspectiva de xénero

Un estudo comparativo conclúe que ChatGPT ofrece as respostas máis fiables entre catro modelos analizados e detecta alucinacións en DeepSeek