Cando unha persoa está enferma, é habitual que busque os seus síntomas en Google. Porén, os que o fan nos modelos de intelixencia artificial terán unha maior fiabilidade, aínda que insuficiente. Un novo estudo do Centro de Investigación en Tecnoloxías Intelixentes (CiTIUS) da Universidade de Santiago (USC) analizou a credibilidade destes métodos.
O uso das intelixencias artificiais ten unha taxa de acerto que oscila entre o 80% e o 90%, aínda que teñen un problema grave: as chamadas ‘alucinacións‘. “Ofrécenche unha única resposta, que pode ser boa ou estar completamente equivocada”, advirte David Losada, catedrático de Ciencia da Computación e Intelixencia Artificial. A forma na que se fai a pregunta pode cambiar a taxa de acerto, xa que os modelos son moi sensibles ao contexto, segundo apunta o estudo.
En moitas ocasións, a intelixencia artificial responderá con total seguridade á consulta, aínda que sexa unha mentira. Este é un dos principais perigos deste tipo de aplicacións, porque non hai forma de saber que é mentira se non se contrasta esa información. Un diagnóstico erróneo ou tardío pode causar danos maiores, e ese é o motivo da importancia de visitar a un profesional.
Por outra banda, escoller as principais respostas de Google manterá entre un 60% e un 70% de fiabilidade, moderadamente menor. Moitas das páxinas recuperadas son irrelevantes, segundo os investigadores, que analizaron a información dos primeiros 20 resultados que aparecían no buscador.
Saber cando desconfiar
A investigación conclúe co potencial que teñen estes sistemas para obter información médica útil. Porén, requiren dun uso coidadoso e de contar coa información adecuada para utilizar estas ferramentas. “A nosa mensaxe non é elixir un e outro, senón aprender a usalos ben e saber cando desconfiar”, apuntan os autores do estudo.
Unha das formas na que os investigadores propoñen mellorar este proceso é a través de enriquecer as intelixencias artificiais con resultados obtidos mediante motores de busca. Isto permitiría a estas aplicacións razoar con esa información externa e actual para xerar respostas acertadas.
O estudo avaliou o rendemento de catro motores de busca tradicionais (Google, Bing, Yahoo e DuckDuckGo) e sete modelos de intelixencia artificial. Entre eles, destacan sistemas de propósito xeral como ChatGPT e LLaMA3, ou MedLLaMA. Este último é un modelo adestrado especificamente para proporcionar respostas a preguntas médicas. Os investigadores mediron a capacidade destas tecnoloxías para ofrecer a información correcta ante un conxunto de consultas estandarizadas, valéndose dunha batería de preguntas reais para acadar este obxectivo.