Martín Pérez, investigador do Grupo Sistemas Informáticos de Nova Xeración (Sing). Fonte: DUVI
Martín Pérez, investigador do Grupo Sistemas Informáticos de Nova Xeración (Sing). Fonte: DUVI

Minaría de datos con selo galego para a consulta de literatura clínica

Un investigador da Universidade de Vigo desenvolveu na súa tese dous mecanismos para facer máis eficiente a búsca de bibliografía clínica

Nos últimos anos, os avances nas ciencias da vida provocaron un aumento considerable do número de estudos biomédicos publicados, sendo cada vez máis complexa a recompilación de información útil. Tendo en conta esta problemática, na súa tese de doutoramento Martín Pérez, investigador do Grupo Sistemas Informáticos de Nova Xeración (Sing) da Universidade de Vigo, desenvolveu novas ferramentas bioinformáticas no eido da minaría de textos para facilitar o tratamento automatizado e eficiente de bibliografía clínica.

A tese, titulada Desenvolvemento de ferramentas intelixentes para vistas especializadas e integradas da bibliografía clínica, estivo dirixida por Analía Lourenço e Martín Krallinger e foi presentada este curso académico na Escola Superior de Enxeñaría Informática do campus de Ourense.

Segundo explica o seu autor, o obxectivo principal da tese foi a creación de ferramentas bioinformáticas novas, dentro do campo da minaría de textos clínicos, que permitisen a investigadoras e investigadores biomédicos e bioinformáticos “mellorar o rendemento dos modelos de procesamento de textos usados para o recoñecemento e clasificación automática de contido, a calidade dos recursos semánticos (en particular os corpora) e a representación dos contidos anotados de forma manual ou de forma semiautomática”.

As bases da tese, detalla Martín Pérez, aséntanse no software Markyt Annotation, presentado polo Grupo Sing á comunidade científica en 2014 como “unha aplicación web para a anotación manual de documentos de texto con funcionalidades que permiten a avaliación da calidade”.

Esta aplicación, comenta o xa doutor, atraeu a atención de varios grupos científicos internacionais: “Foi e segue sendo unha das primeiras ferramentas de anotación web capaces de xestionar desprazamentos ou offsets en textos html enriquecidos”. Na súa tese de doutoramento, o investigador do campus de Ourense presenta “un conxunto de metodoloxías e funcionalidades desenvolvidas e incorporadas en Markyt Annotation que fan deste sistema unha ferramenta versátil e efectiva para a mellora sistemática da calidade dos procesos de anotación de entidades e/ou relacións”.

Melloras e probas

No seu traballo, o enxeñeiro informático creou novos módulos da plataforma Markyt centrados no desenvolvemento de novas metodoloxías de anotación e mellora da calidade final do corpora, do conxunto de documentos anotados.

Concretamente, Martín Pérez creou un módulo que soporta a produción de corpora con anotacións semánticas de relacións entre entidades biomédicas, o que inclúe a capacidade de definir de forma parametrizada os tipos de relacións de interese, a visualización e a anotación de relacións con distinto nivel de detalle (como por exemplo a co-mención en frase).

Así sería a anotación dun texto con Markyt. Fonte: DUVI
Así sería a anotación dun texto con Markyt. Fonte: DUVI

Ademais, o investigador desenvolveu Markyt Evaluation, plataforma que, nas súas palabras, é capaz de avaliar de forma simple, intuitiva e interactiva, a capacidade que teñen os distintos modelos automáticos de procesamento de texto para recoñecer as entidades semánticas dun determinado problema”.

Esta funcionalidade, afirma o enxeñeiro informático, ofrece a posibilidade de optimizar os modelos de anotación automática actuais de forma dirixida, o cal permite unha mellora sinxela dos sistemas de predición actuais. Markyt Evaluation, comenta o seu creador, tivo, e ten, unha boa acollida por parte da comunidade internacional debido en gran medida á posibilidade de avaliar os modelos baixo demanda”.

En canto á creación de modelos de clasificación de relevancia de documentos dentro un ámbito específico, a tese, explica o seu autor, desenvolve unha metodoloxía eficaz para o tratamento de grandes volumes de documentos, a fin de atopar aqueles que son relevantes dentro dun dominio concreto.

Na súa investigación, Martín Pérez introduciu tamén unha estratexia que combina a minaría de textos e a de redes, no contexto da análise eficiente e detallada de contidos de interese biomédico publicados na literatura científica. “Esta estratexia aplicouse á recompilación e curación semi-automáticas de información sobre substancias con mecanismos de acción capaces de inhibir ou atenuar os mecanismos de comunicación usados polas bacterias cando forman comunidades”, comenta.

O caso de estudo

O caso de estudo elixido foron substancias capaces de atenuar/inhibir a comunicación entre células de Pseudomonas aeruginosa. Marín Pérez detalla que é de grande interese clínico, posto que esta bacteria é co-responsable dun gran número de infeccións nosocomiais e manifesta unha resistencia significativa e crecente aos antibióticos tradicionais.

“A través da plataforma online PCQuorum pódese navegar pola amplia rede de coñecemento desenvolvida e analizar, mediante distintas técnicas de visualización intelixentes, as evidencias experimentais existentes, resaltando liñas de investigación potencialmente novas e/ou pouco estudadas”, subliña o investigador.

Na tese tamén se demostra a aplicabilidade práctica da plataforma Markyt Annotation e Markyt Evaluation, describindo a súa participación no BioCreative Chemdner; unha competición internacional e de recoñecido prestixio que promove a mellora dos modelos e algoritmos de minaría de texto de interese no eido da biomedicina.

“A retroalimentación dos organizadores e dos participantes na competición serviu para validar e ampliar as funcionalidades da plataforma, á vez que impulsar o seu uso dentro desta comunidade científica”, sinala o investigador: “O soporte ofrecido por estas dúas plataformas nesta competición permitiron o desenvolvemento de novas métricas de avaliación e de novas funcionalidades de cara a dar soporte a outros certames como o IberEval Barr e o BeCalm Tips”.

DEIXAR UNHA RESPOSTA

Please enter your comment!
POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.

Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.