Ferramentas galegas de acceso libre para a xestión da Big Data

O grupo de estatística do CINBIO desenvolve unha liña de investigación sobre os problemas dos datos de alta dimensión

Os membros do grupo SiDOR, do CINBIO.

Un equipo da UVigo con participación no Centro de Investigacións Biomédicas (CINBIO) está a traballar na xeración de software e novos métodos para os retos que afronta a estatística moderna: a nosa gran capacidade de obtención de datos. O grupo SiDOR (Estatística, Decisión e Investigación Operativa nas súas siglas en inglés), formado por 12 doutores e 3 novos investigadores, cumprirá 25 anos no 2023 contando cun recoñecido traballo sobre datos de alta dimensión sobre as súas costas.

No mundo dos Big Data o aumento da información rexistrada é exponencial, e é cada vez máis habitual que o escenario sexa o contrario ao da estatística clásica, onde se analiza un número grande ou moderado de individuos, dos que se miden poucas variables.

Centos de miles de datos

Agora hai miles ou centos de miles de datos para un número menor de observacións. O que nesta disciplina se coñece por high dimension low-sample size data (baixo tamaño de mostra en alta dimensión de datos). Este tipo de datos son unha das características dos Big Data, e é moi habitual atopalos tamén en investigacións sanitarias, computacionais ou xenómicas, ou na espectroscopía de materiais, por exemplo.

Este cambio de paradigma precisa desenvolver novas estratexias que superen os problemas xerados. “Na estatística clásica asumíase que se a nosa mostra non permitiía traballar cunha distribución asintótica (acorde coa realidade) debíamos ampliala” explica o director de SiDOR, Jacobo de Uña. Pero isto non é sempre posible cos datos de alta dimensión, e ese método non permite tampouco controlar o aumento das probabilidades de erro. Segundo De Uña “a solución é que o papel que xogaba antes o tamaño da mostra vaino xogar agora o número de variables, xa que asumimos que estas podémolas facer crecer tanto como queiramos”. A investigación do grupo está financiada con fondos FEDER.

Cando se traballa con miles de variables, as opcións de sacar conclusións erradas dispáranse

O segundo gran problema que afronta este novo escenario é a dificultade de comparar unha variable entre dous ou máis grupos. Por exemplo, no testeo dun tratamento médico no que se traballa cun grupo de control. Analizar a correlación cunha única variable é sinxelo, pero cando se traballa con miles de variables e de comparacións o problema a enfrontar é que as opcións de sacar conclusións erradas dispáranse, e polo tanto as conclusións do noso análise non poden ser concluíntes.

Os datos de alta dimensión en particular, e os Big Data en xeral, teñen tamén outros problemas periféricos, que son máis de tipo computancional, coma o almacenamento da información xerada, os tempos de computación e a velocidade de rexistro e explotación da información. “Un problema, este último, que se pode exemplificar coas recomendacións case instantáneas que nos ten que facer unha plataforma de streaming en base aos gustos ou comportamentos de centos de miles de usuarios”, explica o investigador do CINBIO.

Datos de alta dimensión

Unha das liñas de traballo do grupo SiDOR é a investigación da metodoloxía estatística para as comparacións múltiples en alta dimensión, coma o método sgof, desenvolto para estes escenarios complexos, e publicado en 2009 na revista BMC Bioinformatics nunha colaboración do SiDOR cos xenetistas da UVigo Emilio Rolán e Antonio Carvajal. A investigadora predoutoral do SiDOR, Irene Castro Conde, desenvolvería en 2013 un paquete para a aplicación deste método no entorno de software libre R, unha das ferramentas máis usadas para a análise dos Big Data. “O paquete sgof ten unhas 64.000 descargas actualmente”, explica de Uña, “o que son unhas 20 descargas diarias dende a súa publicación”. Un número nada desdeñable para un software de uso tan específico. Outros métodos estatísticos desenvoltos por este grupo serviron para a identificación de patróns, a detección de anomalías xenéticas e a comparación de grupos en alta dimensión.

Publicar estes métodos baixo licencias de GNU -de uso libre e con código aberto-, en contraposición coa creación de patentes para a explotación económica, responde á idea do grupo académico de “priorizar a xeración de coñecemento de acceso libre”, explican. Preténdese que as ferramentas que crean sexan utilizadas pola maior cantidade posible de investigadores.

“A matemática, víase coma o patiño feo, pero moito coñecemento médico, por exemplo, baséase nela”

JACOBO DE UÑA, director da investigación

O equipo galego ten colaboración con grandes expertos a nivel mundial, coma Jeffrey Hart, do prestixioso departamento de Estatística da Universidade de Texas A&M, que desenvolveu metodoloxía e software xunto a Marta Cousido, investigadora do grupo SiDOR. E acaban de incorporar a investigadora Ramón y Cajal María Xosé Rodríguez Álvarez, que elixiu o equipo vigués como destino. 

O recoñecemento do traballo deste grupo de investigación faise notar nos encontros internacionais que albergan. O último, en 2017, con máis de 600 asistentes, foi a conferencia anual da International Society for Clinical Biostatistics. E están a organizar en Vigo o VIII Encuentro Iberoamericano de Biometría para o ano 2023.

Jacobo de Uña. Foto: CINBIO

Jacobo de Uña indica que “hoxe en día a estatística e as matemáticas están a ser moi valoradas na sociedade pola importancia que teñen na xeración de coñecemento”. Un cambio fronte a percepción que existía ata hai pouco: “A matemática é unha ciencia que ata fai uns anos víase coma o patiño feo”. “Moito do coñecemento médico, por exemplo, está baseado na estatística, porque analizamos estatísticamente o que sucede nos seres humanos para chegar a conclusións científicamente validadas”, explica. 

DEIXAR UNHA RESPOSTA

Please enter your comment!
POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.

Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.