A Uvigo desenvolve un "buscador" para identificar ás persoas en vídeos

O Grupo de Tecnoloxías Multimedia traballa dende hai un ano no proxecto TraceThem, unha investigación en técnicas algorítmicas de busca multimedia e multilingüe para localizar persoas en contidos audiovisuais. Trátase dun proxecto financiado polo Programa Estatal de Fomento da I+D+i de Excelencia cun orzamento de 70.000 euros e no que están involucrados os membros do GTM Carmen García Mateo, José Luis Alba Castro, Antonio Cardenal, Eduardo Rodríguez Banga, Laura Docío, Carmen Magariños e Paula López, grupo que forma parte do centro AtlantTIC. O proxecto, de tres anos de duración, arrancou en xaneiro de 2016 e ten como obxectivo desenvolver e mellorar técnicas para a busca de información sobre persoas que aparecen en gravacións audiovisuais, polo que as tecnoloxías básicas que empregan os investigadores son o procesamento de fala e de imaxe, como explica García Mateo, directora do GTM. A multiplicación de contidos audiovisuais na rede, cómpre buscar métodos de automatización do proceso de busca para filtrar, acceder e seleccionar os contidos. Así, TraceThem ten como finalidade, destaca o profesor José Luis Alba, “desenvolver unha tecnoloxía que evite o indexado manual dos contidos e permita buscar directamente o que interesa a través do procesado de vídeo e audio”. Estes avances son de especial utilidade para o indexado de contidos multimedia para grandes repositorios, por exemplo de medios de comunicación e institucións educativas. O obxectivo final é ter un motor de indexación que permita localizar contidos ou persoas neses vídeos e audios e “o teito deste tipo de investigación sería conseguir que motores de busca de internet como Google atopasen non só texto, senón audio e vídeo sen necesidade de que eses contidos fosen indexados manualmente, como se fai agora”.

O obxectivo final é localizar contidos ou persoas en vídeos e audios

A catedrática Carmen García Mateo explica que a información que se pretende extraer con estas tecnoloxías “está sempre dentro dun contexto comunicativo, é dicir, son contidos de alguén e para alguén, polo que a caracterización das persoas involucradas neste contexto xoga un papel central”. Céntranse deste xeito en atopar información sobre as persoas e a súa forma de interactuar: quen son, que din, como se comunican, que están facendo… é dicir, que o interese está en descubrir persoas e contido. A extracción de información relacionada coas persoas lévase a cabo a través de procesamento de audio, procesamento de vídeo e procesamento combinado de audio e vídeo. Para isto, os investigadores traballan na análise de contido multimedia, biometría de voz e cara, segmentación de audio e diarización de falantes, detección do estado emocional e detección de persoas que interactúan.

Os investigadores do GTM levan traballando neste eido durante anos e este non é o primeiro proxecto que desenvolven neste campo. Explican que algunhas innovacións xa se comercializan e funcionan razoablemente ben en contornas controladas, pero “cando as condicións non son as óptimas, por exemplo polo ruído, a presenza de distintos idiomas, as referencias cruzadas, etc. non traballan tan ben. Polo tanto, o reto é facer estes sistemas robustos a condicións acústicas adversas”. Ademais, o procesamento destes documentos multimedia implica a dificultade engadida de que os contidos poden aparecer en diferentes idiomas, o que representa un maior desafío tecnolóxico, xa que se necesitan ferramentas adaptadas a diferentes linguas.

Dentro do proxecto TraceThem, os investigadores desenvolven tamén outras dúas liñas de traballo paralelas. Unha delas é a de-identificación de locutor, que permite transformar unha voz de xeito que non se saiba cal é o emisor de procedencia e que ten especial relevancia para manter a privacidade nas bases de datos de voz. “Non se trata de distorsionar”, explican, “queremos que soe igual de natural ca o orixinal, pero con outra voz”. Outra liña de traballo é a adaptación de locutor cross-lingual, que se centra en desenvolver técnicas que permitan levar a identidade dunha voz a outra, entre un par de linguas distintas, é dicir, trátase de producir voz dun mesmo locutor pero noutro idioma, algo que tería unha posible aplicación para os tradutores automáticos, para que a voz do emisor soe noutro idioma igual que no orixinal.

DEIXAR UNHA RESPOSTA Cancelar a resposta

Please enter your comment!

Please enter your name here

You have entered an incorrect email address!

Please enter your email address here

Subscríbete ao boletín de GCiencia

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.

A Uvigo desenvolve un “buscador” para identificar ás persoas en vídeos

DEIXAR UNHA RESPOSTA Cancelar a resposta

Relacionadas

Premios de Transferencia da RAGC: vacinas, rexeneración ósea e biometría

Google Art Selfie: A que obras de arte se parecen os famosos galegos?

Chega a tecnoloxía galega para identificarse pola cara

A ministra de Fomento visita a Universidade de Vigo á busca de alta tecnoloxía ferroviaria