Equipo do Grupo de Tecnoloxías Multimedia da Uvigo. Foto: Duvi.

A Uvigo desenvolve un “buscador” para identificar ás persoas en vídeos

O Grupo de Tecnoloxías Multimedia traballa en TraceThem, un proxecto que emprega técnicas algorítmicas para recoñecer voz e imaxe nos contidos audiovisuais que nos interesen

O Grupo de Tecnoloxías Multimedia traballa dende hai un ano no proxecto TraceThem, unha investigación en técnicas algorítmicas de busca multimedia e multilingüe para localizar persoas en contidos audiovisuais. Trátase dun proxecto financiado polo Programa Estatal de Fomento da I+D+i de Excelencia cun orzamento de 70.000 euros e no que están involucrados os membros do GTM Carmen García Mateo, José Luis Alba Castro, Antonio Cardenal, Eduardo Rodríguez Banga, Laura Docío, Carmen Magariños e Paula López, grupo que forma parte do centro AtlantTIC. O proxecto, de tres anos de duración, arrancou en xaneiro de 2016 e ten como obxectivo desenvolver e mellorar técnicas para a busca de información sobre persoas que aparecen en gravacións audiovisuais, polo que as tecnoloxías básicas que empregan os investigadores son o procesamento de fala e de imaxe, como explica García Mateo, directora do GTM. A multiplicación de contidos audiovisuais na rede, cómpre buscar métodos de automatización do proceso de busca para filtrar, acceder e seleccionar os contidos. Así, TraceThem ten como finalidade, destaca o profesor José Luis Alba, “desenvolver unha tecnoloxía que evite o indexado manual dos contidos e permita buscar directamente o que interesa a través do procesado de vídeo e audio”. Estes avances son de especial utilidade para o indexado de contidos multimedia para grandes repositorios, por exemplo de medios de comunicación e institucións educativas. O obxectivo final é ter un motor de indexación que permita localizar contidos ou persoas neses vídeos e audios e “o teito deste tipo de investigación sería conseguir que motores de busca de internet como Google atopasen non só texto, senón audio e vídeo sen necesidade de que eses contidos fosen indexados manualmente, como se fai agora”.

O obxectivo final é localizar contidos ou persoas en vídeos e audios

A catedrática Carmen García Mateo explica que a información que se pretende extraer con estas tecnoloxías “está sempre dentro dun contexto comunicativo, é dicir, son contidos de alguén e para alguén, polo que a caracterización das persoas involucradas neste contexto xoga un papel central”. Céntranse deste xeito en atopar información sobre as persoas e a súa forma de interactuar: quen son, que din, como se comunican, que están facendo… é dicir, que o interese está en descubrir persoas e contido. A extracción de información relacionada coas persoas lévase a cabo a través de procesamento de audio, procesamento de vídeo e procesamento combinado de audio e vídeo. Para isto, os investigadores traballan na análise de contido multimedia, biometría de voz e cara, segmentación de audio e diarización de falantes, detección do estado emocional e detección de persoas que interactúan.

Os investigadores do GTM levan traballando neste eido durante anos e este non é o primeiro proxecto que desenvolven neste campo. Explican que algunhas innovacións xa se comercializan e funcionan razoablemente ben en contornas controladas, pero “cando as condicións non son as óptimas, por exemplo polo ruído, a presenza de distintos idiomas, as referencias cruzadas, etc. non traballan tan ben. Polo tanto, o reto é facer estes sistemas robustos a condicións acústicas adversas”. Ademais, o procesamento destes documentos multimedia implica a dificultade engadida de que os contidos poden aparecer en diferentes idiomas, o que representa un maior desafío tecnolóxico, xa que se necesitan ferramentas adaptadas a diferentes linguas.

Dentro do proxecto TraceThem, os investigadores desenvolven tamén outras dúas liñas de traballo paralelas. Unha delas é a de-identificación de locutor, que permite transformar unha voz de xeito que non se saiba cal é o emisor de procedencia e que ten especial relevancia para manter a privacidade nas bases de datos de voz. “Non se trata de distorsionar”, explican, “queremos que soe igual de natural ca o orixinal, pero con outra voz”. Outra liña de traballo é a adaptación de locutor cross-lingual, que se centra en desenvolver técnicas que permitan levar a identidade dunha voz a outra, entre un par de linguas distintas, é dicir, trátase de producir voz dun mesmo locutor pero noutro idioma, algo que tería unha posible aplicación para os tradutores automáticos, para que a voz do emisor soe noutro idioma igual que no orixinal.

Deixar unha resposta

XHTML: Podes empregar estas etiquetas: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.