Venres 26 Abril 2024

A Uvigo desenvolve un “buscador” para identificar ás persoas en vídeos

O Grupo de Tecnoloxías Multimedia traballa dende hai un ano no proxecto TraceThem, unha investigación en técnicas algorítmicas de busca multimedia e multilingüe para localizar persoas en contidos audiovisuais. Trátase dun proxecto financiado polo Programa Estatal de Fomento da I+D+i de Excelencia cun orzamento de 70.000 euros e no que están involucrados os membros do GTM Carmen García Mateo, José Luis Alba Castro, Antonio Cardenal, Eduardo Rodríguez Banga, Laura Docío, Carmen Magariños e Paula López, grupo que forma parte do centro AtlantTIC. O proxecto, de tres anos de duración, arrancou en xaneiro de 2016 e ten como obxectivo desenvolver e mellorar técnicas para a busca de información sobre persoas que aparecen en gravacións audiovisuais, polo que as tecnoloxías básicas que empregan os investigadores son o procesamento de fala e de imaxe, como explica García Mateo, directora do GTM. A multiplicación de contidos audiovisuais na rede, cómpre buscar métodos de automatización do proceso de busca para filtrar, acceder e seleccionar os contidos. Así, TraceThem ten como finalidade, destaca o profesor José Luis Alba, “desenvolver unha tecnoloxía que evite o indexado manual dos contidos e permita buscar directamente o que interesa a través do procesado de vídeo e audio”. Estes avances son de especial utilidade para o indexado de contidos multimedia para grandes repositorios, por exemplo de medios de comunicación e institucións educativas. O obxectivo final é ter un motor de indexación que permita localizar contidos ou persoas neses vídeos e audios e “o teito deste tipo de investigación sería conseguir que motores de busca de internet como Google atopasen non só texto, senón audio e vídeo sen necesidade de que eses contidos fosen indexados manualmente, como se fai agora”.

O obxectivo final é localizar contidos ou persoas en vídeos e audios

A catedrática Carmen García Mateo explica que a información que se pretende extraer con estas tecnoloxías “está sempre dentro dun contexto comunicativo, é dicir, son contidos de alguén e para alguén, polo que a caracterización das persoas involucradas neste contexto xoga un papel central”. Céntranse deste xeito en atopar información sobre as persoas e a súa forma de interactuar: quen son, que din, como se comunican, que están facendo… é dicir, que o interese está en descubrir persoas e contido. A extracción de información relacionada coas persoas lévase a cabo a través de procesamento de audio, procesamento de vídeo e procesamento combinado de audio e vídeo. Para isto, os investigadores traballan na análise de contido multimedia, biometría de voz e cara, segmentación de audio e diarización de falantes, detección do estado emocional e detección de persoas que interactúan.

Publicidade

Os investigadores do GTM levan traballando neste eido durante anos e este non é o primeiro proxecto que desenvolven neste campo. Explican que algunhas innovacións xa se comercializan e funcionan razoablemente ben en contornas controladas, pero “cando as condicións non son as óptimas, por exemplo polo ruído, a presenza de distintos idiomas, as referencias cruzadas, etc. non traballan tan ben. Polo tanto, o reto é facer estes sistemas robustos a condicións acústicas adversas”. Ademais, o procesamento destes documentos multimedia implica a dificultade engadida de que os contidos poden aparecer en diferentes idiomas, o que representa un maior desafío tecnolóxico, xa que se necesitan ferramentas adaptadas a diferentes linguas.

Dentro do proxecto TraceThem, os investigadores desenvolven tamén outras dúas liñas de traballo paralelas. Unha delas é a de-identificación de locutor, que permite transformar unha voz de xeito que non se saiba cal é o emisor de procedencia e que ten especial relevancia para manter a privacidade nas bases de datos de voz. “Non se trata de distorsionar”, explican, “queremos que soe igual de natural ca o orixinal, pero con outra voz”. Outra liña de traballo é a adaptación de locutor cross-lingual, que se centra en desenvolver técnicas que permitan levar a identidade dunha voz a outra, entre un par de linguas distintas, é dicir, trátase de producir voz dun mesmo locutor pero noutro idioma, algo que tería unha posible aplicación para os tradutores automáticos, para que a voz do emisor soe noutro idioma igual que no orixinal.

DEIXAR UNHA RESPOSTA

Please enter your comment!
Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.

Relacionadas

Premios de Transferencia da RAGC: vacinas, rexeneración ósea e biometría

A Academia de Ciencias recoñece nos seus galardóns o traballo de equipos das tres universidades e a empresa Alice Biometrics

Google Art Selfie: A que obras de arte se parecen os famosos galegos?

O buscador web dispón dunha 'app' na que calquera persoa pode buscar os seus parecidos en obras de arte de todo o mundo

Chega a tecnoloxía galega para identificarse pola cara

Face IDNN, un proxecto de Gradiant, aposta por comercializar un innovador sistema de recoñecemento facial