Así funcionan as novas ferramentas de Google para ‘rescatar’ fotos pixeladas

Un dos exemplos amosados por Google para explicar os modelos cos que aumenta a resolución das imaxes. Fonte: AI Google.
Un dos exemplos amosados por Google para explicar os modelos cos que aumenta a resolución das imaxes. Fonte: AI Google.

Algunha vez presenciamos na ficción o procesamento de imaxes de baixa resolución para conseguir desentrañar un rostro, unha matrícula ou un movemento que axude a botar luz na resolución dun caso. Nos últimos anos, co meteórico avance do procesamento de imaxes, a intelixencia artificial ou o ‘deep learning’ (aprendizaxe profunda), xa fomos testemuñas de como fotografías de persoas que morreran antes da invención do cinematógrafo tomaban movemento.

Estas tecnoloxías son de moito interese para as grandes corporacións tecnolóxicas, que están a investir moitos recursos na I+D+i. É o caso de Google,que recentemente divulgou novos detalles sobre como os seus investigadores son quen de agregar novos detalles a imaxes de baixa resolución a partir da aprendizaxe automática, mediante dúas novas ferramentas.

Estas técnicas consisten nunha ampla clase de tarefas do coñecido como machine learning (…) nas que se adestra un amplo catálogo de imaxes de baixa resolución para transformalas noutras de maior nitidez. Segundo destacan nun post do blog de Google sobre intelixencia artificial os investigadores Jonathan Ho e Chitwan Saharia, estas técnicas de ‘superresolución‘ “teñen moitas aplicacións, que poden ir desde a restauración de retratos antigos familiares ata a mellora nos sistemas de imaxe médica”. Así, a tecnoloxía vaise perfeccionando cun amplo abano de imaxes que axudan a ‘encher os ocos’ presentes nas tomas de menor resolución.

En primeiro lugar, a corporación describe a ferramenta SR3 (algo así como ‘superresolución de refinamento repetido’), e funciona agregando ruído ou ‘imprevisibilidade’ a unha imaxe, para posteriormente inverter o proceso e eliminalo, dun xeito semellante ao que fai un editor de imaxe.

“Os modelos de difusión funcionan corrompendo os datos de adestramento, agregando progresivamente o que se coñece como ‘ruido gaussiano‘, borrando lentamente os detalles dos datos, ata convertelo en ruído puro, e logo adestrando unha rede neuronal para reverter o proceso de corrupción”, explican os dous investigadores. O post achega un vídeo no que se ve o funcionamento das técnicas con diferentes rostros.

Deste xeito, e a través dunha serie de cálculos de probabilidade baseados ​​nunha gran base de datos de imaxes, sumando ao coñecemento acumulado en machine learning, o sistema SR3 é quen de predicir unha versión da imaxe en maior resolución. Os autores deste avance explican o seu método nun artigo pre-print publicado no repositorio arXiv.

A segunda ferramenta, denominada CDM (modelos de difusión en fervenza), descríbese como unha especie de ‘condutos’ a través dos cales se poden dirixir estes modelos de difusión, incluíndo o SR3, para obter actualizacións das imaxes a maior calidade. A partir dos modelos de mellora con que se adestra, obtéñense instantáneas de mellor calidade, como se describe noutro artigo (ver en PDF) publicado polos mesmos investigadores. O seu funcionamento pode verse claramente nestes exemplos:

Os expertos de Google destacan que, ao utilizar diversos modelos de mellora a diferentes resolucións, este enfoque é quen de superar outros métodos alternativos xa propostos para aumentar o tamaño de imaxes de baixa resolución. Así, a técnica probouse en ImageNet, un enorme catálogo de imaxes que adoita usarse para a investigación de recoñecemento visual de obxectos.

A gran calidade destes métodos avaliouse nun experimento no que se lle presentaron aos participantes unha imaxe de alta resolución de referencia e outra que era resultado do modelo desenvolvido polos investigadores. Ao preguntar “Cal destas imaxes foi feita cunha cámara”?, as taxas de confusión estiveron preto do 50%, isto é, case a metade das veces, as persoas que debían adiviñar elixiron a imaxe procesada mediante as técnicas citadas fronte á foto real.

DEIXAR UNHA RESPOSTA

Please enter your comment!
POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.

Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.