A maioría dos algoritmos de intelixencia artificial (IA) que existen hoxe en día adéstranse con datos para que coñezan a realidade. Mais, que ocorre se estes algoritmos non aseguran a privacidade como se pensaba? Isto vén a solucionar o proxecto TRUFFLES (TRUSTed Framework for Federated Learning System), co obxectivo de afrontar os riscos da privacidade e seguridade dos sistemas de aprendizaxe federada.
O traballo é froito da unión de dous equipos do Centro de Investigación en Tecnoloxías de Telecomunicación da Universidade de Vigo, atlanTTic. Nesta colaboración entre o Instituto Nacional de Ciberseguridade (INCIBE) e a UVigo participan o Grupo de Procesado de Sinal en Comunicacións (GPSC), dirixido polo profesor Fernando Pérez González, e o grupo Information & Computing Lab (ICLAB), dirixido pola profesora Rebeca Díaz Redondo.
O motivo desta xuntanza será a aplicación de ferramentas para reducir os riscos existentes na aprendizaxe federada, pois os datos e a privacidade son mundos máis complexos do que se pensa.
As reviravoltas dos datos na aprendizaxe federada
O adestramento de algoritmos implica o manexo de grandes cantidades de datos. Con todo, na práctica, os propietarios dos datos teñen unha cantidade limitada e mostran reticencia a compartilos con terceiros, pois poden ser sensibles ou violar leis de privacidade no marco europeo. “Coa aprendizaxe federada trátase de matar dous paxaros dun tiro”, asegura Fernando Pérez. Esta técnica permite que os propietarios dos datos colaboren sen compartilos directamente.
En lugar disto, adéstranse modelos localmente nos ordenadores de cada propietario, e o que se comparte non son os datos en si, senón os modelos adestrados. Estes envíanse a unha figura chamada agregador, que crea un modelo a partir do que lle enviaron os propietarios de datos. Enriquécese das achegas de todos os participantes, mais como é un modelo, o que se intercambia son algoritmos, e non datos explícitos, e favorécese a protección da información orixinal.
Esta técnica considerábase moi segura en canto a privacidade, “pois ao non compartir os datos en si, é máis difícil averiguar que datos se empregaron”, explica o investigador. Non obstante, descubriuse que é posible extraer información dalgún dos participantes que adestraron o modelo. “Aínda que o algoritmo semelle que non a revela, memoriza datos persoais de quen adestraron o modelo, o que supón un problema”, explica o líder do grupo GPSC. Para solucionalo, entran en acción estes dous grupos de investigación e a creación de ferramentas.
Unha visión descentralizada
O grupo liderado por Rebeca Díaz explora outra vía: coñecer que ocorrería se se elimina o agregador central para crear un sistema totalmente distribuído. Así xorde o concepto “aprendizaxe descentralizada“. Deste xeito, “evitaríase o único punto de ataque do sistema centralizado”, explica a investigadora, pois se ese elemento falla, pode caer todo o sistema.
En contornas industriais onde se precisan respostas rápidas, como en situacións nas que se empregan as bases de datos para garantir a seguridade dos empregados ou da produción, contar cun elemento central para enviar a información ralentiza as respostas. A solución é que os propietarios dos datos reciban a información local das súas bases, procesala mediante o algoritmo de aprendizaxe e xerar un modelo para compartir cos seus “veciños” (nodos pares ou iguais).
“Ademais de compartir, reciben do resto”, explica Díaz, pois coñecen moito a información local, pero teñen unha visión limitada do demais. Así, cada nodo aprende dos seus datos e dos resumos dos outros. Pero “non é un sistema ideal”, engade, porque ademais dos problemas mencionados, existen outros desafíos relacionados coa eficiencia que afectan esta aprendizaxe.
Dende o grupo ICLAB, tentarase que “este intercambio de modelos se faga só cando sexa necesario”; só cando exista un cambio relevante que comunicar aos pares. Isto reduce as comunicacións, diminuíndo o risco de ataques e mellorando a eficiencia do sistema global.
Defensa a posibles ataques
Estes nodos non se salvan dos ataques maliciosos. En vez de enviar información real, poden “transmitir un modelo distorsionado que afecta o comportamento global”, explica a investigadora, xa sexa intencionado ou por un fallo no sistema. Nalgúns casos, a orixe do ataque pode ser o propio agregador. Por tanto, o obxectivo é analizar o abano de posibles ataques e saber como detectalos para poder inhabilitar os nodos, e evitar que participen na rede.
Unha das ferramentas coa que TRUFFLES está traballando para previr estas sabotaxes é o procesado de datos cifrados (en particular, o cifrado homomórfico), co que o agregador só executa un protocolo onde todos os datos recibidos están encriptados. Deste xeito, “non é capaz de aprender nada”, explica Fernando Pérez. O resultado da súa actividade é a agregación de todos os modelos enviados, sen risco de ataques de inferencia.
Tamén empregan outras técnicas como a marca de auga, que permite a todos os propietarios de nodos que conforman un modelo saber quen envía os datos a terceiros. A copia distribuída a cada propietario de datos é lixeiramente diferente, o que permite identificar a fonte en caso de filtración. Outra medida é o uso de técnicas de cadeas de bloques (blockchain) para garantir a trazabilidade da información, coa fin de “saber a orixe, o destino e os cambios realizados”, sinala Díaz. Esta medida complementa a ampla combinación de tecnoloxías que abranguen o proxecto.
Combinación de tecnoloxías
As ferramentas que queren desenvolver tratan de “aproveitar o mellor de ambas partes”: compartir modelos sen comprometer a privacidade. Así, TRUFFLES ten un obxectivo: “Protexer os datos que se comparten”, explica a investigadora galega. A través de técnicas e tecnoloxías como o procesado con datos cifrados, a privacidade inferencial, a marca de auga ou o blockchain téntase mellorar a colaboración sen divulgar datos e evitando posibles ataques.
A novidade deste proxecto da UVigo reside en varios aspectos. Pola banda da aprendizaxe federada, unha técnica denominada multichave permite que cada propietario de datos se comunique co agregador utilizando una chave distinta, para evitar o uso dunha común, tal e como se viña facendo. Tamén se inclúe a marca de auga e un reto ambicioso que está abordando o grupo de Pérez: como se mide a privacidade?
Mentres, na aprendizaxe descentralizada, a innovación radica en avaliar tres dimensións con pouco percorrido nesta liña de investigación: o intercambio da información, as técnicas para a defensa fronte aos ataques bizantinos e o blockchain. Mais Díaz sinala unha diferenza: existen contornas onde non se permiten fallos e a privacidade debe preservarse a toda costa, como cando se traballa con datos hospitalarios, mentres noutros contextos onde non se manexan datos persoais, a privacidade non é tan crítica. “Debemos atopar o equilibrio entre costes e beneficios”, asegura.
Un caso de uso: a contorna bancaria
No proxecto TRUFFLES, os investigadores non tiveron que enfrontarse a retos éticos, xa que non traballan con datos persoais. Por iso, o caso de uso considerado para o proxecto sería a banca, onde os datos son sensibles pero “máis fáciles de simular”, aclara Pérez.
Aínda que non chegaron a este punto, considérano un caso “interesante” dende o punto de vista da aprendizaxe federada e distribuída, pois dispoñen dos modelos que deciden, por exemplo, se unha persoa pode acceder a un crédito ou se unha transacción con tarxeta de crédito puido ser fraudulenta.
Este ámbito bancario ten unha peculiaridade: “Os bancos quererían ter máis datos para adestrar mellor os seus modelos, pero ninguén quere compartir esta información con outros bancos”, sinala o investigador. Así, perfílase como “o contexto perfecto”, ao permitir o adestramento dun modelo máis efectivo sen compartir datos confidenciais.
Grazas a TRUFFLES, estes equipos de atlanTTic traballan en favor da privacidade e protección dos datos. “Contribuímos co noso coñecemento para ir un pouquiño máis aló e frear algúns riscos”, conclúe a investigadora Rebeca Díaz.