O reto do galego ante a intelixencia artificial: “Precisamos máis recursos”

Un congreso internacional avalía na Coruña as forzas e as debilidades do idioma na carreira dixital

A Coruña acolle o SEPLN 2022

Por que os asistentes de voz (Siri, Alexa…) non falan galego? Como se canalizan os comentarios dos sistemas de recomendación como Tripadvisor? As fórmulas para detectar nas redes sociais mensaxes e contidos de persoas con tendencias suicidas ou casos de ciberacoso, que ferramentas permiten á rede perfilar persoas pola forma de escribir mensaxes (sexo, rango de idade, ideoloxía…) ou analizar os seus sentimentos? Son cuestións que se abordan na 38 edición do Congreso Internacional da Sociedade Española para o Procesamento da Linguaxe Natural (SEPLN 2022) que reúne na Coruña, ata o 23 de setembro, a máis dun cento de investigadores dunha quincena de países.

O SEPLN 2022 está organizado por un comité interdisciplinario de lingüístas e informáticos da Universidade da Coruña (UDC), vencellados ao Centro de Investigación en Tecnoloxías da Información e as Comunicacións (CITIC) e ao Campus Innova. O equipo organizador, liderado por Miguel A. Alonso, conta co apoio dunha comisión de expertos europeos (de España, Francia, Reino Unido, Alemaña, Italia e Portugal), americanos (de México, Cuba, Estados Unidos e Canadá) e de Australia.

O Procesamento de Linguaxe Natural (PLN)  é un campo da intelixencia artificial (AI) que conxuga informática e lingüística aplicada cun obxectivo: lograr que o computador entenda a linguaxe humana (escrita e falada). E neste marco a creación de recursos lingüísticos é o primeiro paso para non quedar fóra da carreira tecnolóxica e dos beneficios cotiáns que chegan da man da PLN, un risco que pende sobre linguas minorizadas como o galego.

O galego na rede

“As tres universidades galegas (UDC, USC e UVigo) e institucións como o Centro Ramón Piñeiro para a Investigación en Humanidades traballan arreo para incrementar e normalizar o uso do galego no mundo virtual”, sinala Miguel A. Alonso. “En primeiro lugar é necesario contar con corpus anotados amplos”, subliña este investigador da UDC, que deseguido engade que “para avanzar na elaboración destes corpus, son necesarios máis recursos, un maior apoio das administracións, necesitamos máis diñeiro para contratar persoal especializado: falamos de lingüístas”.

Os corpus en lingüística computacional proporcionan a posibilidade de realizar inducións a partir dos textos para construír modelos estatísticos das linguas. Ademais son unha fonte de información lingüística moi valiosa para traballos empíricos ou a creación de gramáticas e léxicos, xa que a anotación proporciona un gran volume de datos etiquetaxes cuns criterios definidos.

“Institucións como as universidades galegas traballan arreo para incrementar e normalizar o galego no mundo dixital”

MIGUEL A. ALONSO, investigador da UDC

Intereses económicos condicionan o tratamento computacional dunha lingua e neste sentido Miguel A. Alonso é consciente de que “o galego é un idioma minoritario, cun mercado potencial pequeno e por tanto, con escaso retorno económico” . Ademais, ten en contra “a pouca implicación do goberno galego e o contexto bilingüe no que vivimos: todos os galegos e galegas falan español”. 

Con todo, tamén ten unha gran vantaxe: o vínculo do galego coa lusofonía, que nos conecta co portugués, idioma ben situado no mundo dixital.

No encontro que se celebra estes días na Coruña, os participantes analizarán e cotexarán o procesamento computacional do español, portugués, galego, vasco e catalán, o que amosa a importancia de poder vivir —tamén no mundo dixital— na lingua propia.

A UDC vangarda en PLN

A elección da Coruña como sede do SEPLN 2022 non é casual. A UDC está considerada un referente internacional no ámbito da investigación do Procesamento da Linguaxe Natural (PLN).

O recoñecemento vén avalado por fitos como: o proxecto FastParse, unha Starting Grant do European Research Council (ERC)  que situou á UDC como unha potencia na análise automática de textos; a concesión do proxecto SALSA, unha Proof of Concept Grant tamén do ERC para a explotación industrial de resultados; a recente posta en marcha do proxecto GAUSS, unha Marie Skłodowska-Curie Action (MSCA) sobre coaching gramatical que se prolongará ata 2024 ou a súa participación nun proxecto do Banco Mundial para o desenvolvemento do PLN en Uzbekistán .

DEIXAR UNHA RESPOSTA

Please enter your comment!
POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.

Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.