Venres 29 Marzo 2024

O galego, forte en computación con 600.000 palabras indexadas

Lematizar soa raro. Pero é básico para que traballen os buscadores de internet ou os tradutores automáticos. Significa, en lingüística, atopar o lema dunha palabra, a súa base fronte ás formas conxugadas. Por exemplo, o infinitivo “falar” é o lema de “falei” ou “falásemos”. Para resumir, o lema é o xeito básico como calquera término aparece nun diccionario.

Por iso lematizar é tan importante en computación. Porque é o xeito como un programa identifica qué palabra estamos a escribir. E, empregando un análise sintáctico, pode diferenciar dúas que se escriban igual. E comprender que en “ama de chaves” e en “Xan ama a Carmiña”, a palabra “ama” non significa o mesmo: unha é un sustantivo e a outra, o verbo amar.

Publicidade

E como está o galego neste proceso de lematizar? A resposta é que sano e robusto. Así o asegura a investigadora Eva Domínguez Noya, da Universidade de Santiago, na súa tese de doutoramento  ‘Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA’. E conclúe que a lingua de Galicia atópase  “na vangarda da lingüística computacional”.

A tese revela datos significativos: o galego posúe un etiquetador morfolóxico automático estatístico de alta precisión, cuxa taxa de acerto se sitúa no 96%, e un corpus etiquetado morfolóxicamente de case 600.000 unidades cun sistema de recuperación de información flexible e cómodo.

Etiquetador/Lematizador do Galego

No Centro Ramón Piñeiro para a Investigación en Humanidades o catedrático de Lingüística española da USC Guillermo Rojo dirixe un proxecto multidisciplinar cuxo obxectivo é facilitar a recuperación de información do Corpus de Referencia do Galego Actual (CORGA), ademais de por forma ortográfica, por etiqueta morfosintáctica e lema. Resultado dese proxecto é a ferramenta creada especificamente para o galego denominada Etiquetador/Lematizador do Galego Actual (XIADA).

‘Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA’ estivo codirixida polo profesor do Departamento de Lingua Española da USC Guillermo Rojo e a profesora do Departamento de Filoloxía Galega M.ª Sol López Martínez. O traballo, que acadou a cualificación de Sobresaliente cum laude, xulgouna un tribunal presidido pola catedrática de Filoloxía Galega Rosario Álvarez Blanco e composto ademais polos profesores Mª Paula Santalla del Río, da USC; Jorge Graña Gil, da Universidade da Coruña; María Taulé Delor, da Universidade de Barcelona; e María Inês Pedrosa da Silva Duarte, da de Lisboa.

DEIXAR UNHA RESPOSTA

Please enter your comment!
Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.

Relacionadas

00:03:49

F de Fala: as palabras que nos sosteñen

'Veiga', 'laverca' e 'Rábade' son palabras que herdamos de linguas perromanas, xermanas e árabes e que hoxe forman parte do léxico galego

Unha campaña de doazón de voz recollerá as variedades fonéticas e dialectais de Galicia

O obxectivo é acadar as máis de 1.000 horas de gravación precisas para que dispositivos como Siri, Alexa ou Google recoñezan as distintas cadencias lingüísticas

As 10 palabras do Nadal en galego que debes saber

Existen moitas expresións para referirnos aos enfeites, as tradicións ou o tempo. Descúbreas e engádeas ao teu vocabulario

Máis xornalismo e máis divulgación

Editorial de Gciencia polo seu décimo aniversario