O galego, forte en computación con 600.000 palabras indexadas

Lematizar soa raro. Pero é básico para que traballen os buscadores de internet ou os tradutores automáticos. Significa, en lingüística, atopar o lema dunha palabra, a súa base fronte ás formas conxugadas. Por exemplo, o infinitivo “falar” é o lema de “falei” ou “falásemos”. Para resumir, o lema é o xeito básico como calquera término aparece nun diccionario.

Por iso lematizar é tan importante en computación. Porque é o xeito como un programa identifica qué palabra estamos a escribir. E, empregando un análise sintáctico, pode diferenciar dúas que se escriban igual. E comprender que en “ama de chaves” e en “Xan ama a Carmiña”, a palabra “ama” non significa o mesmo: unha é un sustantivo e a outra, o verbo amar.

Publicidade

E como está o galego neste proceso de lematizar? A resposta é que sano e robusto. Así o asegura a investigadora Eva Domínguez Noya, da Universidade de Santiago, na súa tese de doutoramento  ‘Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA’. E conclúe que a lingua de Galicia atópase  “na vangarda da lingüística computacional”.

A tese revela datos significativos: o galego posúe un etiquetador morfolóxico automático estatístico de alta precisión, cuxa taxa de acerto se sitúa no 96%, e un corpus etiquetado morfolóxicamente de case 600.000 unidades cun sistema de recuperación de información flexible e cómodo.

Publicidade

Etiquetador/Lematizador do Galego

No Centro Ramón Piñeiro para a Investigación en Humanidades o catedrático de Lingüística española da USC Guillermo Rojo dirixe un proxecto multidisciplinar cuxo obxectivo é facilitar a recuperación de información do Corpus de Referencia do Galego Actual (CORGA), ademais de por forma ortográfica, por etiqueta morfosintáctica e lema. Resultado dese proxecto é a ferramenta creada especificamente para o galego denominada Etiquetador/Lematizador do Galego Actual (XIADA).

‘Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA’ estivo codirixida polo profesor do Departamento de Lingua Española da USC Guillermo Rojo e a profesora do Departamento de Filoloxía Galega M.ª Sol López Martínez. O traballo, que acadou a cualificación de Sobresaliente cum laude, xulgouna un tribunal presidido pola catedrática de Filoloxía Galega Rosario Álvarez Blanco e composto ademais polos profesores Mª Paula Santalla del Río, da USC; Jorge Graña Gil, da Universidade da Coruña; María Taulé Delor, da Universidade de Barcelona; e María Inês Pedrosa da Silva Duarte, da de Lisboa.

DEIXAR UNHA RESPOSTA

Please enter your comment!
Please enter your name here

Este sitio usa Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.

Relacionadas

GCiencia xa se pode engadir como fonte preferida en Google: como ver máis ciencia galega nas túas buscas

O buscador permite agora que o xornalismo científico de calidade gañe peso fronte aos medios xenéricos nos teus resultados

Entre o “Teño, teño” e o “Carallo!”: a linguaxe da dor en Galicia (e en galego)

Dous documentos testemuñais de finais do século XX recompilan as expresións populares empregadas por pacientes para describir o seu malestar

Froallo, xistra ou trebón: estas son as 100 palabras en galego para falar da chuvia

A filóloga Elvira Fidalgo documentou unha ampla variedade de denominacións rexistradas en máis dun cento de localidades do noroeste peninsular

Máis do 70% do profesorado de matemáticas impartiría a materia en galego se puidese escoller

Unha investigación da RAG analiza as repercusións do Decreto 79/2010, que prohibe impartir en secundaria algunhas disciplinas científicas na lingua propia