Xoves 25 Abril 2024

XeraWord: a nova ferramenta de xeración automática de galego e portugués

A iniciativa da USC e do Instituto da Lingua Galega baséase na tradución automática de léxico da base de datos do idioma inglés WordNet

A ferramenta piloto de xeración automática da frase nominal simple en galego e portugués XeraWord xa está dispoñible na páxina web do Instituto de Lingua Galega (ILG). Elaborada no marco dun proxecto dirixido pola profesora da USC, María José Domínguez Vázquez, XeraWord baséase na tradución automática de léxico extraído da base de datos do idioma inglés WordNet.

Para o desenvolvemento deste simulador foron deseñados unha ferramenta de tradución do caudal léxico paradigmático a partir dos datos extraídos de xeito automático do WordNet, así como un flexionador nominal. O prototipo recorre á integración de datos lingüísticos e á interoperabilidade entre recursos xa existentes. Como prototipo xera datos para cinco substantivos en galego e portugués, en concreto: gl. aumento | pt. aumento, gl. discusión | pt. discussão, gl. fuxida | pt. fuga, gl. olor | pt. cheiro e gl. presenza | pt. presença.

Publicidade

“A escolla destes cinco substantivos xustifícase polo seu papel de representantes de diferentes escenas cognitivas ou campos semánticos”, explica a profesora Domínguez. Este prototipo senta as bases para o futuro desenvolvemento de ferramentas de xeración argumental máis complexas.

O prototipo senta as bases para futuras ferramentas máis complexas

A ampliación das unidades analizadas polo xerador permitirá o seu uso por parte de estudantes de galego e portugués como linguas estranxeiras ou segundas linguas. No seu estado actual, XeraWord presenta unha metodoloxía de análise que pode ser extrapolada a outras linguas e recursos.

“Unha vez seleccionada a lingua e o substantivo, o acceso aos datos é de carácter onomasiolóxico, de modo que podemos obter información sobre as diferentes realizacións argumentais dunha categoría ontolóxica, como, por exemplo, [humano], [lugar] ou [evento]”, explican dende o equipo investigador. Realizada a escolla, o recurso mostra as diferentes realizacións da categoría semántica. Aplicando a selección e premendo en xerar frases, a ferramenta xera datos de combinatoria simple argumental. Asemade, os datos poden ser descargados en formato CSV e JSON. Isto permite a súa integración e reutilización noutros recursos.

DEIXAR UNHA RESPOSTA

Please enter your comment!
Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.

Relacionadas

Catarreira, friaxe, peleira… As 12 palabras galegas para referirse ao arrefriado

O proxecto ALGa do Instituto da Lingua Galega permite coñecer as variantes léxicas deste estado patolóxico
00:03:49

F de Fala: as palabras que nos sosteñen

'Veiga', 'laverca' e 'Rábade' son palabras que herdamos de linguas perromanas, xermanas e árabes e que hoxe forman parte do léxico galego

A credibilidade na ciencia é menor entre a mocidade que entre o público adulto

Só o 72,6% das persoas de entre 18 e 24 anos cre que as disciplinas científicas buscan a verdade, fronte ao 90,2% da poboación maior de 65 anos

As ‘Cantigas de Santa María’, traducidas por vez primeira ao galego actual

A versión realizada polo Grupo de Románicas da USC estará dispoñible na páxina web do Centro Ramón Piñeiro