A ferramenta poderá ser empregada por estudantes de galego e portugués. Foto: Santi Alvite.

XeraWord: a nova ferramenta de xeración automática de galego e portugués

A iniciativa da USC e do Instituto da Lingua Galega baséase na tradución automática de léxico da base de datos do idioma inglés WordNet

A ferramenta piloto de xeración automática da frase nominal simple en galego e portugués XeraWord xa está dispoñible na páxina web do Instituto de Lingua Galega (ILG). Elaborada no marco dun proxecto dirixido pola profesora da USC, María José Domínguez Vázquez, XeraWord baséase na tradución automática de léxico extraído da base de datos do idioma inglés WordNet.

Para o desenvolvemento deste simulador foron deseñados unha ferramenta de tradución do caudal léxico paradigmático a partir dos datos extraídos de xeito automático do WordNet, así como un flexionador nominal. O prototipo recorre á integración de datos lingüísticos e á interoperabilidade entre recursos xa existentes. Como prototipo xera datos para cinco substantivos en galego e portugués, en concreto: gl. aumento | pt. aumento, gl. discusión | pt. discussão, gl. fuxida | pt. fuga, gl. olor | pt. cheiro e gl. presenza | pt. presença.

“A escolla destes cinco substantivos xustifícase polo seu papel de representantes de diferentes escenas cognitivas ou campos semánticos”, explica a profesora Domínguez. Este prototipo senta as bases para o futuro desenvolvemento de ferramentas de xeración argumental máis complexas.

O prototipo senta as bases para futuras ferramentas máis complexas

A ampliación das unidades analizadas polo xerador permitirá o seu uso por parte de estudantes de galego e portugués como linguas estranxeiras ou segundas linguas. No seu estado actual, XeraWord presenta unha metodoloxía de análise que pode ser extrapolada a outras linguas e recursos.

“Unha vez seleccionada a lingua e o substantivo, o acceso aos datos é de carácter onomasiolóxico, de modo que podemos obter información sobre as diferentes realizacións argumentais dunha categoría ontolóxica, como, por exemplo, [humano], [lugar] ou [evento]”, explican dende o equipo investigador. Realizada a escolla, o recurso mostra as diferentes realizacións da categoría semántica. Aplicando a selección e premendo en xerar frases, a ferramenta xera datos de combinatoria simple argumental. Asemade, os datos poden ser descargados en formato CSV e JSON. Isto permite a súa integración e reutilización noutros recursos.

DEIXAR UNHA RESPOSTA

Please enter your comment!
POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.

Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.