modulo-google-translate-prestashop-852x447

Lanzan GalNet, o maior dicionario multilingüe do galego

O Google Translate emprega este recurso de lingüística computacional para traducir textos

O galego conta cun novo recurso de lingüística computacional, o GalNet, a versión galega do WordNet. Investigadores do Seminario de Lingüística Informática da Universidade de Vigo, co profesor Xavier Gómez Guinovart á cabeza, foron os encargados de desenvolver esta ferramenta no marco do proxecto Skater (Scenario Knowledge Acquisition by Textual Reading), no que participaron tamén as universidades do País Vasco, Pompeu Fabra, Barcelona e Politécnica de Cataluña, baixo a coordinación desta última. Trátase dun proxecto con financiamento estatal de tres anos de duración cun orzamento total de 400.000 euros, do que nos vindeiros meses arrancará unha segunda parte. Os seis grupos de investigación implicados desenvolveron seis subproxectos que, no caso de Vigo estivo centrado en desenvolver este novo recurso de lingüística computacional.

Xavier Gómez Guinovart.

Xavier Gómez Guinovart.

Como explica o profesor Guinovart, o GalNet é unha rede léxico semántica para lingua galega, un recurso léxico estándar para todas as aplicacións informáticas que traballan coa linguaxe. “Ten moitas utilidades, pero principalmente é un dicionario electrónico para que os programas que procesan linguaxe sexan capaces de deducir o significado das frases e actuar en consecuencia”. É, por exemplo, o recurso que emprega o Google Translate, como apoio no seu proceso de tradución en calquera das linguas que contan co seu WordNet. O director do Seminario de Lingüística Informática subliña que o tradutor de Google segue un modelo estatístico, de modo que almacena moitas traducións entre dúas linguas e, a partir de aí, deduce as regras que traducen entre unha e outra lingua. “Pero ás veces as inferencias estatísticas non chegan para producir unha tradución aceptable e necesita recorrer a recursos máis precisos como os dicionarios bilingües e, neste caso, o recurso multilingüe seleccionado é o WordNet, porque é o maior dicionario multilingüe tanto en número de linguas como en número de palabras e conceptos”. Ademais, polo formato propio de WordNet, pensado para ser manexado por ordenadores, permite unha utilización moi doada no ámbito da lingüística computacional ou do procesamento da linguaxe natural. Con todo, e a pesar de que está deseñado para ser empregado no eido da intelixencia artificial, “tamén ofrece moitas utilidades para a consulta lexicográfica directa dos seus contidos”.

Na primeira fase do proxecto teñen xa 33.000 conceptos e 50.000 palabras en galego

O WordNet e o GalNet funcionan con conceptos ou sentidos, fronte aos dicionarios tradicionais que o fan con palabras. “Os conceptos almacénanse coas súas relacións semánticas, por iso é unha rede léxico semántica: os nós da rede son conceptos, e os fíos que unen os nós da rede son as relacións semánticas”. A rede inclúe holónimos, merónimos, hiperónimos, hipónimos, palabras relacionadas por outro tipo de relacións semánticas e palabras relacionadas pola súa definición. Por exemplo, o concepto de man ten unha relación semántica co concepto de dedo como parte da man, e iso é así en calquera lingua, de xeito que permite unha navegación intelixente e, posto que o WordNet comprende centos de linguas, xérase unha contorna en rede que o converte no maior dicionario multilingüe do mundo.

O número de conceptos pretendidos para cada lingua no WordNet está arredor dos 150.000, e ese é reto dos investigadores vigueses. Na actualidade, e finalizada a primeira fase do proxecto, teñen cubertos 33.000 conceptos, que inclúen un total de 50.000 palabras. O inglés, que a lingua pioneira nesta ferramenta, conta con 117.000 conceptos cubertos e 206.000 palabras, pero como lembra o profesor Guinovart, cómpre ter en conta que comezaron a traballar neste campo dende a Universidade de Princeton en 1985, mentres que o WordNet do galego arrancou hai apenas tres anos. “Aínda así, con estes 40 anos de diferenza,o galego xa ten unha cuarta parte das palabras que ten o inglés e unha terceira parte dos conceptos”. Dentro do proxecto Skater comezaron tamén a desenvolverse os WordNet do catalán, do euskera, do español e do portugués.

Wordnet é clave para a lingua na informática e foi creado pola Universidade de Princeton

O proxecto inicial do WordNet estaba pensado dende un punto de vista psicolingüístico e o equipo de Princeton que o puxo en marcha pretendía modelar informaticamente a maneira na que os seres humanos procesamos o léxico no cerebro. Co tempo e dada a utilización que se lle foi dando ao WordNet do inglés, acabou converténdose nun proxecto liderado por informáticos e orientado ao procesamento intelixente da linguaxe. Dende o punto de vista humano, pódese empregar como dicionario multilingüe, e no caso do GalNet é maior que a maioría dos dicionarios bilingües que hai para o galego. Como lembra o profesor, “non só podemos ver a a tradución para as cinco linguas mencionadas, senón que a través dos enlaces da ferramenta podemos ver as traducións en WordNet de ducias doutras linguas, algunhas completamente exóticas dende o punto de vista do galego como o tailandés, o persa, o malasio ou o suahili, idiomas para as que non existen dicionarios bilingües coa nosa lingua”. Así, o GalNet constitúese como o mellor dicionario multilingüe do galego, porque é o que enlaza o galego co maior número de linguas e de diferentes familias, avanzando tamén cara a normalización do galego “dunha maneira moi directa”.

Neste sentido Gómez Guinovart destaca que o único recurso semellante é a Wikipedia, pero esta só ten entradas de tipo enciclopédico como nomes propios, batallas, lugares, etc. pero non contén léxico xeral, mentres o WordNet contén todo tipo de léxico, tanto xeral como enciclopédico, conclúe.

Deixar unha resposta

XHTML: Podes empregar estas etiquetas: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.