Desde hai anos, e en maior medida desde a xeneralización das tecnoloxías da comunicación, as tecnoloxías lingüísticas xogan un papel esencial á hora de facer a rede máis accesible á cidadanía. Sistemas como a tradución automática son posibles grazas ao procesamento de enormes cantidades de texto en distintas linguas, e permiten achegar boa parte do coñecemento xerado noutros idiomas a moitas persoas no mundo. Nesta disciplina xurdiu hai xa 23 anos, da man de estudantes da Facultade de Informática da Universidade da Coruña, imaxin|software, unha empresa especializada no desenvolvemento de tecnoloxías da linguaxe aplicadas á comunicación e a educación, e artífice da creación de ferramentas como o tradutor Gaio da Xunta de Galicia.
Un dos impulsores de imaxin, Jose Ramom Pichel Campos, acaba de presentar na Universidade do País Vasco (UPV) a súa tese de doutoramento, na que presenta unha nova metodoloxía para calcular de forma automática a distancia entre linguas na actualidade e tamén historicamente, tendo en conta tamén o papel que xoga nesta distancia a ortografía. A tese foi dirixida por Iñaki Alegría, da EHU/UPV, e Paulo Gamalho, vicedecano na Facultade de Filoloxía e experto en lingüística computacional no Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS) da Universidade de Santiago de Compostela.
Pichel lembra que “quando começamos a investigar sobre tradução automática observei como a distância entre línguas parecia ter relação com a qualidade final da tradução. Foi então quando o comentei com o Paulo Gamalho, que é experto no processamento da linguagem natural, e saiu a idea de desenvolver a tese; queríamos saber se era possível calcular automaticamente a distância entre línguas, e ver que papel jogaba a ortografia nessa distância”, explica o informático.
“Queríamos saber se era possível calcular automaticamente a distância entre línguas, e ver que papel jogaba a ortografia nessa distância”, explica Pichel
Durante os seus anos de traballo en imaxin, Pichel xa viña detectando que os sistemas de tradución automática tiñan aínda unha importante marxe para a mellora e, sobre todo, achegaban detalles salientables que evidenciaban a proximidade do galego co portugués: “Vimos que anos depois de termos iniciado em imaxin a construção de tradutores estatísticos para o galego desde corpora portugueses, essa estrategia era também utilizada por Google Translate. O resultado era que na tradução ao galego, eram gerados textos com toponímia portuguesa ou brasileira quando no texto original a toponímia era galega. Também vimos, e ainda podemos ver, como nos identificadores automáticos de idioma como o de Twitter, o galego pode ser identificado quer como português, quer como galego ou mesmo como castelhano” lembra o investigador.
“A partir destes indícios, começámos a procurar uma métrica que puidesse valer para identificar automaticamente línguas e ver se podia medir também distâncias entre elas”, explica Pichel. Finalmente a métrica da perplexidade foi a escollida, sendo unha medida que permite avaliar, no caso do procesamento da linguaxe natural, a calidade dos modelos da linguaxe. Desde esta métrica, Gamalho e Pichel iniciaron un traballo que se foi publicando nos últimos anos en diversos artigos en revistas internacionais de prestíxio como Physica no que é descrito un mapa das distancias entre as linguas que se falan en Europa.
“A minha tese parte de preguntar-se se esta distáncia também se pode medir através da história interna de cada língua e em relação também a outras”, continúa o autor da investigación. Así este método baseado en corpus lingüísticos e perplexidade foi aplicado a un corpus histórico chamado Carvalho que contén textos escritos en inglés, portugués e castelán. Este artigo foi publicado na Natural Language Engineering da Universidade Cambridge onde é descrita a historia do portugués, inglés e castelán de forma automática.
O método tamén foi utilizado, ademais da evolución histórica das tres linguas mencionadas, para cuantificar a distancia actual entre 44 linguas europeas, entre variedades do portugués europeo e do Brasil e do español europeo e da Arxentina. E os resultados son salientables.
“O galego de Rosalía estaba mais perto do espanhol do que o galego de hoje”
Con respecto a historia do galego o nosso método mostra que “o galego da segunda metade do metade do século XX, no que escrevia Rosalía, tem a maior distância com respeito o galego medieval. No entanto, desde o início do século XX até ao fim, o galego escrito, ao contrário do que poda parecer, está mais próximo do medieval. A vontade de ter um padrão galego à altura do resto de variedades româncias e o papel desempenhado polo português na construção do padrão têm muito a ver com isto.”
Posteriormente se calculamos a distancia histórica do galego con respecto o portugués e o castelán, Pichel comenta que “uma observação associada a estes cálculos de distância, é que no século XIX o galego está mais próximo do espanhol do que do português, e que a ortografia indistinguível da castelhana ainda realça esta maior proximidade com o espanhol e o distanciamento com o português.”
As teses de Carvalho Calero
Esta relación histórica entre galego, portugués e castelán, que foi publicada nun artigo publicado na prestixiosa revista Journal of Quantitative Linguistics, tivo entre outras conclusións que “de usarem galego, portugués e castelhano na segunda metade do século XX a mesma ortografia, o galego tería com o português e com castelhano distancias parecidas às que existem entre o bósnio e o croata”.
Este escenario levou ao investigador a repensar, a medida que avanzaba na investigación, ás teses de Ricardo Carvalho Calero, homenaxeado neste 2020 pola Real Academia Galega no Día das Letras. “El dizia que ‘o galego ou é galego-português ou é galego-castelhano. Ou somos umha forma do sistema ocidental ou somos umha forma do sistema central. Nom há outra alternativa’; eu entendía isso como, “ou imos para um lado, ou para o outro, mas também a sua reflexão vai além disto: a distáncia e tão pequena entre galego com respeito ao português e também o castelhano que a ortografia é a barreira principal de distanciamento a respeito do português e portanto proximidade com o espanhol”. Neste mesmo traballo, e como xa constataban investigacións anteriores, Pichel, Gamalho e Alegría constataron, xunto a Marco Neves, da Universidade Nova de Lisboa, que a distancia entre o portugués e o español é, ao mesmo tempo, unha das menores entre as variedades românicas de línguas.
“O método -explica Pichel- serve também para gerar novos dados sobre hipóteses controversas sobre a evolucão das línguas”. Lembra, por exemplo, “que as mudanças na ortografia do espanhol afectarom indirectamente ao galego. Por exemplo, o castelhano de Dom Quixote tem uma ortografia muito diferente à actual com “ss” ou “ç”. Mas quando o espanhol mudou a sua ortografia no século XVIII, isto acabou por afectar ao galego que volta a ser escrito de forma maciça no século XIX. Se o castelhano não mudasse a sua ortografia, hoje no galego que aprendemos nas escolas escreveriamos com “ç” e “ss”, aproximando-nos talvez mais ao português, questão que poderia ser medida com o nosso método”, reflexiona Pichel.
A tese de Jose Ramom Pichel, presentada na UPV o pasado 29 de outubro, obtivo cualificación de “Sobresaliente Cum laude coa opción a premio extraordinario”, e os resultados foron publicados, entre outras revistas e congresos, na Natural Language Engineering, no Journal of Quantitative Linguistics e na Linguamatica entre outras.
Ademais dos resultados mencionados sobre galego, portugués e español, a investigación verificou mediante datos outras hipóteses cualitativas xa apuntadas pola lingüística histórica de clasificación de linguas actual e histórica. Tamén foron xeradas novas observacións sobre converxencia e diverxencia histórica entre linguas ou sobre hipóteses controvertidas de filiación entre linguas, como é a relación entre eúscaro e o xeorxiano, unha lingua non-indoeuropea da familia kartveliana do Cáucaso.
Referencia: A Methodology to Measure the Diachronic Language Distance between Three Languages Based on Perplexity (Publicado en Journal of Quantitative Linguistics).