Xoves 18 Abril 2024

“A computação reforça as teses de Carvalho Calero sobre o galego”

Unha investigación do informático Jose Ramom Pichel sobre a distancia entre linguas estuda a evolución do galego respecto ao portugués e o español

Desde hai anos, e en maior medida desde a xeneralización das tecnoloxías da comunicación, as tecnoloxías lingüísticas xogan un papel esencial á hora de facer a rede máis accesible á cidadanía. Sistemas como a tradución automática son posibles grazas ao procesamento de enormes cantidades de texto en distintas linguas, e permiten achegar boa parte do coñecemento xerado noutros idiomas a moitas persoas no mundo. Nesta disciplina xurdiu hai xa 23 anos, da man de estudantes da Facultade de Informática da Universidade da Coruña, imaxin|software, unha empresa especializada no desenvolvemento de tecnoloxías da linguaxe aplicadas á comunicación e a educación, e artífice da creación de ferramentas como o tradutor Gaio da Xunta de Galicia.

Un dos impulsores de imaxin, Jose Ramom Pichel Campos, acaba de presentar na Universidade do País Vasco (UPV) a súa tese de doutoramento, na que presenta unha nova metodoloxía para calcular de forma automática a distancia entre linguas na actualidade e tamén historicamente, tendo en conta tamén o papel que xoga nesta distancia a ortografía. A tese foi dirixida por Iñaki Alegría, da EHU/UPV, e Paulo Gamalho, vicedecano na Facultade de Filoloxía e experto en lingüística computacional no Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS) da Universidade de Santiago de Compostela.

Publicidade

Pichel lembra que “quando começamos a investigar sobre tradução automática observei como a distância entre línguas parecia ter relação com a qualidade final da tradução. Foi então quando o comentei com o Paulo Gamalho, que é experto no processamento da linguagem natural, e saiu a idea de desenvolver a tese; queríamos saber se era possível calcular automaticamente a distância entre línguas, e ver que papel jogaba a ortografia nessa distância”, explica o informático.

“Queríamos saber se era possível calcular automaticamente a distância entre línguas, e ver que papel jogaba a ortografia nessa distância”, explica Pichel

Durante os seus anos de traballo en imaxin, Pichel xa viña detectando que os sistemas de tradución automática tiñan aínda unha importante marxe para a mellora e, sobre todo, achegaban detalles salientables que evidenciaban a proximidade do galego co portugués: “Vimos que anos depois de termos iniciado em imaxin a construção de tradutores estatísticos para o galego desde corpora portugueses, essa estrategia era também utilizada por Google Translate. O resultado era que na tradução ao galego, eram gerados textos com toponímia portuguesa ou brasileira quando no texto original a toponímia era galega. Também vimos, e ainda podemos ver, como nos identificadores automáticos de idioma como o de Twitter, o galego pode ser identificado quer como português, quer como galego ou mesmo como castelhano” lembra o investigador.

“A partir destes indícios, começámos a procurar uma métrica que puidesse valer para identificar automaticamente línguas e ver se podia medir também distâncias entre elas”, explica Pichel. Finalmente a métrica da perplexidade foi a escollida, sendo unha medida que permite avaliar, no caso do procesamento da linguaxe natural, a calidade dos modelos da linguaxe. Desde esta métrica, Gamalho e Pichel iniciaron un traballo que se foi publicando nos últimos anos en diversos artigos en revistas internacionais de prestíxio como Physica no que é descrito un mapa das distancias entre as linguas que se falan en Europa.

“A minha tese parte de preguntar-se se esta distáncia também se pode medir através da história interna de cada língua e em relação também a outras”, continúa o autor da investigación. Así este método baseado en corpus lingüísticos e perplexidade foi aplicado a un corpus histórico chamado Carvalho que contén textos escritos en inglés, portugués e castelán. Este artigo foi publicado na Natural Language Engineering da Universidade Cambridge onde é descrita a historia do portugués, inglés e castelán de forma automática.

O método tamén foi utilizado, ademais da evolución histórica das tres linguas mencionadas, para cuantificar a distancia actual entre 44 linguas europeas, entre variedades do portugués europeo e do Brasil e do español europeo e da Arxentina. E os resultados son salientables.

“O galego de Rosalía estaba mais perto do espanhol do que o galego de hoje”

Con respecto a historia do galego o nosso método mostra que “o galego da segunda metade do metade do século XX, no que escrevia Rosalía, tem a maior distância com respeito o galego medieval.  No entanto, desde o início do século XX até ao fim, o galego escrito, ao contrário do que poda parecer, está mais próximo do medieval. A vontade de ter um padrão galego à altura do resto de variedades româncias e o papel desempenhado polo português na construção do padrão têm muito a ver com isto.”

Posteriormente se calculamos a distancia histórica do galego con respecto o portugués e o castelán, Pichel comenta que “uma observação associada a estes cálculos de distância, é que no século XIX o galego está mais próximo do espanhol do que do português, e que a ortografia indistinguível da castelhana ainda realça esta maior proximidade com o espanhol e o distanciamento com o português.”

As teses de Carvalho Calero

Esta relación histórica entre galego, portugués e castelán, que foi publicada nun artigo publicado na prestixiosa revista Journal of Quantitative Linguistics, tivo entre outras conclusións que “de usarem galego, portugués e castelhano na segunda metade do século XX a mesma ortografia, o galego tería com o português e com castelhano distancias parecidas às que existem entre o bósnio e o croata”.

Este escenario levou ao investigador a repensar, a medida que avanzaba na investigación, ás teses de Ricardo Carvalho Calero, homenaxeado neste 2020 pola Real Academia Galega no Día das Letras. “El dizia que ‘o galego ou é galego-português ou é galego-castelhano. Ou somos umha forma do sistema ocidental ou somos umha forma do sistema central. Nom há outra alternativa’; eu entendía isso como, “ou imos para um lado, ou para o outro, mas também a sua reflexão vai além disto: a distáncia e tão pequena entre galego com respeito ao português e também o castelhano que a ortografia é a barreira principal de distanciamento a respeito do português e portanto proximidade com o espanhol”. Neste mesmo traballo, e como xa constataban investigacións anteriores, Pichel, Gamalho e Alegría constataron, xunto a Marco Neves, da Universidade Nova de Lisboa, que a distancia entre o portugués e o español é, ao mesmo tempo, unha das menores entre as variedades românicas de línguas.

“O método -explica Pichel- serve também para gerar novos dados sobre hipóteses controversas sobre a evolucão das línguas”. Lembra, por exemplo, “que as mudanças na ortografia do espanhol afectarom indirectamente ao galego. Por exemplo, o castelhano de Dom Quixote tem uma ortografia muito diferente à actual com “ss” ou “ç”. Mas quando o espanhol mudou a sua ortografia no século XVIII, isto acabou por afectar ao galego que volta a ser escrito de forma maciça no século XIX. Se o castelhano não mudasse a sua ortografia, hoje no galego que aprendemos nas escolas escreveriamos com “ç” e “ss”, aproximando-nos talvez mais ao português, questão que poderia ser medida com o nosso método”, reflexiona Pichel.

A tese de Jose Ramom Pichel, presentada na UPV o pasado 29 de outubro, obtivo cualificación de “Sobresaliente Cum laude coa opción a premio extraordinario”, e os resultados foron publicados, entre outras revistas e congresos, na Natural Language Engineering, no Journal of Quantitative Linguistics e na Linguamatica entre outras.

Ademais dos resultados mencionados sobre galego, portugués e español, a investigación verificou mediante datos outras hipóteses cualitativas xa apuntadas pola lingüística histórica de clasificación de linguas actual e histórica. Tamén foron xeradas novas observacións sobre converxencia e diverxencia histórica entre linguas ou sobre hipóteses controvertidas de filiación entre linguas, como é a relación entre eúscaro e o xeorxiano, unha lingua non-indoeuropea da familia kartveliana do Cáucaso.


Referencia: A Methodology to Measure the Diachronic Language Distance between Three Languages Based on Perplexity (Publicado en Journal of Quantitative Linguistics).

DEIXAR UNHA RESPOSTA

Please enter your comment!
Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.

Relacionadas

00:05:35

É a intelixencia artificial unha ameaza para a humanidade?

O frenesí dos últimos anos leva a moitos a preguntarse polo verdadeiro alcance dunha revolución con riscos, pero con moitos beneficios se se seguen as normas
00:03:49

F de Fala: as palabras que nos sosteñen

'Veiga', 'laverca' e 'Rábade' son palabras que herdamos de linguas perromanas, xermanas e árabes e que hoxe forman parte do léxico galego

Unha campaña de doazón de voz recollerá as variedades fonéticas e dialectais de Galicia

O obxectivo é acadar as máis de 1.000 horas de gravación precisas para que dispositivos como Siri, Alexa ou Google recoñezan as distintas cadencias lingüísticas

As 10 palabras do Nadal en galego que debes saber

Existen moitas expresións para referirnos aos enfeites, as tradicións ou o tempo. Descúbreas e engádeas ao teu vocabulario