O Corpus de Referencia do Galego Actual (CORGA) chegou á súa versión 4.1 acadando un total de 45.665.649 palabras ortográficas —54.737.277 elementos gramaticais—, o que supón dous millóns e medio máis de vocábulos que os que incorporaba a versión 4.0, presentada a comezos de 2022. Trátase dun “corpus pequeno pero cunha rica codificación, o cal contrasta con corpus noutras linguas de miles de millóns de palabras construídos a partir de internet, pero cunha escasa codificación”, explica a profesora da Universidade de Santiago (USC) María Sol López Martínez, codirectora do proxecto xunto a Guillermo Rojo, profesor emérito da USC. CORGA está coordinado na súa parte lingüística por Eva María Domínguez Noya e, na súa parte informática, por NLPgo Technologies S.L.
O CORGA é un corpus documental aberto que abrangue cronoloxicamente dende 1975 ata a actualidade, cuxo obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica, discursiva… A súa mellora realízase de xeito continuo no marco do convenio entre o Centro Ramón Piñeiro para a Investigación en Humanidades a través da Secretaría Xeral da Lingua e a Universidade de Santiago de Compostela. Con este corpus é posible, por exemplo, identificar a partir de que ano se empeza a utilizar unha determinada palabra ou cando deixa de empregarse de forma cotián por cambios tecnolóxicos ou sociais, entre outros, ou localizar bibliografía que trate dun determinado tema.
Utilidades innovadoras para o galego
Esta nova versión presenta utilidades innovadoras coma a recuperación de información pola modalidade inventario ou un dicionario de frecuencias que ten en conta o índice de dispersión, co que achega resultados moito máis relevantes sobre a frecuencia do léxico. Así mesmo, facilita o recoñecemento de formas con gheada e seseo e a fai posible realizar estudos variados dende a perspectiva de xénero: tendo en conta o emprego da linguaxe inclusiva non binaria directa, atendendo á discriminación dos resultados en función do sexo da persoa autora ou interlocutora ou habililitando cruzamentos entre o sexo dunha persoa autora e o dos personaxes.
Ademais póñense á disposición da comunidade dúas novas ferramentas no Etiquetador/Lematizador do Galego Actual XIADA. Na sección Demostración, calquera persoa pode etiquetar morfosintacticamente arquivos de texto sen necesidade de instalar programas, sen ter que se rexistrar e sen precisar coñecementos técnicos. Na pestana Flexionador accédese a un flexionador verbal e nominal que proporciona os elementos do paradigma, asociados sempre a unha etiqueta morfosintáctica e con indicacións sobre a súa normatividade. A maiores, o flexionador conéctase co CORGA, de xeito que se poden observar os elementos do paradigma en múltiples contextos reais de uso.
En síntese, indica María Sol López, o sistema CORGA-XIADA “é unha ferramenta potente, flexible, amigable e tamén innovadora, de suma utilidade para extraer datos da lingua galega actual”.