Venres 19 Abril 2024

“Ola, Cabuxa”: así é o Chat GPT galego que deseñan na Coruña

Un equipo do CITIC crea un asistente conversacional para loitar contra a infrarrepresentación dalgunhas linguas na internet

Ola, Cabuxa. Cóntasme un chiste? Esta é unha das múltiples interaccións ás que pode responder Cabuxa, un asistente conversacional que funciona de maneira semellante a Chat GPT, pero con dúas características diferenciadoras: fala galego e é de código aberto. “Decatámonos de que hai moitos idiomas infrarrepresentados na intelixencia artificial. Por iso creamos Cabuxa; un modelo piloto que puidese falar galego”, explica Eliseo Bao, un dos creadores do sistema e investigador do Centro de Investigación en TIC (CITIC) da Universidade da Coruña (UDC). Bao e os seus compañeiros Anxo Pérez, Javier Parapar e Álvaro Barreiro deseñaron Cabuxa partindo dunha serie de datos e recursos limitados, en comparación cos que usan os grandes modelos como Chat GPT. O resultado do seu experimento é que Cabuxa non só funciona, senón que está en código aberto para que calquera poida adestrar e probar este asistente conversacional.

Segundo explica Bao, non deseñaron Cabuxa dende cero, senón que probaron un modelo base que eles mesmos adestraron para que puidera falar galego nun contexto conversacional. De igual modo, e a diferenza de Chat GPT —operado pola compañía Open AI—, Cabuxa funciona con código aberto. “Estamos comprometidos co open source. Neste modelo tes acceso a todo, podes modificar o que queiras e, sobre todo, aprender. O código aberto favorece a transparencia. A longo prazo, estes sistemas poden ser máis confiables porque son transparentes dende o minuto 0″, explica Bao. Por este motivo, o equipo do CITIC publicou as notas de traballo e o código para que Cabuxa poida ser replicado por quen queira; ou ben para que este modelo se aplique a outros idiomas.

Publicidade

Opcións de mellora

O asistente conversacional en galego naceu como experimento. E aínda que hoxe en día xa se pode usar, o equipo do CITIC quere introducir melloras que eleven Cabuxa a un novo nivel. Unha das ideas a futuro é aumentar a cantidade de datos cos que traballa o modelo. A día de hoxe non só son limitados, senón que están traducidos automaticamente do inglés sen pasar antes por un filtro humano. Ademais, segundo sostén Bao, barallan a posibilidade de probar outros modelos base. “A idea é que as sucesivas iteracións sexan accesibles para quen queira usar Cabuxa”, di Bao. Desta maneira, o modelo estará aberto ao público pero cunhas funcionalidades moi parecidas ás de Chat GPT. É dicir, pódese manter unha conversación e obter unha resposta. Iso si, “coas limitacións obvias” dun modelo adestrado con recursos e datos limitados.

Outro dos puntos nos que o equipo do CITIC prevé investigar é a similitude lingüística entre o galego e o portugués. “Non temos ningún estudo feito pero gustaríanos descubrir se aprender portugués lle axuda ao modelo a aprender despois galego”, apunta Bao. Isto lembra aos primeiros pasos de Chat GPT, que ao escribirlle en lingua galega respondía automaticamente en portugués porque detectaba que eran o mesmo idioma. Os investigadores do CITIC pretenden corroborar isto en Cabuxa e levar a cabo un experimento científico que demostre —ou refute— que aprender portugués, cun corpus lingüístico moito máis amplo na internet, pode ser un factor beneficioso para o galego. “De momento isto é unha proba piloto moi inicial e non temos experimentos feitos”, recalca Bao.

Por que Cabuxa?

O modelo deseñado polos investigadores do CITIC non só conversa en galego, senón que ten un nome que remarca a súa forte identidade cultural. En realidade, a idea da súa denominación partiu tamén do modelo base, ao que lle chaman Llama. Este sistema replicárono dende a Universidade de Standford, chamándolle Alpaca. “Quixemos darlle un toque noso pero mantendo certa continuidade co tipo de animal”, di Bao, explicando o motivo polo que o modelo galego leva Cabuxa por nome. Unha liña de pensamento que concorda co obxectivo principal do proxecto: loitar contra a infrarrepresentación do galego na internet. “Para este tipo de modelos necesitas un volume de datos moi grande e en moitas linguas, como a galega, non existen estes data sets tan amplos, por iso quedan atrás”, apunta Bao. Dende o CITIC están poñendo o seu gran de area para que a situación real non se traslade, polo menos totalmente, ao mundo dixital.

Laura Filloy
Laura Filloy
Xornalista científica pola Universidade Carlos III de Madrid. Comezou a súa andaina profesional no Faro de Vigo. Con experiencia en comunicación institucional a través de Médicos sen Fronteiras e a Deputación de Pontevedra, meteuse de cheo na divulgación científica na Axencia EFE. Dende 2021 en Gciencia, onde segue a cultivar a súa paixón pola ciencia.

3 COMENTÁRIOS

  1. Bo día:

    Nova interesante, pero onde se pode interactuar con “Cabuxa”?. Non hai ningún enlace na publicación, nin na páxina do CITIC. Xa podían facer colaboración con nos.gal e poñelo acesible para recadar datos e melloralo asistente.

    Open-assitant, https://open-assistant.io/gl/bye, estivo recollendo información en galego sobre as iteraccións cunha IA.

  2. É curiosa a frase de presentación; kabusha, ou yabushka, son substantivos rusos que distinguen entre mozas; respectables ou non, segundo o entendemento destes.

DEIXAR UNHA RESPOSTA

Please enter your comment!
Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.

Relacionadas

Un equipo da UDC patenta un sistema pioneiro que mide a postura vertebral en tempo real

Investigadores do CITENI crean unha tecnoloxía non invasiva e de baixo custo para mellorar o diagnóstico e tratamento das doenzas da columna

Si, pódese crear acuarela con bacterias: a UDC impulsa a divulgación a través da arte

CICAGallery estrea a súa primeira edición con cinco artistas que convivirán con distintos grupos de investigación da universidade

Como medir as estrelas para revelar os misterios da Vía Láctea

Os investigadores do CITIC Xabier Pérez e Lara Pallas participan na misión Gaia, que pretende crear o maior mapa 3D da nosa galaxia

Unha científica galega secuenciará o xenoma da ‘herba de namorar’

A especie 'Armeria pungens' está presente nas illas Cíes, o único lugar de Galicia onde se pode atopar