Ola, Cabuxa. Cóntasme un chiste? Esta é unha das múltiples interaccións ás que pode responder Cabuxa, un asistente conversacional que funciona de maneira semellante a Chat GPT, pero con dúas características diferenciadoras: fala galego e é de código aberto. “Decatámonos de que hai moitos idiomas infrarrepresentados na intelixencia artificial. Por iso creamos Cabuxa; un modelo piloto que puidese falar galego”, explica Eliseo Bao, un dos creadores do sistema e investigador do Centro de Investigación en TIC (CITIC) da Universidade da Coruña (UDC). Bao e os seus compañeiros Anxo Pérez, Javier Parapar e Álvaro Barreiro deseñaron Cabuxa partindo dunha serie de datos e recursos limitados, en comparación cos que usan os grandes modelos como Chat GPT. O resultado do seu experimento é que Cabuxa non só funciona, senón que está en código aberto para que calquera poida adestrar e probar este asistente conversacional.
Segundo explica Bao, non deseñaron Cabuxa dende cero, senón que probaron un modelo base que eles mesmos adestraron para que puidera falar galego nun contexto conversacional. De igual modo, e a diferenza de Chat GPT —operado pola compañía Open AI—, Cabuxa funciona con código aberto. “Estamos comprometidos co open source. Neste modelo tes acceso a todo, podes modificar o que queiras e, sobre todo, aprender. O código aberto favorece a transparencia. A longo prazo, estes sistemas poden ser máis confiables porque son transparentes dende o minuto 0″, explica Bao. Por este motivo, o equipo do CITIC publicou as notas de traballo e o código para que Cabuxa poida ser replicado por quen queira; ou ben para que este modelo se aplique a outros idiomas.
Opcións de mellora
O asistente conversacional en galego naceu como experimento. E aínda que hoxe en día xa se pode usar, o equipo do CITIC quere introducir melloras que eleven Cabuxa a un novo nivel. Unha das ideas a futuro é aumentar a cantidade de datos cos que traballa o modelo. A día de hoxe non só son limitados, senón que están traducidos automaticamente do inglés sen pasar antes por un filtro humano. Ademais, segundo sostén Bao, barallan a posibilidade de probar outros modelos base. “A idea é que as sucesivas iteracións sexan accesibles para quen queira usar Cabuxa”, di Bao. Desta maneira, o modelo estará aberto ao público pero cunhas funcionalidades moi parecidas ás de Chat GPT. É dicir, pódese manter unha conversación e obter unha resposta. Iso si, “coas limitacións obvias” dun modelo adestrado con recursos e datos limitados.
Outro dos puntos nos que o equipo do CITIC prevé investigar é a similitude lingüística entre o galego e o portugués. “Non temos ningún estudo feito pero gustaríanos descubrir se aprender portugués lle axuda ao modelo a aprender despois galego”, apunta Bao. Isto lembra aos primeiros pasos de Chat GPT, que ao escribirlle en lingua galega respondía automaticamente en portugués porque detectaba que eran o mesmo idioma. Os investigadores do CITIC pretenden corroborar isto en Cabuxa e levar a cabo un experimento científico que demostre —ou refute— que aprender portugués, cun corpus lingüístico moito máis amplo na internet, pode ser un factor beneficioso para o galego. “De momento isto é unha proba piloto moi inicial e non temos experimentos feitos”, recalca Bao.
Por que Cabuxa?
O modelo deseñado polos investigadores do CITIC non só conversa en galego, senón que ten un nome que remarca a súa forte identidade cultural. En realidade, a idea da súa denominación partiu tamén do modelo base, ao que lle chaman Llama. Este sistema replicárono dende a Universidade de Standford, chamándolle Alpaca. “Quixemos darlle un toque noso pero mantendo certa continuidade co tipo de animal”, di Bao, explicando o motivo polo que o modelo galego leva Cabuxa por nome. Unha liña de pensamento que concorda co obxectivo principal do proxecto: loitar contra a infrarrepresentación do galego na internet. “Para este tipo de modelos necesitas un volume de datos moi grande e en moitas linguas, como a galega, non existen estes data sets tan amplos, por iso quedan atrás”, apunta Bao. Dende o CITIC están poñendo o seu gran de area para que a situación real non se traslade, polo menos totalmente, ao mundo dixital.
Bo día:
Nova interesante, pero onde se pode interactuar con “Cabuxa”?. Non hai ningún enlace na publicación, nin na páxina do CITIC. Xa podían facer colaboración con nos.gal e poñelo acesible para recadar datos e melloralo asistente.
Open-assitant, https://open-assistant.io/gl/bye, estivo recollendo información en galego sobre as iteraccións cunha IA.
Xa atopei a resposta nun fío de X:
https://eliseobao.github.io/blog/2023/cabuxa/
É curiosa a frase de presentación; kabusha, ou yabushka, son substantivos rusos que distinguen entre mozas; respectables ou non, segundo o entendemento destes.