Queres axudar ás maquinas a falar en galego? Un proxeto internacional busca o teu apoio

O Proxecto Trasno e máis Common Voice buscan crear unha base de datos na lingua propia de Galicia coa que desenvolver novas tecnoloxías

A intelixencia artificial é un dos grandes avances tecnolóxicos do século XXI.
A intelixencia artificial é un dos grandes avances tecnolóxicos do século XXI.

Nos vindeiros anos, os servizos, produtos e estudos baseados na intelixencia artificial estarán por todas partes e totalmente presentes na vida das persoas. Nese novo escenario marcado pola relación coas novas tecnoloxías as linguas hexemónicas serán as predominantes. Nomedamente, inglés e castelán. Pero para que os usuarios podan interactuar en galego con elas (e como xa ten pasado noutras ocasións ante o inmobilismo institucional) é preciso a colaboración cidadá.

Un asistente de voz, un lector de textos para persoas con necesidades especiais, asistente de condución en automóbil, un mordomo doméstico, un acompañante robótico para a vellez… Son algúns dos exemplos nos que o galego pode e ten que estar presente. Para responder a esta necesidade a Fundación Mozilla creou o proxecto Common Voice. Unha iniciativa que pretende crear unha tecnoloxía Open Source para que as máquinas que sexan usadas no futuro poidan entender e falar con calquera idioma do mundo. Neste caso, na lingua propia de Galicia.

Os voluntarios de Proxecto Trasno levan moitos anos colaborando coa Fundación Mozilla, desde o seu nacemento no 2003, e froito dese traballo todos os usuarios teñen dispoñible o navegador de Internet Firefox en lingua galega, sempre ao día coa última tecnoloxía da Web. “E como esa moitas outras pezas necesarias para facer presente o noso idioma na rede”, recalcan.

Como colaborar coa galeguización?

“O proxecto consiste en recadar un número importante de frases curtas de uso cotián para que, logo, falantes nativos galegos graven as súas voces interpretando esas frases recadadas. Todas as gravacións serán analizadas por este modelo e farán que as máquinas entendan o noso prezado idioma”, animan dende o Proxecto Trasno. Ao longo do proxecto, explican, calquera persoa pode axudar de diferentes formas: redactar frases orixinais e remitirllas por correo a proxecto@trasno.gal co asunto [CV] Frases para Common Voice; colaborar na revisión das frases que deben estar correctamente escritas; gravar as frases a viva voz, doando a túa voz co teu estilo, sotque, modo e maneira de falar en galego. Agás as propostas, o resto de colaboracións serán canalizadas simplemente a través desta ligazón.

Porén, engaden que hai outras tarefas nas que calquera pode axudar: revisar as gravacións para comprobar que o audio se entende ben e di exactamente o mesmo que o texto correspondente; organizar unha quedada para recoller, revisar ou gravar pola túa conta e incorporarse ao proxecto de maneira directa; difundir a propia iniciativa de Common Voice; aproveitar a materia prima recollida para desenvolver un estudo, produto ou servizo; ou atopar fontes de textos libres en galego ou que poidan ser doados con licenza de dominio público.

Así se pode colaborar coa galeguización das máquinas | Proxecto Trasno

“Estamos na fase inicial do Common Voice en galego e, polo de agora o que necesitamos son máis de 5000 frases orixinais de vós, os e as falantes ou tomadas de fontes diversas”, avisan dende Proxecto Trasno. “É importante que se poidan doar con licenza de dominio público, a máis libre de todas as posibles. É dicir, non se poden extraer nin de libros nin de sitios web a non ser que teñamos permiso dos autores ou propietarios para doalas ao dominio público“, avisan.

Cada frase debe ser revisada por varias persoas, de modo que se garanta a súa corrección e pertinencia en galego. Como xa conseguiron máis de 5.000 frases validadas, abriuse a fase de gravación de son. Durante este proceso seguirán recollendo máis frases pero ao mesmo tempo irán cubrindo o obxectivo de 1.000 horas de fragmentos “que son necesarios para que a intelixencia artificial do DeepSpeech poida crear o modelo de lingua galega creado con intelixencia artificial”.

Antes diso, dúas veces ao ano desde Common Voice irán creándose as coleccións de datos (datasets) que xuntarán os textos e as voces doadas, mantendo sempre o anonimato dos doadores e que permitirán crear xa aplicacións de menores requisitos: sistemas de navegación de automóbil, transcritores de voz a texto (STT) e mesmo os sintetizadores de voz (TTS), sistemas de ensino do idioma oral, dos que tedes exemplos máis abaixo.

1 comentario

  1. Hoxe temos un día murcio.

    Que é o mesmo que dicir: regular tirando a malo.

DEIXAR UNHA RESPOSTA

Please enter your comment!
POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.

Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.