Queres axudar ás maquinas a falar en galego? Un proxeto internacional busca o teu apoio

O Proxecto Trasno e máis Common Voice buscan crear unha base de datos na lingua propia de Galicia coa que desenvolver novas tecnoloxías

Nos vindeiros anos, os servizos, produtos e estudos baseados na intelixencia artificial estarán por todas partes e totalmente presentes na vida das persoas. Nese novo escenario marcado pola relación coas novas tecnoloxías as linguas hexemónicas serán as predominantes. Nomedamente, inglés e castelán. Pero para que os usuarios podan interactuar en galego con elas (e como xa ten pasado noutras ocasións ante o inmobilismo institucional) é preciso a colaboración cidadá.

Un asistente de voz, un lector de textos para persoas con necesidades especiais, asistente de condución en automóbil, un mordomo doméstico, un acompañante robótico para a vellez… Son algúns dos exemplos nos que o galego pode e ten que estar presente. Para responder a esta necesidade a Fundación Mozilla creou o proxecto Common Voice. Unha iniciativa que pretende crear unha tecnoloxía Open Source para que as máquinas que sexan usadas no futuro poidan entender e falar con calquera idioma do mundo. Neste caso, na lingua propia de Galicia.

Publicidade

Os voluntarios de Proxecto Trasno levan moitos anos colaborando coa Fundación Mozilla, desde o seu nacemento no 2003, e froito dese traballo todos os usuarios teñen dispoñible o navegador de Internet Firefox en lingua galega, sempre ao día coa última tecnoloxía da Web. “E como esa moitas outras pezas necesarias para facer presente o noso idioma na rede”, recalcan.

Como colaborar coa galeguización?

“O proxecto consiste en recadar un número importante de frases curtas de uso cotián para que, logo, falantes nativos galegos graven as súas voces interpretando esas frases recadadas. Todas as gravacións serán analizadas por este modelo e farán que as máquinas entendan o noso prezado idioma”, animan dende o Proxecto Trasno. Ao longo do proxecto, explican, calquera persoa pode axudar de diferentes formas: redactar frases orixinais e remitirllas por correo a proxecto@trasno.gal co asunto [CV] Frases para Common Voice; colaborar na revisión das frases que deben estar correctamente escritas; gravar as frases a viva voz, doando a túa voz co teu estilo, sotque, modo e maneira de falar en galego. Agás as propostas, o resto de colaboracións serán canalizadas simplemente a través desta ligazón.

Publicidade

Porén, engaden que hai outras tarefas nas que calquera pode axudar: revisar as gravacións para comprobar que o audio se entende ben e di exactamente o mesmo que o texto correspondente; organizar unha quedada para recoller, revisar ou gravar pola túa conta e incorporarse ao proxecto de maneira directa; difundir a propia iniciativa de Common Voice; aproveitar a materia prima recollida para desenvolver un estudo, produto ou servizo; ou atopar fontes de textos libres en galego ou que poidan ser doados con licenza de dominio público.

Así se pode colaborar coa galeguización das máquinas | Proxecto Trasno

“Estamos na fase inicial do Common Voice en galego e, polo de agora o que necesitamos son máis de 5000 frases orixinais de vós, os e as falantes ou tomadas de fontes diversas”, avisan dende Proxecto Trasno. “É importante que se poidan doar con licenza de dominio público, a máis libre de todas as posibles. É dicir, non se poden extraer nin de libros nin de sitios web a non ser que teñamos permiso dos autores ou propietarios para doalas ao dominio público“, avisan.

Cada frase debe ser revisada por varias persoas, de modo que se garanta a súa corrección e pertinencia en galego. Como xa conseguiron máis de 5.000 frases validadas, abriuse a fase de gravación de son. Durante este proceso seguirán recollendo máis frases pero ao mesmo tempo irán cubrindo o obxectivo de 1.000 horas de fragmentos “que son necesarios para que a intelixencia artificial do DeepSpeech poida crear o modelo de lingua galega creado con intelixencia artificial”.

Antes diso, dúas veces ao ano desde Common Voice irán creándose as coleccións de datos (datasets) que xuntarán os textos e as voces doadas, mantendo sempre o anonimato dos doadores e que permitirán crear xa aplicacións de menores requisitos: sistemas de navegación de automóbil, transcritores de voz a texto (STT) e mesmo os sintetizadores de voz (TTS), sistemas de ensino do idioma oral, dos que tedes exemplos máis abaixo.

1 comentario

DEIXAR UNHA RESPOSTA

Please enter your comment!
Please enter your name here

Este sitio usa Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.

Relacionadas

GCiencia xa se pode engadir como fonte preferida en Google: como ver máis ciencia galega nas túas buscas

O buscador permite agora que o xornalismo científico de calidade gañe peso fronte aos medios xenéricos nos teus resultados

Entre o “Teño, teño” e o “Carallo!”: a linguaxe da dor en Galicia (e en galego)

Dous documentos testemuñais de finais do século XX recompilan as expresións populares empregadas por pacientes para describir o seu malestar

Froallo, xistra ou trebón: estas son as 100 palabras en galego para falar da chuvia

A filóloga Elvira Fidalgo documentou unha ampla variedade de denominacións rexistradas en máis dun cento de localidades do noroeste peninsular

Máis do 70% do profesorado de matemáticas impartiría a materia en galego se puidese escoller

Unha investigación da RAG analiza as repercusións do Decreto 79/2010, que prohibe impartir en secundaria algunhas disciplinas científicas na lingua propia