O equipo de Cilenis

O equipo de Cilenis

Computación e linguaxe: unha oportunidade para emprender

Cilenis, 'spin-off' da Universidade de Santiago, convértese nun referente en ferramentas especializadas en tecnoloxía da linguaxe

bandera-galiciaEspañol bandera-ukEnglish

As ferramentas para a comunicación son as que máis influíron na evolución da Humanidade. Desde as pinturas rupestres de hai 30.000 anos ata as actuais redes sociais en liña como Facebook, Twitter ou Youtube, pasando polos pictogramas, as pombas mensaxeiras, o servizo postal, o papel, os xornais, o teléfono, a radio, a televisión ou internet, todas estas ferramentas marcaron puntos de inflexión na nosa historia e fixeron mudar os nosos modos de comunicarnos e de ver, construír, pensar, experimentar e representar o mundo, modificando as funcións superiores do cerebro humano.

Reunión de traballo do equipo de Cilenis.

Reunión de traballo do equipo de Cilenis.

Todos estes instrumentos son parte do que o sociólogo Daniel Bell e o antropólogo Jack Goody chamaron tecnoloxías intelectuais, que inclúen todas as ferramentas que utilizamos para ampliar ou apoiar a nosa capacidade mental: atopar e clasificar a información, formular e artellar ideas, compartir métodos e coñecementos, tomar medidas e realizar cálculos, ampliar a capacidade da nosa memoria… Pero hai unha ferramenta intelectual superior: a linguaxe natural. Ora ben, o desenvolvemento da computación, da intelixencia artificial e do Big Data (acumulación e procesamento masivo de datos) na era dixital, combinados coa lingüística, está revolucionando o xeito no que aprehendemos e usamos a linguaxe natural. Os tradutores e correctores automáticos ou os diccionarios en liña son só parte do novo escenario no procesamento de linguaxes naturais e do desenvolvemento da intelixencia lingüística.

Cilenis recibiu o I Premio ó Proxecto Empresarial Innovador da USC e unha Mención de Honra no Building Global Innovators 2013 do MIT

A lingüística computacional está avanzando a pasos axigantados e é unha das áreas nas que máis están investindo os titáns do software e da comunicación en liña, como Google ou Microsoft. Nun eido máis local, pero non por elo menos innovador e substancial, atopamos novas empresas como Cilenis, unha spin-off da Universidade de Santiago de Compostela que traballa no desenvolvemento de ferramentas avanzadas en áreas de procesamento e análise da linguaxe natural e extracción de información, para facer as nosas comunicacións máis doadas e o noso uso e comprensión da lingua, mellores. Pero que ninguén pense que a súa é unha historia de épica undergound feita nun garaxe, como os vellos relatos dos heroes posmodernos das tecnoloxías da comunicación, como Steve Jobs, Bill Gates, Larry Page ou Mark Zuckerberg. Non. A realidade da ciencia e da tecnoloxía de base non salta dun garaxe ó máis alto dun rañaceos; adoita ser algo ben distinto ós contos de Silicon Valley. A xente de Cilenis ben o sabe:

“Desde o mundo da ciencia e da tecnoloxía temos que desmitificar esa idea que nos venderon dos Estados Unidos de que un pode ter unha idea, meterse nun garaxe e conseguir facer algo enorme. Iso pode pasar, pero é unha excepción, algo moi raro. A realidade no eido da ciencia, da tecnoloxía e da investigación é que se require moito traballo, tempo, investigación e estudos… E isto non sucede nun garaxe. Os avances no campo da ciencia e da tecnoloxía moi poucas veces acontecen por casualidade”, explica Isaac González, director de Cilenis.

Un proxecto xurdido no CiTIUS

Isaac González, director de Cilenis

Isaac González, director de Cilenis, presenta Avalingua no Building Global Innovators, organizado polo Massachusetts Institute of Technology (MIT).

A historia de Cilenis comeza alá polo ano 2011, ó amparo da Universidade de Santiago de Compostela (USC), en concreto, no CiTIUS, o Centro Singular de Investigación en Tecnoloxías da Información, coa calificación de IEBT (Iniciativa de Emprego de Base Tecnolóxica) concedida por la Xunta de Galicia. Cilenis xurdiu a partir de liña de investigación ProLNat@GE, coordinada por Pablo Gamallo. Ese mesmo ano, a spin-off especializada en tecnoloxías da linguaxe xa era galardoada co Primeiro Premio ó Proxecto Empresarial Innovador da USC. Un ano despois, o empresario e analista económico Marc Vidal adquiría parte de Cilenis, a través da compañía IDODI Labs. E en 2013, o seu software de corrección automática Avalingua unha Mención de Honra no prestixioso Building Global Innovators 2013 do MIT, o Massachusetts Institute of Technology, templo mundial da innovación tecnolóxica

Desde entón, o proxecto foi engordando o seu catálogo de produtos e servizos con diversas ferramentas lingüísticas que abranguen desde analizadores de sentimentos ata recoñecedores de entidades, tradutores, buscadores ou conxugadores en diferentes idiomas, como o galego, o español, o portugués e o inglés, ademais dunha plataforma API dos módulos software de tecnoloxía lingüística para empresas. Todo, grazas ó labor de investigación que veñen realizando en distintos eidos relacionados co procesamento da linguaxe natural. Investigacións como a desenvolvida no CiTIUS por Marcos García, quen dedicou a súa recente tese doutoral —dirixida por Pablo Gamallo, cofundador de Cilenis— a desenvolver ferramentas tecnolóxicas destinadas a mellorar a capacidade de procesamento do galego, o español e o portugués; un traballo enmarcado na liña de investigación mixta na que colaboran o CiTIUS e o Grupo de Gramática do Español da USC. O sistema presentado por este investigador non só é o primeiro en estar dispoñible para estes tres idiomas, senón que ofrece ademais resultados altamente competitivos cos mellores sistemas en lingua inglesa. Trátase, así, da primeira solución deste tipo dispoñible, un conxunto de ferramentas lingüísticas desenvolvidas baixo unha licenza de software libre.

Os tres piares de Cilenis

2015 é o ano da consolidación de Cilenis. A spin-off madurou e xa é unha oportunidade comercial viable para expandir a gran escala os resultados do traballo dun equipo con formación en lingüística e informática e sólida experiencia en investigación, cun catálogo de produtos que traducen, corrixen, resumen, conxugan, axudan a escribir e facilitan o ensino. “De feito, 2015 é o ano clave do proxecto Cilenis. Para nós é o final dun traxecto no que estivemos convertendo toda a tarefa de investigación en produto. Agora estamos centrados na comercialización, o que non quita que non sigamos facendo investigación, pero xa máis centrada nun marco comercial”, explica Isaac González.

Linguakit, CilenisApi e Avalingua son os tres piares nos que se substenta agora Cilenis, que se complementan con servizos de consultoría de proxectos a medida.

Linguakit

Linguakit

Linguakit

O pasado ano, Cilenis lanzou o portal de ferramentas lingüísticas Linguakit, que ofrece ao gran público os últimos avances en tecnoloxía lingüística. Linguakit é o proxecto que “visibiliza todo o traballo de Cilenis como actor na industria da tecnoloxía lingüística”, apuntan os seus autores.

Trátase dun paquete de ferramentas lingüísticas e de extracción textual para que toda persoa que posúa certo interese lingüístico poida explorar, analizar e obter unha mellor información de textos e documentos escritos en español, galego, inglés e portugués. O equipo de Cilenis xa traballa na incorporación de diversos tipos de diccionarios para completar este paquete. Dispón dun conxugador verbal, un resumidor, un corrector, un traductor, un identificador de idioma, un analizador de frecuencias de palabras, un analizador de sentimiento, palabras clave en contexto, recoñecedor de entidades, extractor de palabras clave, extractor multipalabra e etiquetador morfosintáctico.

CilenisAPI é unha solución na nube para empresas que ofrece produtos baseados en anos de investigación e desenvolvemento en procesamento da linguaxe natural e enxeñaría lingüística. A idea é desenvolver software con filosofía de código aberto para analizar e extraer información dos textos.

Avalingua

Avalingua.

Avalingua é un proxecto a medio prazo, un software de corrección automática, tanto persoal como para o ensino, que permite avaliar o nivel lingüístico de documentos escritos e que afronta o seu ano decisivo para a súa comercialización. A ferramenta permite analizar un texto buscando erros ortográficos, léxicos, gramaticais ou de estilo e ofrece información sobre a súa tipoloxía, importancia e posibles solucións.

Deste xeito, ademais de “aprender a escribir máis rápido e correctamente”, os estudantes dispoñen dunha “ferramenta de autoaprendizaxe”, unha sorte de profesor virtual; os profesores poden “aforrar entre un 10% e un 30% de esforzo” e os xestores educativos poden “medir o coñecemento”, segundo explican os propios responsables do proxecto.

O futuro do galego no novo escenario

Ó longo deste tempo, Cilenis tamén puido experimentar a paradóxica situación que vive a lingua galega. Un informe recente do Instituto Galego de Estatística (IGE), titulado “Coñecemento e uso do galego. Ano 2013”, evidencia os serios perigos ós que se enfronta este idioma, que pode estar en vías de desaparición se se mantén a tendencia actual. Así, o 50% dos nenos de entre 5 e 14 anos só falan en castelán, fronte ao 13% que só fala en galego. Un dato que contrasta co 52% de galegos de máis de 65 anos que o teñen como único idioma, fronte ao 13,8% desta franxa de idade que utiliza só o español. Porén, e malia as estatísticas, en Cilenis puxeron en marcha experiencias “positivas” como a aplicación Apalabrados en galego, presentada en 2013 en colaboración coa xente de Etermax, lembra Isaac González. “Foi un proxecto pequeno, pero que en apenas un mes xa conseguira un millón de palabras xogadas nesta aplicación. Este é un exemplo do polo positivo da situación que vive o galego”, salienta o director de Cilenis.

“Se o galego perde o tren das tecnoloxías non terá recursos para sobrevivir no futuro”

González opina que “se o galego perde o tren das tecnoloxías, será unha lingua que ademais de ter cada vez menos falantes, o que non vai ter son os recursos impresicindibles para sobrevivir como idioma nun contexto futuro”. Con todo, e aínda recoñecendo que os datos do uso do galego son “malos”, considera que “non son sorprendentes”.

“Desde hai tempo mantense en Galicia a tese do estado de substitución lingüística, é dicir, danse as condicións ambientais necesarias para que a lingua A sexa substituída pola lingua B. Isto é algo que científicamente hai xa tempo que se sabe e nunca se chegaron a tomar medidas realmente eficaces para reverter esa situación e pasar dun escenario diglósico como o que hai en Galicia a outro de certo equilibro”, opina.

A maldición de Babel

No campo da tradución, a translación simultánea de voz semella xa moi preto e e podería modificar dun xeito radical as comunicacións e a maneira de relacionarnos. A maldición bíblica de Babel podería estar moi preto do seu fin. A computación e o Big Data son as chaves para derrubar a barreira dos idiomas. “De feito, pensamos que os procesamento da linguaxe natural, que antes semellaba algo máis residual, estase agora convertendo en tendencia da man do Big Data”, comenta González.

O noso futuro inmediato, pois, semella achegarse cada vez máis ó que pensabamos era ciencia ficción: o Tradutor Universal de ‘Star Trek‘. Microsoft está perfeccionando Skype Translator, unha versión de Skype capaz de traducir voz e texto en tempo real en videochamadas. Pola súa banda, Google, que leva anos tentando mellorar os algoritmos do seu tradutor, comprou hai ben pouco a empresa Quest Visual, responsable da aplicación Word Lens, que permite traducir un texto impreso con só dirixir a cámara cara el e que se pode usar con wereables como as Google Glass, os lentes intelixentes da compañía estadounidense.

“O estado da arte científica atópase moi por detrás da tecnoloxía que xa ofrecen Google, Microsoft ou Apple”

Aínda que o equipo de Cilenis tamén ten experiencia neste campo, o predominio das grandes empresas estadounidenses no mercado fai moi complicado competir no mercado da tradución simultánea de voz. De feito, González recoñece que “en Europa temos unha dificultade engadida con respecto ós xigantes estadounidenses como Google, Microsoft ou Apple, e é que non gozamos das mesmas cantidades de financiación e investimento a nivel investigador e científico”. Ademais, “no campo da tradución, temos unha competencia moi forte que está ofrecendo produtos xa non por debaixo de custo, senón traducións automáticas a custo cero. Estamos nun escenario moi complicado”, recoñece o cofundador de Cilenis.

Por todo isto, desbotaron entrar no eido do speech recognition —recoñecemento da fala—, que é onde están traballando máis forte agora as grandes compañías internacionais. “E aí tamén é moi difícil competir, mesmo para aquelas empresas que xa están traballando nesta área. De feito, o estado da arte científica atópase moi por detrás da tecnoloxía que xa ofrecen Google, Microsoft, Apple, etc, polo que é moi difícil competir neste terreo e hai que ir con outras estratexias”, asumen con pragmatismo.

A pregunta chave é se poderemos nun futuro, non moi lonxano, comunicarnos a través da tecnoloxía, en tempo real, en diversas linguas sen necesidade de aprender idiomas. As grandes compañías predín ese escenario. Porén, “aínda que é moi probable que nun futuro próximo persoas de distintos países podamos intercomunicarnos grazas ás tecnoloxías, seguimos pensando que a lingua segue sendo a ferramenta intelectual máis complexa desenvolvida polo ser humano, o que nos deu parte da racionalidade e nos permitiu transformar nun código abstracto pensamentos, sentimentos, ideas… E aínda que pensamos que será posible a comunicación básica mediante tecnoloxía, seguirá sendo central no noso mundo o saber estruturar unha linguaxe e traducilo ben… A ironía ou os contextos, por exemplo, son parte esencial da lingua e iso é intraducible”, conclúe Isaac González.

Deixar unha resposta

XHTML: Podes empregar estas etiquetas: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.