El equipo de Cilenis

El equipo de Cilenis.

Computación y lenguaje: una oportunidad para emprender

Cilenis, 'spin-off' de la Universidad de Santiago, ya es un referente en la aplicación de tecnologías del lenguaje

bandera-galiciaGalego bandera-ukEnglish

Las herramientas para la comunicación son las que más han influido en la evolución de la Humanidad. Desde las pinturas rupestres de hace 30.000 años hasta las actuales redes sociales en línea como FacebookTwitter o Youtube, pasando por los pictogramas, las palomas mensajeras, el servicio postal, el papel, los periódicos, el teléfono, la radio, la televisión o internet, todas estas herramientas han marcado puntos de inflexión en nuestra historia y han hecho cambiar nuestros modos de comunicarnos y de ver, construir, pensar, experimentar y representar el mundo, modificando las funciones superiores del cerebro humano.

Reunión de traballo do equipo de Cilenis.

Reunión de trabajo del equipo de Cilenis.

Todos estos instrumentos son parte de lo que el sociólogo Daniel Bell y el antropólogo Jack Goody llamaron tecnologías intelectuales, que incluyen todas las herramientas que utilizamos para ampliar o apoyar nuestra capacidad mental: encontrar y clasificar la información, formular y articular ideas, compartir métodos y conocimientos, tomar medidas y realizar cálculos, ampliar la capacidad de nuestra memoria … Pero hay una herramienta intelectual superior: el lenguaje natural. Ahora bien, el desarrollo de la computación, de la inteligencia artificial y del Big Data (acumulación y procesamiento masivo de datos) en la era digital, combinados con la lingüística, está revolucionando la manera en la que aprehendemos y usamos el lenguaje natural. Los traductores y correctores automáticos o los diccionarios en línea son solo parte del nuevo escenario en el procesamiento de lenguajes naturales y del desarrollo de la inteligencia lingüística.

Cilenis ha recibido el I Premio al Proyecto Empresarial Innovador de la USC y una Mención de Honor en el Building Global Innovators 2013 del MIT

La lingüística computacional está avanzando a pasos agigantados y es una de las áreas en las que más están invirtiendo los titanes del software y de la comunicación en línea, como Google o Microsoft. En un terreno más local, pero no por ello menos innovador y sustancial, encontramos nuevas empresas como Cilenis, una spin-off de la Universidad de Santiago de Compostela que trabaja en el desarrollo de herramientas avanzadas en áreas de procesamiento y análisis del lenguaje natural y extracción de información, para hacer nuestras comunicaciones más fáciles y nuestro uso y comprensión de la lengua, mejores. Pero que nadie piense que la suya es una historia de épica undergound hecha en un garaje, como los viejos relatos de los héroes posmodernos de las tecnologías de la comunicación, como Steve Jobs, Bill Gates, Larry Page o Mark Zuckerberg. No. La realidad de la ciencia y de la tecnología de base no salta de un garaje a lo más alto de un rascacielos; suele ser algo bien distinto a los cuentos de Silicon Valley. La gente de Cilenis bien lo sabe:

“Desde el mundo de la ciencia y de la tecnología tenemos que desmitificar esa idea que nos vendieron de los Estados Unidos de que uno puede tener una idea, meterse en un garaje y conseguir hacer algo enorme. Eso puede pasar, pero es una excepción, algo muy raro. La realidad en el terreno de la ciencia, de la tecnología y de la investigación es que se requiere mucho trabajo, tiempo, investigación y estudios… Y esto no sucede en un garaje. Los avances en el campo de la ciencia y de la tecnología muy pocas veces suceden por casualidad”, explica Isaac González, director de Cilenis.

Un proyecto surgido en el CiTIUS

Isaac González, director de Cilenis

Isaac González, director de Cilenis, presenta Avalingua en el Building Global Innovators, organizado por el Massachusetts Institute of Technology (MIT).

La historia de Cilenis comienza allá por el año 2011, al amparo de la Universidad de Santiago de Compostela (USC), en concreto, en el CiTIUS, el Centro Singular de Investigación en Tecnologías de la Información, con la calificación de IEBT (Iniciativa de Empleo de Base Tecnológica) concedida por la Xunta de Galicia. Cilenis surgió a partir de la línea de investigación ProLNat@GE, coordinada por Pablo Gamallo. Ese mismo año, la spin-off especializada en tecnologías del lenguaje ya era galardonada con el Primer Premio al Proyecto Empresarial Innovador de la USC. Un año después, el empresario y analista económico Marc Vidal adquiría parte de Cilenis, a través de la compañía IDODILabs. Y en 2013, su software de corrección automática Avalingua recibía una Mención de Honor en el prestigioso Building Global Innovators 2013 del MIT, el Massachusetts Institute of Technology, templo mundial de la innovación tecnológica.

Desde entonces, el proyecto fue engordando su catálogo de productos y servicios con diversas herramientas lingüísticas que abarcan desde analizadores de sentimientos hasta reconocedores de entidades, traductor, buscadores o conjugadores en diferentes idiomas, como el gallego, el español, el portugués y el inglés, además de una plataforma API de los módulos software de tecnología lingüística para empresas. Todo, gracias al trabajo de investigación, que vienen realizando en distintos terrenos relacionados con el procesamiento del lenguaje natural. Investigaciones como la desarrollada en el CiTIUS por Marcos García, quien dedicó su reciente tesis doctoral —dirigida por Pablo Gamallo, cofundador de Cilenis— a desarrollar herramientas tecnológicas destinadas a mejorar la capacidad de procesamiento del gallego, el español y el portugués; un trabajo enmarcado en la línea de investigación mixta en la que colaboran el CiTIUS y el Grupo de Gramática del Español de la USC. El sistema presentado por este investigador no sólo es el primero en estar disponible para estos tres idiomas, sino que ofrece además resultados altamente competitivos con los mejores sistemas en lengua inglesa. Se trata, así, de la primera solución de este tipo disponible, un conjunto de herramientas lingüísticas desarrolladas bajo una licencia de software libre.

Los tres pilares de Cilenis

2015 es el año de la consolidación de Cilenis. La spin-off ha madurado y ya es una oportunidad comercial viable para expandir a gran escala los resultados del trabajo de un equipo con formación en lingüística e informática y sólida experiencia en investigación, con un catálogo de productos que traducen, corrigen, resumen, conjugan, que ayudan a escribir y facilitan la enseñanza. “De hecho, 2015 es el año clave del proyecto Cilenis. Para nosotros es el final de un trayecto en el que estuvimos convirtiendo toda la tarea de investigación en producto. Ahora estamos centrados en la comercialización, lo que no quita que no sigamos haciendo investigación, pero ya más centrada en un marco comercial”, explica Isaac González.

Linguakit, CilenisApi y Avalingua son los tres pilares en los que se sustenta ahora Cilenis, que se complementa con servicios de consultoría de proyectos a medida.

Linguakit

Linguakit

El pasado año, Cilenis lanzó el portal Linguakit, que ofrece al gran público los últimos avances en tecnología lingüística. Linguakit es el proyecto que “visibiliza el trabajo de Cilenis como actor en la industria de la tecnología lingüística”, apuntan sus autores.

Se trata de un paquete de herramientas lingüísticas y de extracción textual para que toda persona que posea cierto interés lingüístico pueda explorar, analizar y obtener una mejor información de textos y documentos escritos en español, gallego, inglés y portugués. El equipo de Cilenis ya trabaja en la incorporación de diversos tipos de diccionarios para completar este paquete. Ahora dispone de un conjugador verbal, un resumidor, un corrector, un traductor, un identificador de idioma, un analizador de frecuencias de palabras, un analizador de sentimiento, palabras clave en contexto, reconocedor de entidades, extractor de palabras clave, extractor multipalabra y etiquetador morfosintáctico.

CilenisAPI es la solución en la nube para empresas que ofrece productos basados en años de investigación y desarrollo en procesamiento del lenguaje natural e ingeniería lingüística. La idea es desarrollar software con filosofía de código abierto para analizar y extraer información de textos.

Avalingua

Avalingua.

Avalingua, por su parte, es un proyecto a medio plazo, un software de corrección automática, tanto personal como para la enseñanza, que permite evaluar el nivel lingüístico de documentos escritos y que afronta su año decisivo para su comercialización. La herramienta permite analizar un texto buscando errores ortográficos, léxicos, gramaticales o de estilo y ofrece información sobre su tipología, importancia y posibles soluciones.

De esta manera, además de “aprender a escribir más rápido y correctamente”, los estudiantes disponen de una “herramienta de autoaprendizaje”, una suerte de profesor virtual; los profesores pueden “ahorrar entre un 10% y un 30% de esfuerzo” y los gestores educativos pueden “medir el conocimiento”, según explican los propios responsables del proyecto.

El futuro del gallego en el nuevo escenario

A lo largo de este tiempo, Cilenis también ha podido experimentar la paradójica situación que vive la lengua gallega. Un informe reciente del Instituto Gallego de Estadística (IGE), titulado ‘Conocimiento y uso del gallego. Año 2013’, evidencia los serios peligros a los que se enfrenta este idioma, que puede estar en vías de desaparición si se mantiene la tendencia actual. Así, el 50% de los niños de entre 5 y 14 años solo hablan en castellano, frente al 13% que sólo lo hace en gallego. Un dato que contrasta con el 52% de gallegos de más de 65 años que lo tienen como único idioma, frente al 13,8% de esta franja de edad que utiliza únicamente el español. Sin embargo, y pese a las estadísticas, en Cilenis pusieron en marcha experiencias “positivas” como la aplicación Apalabrados en gallego, presentada en 2013 en colaboración con la gente de Etermax, recuerda Isaac González. “Fue un proyecto pequeño, pero que en apenas un mes ya había conseguido un millón de palabras jugadas en esta aplicación. Este es un ejemplo del polo positivo de la situación que vive el gallego”, destaca el director de Cilenis.

“Si el gallego pierde el tren de las tecnologías no tendrá recursos para sobrevivir en el futuro”

González opina que “si el gallego pierde el tren de las tecnologías, será una lengua que además de tener cada vez menos hablantes, tampoco dispondrá de los recursos imprescindibles para sobrevivir como idioma en un contexto futuro”. Sin embargo, y aun reconociendo que los datos del uso del gallego son “malos”, considera que “no son sorprendentes”.

“Desde hace tiempo se mantiene en Galicia la tesis del estado de sustitución lingüística, es decir, se dan las condiciones ambientales necesarias para que la lengua A sea sustituida por la lengua B. Esto es algo que científicamente hace ya tiempo que se sabe y nunca se han llegado a tomar medidas realmente eficaces para revertir esa situación y pasar de un escenario de diglosia como el que hay en Galicia a otro de cierto equilibro”, opina.

La maldición de Babel

En el campo de la traducción, la traslación simultánea de voz parece ya muy cerca y y podría modificar de una manera radical las comunicaciones y la manera de relacionarnos. La maldición bíblica de Babel podría estar muy cerca de su fin. La computación y el Big Data son claves para derribar la barrera de los idiomas. “De hecho, pensamos que los procesamientos del lenguaje natural, que antes parecían algo más residual, se están convirtiendo ahora en tendencia de la mano del Big Data“, comenta González.

Nuestro futuro inmediato, así pues, parece acercarse cada vez más a lo que pensábamos era ciencia ficción: el Traductor Universal de ‘Star Trek. Microsoft está perfeccionando Skype Translator, una versión de Skype capaz de traducir voz y texto en tiempo real en videollamadas. Por su parte, Google, que lleva varios años intentando mejorar los algoritmos de su traductor, compró recientemente la empresa Quest Visual, responsable de la aplicación Word Lens, que permite traducir un texto impreso con solo dirigir la cámara hacia él y que se puede usar con wereables como las Google Glass, las gafas inteligentes de la compañía estadounidense.

“El estado del arte científico está muy por detrás de la tecnología que ya ofrecen Google, Microsoft o Apple”

Aunque el equipo de Cilenis también tiene experiencia en este campo, el predominio de las grandes empresas estadounidenses hace muy complicado competir en el mercado de la traducción simultánea de voz. De hecho, González reconoce que “en Europa tenemos una dificultad añadida con respecto a los gigantes estadounidenses como Google, Microsoft o Apple, y es que no disfrutamos de las mismas cantidades de financiación e inversión a nivel investigador y científico”. Además, “en el campo de la traducción tenemos una competencia muy fuerte que está ofreciendo productos ya no por debajo de coste, sino traducciones automáticas a coste cero. Estamos en un escenario muy complicado”, reconoce al cofundador de Cilenis.

Por todo esto, desecharon entrar en el terreno del speech recognition (reconocimiento del habla), que es donde están trabajando más fuerte ahora las grandes compañías internacionales. “Y ahí también es muy difícil competir, incluso para aquellas empresas que ya están trabajando en este área. De hecho, el estado del arte científico se encuentra muy por detrás de la tecnología que ya ofrecen Google, Microsoft, Apple, etc., por lo que es muy complicado competir en este terreno y hay que ir con otras estrategias”, asumen con pragmatismo.

La pregunta clave es si podremos en un futuro, no muy lejano, comunicarnos a través de la tecnología, en tiempo real y en diversas lenguas sin necesidad de aprender idiomas. Las grandes compañías predicen ese escenario. Sin embargo, “aunque es muy probable que en un futuro próximo personas de distintos países podamos intercomunicarnos gracias a las tecnologías, seguimos pensando que la lengua sigue siendo la herramienta intelectual más compleja desarrollada por el ser humano, la que nos dio parte de la racionalidad y nos permitió transformar en un código abstracto pensamientos, sentimientos, ideas… Y aunque pensamos que será posible la comunicación básica mediante tecnología, seguirá siendo central en nuestro mundo saber estructurar un lenguaje y traducirlo bien… La ironía o los contextos, por ejemplo, son parte esencial de la lengua y eso es intraducible”, concluye Isaac González.

Deixar unha resposta

XHTML: Podes empregar estas etiquetas: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.