O 'Proxecto Nós' porá as ferramentas básicas para que o galego estea presente nas aplicacións desenvolvidas con intelixencia artificial en todo o mundo, a partir dun convenio da Xunta coa USC que opta a recibir financiamento europeo
Cando imaxinamos o futuro, xa sexa no eido industrial ou no doméstico, a presenza da intelixencia artificial é inequívoca. Non é preciso botar man da distopía que construíu a serie Years & Years para velo, só hai que observar a familiaridade coa que hoxe nos referimos a asistentes de voz como Siri ou Alexa. A lingua que non se empregue nos sistemas de intelixencia artificial que están por vir ficará fóra, polo que "necesitamos que o galego estea aí". Así o defende Pablo Gamallo, filólogo e especialista nas tecnoloxías da linguaxe, que participa no 'Proxecto Nós', unha iniciativa que chega para asegurar a presenza do galego no eido dixital.
O ′Proxecto Nós′ vai medrar de xeito coordinado e colaborativo. A Universidade de Santiago, a través do Instituto da Lingua Galega (ILG) e o Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS), e a Xunta, mediante a Secretaría xeral de Política Lingüística, do Centro Ramón Piñeiro para a Investigación en Humanidades e da Axencia para a Modernización Tecnolóxica de Galicia (Amtega) asinaron un convenio que supón un primeiro investimento de 150.000 euros para a definición, o deseño e a planificación da proposta inicial de actuación. Así mesmo, ao tratarse dunha iniciativa moi ambiciosa, agardan captar axudas dos fondos europeos ′Next Generation′ ata alcanzar os 15,5 millóns de euros.
"Non se trata de acordos con grandes empresas, senón de que haxa un modelo de lingua adaptado do galego", salienta o investigador Pablo Gamallo
"As tecnoloxías lingüísticas son unha das áreas de maior crecemento dentro da intelixencia artificial", defende o investigado do CiTIUS Pablo Gamallo. A velocidade na que se están a asentar no noso día a día e o seu uso doméstico fan que neste momento non sei poida saber para que se poderán empregar no prazo de tres ou catro anos, que é o tempo mínimo para o desenvolvemento deste ′Proxecto Nós′, que pretende crear modelos aproveitables no futuro. Para isto, terán que empregar estándares como os que manexan as grandes empresas para os seus software máis desenvolvidos, como é o caso dos asistentes de voz Siri de Apple, Alexa de Amazon ou o Asistente de Google.
Para estes xigantes tecnolóxicos o número de falantes equivale ao número de clientes, por iso é preciso sementar o camiño para que conten co galego. ″Non se trata de acordos con grandes empresas, que ao mellor poden vir máis adiante, senón simplemente de que haxa un modelo de lingua adaptado do galego, creado dentro do ′Proxecto Nós′, que pode servir para que funcione en calquera chatbot xenérico, e que despois poida vir calquera empresa cun sistema máis desenvolvido e o utilice modelo para que o seu programa fale galego″, sinala Pablo Gamallo.
"O que nos interesa é que o ecosistema económico galego tamén medre a través das tecnoloxías lingüísticas", apunta Gamallo
Gamallo asevera que para estas empresas resultará ″trivial″ contar co galego, mais céntrase no ″beneficio para toda a sociedade″. ″Así temos a posibilidade de que empresas galegas fagan o propio. O que nos interesa é que o ecosistema económico galego tamén medre a través das tecnoloxías lingüísticas, porque de aquí a varios anos van ser un sector estratéxico desde o punto de vista da sociedade dixital e vai haber moitas empresas que agora non traballan con elas, que o van facer″, concreta o lingüista.
″Dentro de cinco anos, cando as tecnoloxías lingüísticas estean aínda máis presentes que agora, se non hai posibilidade de traballar con recursos galegos, o noso idioma ficaría totalmente fóra de xogo –argumenta o investigador do CiTIUS–. Xa o está un pouco, pero o estaría moito máis se non se lle ofrece ás empresas a posibilidade de traballar facilmente co galego, porque o van facer co castelán, co inglés... e sería darlle outro tiro no pé á nosa lingua para a súa continuación″.
O primeiro paso: crear un modelo do galego
″Estamos a definir o mapa exacto de que tarefas se van realizar″, apunta Pablo Gamallo. Con todo, xa se poden distinguir diferentes áreas de interese dentro do ′Proxecto Nós′, que darán lugar a aplicacións específicas: a síntese de voz, o recoñecemento da fala, sistemas de diálogo, a corrección e avaliación lingüística de xeito automático, a tradución automática, a xeración de textos de maneira automática, a extracción e análise de información (de grandes textos), os resumos automáticos, e a verificación de información, así como a análise de sentimentos e opinións.
″O ′Proxecto Nós′ ten que desenvolver unha serie de ferramentas básicas que van estar dispoñibles en software libre, é dicir, en beneficio de toda a comunidade, para que os cartos que se invistan permitan construír moitas novas aplicacións nos anos vindeiros″, di o investigador do CiTIUS da USC. O primeiro paso é crear "modelos de lingua semánticos xenéricos" do galego.
"Agora os sistemas teñen máis capacidade de reaccionar dunha forma máis correcta a datos que non aprenderon e son quen de aportar unha resposta coherente", destaca Gamallo
Agora as tecnoloxías lingüísticas precisan dun coñecemento semántico xeral, que é fundamental para que as tarefas concretas como o establecemento dun diálogo se produzan sen que pareza que a máquina responde sen máis. "Isto conséguese con eses modelos de lingua que compilan ata mil millóns de palabras, e que inclúen información do contido das palabras. Son estes modelos os que despois se tunean en función da tarefa concreta", describe Pablo Gamallo.
É dicir, que para crear un chatbot –unha aplicación para realizar unha conversa de chat en liña por voz– en galego o primeiro é aprenderlle a nosa lingua ao software en cuestión a través dun modelo, e despois hai que explicarlle ao sistema o que queremos que faga con ela. "Antes non se facía así e os modelos non tiñan coñecemento semántico, por iso agora teñen máis capacidade de reaccionar dunha forma máis correcta a datos que non aprenderon e son quen de aportar unha resposta xenérica e coherente".