Gravar 30 frases para colaborar en que os sistemas de recoñecemento por voz comprendan o galego a través da Intelixencia Artificial é o reto que propoñen investigadores da UVigo e a empresa Balidea aos galegofalantes
Queres falar en galego coas máquinas? Pois haberá que aprenderlles o idioma. Nisto están traballando varios grupos de investigación en Galicia, que buscan que a nosa lingua non quede atrás nos sistemas de Intelixencia Artificial (AI, polas súas siglas en inglés). O proxecto 'falAI' pretende concretamente que os sistemas de recoñecemento por voz, eses cos que conversamos por teléfono cando nos colle unha ‘máquina’ ou que nos escoitan desde algún aparato doméstico, comprendan o galego falado con todas as súas variantes dialectais.
Desde a Universidade de Vigo explican que o proxecto 'falaAI' enmárcase dentro da colaboración que as investigadoras do atlanTTic (o Centro de Investigación en Tecnoloxías de Telecomunicación) Laura Docío e Carmen García Mateo teñen en marcha coa empresa de solucións tecnolóxicas Balidea desde hai dous anos, que se formalizou coa concesión dunha axuda da Xunta para o desenvolvemento da tese de doutoramento do investigador Andrés Piñeiro no campo dos axentes conversacionais por voz en galego, que pretende crear prototipos pensados para a administración electrónica, o sector sociosanitario e o da industria 4.0.
O reto que propón 'falAI' a todas persoas galegofalantes é que graven trinta frases como as dirían de maneira natural, co seu acento e a súa maneira de falar. Trátase de ter unha mostra do idioma oral o máis ampla posible, para que despois o sistema de Intelixencia Artificial poida aprendelo correctamente.
O obxectivo marcado está nas 300 horas de gravación, mais non lle poñen cancelas a 'falAI', que está coordinado co 'Proxecto Nós' e compartirá as gravacións
As gravacións almacénanse de maneira anónima e pódese repetir as veces que se queira para axudar co banco de audios que están a crear. "En Galicia nunca houbera un proxecto así, que desde o móbil puideras gravarte, e nós mesmos estamos sorprendidos do ben que está funcionando. Eu non esperaba esta acollida e estou encantadísimo", di o investigador Andrés Piñeiro. O obxectivo marcado está nas 300 horas de gravación, mais non lle poñen cancelas ao proxecto e cantos máis exemplos teñan que darlle para aprender aos algoritmos, mellor será o resultado.
"Nestas cousas non se pode ser moi categórico. Penso que xa poderiamos ter un asistente que funcione, pero faríao ben? Non. Todas estas voces o que van permitir é que funcione mellor. Vai ser o resultado que todo o mundo espera? Pois probablemente aínda non, vai ser o comezo. Pero con todas as horas de voz que estamos conseguindo seguro que hai asistentes como os que te atenden cando chamas a un sitio por teléfono que xa te van entender cando lles fales en galego", salienta Andrés Piñeiro.
O equipo de 'falAI' está coordinado co ‘Proxecto Nós’, que está creando un modelo de galego para empregar nas aplicacións a través da Intelixencia Artificial, pero avanza en paralelo. "Todas estas voces que se están gravando si que lle van servir ao 'Proxecto Nós', estamos en contacto con eles e coordinados. Todo o que estamos facendo van podelo aproveitar tamén", explica o investigador. Ademais, todo o coñecemento que xeren estará "en aberto para investigar ou desenvolver tecnoloxía en galego".
O proxecto 'falAI' participa no grupo de investigación que procura acadar a igualdade das linguas europeas no eido dixital para o ano 2030
A semente deste proxecto parte da tese de doutoramento de Andrés Piñeiro, que versa sobre sistemas de comprensión da fala, que basicamente son peticións a máquinas que entendan o que lles pides. Pero medrou ao entrar no grupo europeo ELE (European Language Equality) para a contribución na Strategic research, innovation and implementation agenda for achieving full digital language equality in Europe by 2030, que procura acadar a igualdade das linguas europeas no eido dixital para o ano 2030.
"Buscan que achegues á folla de ruta que teñen deseñada para lograr esa igualdade en ámbitos que quizais non teñen contemplados. Trátase de explicar como conseguimos datos de xente en sitios onde hai poucos recursos –como o caso do galego e doutras linguas no contexto europeo– e como deseñar campañas para involucrar a toda a sociedade. Entrar no ELE é o que nos achegou o financiamento para poder levar a cabo a campaña actual, pois eu tiña pensado recoller voces para o meu doutoramento pero non a esta escala: agora isto permite desenvolver tecnoloxía en galego de verdade", detalla Piñeiro.
Ata finais de marzo irán sacando distintas campañas para lograr involucrar a perfís diferentes tanto no que se refire á idade, como ao lugar de residencia ou a variante dialectal do galego que empreguen. En principio, seguirán coas gravacións ata o mes de maio, pero como esperan ir dando pasos en función da acollida non o teñen pechado. O que están a conseguir xa é un logro, xa que Andrés Piñeiro asegura que ata o de agora había 20 horas de gravacións de locucións en galego de uso libre para investigar e o 'falAI' xa acumulaba máis de 90 horas nos seus primeiros catro días en activo.
"Os aparatos entenden peor aos maiores e aos nenos porque non teñen datos deles, basicamente; e non queremos deixalos fóra", di Andrés Piñeiro
Para o éxito do proxecto é fundamental contar con voces de persoas maiores e crianzas. "Os aparatos entenden peor aos maiores e aos nenos porque non teñen datos deles, basicamente; e non queremos deixalos fóra. A xente maior exprésase doutra forma, a súa fala é distinta e incluso a nivel físico a súa frecuencia é diferente.
Á parte, en Galicia isto é importantísimo porque a maioría das persoas maiores fala galego. Na mesma situación hai outros países en Europa, por iso no ELE están moi interesados en ver se conseguimos dar coa tecla para ter un mínimo de voces de maiores", debulla o investigador. No caso da xente maior está a dificultade engadida de chegar a eles e elas, por iso tamén buscarán involucrar as novas xeracións neste obxectivo, para que lles expliquen o proxecto e graven cos seus teléfonos.