Doa galego: o Proxecto Nós busca voces para acadar 1.000 horas de gravación

Doantes de voz durante a pasada edición da feira Culturgal. CC-BY-SA Proxecto Nós

En pleno Nadal deu comezo a campaña 'AgasallaNós', coa que o proxecto busca chegar ás 1.000 horas de frases gravadas para mellorar o sistema que permita aos asistentes de voz entenderen a nosa lingua con normalidade

Recoller o maior número de voces diferentes para adestrar os sistemas de intelixencia artificial e que aprendan así a entender o galego. Con ese obxectivo deu comezo, en pleno Nadal, a campaña 'AgasallaNós', coa que o proxecto busca chegar ás 1.000 horas de gravacións para avanzar na mellora do sistema que permitirá que os asistentes de voz entendan de vez a nosa lingua con normalidade. De momento bordea as 120 horas.

Nesta fase, a recollida faise a través da plataforma Common Voice dun xeito ben sinxelo. A persoa participante ten que entrar na ligazón do proxecto e alí o sistema -que o recibe co lema ‘Doa a túa voz, preserva a túa lingua’- vai mostrando en pantalla frases para ler. “Necesitamos recompilar o maior número posible de datos para que o sistema sexa capaz de entender galego. A idea é que grave canta máis xente e canta máis cantidade de frases mellor”, indica Elisa Fernández, directora do Instituto da Lingua Galega. 

O Proxecto Nós comezou en 2021 froito da alianza entre o Instituto da Lingua Galega da Universidade de Santiago (ILG), o Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS), o Centro Ramón Piñeiro e, pola banda do Goberno galego, a Secretaría Xeral de Política Lingüística e a Axencia para a Modernización Tecnolóxica. O seu obxectivo é dotar o galego das ferramentas precisas para poder ser utilizado, como un idioma máis, o eido da intelixencia artificial.

Imaxe da campaña de recollida de voces para o Proxecto Nós CC-BY-SA Proxecto Nós

Actualmente a campaña acadou 116 horas de gravación de 3.140 falantes diferentes. En total o idioma galego dispón de case 700.000 fragmentos para gravar, fronte aos 12 millóns do catalán

Son frases sinxelas extraídas de xornais (Praza.gal é unhas das fontes), da TVG ou textos do Parlamento de Galicia e moitos creados ex profeso polos integrantes do Proxecto Nós.

Segundo mostra a propia plataforma, actualmente a campaña acadou 116 horas de gravación de 3.140 falantes diferentes. En total, o idioma galego dispón de case 700.000 fragmentos (frases distintas)  para gravar, unha cantidade axeitada para avanzar coa produción, mais o obxectivo é acadar o millón de frases, segundo explican desde o ILG, como ten o castelán. Os datos do Common Voice mostran os traballos que se fan noutras linguas como o catalán, que dispón de 12 millóns de frases para traballar e xa superaron as 3.000 horas de gravación.  O portugués, pola súa banda, conta xa con 216 horas de gravación mais apenas 43.000 frases para adestrar o sistema.

A responsable do ILG incide no fundamental de contar coa maior cantidade de achegas da poboación para adestrar os sistemas de gravación de audio. “É un sistema neuronal e require unha gran cantidade de datos. Non aprende a base de entender a lingua como os sistemas antiguos de regras, senón que precisan moitos exemplos”, detalla Elisa Fernández.

Desde o ILG animan a poboación galega a participar gravando frases mais tamén a que valide as gravacións doutras persoas para que os traballos avancen. 

No futuro faranse campañas presenciais para recoller voces de xente maior, de procedencia máis rural, algo que xa se fixo en Cataluña co obxectivo de recompilar exemplos alén da poboación urbana

O método escollido, a través dunha plataforma online, resulta moi sinxelo para un segmento da poboación, mais hai un sector sensible, de maior idade e posuidor dunhas valiosas variedades dialectais que pode quedar fóra desta campaña masiva para ‘preservar’ a lingua impulsada desde Política Lingüística. 

Esta campaña chegará máis probablemente a persoas de ata uns 50 anos, mais "no futuro faranse campañas presenciais para recoller voces de xente maior, de procedencia máis rural”, segundo explica a directora do ILG, algo que xa se fixo en Cataluña co obxectivo de recompilar exemplos alén da poboación urbana.

Tradutores automáticos de voz ou texto, asistentes como Alexa ou Siri, sistema de GPS por voz en galego... son moitas as aplicacións prácticas que se poden desenvolver se os sistemas de intelixencia artificial aprenden ben o galego tal e como busca o Proxecto Nós, un feito que contribuirá á normalización lingüística do idioma na contorna dixital. “O Proxecto Nós fornece os recursos pero son as empresas privadas as que teñen que decidir incorporalos”, subliña Elisa Fernández.

O proxecto xa conta cun prototipo de recoñecemento automático da fala, e en canto se acaden as 1.000 horas en Common Voice, poderase mellorar ese sistema e avanzar de cara á súa incorporación no mercado. 

“Todos os falantes de galego temos a responsabilidade de colaborar para gañar o ámbito tecnolóxico para o galego. Temos que reclamar pero tamén temos que participar e doar a nosa voz e o noso tempo porque ao final é un proxecto de país”, defende a directora do ILG.

Imaxe dun vídeo promocional do Proxecto Nós. CC-BY-SA USC / Xunta

Grazas ás socias e socios editamos un xornal plural

As socias e socios de Praza.gal son esenciais para editarmos cada día un xornal plural. Dende moi pouco a túa achega económica pode axudarnos a soster e ampliar a nosa redacción e, así, a contarmos máis, mellor e sen cancelas.