O 'Validatón' revisou e gravou 10.000 audios para que as máquinas entendan mellor o galego

Participantes na fase presencial do Validatón 2025 © USC

O pasado venres a Facultade de Filoloxía da USC acolleu un maratón de validación e gravación de fragmentos de voz en galego. En total hai 10.000 fragmentos de audio revisados e gravados durante a fase en liña

Todos lembramos o vídeo de Moraima, a nena que hai uns catro anos protagonizou un video moi viralizando no que non era quen de comunicarse con Siri, a asistente virtual de Apple, ante o descoñecemento da lingua galega por parte da máquina. "Creo que no te entiendo", respondía sempre Siri, ante o que Moraima retrucaba: "porque eu falo galego. Sabes, Siri?". 

Neste tempo a capacidade das ferramentas tecnolóxicas para entender e comunicarse no galego escrito e mesmo falado melloraron bastante, pero a súa capacidade -sobre todo a oral- está aínda por debaixo da que presentan para outros idiomas, coma o inglés ou o castelán.

Iniciativas coma o Proxecto Nós, nacido precisamente en 2021, buscan dotar o galego das ferramentas precisas para poder ser utilizado, como un idioma máis, o eido da intelixencia artificial. O Proxecto Nós abrangue varios subproxectos en materia de síntese de voz, recoñecemento da fala, xeración automática de textos, sistemas de diálogo, tradución automática e corrección e avaliación lingüística, que traballan para avanzar en cada un destes ámbitos. Un deles leva tres anos creando un "banco de voces da lingua galega", para o que vén pedindo a colaboración da cidadanía, que pode "doar" a súa voz.

Doantes de voz durante a pasada edición de Culturgal CC-BY-SA Proxecto Nós

Búscase xerar un corpus público que permitirá que no futuro distintas aplicacións informáticas poidan comprender as persoas que falen en galego

O pasado venres tivo lugar na Facultade de Filoloxía da Universidade de Santiago a segunda edición do Validatón, unha actividade na que participaron unha trintena de persoas e que consistiu nun maratón de validación e gravación de fragmentos de voz en galego doados á plataforma pública Common Voice. En total hai 10.000 fragmentos de audio revisados e gravados durante a fase en liña, que supoñen 13 horas de contribución aos datos de voz en galego. 

Para adestrar modelos de recoñecemento da fala cómpre utilizar grandes corpus de datos orais, pero a maioría, en especial os que usan as grandes compañías, son datos pechados e non están dispoñibles. Non é así en Common Voice, onde as persoas contribúen doando a súa voz e tamén xulgando como válidas ou non as doazóns feitas por outras persoas. Xérase así ese corpus público que permitirá que no futuro distintas aplicacións informáticas poidan comprender as persoas que falen en galego.

A actividade, organizada polo Instituto da Lingua Galega (ILG) e mais o Proxecto Nós, estaba dirixida a estudantes da Facultade de Filoloxía da USC e premiou a participación en tres categorías: Víctor Pose, en gravación de fragmentos de voz; Álex Rodríguez Guisantes, en validación de audios; e Lucía López Lires, en xeración de frases. 

Tamén foi recoñecida como campioa global Noa Sobrino Lamas por ser a persoa con máis contribucións totais. Todos eles recibiron premios en metálico grazas ao apoio de Atlantic Ponte e Imaxin Software.

o público xeral tamén pode contribuír a mellorar a presenza do galego no mundo dixital doando a súa voz a través de AgasallaNós ©

O público xeral tamén pode contribuír a mellorar a presenza do galego no mundo dixital doando a súa voz a través de AgasallaNós

Alén do Validatón, os coordinadores do Proxecto Nós lembran que o público xeral tamén pode contribuír a mellorar a presenza do galego no mundo dixital doando a súa voz a través de AgasallaNós. Esta campaña pretende rexistrar diferentes variedades fonéticas do galego para que as aplicacións baseadas no recoñecemento da fala dean identificado toda a riqueza da nosa lingua. O obxectivo é recompilar gravacións que representen diferentes idades, xéneros e variedades dialectais. Toda a información pódese atopar na web doagalego.nos.gal.

Proxecto Nós

O Proxecto Nós é unha iniciativa para situar o galego xunto coas linguas máis desenvolvidas no ámbito da tecnoloxía da lingua e a Intelixencia Artificial

O Proxecto Nós é unha iniciativa para situar o galego xunto coas linguas máis desenvolvidas no ámbito da tecnoloxía da lingua e a Intelixencia Artificial. O seu obxectivo principal é xerar os recursos necesarios para facilitar o desenvolvemento de servizos e produtos baseados na tecnoloxía da lingua, como asistentes de voz, tradutores automáticos ou axentes conversacionais.

Ademais de garantir os dereitos lingüísticos da comunidade galegofalante no mundo dixital, tamén se contribuirá á modernización e dixitalización do ecosistema de empresas galegas e á creación de valor con novos produtos que empreguen o galego

En paralelo, o proxecto promove tamén a presenza dixital do galego, facilitando a creación dunha ampla variedade de ferramentas e de recursos de alta calidade e de uso libre. Algunhas delas xa están á disposición e accesibles a través da web do proxecto para calquera persoa, institución, organización ou empresa que queira desenvolver un produto tecnolóxico, aplicación ou servizo que incorpore a lingua galega. 

Deste xeito, ademais de garantir os dereitos lingüísticos da comunidade galegofalante no mundo dixital, tamén se contribuirá á modernización e dixitalización do ecosistema de empresas galegas e á creación de valor con novos produtos que empreguen o galego.

Grazas ás socias e socios editamos un xornal plural

As socias e socios de Praza.gal son esenciais para editarmos cada día un xornal plural. Dende moi pouco a túa achega económica pode axudarnos a soster e ampliar a nosa redacción e, así, a contarmos máis, mellor e sen cancelas.