O Corpus de Referencia do galego chega aos 45 millóns de palabras e agora recoñece a gheada e o seseo

Libros nunha biblioteca CC-BY-SA Xunta de Galicia

O CORGA chegou á súa versión 4.1 sumando un total de 45.665.649 palabras ortográficas, dous millóns e medio máis de vocábulos que os que incorporaba a versión 4.0, presentada a comezos de 2022

O Corpus de Referencia do Galego Actual (CORGA) é un corpus documental integrado por distintos tipos de textos representativos da lingua galega actual e que abranguen cronoloxicamente dende 1975 ata a actualidade. O seu obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica, discursiva... Con este corpus é posible, por exemplo, identificar a partir de que ano se empeza a utilizar unha determinada palabra ou cando deixa de empregarse de forma cotiá por cambios tecnolóxicos ou sociais.

O CORGA chegou á súa versión 4.1 sumando un total de 45.665.649 palabras ortográficas, dous millóns e medio máis de vocábulos que os que incorporaba a versión 4.0, presentada a comezos de 2022.

Exemplos de uso do CORGA © CIRP

Esta nova versión presenta novidades, coma o recoñecemento de formas con gheada e seseo e a fai posible realizar estudos variados dende a perspectiva de xénero

Esta nova versión presenta novidades, coma o recoñecemento de formas con gheada e seseo e a fai posible realizar estudos variados dende a perspectiva de xénero: tendo en conta o emprego da linguaxe inclusiva non binaria directa, atendendo á discriminación dos resultados en función do sexo da persoa autora ou interlocutora ou habililitando cruzamentos entre o sexo dunha persoa autora e o dos personaxes.

Ademais, incorposra utilidades innovadoras coma a recuperación de información pola modalidade inventario ou un dicionario de frecuencias que ten en conta o índice de dispersión, co que achega resultados moito máis relevantes sobre a frecuencia do léxico. 

O seu obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas. Con este corpus é posible, por exemplo, identificar a partir de que ano se empeza a utilizar unha determinada palabra ou cando deixa de empregarse de forma cotiá

A ferramenta está continuamente actualizada grazas ao traballo conxunto do Centro Ramón Piñeiro para a Investigación en Humanidades e a Universidade de Santiago. E está coordinada, na súa parte lingüística, por Eva María Domínguez Noya e, na súa parte informática, por NLPgo Technologies S.L. 

A profesora da USC María Sol López Martínez, codirectora do proxecto xunto a Guillermo Rojo, profesor emérito da USC, explica que se trata dun “corpus pequeno pero cunha rica codificación, o cal contrasta con corpus noutras linguas de miles de millóns de palabras construídos a partir de Internet, pero cunha escasa codificación”.

O corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o integran, e mais coa incorporación de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz, co que na recuperación de información é posible reproducir o fragmento sonoro que corresponde ao resultado que se amosa.

Grazas ás socias e socios editamos un xornal plural

As socias e socios de Praza.gal son esenciais para editarmos cada día un xornal plural. Dende moi pouco a túa achega económica pode axudarnos a soster e ampliar a nosa redacción e, así, a contarmos máis, mellor e sen cancelas.