O CORGA chegou á súa versión 4.1 sumando un total de 45.665.649 palabras ortográficas, dous millóns e medio máis de vocábulos que os que incorporaba a versión 4.0, presentada a comezos de 2022
O Corpus de Referencia do Galego Actual (CORGA) é un corpus documental integrado por distintos tipos de textos representativos da lingua galega actual e que abranguen cronoloxicamente dende 1975 ata a actualidade. O seu obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica, discursiva... Con este corpus é posible, por exemplo, identificar a partir de que ano se empeza a utilizar unha determinada palabra ou cando deixa de empregarse de forma cotiá por cambios tecnolóxicos ou sociais.
O CORGA chegou á súa versión 4.1 sumando un total de 45.665.649 palabras ortográficas, dous millóns e medio máis de vocábulos que os que incorporaba a versión 4.0, presentada a comezos de 2022.
Esta nova versión presenta novidades, coma o recoñecemento de formas con gheada e seseo e a fai posible realizar estudos variados dende a perspectiva de xénero
Esta nova versión presenta novidades, coma o recoñecemento de formas con gheada e seseo e a fai posible realizar estudos variados dende a perspectiva de xénero: tendo en conta o emprego da linguaxe inclusiva non binaria directa, atendendo á discriminación dos resultados en función do sexo da persoa autora ou interlocutora ou habililitando cruzamentos entre o sexo dunha persoa autora e o dos personaxes.
Ademais, incorposra utilidades innovadoras coma a recuperación de información pola modalidade inventario ou un dicionario de frecuencias que ten en conta o índice de dispersión, co que achega resultados moito máis relevantes sobre a frecuencia do léxico.
O seu obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas. Con este corpus é posible, por exemplo, identificar a partir de que ano se empeza a utilizar unha determinada palabra ou cando deixa de empregarse de forma cotiá
A ferramenta está continuamente actualizada grazas ao traballo conxunto do Centro Ramón Piñeiro para a Investigación en Humanidades e a Universidade de Santiago. E está coordinada, na súa parte lingüística, por Eva María Domínguez Noya e, na súa parte informática, por NLPgo Technologies S.L.
A profesora da USC María Sol López Martínez, codirectora do proxecto xunto a Guillermo Rojo, profesor emérito da USC, explica que se trata dun “corpus pequeno pero cunha rica codificación, o cal contrasta con corpus noutras linguas de miles de millóns de palabras construídos a partir de Internet, pero cunha escasa codificación”.
O corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o integran, e mais coa incorporación de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz, co que na recuperación de información é posible reproducir o fragmento sonoro que corresponde ao resultado que se amosa.