O Corpus de Referencia do galego chega aos 45 millóns de palabras e agora recoñece a gheada e o seseo

O CORGA chegou á súa versión 4.1 sumando un total de 45.665.649 palabras ortográficas, dous millóns e medio máis de vocábulos que os que incorporaba a versión 4.0, presentada a comezos de 2022

O Corpus de Referencia do Galego Actual (CORGA) é un corpus documental integrado por distintos tipos de textos representativos da lingua galega actual e que abranguen cronoloxicamente dende 1975 ata a actualidade. O seu obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica, discursiva... Con este corpus é posible, por exemplo, identificar a partir de que ano se empeza a utilizar unha determinada palabra ou cando deixa de empregarse de forma cotiá por cambios tecnolóxicos ou sociais.

O CORGA chegou á súa versión 4.1 sumando un total de 45.665.649 palabras ortográficas, dous millóns e medio máis de vocábulos que os que incorporaba a versión 4.0, presentada a comezos de 2022.

Esta nova versión presenta novidades, coma o recoñecemento de formas con gheada e seseo e a fai posible realizar estudos variados dende a perspectiva de xénero

Esta nova versión presenta novidades, coma o recoñecemento de formas con gheada e seseo e a fai posible realizar estudos variados dende a perspectiva de xénero: tendo en conta o emprego da linguaxe inclusiva non binaria directa, atendendo á discriminación dos resultados en función do sexo da persoa autora ou interlocutora ou habililitando cruzamentos entre o sexo dunha persoa autora e o dos personaxes.

Ademais, incorposra utilidades innovadoras coma a recuperación de información pola modalidade inventario ou un dicionario de frecuencias que ten en conta o índice de dispersión, co que achega resultados moito máis relevantes sobre a frecuencia do léxico.

O seu obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas. Con este corpus é posible, por exemplo, identificar a partir de que ano se empeza a utilizar unha determinada palabra ou cando deixa de empregarse de forma cotiá

A ferramenta está continuamente actualizada grazas ao traballo conxunto do Centro Ramón Piñeiro para a Investigación en Humanidades e a Universidade de Santiago. E está coordinada, na súa parte lingüística, por Eva María Domínguez Noya e, na súa parte informática, por NLPgo Technologies S.L.

A profesora da USC María Sol López Martínez, codirectora do proxecto xunto a Guillermo Rojo, profesor emérito da USC, explica que se trata dun “corpus pequeno pero cunha rica codificación, o cal contrasta con corpus noutras linguas de miles de millóns de palabras construídos a partir de Internet, pero cunha escasa codificación”.

O corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o integran, e mais coa incorporación de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz, co que na recuperación de información é posible reproducir o fragmento sonoro que corresponde ao resultado que se amosa.

Cultura

Aprendizaxe, activismo, comunidade e orgullo: catro proxectos de 'Mil Primaveras' para o galego

luns 20, abril 2026

A CTNL recoñece varias iniciativas na sétima edición dos seus premios, que recaen este ano na web As chaves da lingua, no grupo de activismo cultural Comando Le, na campaña O Dépor é da Coruña e en Revolta Galega, un programa de dinamización nun colexio de Cabana

O Corpus de Referencia do galego chega aos 45 millóns de palabras e agora recoñece a gheada e o seseo

Hemeroteca

Sanxacobe, quisque, peluchismo: un dicionario complementario para entender mellor o galego de hoxe

"Anicamento", "teito de cristal" ou "birimbao", entre as novas entradas do Dicionario da Real Academia Galega

Grazas ás socias e socios editamos un xornal plural