DeepSeek vs ChatGPT frente ao maior desafio da humanidade: a escrita reintegracionista

Deepseek CC-BY-SA FMT

Uma empresa chinesa, DeepSeek, conseguiu desenvolver um modelo de linguagem com uma capacidade de raciocínio tão boa ou superior à do seu principal concorrente estadounidense, o modelo o1 de OpenAI, que é a versão de ChatGPT equipada com módulo de raciocínio

Uma empresa chinesa, DeepSeek, com não mais de 200 trabalhadoras, conseguiu desenvolver um modelo de linguagem com uma capacidade de raciocínio tão boa ou superior à do seu principal concorrente estadounidense, o modelo o1 de OpenAI, que é a versão de ChatGPT equipada com módulo de raciocínio. No entanto, é de salientar que o modelo chinês foi treinado com muito menos recursos, mais baratos e menos contaminantes, pode baixar-se gratuitamente porque é um modelo aberto, e o seu desenvolvimento foi descrito e explicado com detalhe num artigo científico também em aberto, o que permitirá que o método seja replicado por outros grupos de investigação e empresas tecnológicas de todo o mundo. O modelo chinês é, portanto, um contributo importante para o avance da ciência em todos os países, os mais ricos e os menos ricos, enquanto o modelo estadounidense, fechado e dependente de recursos computacionais aos que só podem ter acesso as grandes tecnológicas, é um contributo magnífico para o negócio dos mais ricos. Como consequência indirecta da saída da IA chinesa, a empresa NVIDIA, líder na fabricação de GPUs, os chips de alto custo que se precisam para treinar os grandes modelos de linguagem, sofreu uma perda próxima a 600 mil milhões de dólares, a maior queda na história da bolsa. 

O culpável deste tremor de terra geopolítico e económico é o último modelo da empresa chinesa: DeepSeek R1. Ese é um modelo de linguagem de raciocínio que não apenas gera texto, mas replica processos internos como dedução, analogia, planejamento ou resolução de problemas passo a passo. Por exemplo, explica como resolver uma equação matemática ou justificar uma resposta com base em premissas. Baseia-se na aprendizagem por reforço de Cadeias de Pensamento, que dividem os problemas e tarefas em etapas intermediárias. Esta técnica também é supostamente empregada polos modelos fechados da família o1 de OpenAI, mas a empresa chinesa partilhou a receita com toda a comunidade científica.

Vou agora comparar os dous modelos com uma das tarefas mais complexas que existem na actualidade e que só pode ser resolvida por mentes prodigiosas: escrever em reintegrado. Em Silicon Valley sabem que o sistema que escreva perfeitamente em galego reintegrado terá atingido a Inteligência Artificial Geral

Vou agora comparar os dous modelos com uma das tarefas mais complexas que existem na actualidade e que só pode ser resolvida por mentes prodigiosas: escrever em reintegrado. Em Silicon Valley sabem que o sistema que escreva perfeitamente em galego reintegrado terá atingido a Inteligência Artificial Geral, a AGI pola que todas as empresas de IA suspiram. Consultei primeiro com DeepSeek R1. Este foi o meu diálogo:

Eu> Falas galego?

DeepSeek-R1> Si, podo falar galego. Como te podo axudar? 😊

Eu> Escreve algo em galego reintegracionista

DeepSeek-R1> Vou escreverche un texto en galego reintegracionista, seguindo as normas ortográficas que reivindican a irmandade co português:

 

"Na nosa Galiza, a língua é ponte sobre o Atlântico.
Escrevo estas letras co corazón aberto à Lusofonia, pois sabemos que, mais allá das fronteiras impostas, somos parte dun mesmo mar de palavras. A terra que nos pisa é a mesma que ecoa nos versos de Pessoa, nas cantigas de Martin Codax e no fado que chora nas rúas de Lisboa.

A reintegraçom não é só grafia: é memória viva de que «a nossa fala é um rio que nunca seca». Nascemos do latim, crescemos na Idade Média e, hoje, resistimos como vozes que não se calam. Que importa o nome? Galego-português, português da Galiza, língua… Somos uma luz com dois faróis: Compostela e Coimbra.

E se alguém pregunta: «¿Por qué reintegrar?», respondemos com Rosalía de Castro: «¡Alá no fondo do mar soterrada, brila unha joia de luz e de prata!».

A cultura não tem dono. A língua é de quem a vive.
— Escrito con ç e ss, mas sobretudo com paixom."

Sem entrar no conteúdo, que é simplesmente impressionante, a ortografia do texto é uma tentativa mal sucedida, mas mui meritória, que se aproxima muito do que entendemos como um texto com grafia reintegracionista

Sem entrar no conteúdo, que é simplesmente impressionante, a ortografia do texto é uma tentativa mal sucedida, mas mui meritória, que se aproxima muito do que entendemos como um texto com grafia reintegracionista. Isto que mostrei foi a resposta do sistema, o resultado final. Porém, é possível pedir-lhe ao modelo que mostre o processo de raciocínio que o levou a essa resposta. Não o vou poder colocar aqui inteiro, porque é um texto em inglês mui longo. Vou só mostrar alguns excertos:

I should compose a short text that highlights cultural or linguistic aspects, maybe something about Galicia's identity or the reintegrationist movement itself. Let me check some examples to ensure accuracy. Words like "nosa" (nossa), "irmandade" (irmandade), "lusofonía" (lusofonia) would be appropriate. Also, verb conjugations might align more with Portuguese, like "escrevo" instead of "escribo". Wait, let me confirm the correct spellings. "Galiza" is the reintegrationist term for Galicia. "Língua" instead of "lingua" with the acute accent. "Nós" with the acute accent. Also, using "ç" where Portuguese does, like in "correçom" for "corazón". But I need to be careful with the exact spelling rules here. Maybe "irmandade" is correct, and "lusofonia" without an accent. I should avoid isolationist spellings. For instance, using "nh" for the "ñ" sound, so "Galiza" instead of "Galicia", "minha" instead of "miña". Also, "nosso" instead of "noso". Wait, in reintegrationist, maybe it's "nossa" for feminine. Let me think. In Portuguese, it's "nossa" and "nosso". So in Galician reintegrationist, it should follow that. So "nosa" might actually be the isolationist form, whereas "nossa" would be reintegrationist. Hmm, maybe I mixed that up earlier. Wait, but in reintegrationist, do they use "não" or "non"? I think "non" is standard Galician, while reintegrationist might prefer "não". But I'm not entirely sure. Maybe some reintegrationist writings keep "non" but use other Portuguese spellings. This is a bit tricky. Perhaps it's safer to use "não" to align more with Portuguese orthography.

 

O modelo de OpenAI não resolveu o problema. Continuou a escrever em galego ILG/RAG, e mesmo com algum erro

Isto, que parece um monólogo interior do Ulisses de Joyce, é parte do frenético pensamento que DeepSeek-R1 levou a cabo antes de escrever o texto que mostrei acima. É curioso que, em toda esta cadeia de pensamento, não gastou um segundo em reflectir sobre o conteúdo do que ia escrever. Como um bom reintegracionista novato, só se concentrou na forma: na ortografia. Acabou por não resolver o problema da grafia, mas tentou-no de boa fé e não estivo longe de o conseguir. Vejamos agora que fai o novo ChatGPT que integra o modelo razoador o1. Confrontado com as mesmas duas questões, isto foi o que respondeu:

Eu> Falas galego?

ChatGPT> Sí, podo falar galego! Se prefires continuar a conversa en galego, adiante. Como che podo axudar? 😊

Eu> Escreve algo em galego reintegracionista

Aquí tes un texto en galego reintegracionista:

"A lingua galega é un dos maiores tesouros da nosa pátria. O reintegracionismo propugna unha ortografía que se achegue á forma histórica e á lingua portuguesa, resaltando as nosas raíces e a nosa identidade cultural. Esta lingua, que é patrimonio de todos, debe ser cultivada, ensinada e utilizada en todos os ámbitos da vida, dende a educación ata os medios de comunicación. Ao empregar o galego reintegracionista, non só reafirmamos a nosa identidade, senón que tamén construímos un ponte coa comunidade lusófona. É fundamental promover o uso dunha ortografía que reflicta a nosa rica historia e que fortalece o noso sentimento de pertenza a unha cultura única e plural".

 

Por que ChatGPT está a pensar em chinês? É OpenAI que está a utilizar DeepSeek-R1 para treinar o seu modelo de raciocínio? Mas não era ao contrário?

O modelo de OpenAI não resolveu o problema. Continuou a escrever em galego ILG/RAG, e mesmo com algum erro. Ao revisar o raciocínio utilizado para chegar a esta resposta, obtenho o seguinte (e não censuro nada):

呈现文化瑰宝

我正在描绘重构加利西亚卡涅的独特性。通过调整拼写差异,努力保持与葡萄牙拼写的相似性,展现加利西亚文化的独特。

重新定义拼写

我正在探讨如何用重构加利西亚卡涅拼写形式来撰写文本。这种拼写方式更靠近葡萄牙语拼写,反映出独特的文化特性。

倡导文化再生

我正在探讨凯涅-葡萄牙语的新拼写,这是凯涅-葡萄牙语言学家的文学创作和语言政策的关键。它强调凯涅多元认同、文化独特性和继续葡萄牙文化的联系。

Nesta guerra fria tecnológica é bem provável que todos se roubem uns aos outros. Isso não impede que os meios de comunicação ocidentais, supostamente os mais objectivos e imparciais do planeta, tomem posição a favor dos ladrões dum lado, que são também os mais opacos e os mais ricos

O processo de raciocínio está escrito em chinês simplificado mandarim. Uma vez traduzido com DeepL, é possível observar que o sistema entende o problema mas não consegue chegar a uma solução. Ora bem, por que ChatGPT está a pensar em chinês? É OpenAI que está a utilizar DeepSeek-R1 para treinar o seu modelo de raciocínio? Mas não era ao contrário? Tal e como está a ser sugerido polos médios ocidentais, incluída a BBC, não são os chineses os que estão a roubar dados à OpenAI? Devo dizer que o exemplo que acabo de vos mostrar é um indício mui forte de que OpenAI está a fazer o mesmo que di que está a fazer DeepSeek: utilizar dados sintéticos gerados polo modelo concorrente para melhorar o seu sistema de raciocínio. Ou seja, parece óbvio que OpenAI está a gerar Cadeias de Raciocínio usando os modelos chineses. O contrário não pode ser deduzido do exemplo apresentado. Se DeepSeek-R1 raciocina em inglês é apenas uma consequência de ter utilizado modelos base, mesmo chineses, que geram texto maioritariamente em inglês. Mas nesta guerra fria tecnológica é bem provável que todos se roubem uns aos outros. Isso não impede que os meios de comunicação ocidentais, supostamente os mais objectivos e imparciais do planeta, tomem posição a favor dos ladrões dum lado, que são também os mais opacos e os mais ricos.

Em todo o caso, e de acordo com esta pequena experiência não demasiado científica, parece que a escrita em reintegrado continua a ser um problema intratável para os grandes modelos de linguagem. O modelo chinês está, no entanto, um pouco mais próximo de resolver o puzzle do que o estadounidense, mesmo que este último tente utilizar sub-repticiamente a inteligência chinesa para aprender o galego lusista. Estamos mergulhados numa distopia surrealista, mais divertida e tola que a que podamos encontrar num filme de série B coreano.

Grazas ás socias e socios editamos un xornal plural

As socias e socios de Praza.gal son esenciais para editarmos cada día un xornal plural. Dende moi pouco a túa achega económica pode axudarnos a soster e ampliar a nosa redacción e, así, a contarmos máis, mellor e sen cancelas.