Na última semana, a IA chinesa DeepSeek ganhou destaque global e impactou significativamente o mercado financeiro, contribuindo para a queda da Nasdaq, impulsionada pela desvalorização das ações de empresas de tecnologia norte-americanas. Especialistas em tecnologia e mercado financeiro ouvidos pelo GGN analisaram os aspectos mais relevantes dessa nova ferramenta.
Entre eles, está Marco Gomes, atual CIO (Chief Information Officer) da Hike, startup onde lidera as áreas de dados e tecnologia. Antes de ingressar na Hike, passou mais de cinco anos na Palantir, em Nova York, liderando a implementação e o desenvolvimento de plataformas de dados avançados, que integram machine learning e inteligência artificial para análises e tomadas de decisão centradas em pessoas.
Em sua análise, Marco Gomes destaca dois aspectos fundamentais na estratégia da DeepSeek: o método de treinamento utilizado e o intitulado “momento Aha”.
Treinamento
De acordo com Gomes, o treinamento da IA chinesa vai além de fontes de dados convencionais, como Wikipedia, sites de notícias e artigos. O DeepSeek também aprende com modelos de linguagem já existentes, como ChatGPT, Gemini e Oracle. Essa abordagem torna o modelo da startup chinesa mais eficiente em consumo energético e processamento, explicou.
De forma didática, o engenheiro de software Lucas Rodrigues acrescenta: “É como se o modelo da OpenAI aprendesse a ler com uma enciclopédia, enquanto o DeepSeek aprendesse com um professor. O professor guia o aprendizado com menos esforço.”
Ele complementa: “Em resumo, eles usaram uma técnica que direciona o aprendizado da máquina, enquanto o ChatGPT processa tudo indiscriminadamente, consumindo mais recursos devido à redundância de informações.”
A equipe da DeepSeek publicou um paper explicando o processo de criação do modelo, disponibilizado no GitHub. Ambos os especialistas ressaltam que as técnicas não são inéditas, mas o diferencial está na otimização do algoritmo.
Lucas não se surpreende com o surgimento de um modelo mais econômico. Para ele, as técnicas só não foram adotadas antes devido à necessidade de investimento inicial para desenvolver um novo modelo.
Momento “Aha”
Outro aspecto destacado por Marco Gomes no modelo DeepSeek é um “diálogo interno” metaforizado como uma conversa entre duas entidades para chegar a um consenso, que se torna o resultado final da resposta entregue pela IA. Esse processo gera os chamados “momentos Aha”, observáveis quando a IA interrompe a resposta para revisar sua própria lógica antes de prosseguir.
No exemplo acima, o DeepSeek resolve uma equação e, durante o cálculo, interrompe-se para analisar seus passos (linha em vermelho), dizendo: “Espere, espere. Isso é um ‘momento Aha’ que posso destacar aqui.” Em seguida, reinicia e conclui a operação.
ChatGPT x DeepSeek
O DeepSeek divulgou que teve um custo total de treinamento do modelo R1 de aproximadamente US 5,6 milhões, utilizando cerca de 2.000 chips da Nvidia. Em contraste, o treinamento do modelo GPT-4 da OpenAI, que é a base do ChatGPT, custou cerca de US 100 milhões e utilizou mais de 16.000 chips.
Mercado de IA ocidental em queda
O lançamento do modelo R1 da DeepSeek causou impacto no mercado financeiro norte-americano, resultando em uma perda de US$ 1 trilhão no valor de mercado de Big Techs como OpenAI (ChatGPT), Alphabet (Gemini) e Microsoft (Copilot). Investidores perceberam que os altos custos dessas empresas podem ser excessivos, já que a DeepSeek oferece resultados superiores a um custo significativamente menor.
Open Source
A política de código aberto (open source) da DeepSeek também preocupa as Big Techs. Embora sistemas open source não sejam novidade, sua aplicação em modelos de linguagem de grande escala (LLM) como o DeepSeek é inovador.
Enquanto a OpenAI cobra assinaturas por seu sistema comparável (O1), o DeepSeek R1 é gratuito e permite que desenvolvedores ajustem o código para criar variações do modelo. Essa abordagem remete ao Linux, sistema operacional open source que faz frente ao Windows da Microsoft, o sistema operacional dominante no mercado.
A principal ruptura da DeepSeek está justamente no código aberto, algo que as corporações ocidentais evitaram para proteger seus modelos proprietários.
A reação do mercado foi exagerada?
Na última terça-feira, 27, o jornalista Luis Nassif entrevistou Marcos Elias, um matemático, engenheiro, empresário e trader do mercado financeiro. Ele fundou diversas instituições financeiras, incluindo a GAS Investimentos, a Empiricus, a Turing e a Modena Capital.
Como analista de mercado, ele contestou o alvoroço em torno da DeepSeek, principalmente no caso da NVIDIA. A fornecedora de placas de vídeo foi uma das empresas que perderam valor de mercado nos últimos dias. A explicação é de que, se a DeepSeek apresenta um resultado igual ou superior ao GPT da OpenAI utilizando menos microchips da NVIDIA, a empresa estaria supervalorizada.
Após o lançamento da DeepSeek, a Nvidia sofreu uma perda significativa em seu valor de mercado. A empresa perdeu cerca de 600 bilhões de dólares em um único dia. As ações caíram aproximadamente 17%, passando de US142,62 para US 118,19. Essa queda foi a maior perda diária de valor de mercado na história dos Estados Unidos.
Para Elias, a verdade é que a DeepSeek ou qualquer empresa que treine inteligências artificiais é dependente da NVIDIA, seja em menor ou maior escala. Para considerar o valor da NVIDIA abaixo do que ela está cotada hoje, seria dizer que “a IA chegou ao seu limite”, o que não parece sensato, avaliou.
Marco Gomes acredita que apesar da Nvidia produzir as melhores placas de vídeo, as empresas de IA podem não ser tão dependentes assim da empresa. Visto que ela não é a única que produz esse tipo de hardware.
Apesar de existirem outros fabricantes, a Nvidia continua dominando o mercado de GPUs (placas de vídeo) para IA, de acordo com dados de dezembro de 2023.
Paradoxo DeepSeek
Para acalmar os investidores das big techs e justificar que a DeepSeek não matará as grandes corporações americanas, mas apenas as fortalecerá, o CEO da Microsoft, Satya Nadella, utilizou-se do Paradoxo de Jevons para defender sua tese.
O Paradoxo de Jevons afirma que, à medida que as melhorias tecnológicas aumentam a eficiência com a qual um recurso é usado, o consumo total desse recurso pode aumentar em vez de diminuir.
Publicado no X, Satya compartilhou o link da Wikipedia do Paradoxo de Jevons e escreveu: “O Paradoxo de Jevons ataca novamente! À medida que a IA se torna mais eficiente e acessível, veremos seu uso disparar, transformando-a em uma mercadoria da qual não nos cansamos.”
Futuro em evolução
O desenvolvedor Jeff Geerling, em seu canal do Youtube, testou o DeepSeek rodando em um Raspberry pi. O raspberry é uma espécie de mini computador muito leve em termos de componente que é muito popular entre desenvolvedores de software, por ser totalmente personalizável e barato, na Aliexpress é possível encontrar versões de R$200 a R$600.
Como o DeepSeek é de código aberto, esse youtuber baixou o código adaptado da DeepSeek e rodou nesse computador junto a uma placa de vídeo da Nvidia. O Raspberry tem componentes mais básicos do que smartphones, por exemplo. Obviamente que a velocidade de processamento é mais lenta do que utilizar a versão Web do modelo de chat.
Pode parecer pouco, mas é uma quebra de paradigma do senso comum do mundo da tecnologia de que, para utilizar sistemas de IA, seria necessário computadores enormes com diversos componentes de última geração.
Cuidados
É preciso ir com calma com todas essas informações. Marcos Gomes avalia que os testes e as declarações sobre o potencial da LLM da DeepSeek ainda são muito preliminares. Um modelo de linguagem de grande escala (LLM, na sigla em inglês) é um tipo de inteligência artificial treinada para entender e gerar texto em linguagem natural.
“Minha abordagem para todos os LLM que a gente conhece, todo o método, o LLM é autocompletar. É um autocompletar muito sofisticado, mas é um autocompletar.”
O conteúdo entregue pela LLM é produzido por humanos, e ele reproduz o que estatisticamente é mais presente em seu banco de dados. Ou seja, artigos, notícias, wikipédia, etc. Se o LLM consumir apenas conteúdos errados sobre determinado assunto, mesmo assim, ele levará adiante essa informação como verdadeira.
“A DeepSeek é um autocompletar muito leve e roda nas infraestruturas muito mais leves e genéricas que os anteriores, de um jeito de código aberto com muito mais eficiência, mas ainda é um autocompletar.”