DeepSeek atualiza modelo de IA e amplia desempenho em matemática e codificação

A startup chinesa DeepSeek anunciou a atualização de seu modelo de linguagem de código aberto, batizado de DeepSeek-V3-0324, que incorpora melhorias no desempenho matemático, na capacidade de codificação e na geração de conteúdo em língua chinesa.

O novo modelo sucede o DeepSeek V3 e foi lançado na plataforma de desenvolvedores Hugging Face, além do próprio site da empresa.

O DeepSeek-V3-0324 possui 685 bilhões de parâmetros e utiliza a licença de software do MIT, em contraste com os 671 bilhões de parâmetros do DeepSeek V3, que opera sob licença comercial da própria empresa.

Segundo comunicado da companhia, o modelo foi otimizado com foco em desenvolvimento web front-end, raciocínio lógico e escrita em chinês.

A atualização do modelo refletiu em avanços em benchmarks de desempenho. No American Invitational Mathematics Examination (AIME), o modelo obteve uma pontuação de 59,4, superando os 39,6 pontos da versão anterior.

No LiveCodeBench, plataforma que avalia habilidades de codificação, o novo modelo registrou 49,2 pontos, um aumento de 10 em relação ao desempenho anterior.

O modelo também é a base do DeepSeek R1, voltado para tarefas de raciocínio. Lançado em janeiro, o R1 chamou a atenção por aliar desempenho elevado a um custo reduzido.

A expectativa no setor é que uma nova versão, o R2, seja anunciada em breve. Segundo reportagem da agência Reuters, o lançamento estava previsto para maio, mas pode ser antecipado.

A arquitetura do DeepSeek-V3-0324 adota o sistema “Mixture-of-Experts”, voltado para a ampliação da escala dos modelos de linguagem de forma mais eficiente em termos computacionais.

A estratégia visa melhorar o desempenho sem aumento proporcional no consumo de recursos, o que pode tornar os modelos mais acessíveis para testes e aplicações em ambientes com capacidade limitada.

Especialistas da comunidade acadêmica e do setor tecnológico comentaram o desempenho da nova versão. Kuittinen Petri, professor da Universidade de Ciências Aplicadas de Häme, publicou nas redes sociais que o modelo foi capaz de gerar “uma página inicial responsiva e de ótima aparência para uma empresa de IA” com 958 linhas de código.

Segundo ele, o site gerado era compatível com dispositivos móveis e funcionava corretamente. “A Anthropic e a OpenAI estão em apuros”, escreveu Petri. Ele também destacou que a DeepSeek opera com aproximadamente 2% dos recursos financeiros da OpenAI.

O modelo também foi testado por Awni Hannun, pesquisador do grupo Machine Learning Research (MLR) da Apple. Hannun informou ter executado o DeepSeek-V3-0324 em um chip M3 Ultra de 512 GB de RAM, com velocidade superior a 20 tokens por segundo. Apesar do desempenho abaixo da média em velocidade, o pico de uso de memória foi de 381 GB.

Jasper Zhang, medalhista de ouro em Olimpíadas de Matemática e doutor pela Universidade da Califórnia, Berkeley, testou o modelo com um problema da AIME 2025 e afirmou que ele “o resolveu sem problemas”.

Zhang também declarou que sua startup, Hyperbolic, já oferece suporte ao DeepSeek-V3-0324 em sua plataforma de nuvem. “Modelos de IA de código aberto mais confiantes vencerão no final”, escreveu Zhang na plataforma X.

Fahd Mirza, engenheiro-chefe de nuvem e inteligência artificial na empresa australiana de materiais de construção Boral, comentou na comunidade da Hugging Face que o novo modelo era “alucinante”.

Em seu canal no YouTube, publicou um vídeo demonstrando a execução de tarefas de matemática e programação com o DeepSeek-V3-0324, afirmando que o desempenho foi “excelente”.

Segundo Li Bangzhu, fundador do site AIcpb.com, que monitora a popularidade de modelos de IA, a nova versão representa um avanço significativo em relação às anteriores. “Os recursos de codificação são muito mais fortes, e a nova versão pode abrir caminho para o lançamento do R2”, afirmou.

Desde o lançamento de seu modelo R1, a DeepSeek tem recebido atenção crescente por parte da comunidade de inteligência artificial, especialmente por adotar uma estratégia de código aberto combinada com escalabilidade e desempenho competitivo.

O DeepSeek-V3-0324 tornou-se, desde seu lançamento, o modelo mais popular da plataforma Hugging Face, com avaliações positivas de usuários e especialistas.

A empresa ainda não divulgou detalhes sobre o projeto Ceres-2, próximo modelo da linha, mas analistas esperam que ele seja lançado nos próximos meses. Enquanto isso, a DeepSeek mantém sua posição entre as principais startups de IA da China, competindo diretamente com grandes empresas do setor global.

Com informações da SCMP

Artigo Anterior

BYD supera novamente Tesla em receita anual e amplia vantagem nas entregas de veículos elétricos

Próximo Artigo

STF inicia julgamento-farsa contra Bolsonaro; acompanhe

Assine nossa newsletter

Assine nossa newsletter por e-mail para receber as últimas publicações diretamente na sua caixa de entrada.
Não enviaremos spam!