
No dia 19 de agosto de 2025 a startup chinesa DeepSeek anunciou uma atualizaçao para o seu modelo de inteligência artificial V3. O anúncio ocorreu em uma postagem no grupo oficial da empresa no WeChat e descreveu a nova versão — batizada de V3.1 — como um ajuste experimental pronto para testes. Embora a companhia não tenha divulgado documentação técnica, a atualização é mais um capítulo na corrida chinesa para desafiar gigantes ocidentais como OpenAI e Anthropic.
O que muda com o V3.1
Segundo a publicação citada pela Bloomberg Línea, o V3.1 conta com uma janela de contexto mais longa, permitindo que o modelo considere uma quantidade maior de informação por consulta. Uma janela de contexto grande é essencial para manter conversas longas e relembrar informaçoes passadas sem perder coerência. A startup afirma que isso resultará em conversas mais longas com melhor recuperação, mas não apresentou detalhes técnicos adicionais.
A falta de detalhes é significativa porque a versão V3, lançada em dezembro de 2024, foi publicizada como um modelo de código aberto com 671 bilhões de parâmetros na arquitetura mixture‑of‑experts (MoE). Apenas 37 bilhões de parâmetros são ativados a cada token durante a inferência, o que reduz o custo de computação sem sacrificar desempenhoi. Entre as especificações divulgadas estão:
- Janela de contexto de 128 000 tokens e capacidade de processar cerca de 60 tokens por segundo, três vezes mais rápido que a versão V2.
- Latência de ~0,76 segundo por token e preço de US$ 0,27 por milhão de tokens de entrada e US$ 1,10 por milhão de tokens de saída, o que torna o DeepSeek V3 um dos modelos open source de melhor custo‑benefício.
- Um mecanismo de seletividade que ativa apenas alguns “especialistas” da rede (MoE), combinando rapidez e capacidade de raciocínio.
O fato de a janela de contexto da nova versão V3.1 ser “mais longa” sugere que poderá ultrapassar esses 128 000 tokens. Isso beneficiaria aplicações que exigem grande volume de informações, como análises de documentos extensos ou códigos longos. Contudo, sem documentação pública, ainda não está claro qual será o tamanho final da janela nem se houve alterações na arquitetura MoE.
Por que essa atualização é relevante
Mesmo com poucos detalhes, o lançamento do V3.1 reforça dois pontos:
- Avanços rápidos a baixo custo. O DeepSeek V3 foi treinado com 14,8 trilhões de tokens usando 2,7 milhões de horas de GPU, um custo estimado em US$ 5,6 milhões, significativamente inferior aos valores gastos por rivais ocidentais. Ainda assim, a versão V3 superou modelos como Llama 3.1 e Claude 3.5 em vários testes de matemática e programação. O novo V3.1 mostra que a empresa continua apostando em melhoras incrementais e baratas, em vez de saltos geracionais.
- Pressão sobre os líderes dos EUA. A velocidade de desenvolvimento e a popularidade dos modelos da DeepSeek desafiaram empresas americanas como OpenAI. O modelo R1, lançado em janeiro de 2025, chegou a superar rivais ocidentais em métricas padronizadas e custou apenas US$ 6 milhões para treinar. Essa escalada de inovações chinesas levou a reduções de preços e novos modelos “econômicos” por parte de empresas como Google (Gemini 2.5 Pro) e OpenAI (o3 Mini).
A DeepSeek também se destaca por adotar uma estratégia de aperfeiçoamentos contínuos. Em vez de lançar diretamente o esperado sucessor R2, a empresa evolui o modelo R1 por meio de atualizações incrementais. A atualização R1‑0528, de maio de 2025, incorporou mecanismos de auto‑verificação para aumentar a precisão em matemática e fatos, elevando a pontuação em benchmarks c em quase 30%. Essa versão gerou 728 linhas de código para criar um aplicativo de animação 3D com partículas, resultado comparável ao Claude 4 da Anthropic. A abordagem incremental reduz custos e permite corrigir falhas mais rapidamente, mas traz desvantagens de lentidão na inferência e limitações em suporte multilíngue.
O que ainda falta
Embora o DeepSeek V3.1 amplie a capacidade de contexto, a empresa ainda não publicou documentação em plataformas como o Hugging Face. Isso impede a comunidade de testar o modelo em diferentes cenários e avaliar o impacto real da mudança. Usuários e desenvolvedores também aguardam o lançamento do R2, sucessor do R1; segundo a mídia chinesa, atrasos teriam ocorrido devido ao perfeccionismo e às falhas de Liang Wenfeng, CEO da empresa.
At[e agora a nova versão V3.1 reforça a estratégia da DeepSeek de crescer de maneira incremental, respondendo rapidamente ao feedback e garantindo que a empresa permaneça no radar global da inteligência artificial. Enquanto a comunidade espera por detalhes técnicos e pelo R2, o anúncio de uma janela de contexto ainda maior sinaliza que a corrida por modelos com memória mais longa e preços acessíveis está apenas começando.