
A DeepSeek tentou treinar o modelo R2 nos chips Ascend da Huawei para reduzir dependência da Nvidia, mas problemas técnicos persistentes travaram o projeto. O plano foi refeito: treino em Nvidia, inferência em Ascend. Resultado: adiamento do lançamento (previsto para maio) e um retrato honesto dos desafios de autonomia tecnológica na IA.
O que aconteceu?
O lançamento foi adiado; a expectativa de mercado é que o R2 chegue “nas próximas semanas”. Enquanto isso, vale lembrar: o R1 foi desenvolvido majoritariamente em Nvidia H20, hoje o chip mais popular na China.
A DeepSeek iniciou o treinamento do R2 em hardware Ascend (Huawei).
Segundo pessoas ouvidas pelo Financial Times, falhas recorrentes durante o treino inviabilizaram o cronograma, levando a empresa a migrar o treinamento para GPUs Nvidia e manter Ascend para a inferência.
A pressão de Pequim para priorizar tecnologia nacional encontrou um limite prático: quando “chegou a hora do treino pesado”, estabilidade e maturidade do stack fizeram diferença.
Por dentro do gargalo: treino ≠ inferência
Treinar um modelo de IA é como mandar alguém para anos de universidade:
- exige muito poder computacional de ponta a ponta (meses contínuos, clusters grandes, interconexão rápida);
- requer ecossistema de software estável (drivers, compiladores, kernels, bibliotecas, otimizadores, depuração);
- demanda resiliência operacional e financeira (quedas e inconsistências custam tempo e dinheiro).
A inferência, por sua vez, é “usar o diploma”: roda o modelo já treinado para responder perguntas. É pesada, mas menos sensível a arestas no stack.
A conclusão da DeepSeek: Ascend aguenta validação e inferência, mas a maratona do treinamento ainda cobra maturidade adicional.
A geopolítica no data center
- Os EUA restringiram exportações de chips avançados para a China; em julho, autorizaram a volta das vendas do H20 (com limitações).
- Pequim incentiva o setor a migrar para Ascend (autonomia estratégica), e ao mesmo tempo questiona o uso de chips dos EUA em projetos críticos.
- A linha Ascend está na lista negra dos EUA por alegações de uso de tecnologia americana restrita.
- Na prática, Nvidia segue dominante no treino de modelos de fronteira, enquanto o ecossistema Ascend cresce — com ênfase em inferência.
Por que isso importa
- Risco tecnológico vs. prazo de mercado
Apostar em um stack menos maduro pode estourar cronogramas. Para quem disputa janelas de lançamento, atraso custa mindshare e receita. - Custo total de propriedade (TCO)
Treino instável gera restarts, retrabalho e subutilização de cluster, elevando o custo por token treinado. - Portabilidade de modelos
Projetar pipelines para “train em A, infer em B” aumenta resiliência, mas também complexidade operacional (toolchains, formatos, kernels). - Sinal para o ecossistema
O caso reforça a mensagem: hardware importa, mas software e tooling maduros são o verdadeiro fosso competitivo no treino de LLMs de grande porte.
Lições práticas para líderes técnicos
Antes de mudar do stack Nvidia para outro (ou de adotar um “duplo stack” treino/inferência), responda:
- Maturidade do ecossistema: drivers, kernels, compiladores, bibliotecas (atenção a regressões sob carga real de treino).
- Tooling e depuração: profiler, verificadores de precisão, diagnósticos de OOM, kernels customizados.
- Compatibilidade de frameworks: cobertura de operadores, suporte a paralelismo (tensor/pipeline/data), mixed precision, kernels otimizados.
- Interconexão e I/O: topologia do cluster, throughput de armazenamento (checkpointing frequente sem gargalo).
- Planos de rollback: como sair rápido de um stack se o MTBF sob treino longo for inaceitável?
- Estratégia híbrida: é viável treinar onde é mais estável e servir onde é mais econômico sem duplicar demais o esforço?
Para onde olhar nas próximas semanas
- Calendário do R2: se chega sem novos adiamentos, é sinal de que o treino em Nvidia estabilizou.
- Atualizações do stack Ascend: correções de estabilidade sob treino distribuído prolongado serão o termômetro da evolução.
- Movimentos de pares: ByteDance, Tencent e Alibaba continuam em H20; qualquer mudança ampla de rumo seria um indicador forte.
Conclusão
O adiamento do DeepSeek R2 não é apenas um tropeço operacional: é um estudo de caso sobre trade-offs entre autonomia tecnológica, maturidade de ecossistema e time-to-market. A mensagem é clara: para treinar modelos de ponta, o software conta tanto quanto o silício. Enquanto Ascend avança e conquista espaço em inferência, Nvidia preserva a dianteira onde a estabilidade extrema ainda decide — o treinamento.
Fonte:
https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseek-reportedly-urged-by-chinese-authorities-to-train-new-model-on-huawei-hardware-after-multiple-failures-r2-training-to-switch-back-to-nvidia-hardware-while-ascend-gpus-handle-inference
https://br.investing.com/news/stock-market-news/deepseek-adia-lancamento-de-novo-modelo-de-ia-devido-a-problemas-com-chips-da-huawei-1648171