
A Universidade de Hong Kong, em colaboração com o Huawei Noah’s Ark Lab, apresenta o Dream 7B, um modelo de linguagem baseado em difusão que marca um avanço significativo na geração de texto. Lançado como software de código aberto, o Dream 7B permite ajustar o número de etapas de difusão, oferecendo um equilíbrio dinâmico entre velocidade e qualidade — uma inovação promissora frente às arquiteturas autorregressivas tradicionais. Vejam o funcionamento no vídeo abaixo:
Arquitetura Inovadora: Difusão em Linguagem Natural
Com 7 bilhões de parâmetros, o Dream 7B adota uma abordagem de difusão discreta para a geração textual. Ao contrário dos modelos convencionais como GPT ou LLaMA, que produzem texto token a token da esquerda para a direita, o Dream 7B refina sequências inteiras simultaneamente, partindo de um estado completamente ruidoso.
Essa arquitetura permite ao modelo explorar o contexto de forma bidirecional, resultando em maior coerência e capacidade de raciocínio. Inicializado com os pesos do Qwen2.5 7B e treinado com cerca de 580 bilhões de tokens (provenientes de conjuntos como Dolma v1.7, OpenCoder e DCLM-Baseline), o Dream 7B combina fundamentos sólidos com inovação técnica.
Vantagens sobre Modelos Autorregressivos
O Dream 7B apresenta diversos diferenciais que o destacam:
- Contexto bidirecional: Ao processar a sequência inteira de uma vez, o modelo compreende melhor relações e restrições globais no texto.
- Raciocínio e planejamento aprimorados: Supera modelos equivalentes em tarefas complexas que exigem múltiplas etapas de raciocínio, como Sudoku e Countdown.
- Geração controlada e flexível: A geração não precisa seguir uma ordem fixa, permitindo preenchimentos arbitrários e produções condicionadas.
- Qualidade vs. desempenho ajustável: O número de passos de difusão pode ser personalizado para priorizar qualidade ou eficiência computacional conforme a demanda.
Desempenho em Benchmarks
Em benchmarks de linguagem, matemática e geração de código, o Dream 7B iguala ou supera modelos líderes de sua categoria, como LLaMA3 8B e Qwen2.5 7B. Em tarefas que envolvem raciocínio sob restrição, chega a competir com modelos significativamente maiores, como o DeepSeek V3 671B — evidência clara de sua eficiência estrutural.



Inovações de Treinamento
Entre as principais inovações utilizadas no treinamento do Dream 7B estão:
- Inicialização com pesos de modelos autorregressivos: Aproveita o conhecimento pré-existente do Qwen2.5 7B, otimizando tempo e recursos de treinamento.
- Reprogramação de ruído adaptativa ao contexto: Em vez de aplicar ruído uniforme, o modelo ajusta dinamicamente o nível de ruído por token, melhorando a eficácia do aprendizado de difusão.
Aplicações Práticas
O Dream 7B é ideal para aplicações onde modelos tradicionais enfrentam limitações:
- Conclusão e preenchimento de texto com restrições: Gera conteúdo em ordem arbitrária, ideal para completar trechos específicos ou condicionar a geração a frases-alvo.
- Decodificação customizável: Geração pode seguir diversas ordens, adaptando-se a diferentes tipos de tarefa.
- Ajuste de desempenho: Possibilita controle fino sobre a relação entre tempo de inferência e qualidade do texto.
Aprimoramento Supervisionado e Versão Instruct
Para melhorar a aderência a instruções, foi realizado um ajuste supervisionado com 1,8 milhão de pares de dados do Tulu 3 e SmolLM2. Após três épocas de refinamento, o modelo demonstrou desempenho equivalente a soluções autorregressivas em tarefas orientadas por comandos do usuário.
As versões resultantes — Dream-v0-Base-7B e Dream-v0-Instruct-7B — estão publicamente disponíveis, promovendo a experimentação aberta e o avanço da pesquisa.
Conclusão: O Futuro da Geração de Texto com Difusão
O Dream 7B desafia a hegemonia dos modelos autorregressivos e comprova que a modelagem por difusão é uma alternativa viável e promissora para tarefas de linguagem natural. Sua arquitetura flexível, aliada a resultados expressivos, abre caminho para uma nova geração de sistemas de IA mais versáteis e eficazes.
Com o lançamento em código aberto, a equipe da Universidade de Hong Kong impulsiona a inovação na área, permitindo que pesquisadores e desenvolvedores explorem novas fronteiras na geração de linguagem natural.
Fonte https://hkunlp.github.io/blog/2025/dream/#why-diffusion-for-text-generation