Existem fragilidades quando treinamos um modelo para sintetizar amostragem de alta qualidade com complexos dados em alta resolução, principalmente quando utilizando métodos convencionais de síntese natural de imagens criada por redes adversarias generativas.
Os métodos de difusão apresentam superioridade durante o aprendizado de máquina e por consequência geração de alta qualidade de imagens e áudios. Os modelos de difusão trabalha corrompendo os dados de treinamento adicionando ruídos gaussiano gradualmente, excluem os detalhes lentamente até os ruídos prevalecer 100%. E finalmente uma rede neural reverte o processo de corrupção. Este processo reverso sintetiza as informações eliminando o ruído gradativamente até produzir uma amostra perfeita.
Fonte: https://arxiv.org/abs/2105.05233
Veja o exemplo a seguir:
