A inteligência artificial (IA) que cria conteúdo novo, como imagens ou texto, tem se expandido para vídeos. Mas, até agora, os modelos de vídeo ainda não estão no mesmo nível que os de imagem em relação à qualidade visual e à capacidade do usuário de controlar o que é gerado. Neste estudo, foi desenvolvido um sistema que utiliza um tipo especial de IA que converte texto em imagem para editar vídeos baseados em texto.
Basicamente, o sistema pega um vídeo original e um texto guia e cria um vídeo de alta qualidade que segue as instruções do texto. Ao mesmo tempo, ele mantém o arranjo espacial e a dinâmica do vídeo original. A ideia por trás do nosso método é garantir que as características de cada quadro do vídeo sejam consistentes ao longo de toda a edição. Fazemos isso propagando essas características, disponíveis em nosso modelo, de quadro para quadro.
O melhor de tudo é que o sistema não precisa de treinamento ou ajustes específicos. Ele pode ser usado com qualquer método padrão de edição de texto para imagem. Os resultados da edição com nosso sistema em uma série de vídeos reais são impressionantes.
Abaixo o link do paper:

https://arxiv.org/abs/2307.10373