OmniGen: Revolucionando a Geração de Imagens.

OmniGen é um modelo integrado de geração de imagens capaz de criar uma ampla variedade de imagens a partir de instruções multimodais. Seu design prioriza a simplicidade, flexibilidade e facilidade de uso. Oferecemos o código de inferência para que todos possam explorar as diversas funcionalidades do OmniGen.

Exemplo: do projeto OmniGen em funcionamento.

Modelos tradicionais de geração de imagens geralmente exigem a carga de múltiplos módulos adicionais de rede (como ControlNet, IP-Adapter, Reference-Net, entre outros) e a realização de etapas extras de pré-processamento (por exemplo, detecção de rosto, estimativa de pose, recorte, etc.) para gerar imagens satisfatórias. No entanto, acredita-se que o paradigma futuro da geração de imagens deve ser mais simples e flexível, ou seja, capaz de gerar diversas imagens diretamente por meio de instruções multimodais arbitrárias, sem a necessidade de plugins adicionais e operações, de maneira semelhante ao funcionamento do GPT na geração de linguagem.

Devido a recursos limitados, ainda há espaço para aprimorar o OmniGen. O projeto continua sendo otimizado e espera-se que ele inspire modelos de geração de imagens mais universais. Além disso, você pode afinar facilmente o OmniGen sem se preocupar com o design de redes para tarefas específicas; basta preparar os dados correspondentes e executar o script. A imaginação deixa de ter limites; todos podem construir qualquer tarefa de geração de imagens, e talvez seja possível alcançar resultados muito interessantes, maravilhosos e criativos.

OmniGen é um modelo de geração de imagens que permite realizar diversas tarefas, incluindo, mas não se limitando a, geração de imagem a partir de texto, geração direcionada por assunto, geração que preserva identidade, edição de imagem e geração condicionada por imagem. O OmniGen não necessita de plugins adicionais ou operações específicas, pois pode identificar automaticamente as características (como objeto requerido, pose humana, mapeamento de profundidade) nas imagens de entrada de acordo com o prompt de texto. Mostramos alguns exemplos no arquivo inference.ipynb e, no arquivo inference_demo.ipynb, apresentamos um pipeline interessante para gerar e modificar uma imagem.

Abaixo as instruções de instalação:

git clone https://github.com/VectorSpaceLab/OmniGen.git
cd OmniGen
pip install torch==2.3.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118
pip install -e .

Fonte: https://github.com/VectorSpaceLab/OmniGen

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.