A empresa Stability AI apresentou o SDXL 0.9, o seu mais recente progresso no conjunto de modelos Stable Diffusion para geração de imagens a partir de texto. Após a bem-sucedida estreia do Stable Diffusion XL beta em abril, o novo SDXL 0.9 oferece uma substancial melhoria na qualidade das imagens e na riqueza de detalhes se comparado ao seu predecessor.
O acesso ao modelo pode ser feito por meio do ClipDrop atualmente, com a API sendo disponibilizada em breve. Os pesos para pesquisa serão lançados abertamente em meados de julho, à medida que avançamos para a versão 1.0.
Embora seja possível rodar o SDXL 0.9 numa GPU convencional, este modelo representa um avanço significativo no uso criativo das imagens geradas por IA. A possibilidade de criar representações hiper-realistas para cinema, TV, música e vídeos didáticos, além de ser aplicável a design e uso industrial, posiciona o SDXL na vanguarda das aplicações de imagens de IA.
Exemplos:
Alguns exemplos dos prompts testados no SDXL beta (esquerda) e 0.9 mostram o quão longe esse modelo chegou em apenas dois meses.

Prompt: ✨aesthetic✨ aliens walk among us in Las Vegas, scratchy found film photograph
(Left – SDXL Beta, Right – SDXL 0.9)

Prompt: *~aesthetic~*~ manicured hand holding up a take-out coffee, pastel chilly dawn beach instagram film photography
Negative prompt: 3d render, smooth, plastic, blurry, grainy, low-resolution, anime
(Left – SDXL Beta, Right – SDXL 0.9)
A série SDXL não só atende a pedidos de texto básico, mas também dispõe de uma gama de funcionalidades adicionais. Isso inclui a requisição de imagem para imagem (onde uma imagem é inserida para gerar variações dela), pintura interna (reconstrução de partes faltantes numa imagem) e pintura externa (expansão perfeita de uma imagem existente).
Como funciona de baixo do capô?
A principal força motriz por trás do avanço do SDXL 0.9 é o aumento significativo na contagem de parâmetros (soma de todos os pesos e vieses na rede neural usada para treinar o modelo) em relação à versão beta.
O SDXL 0.9 é um dos modelos de geração de imagens com a maior contagem de parâmetros abertos, apresentando 3,5B parâmetros no modelo base e 6,6B no pipeline de conjunto de modelos (a saída final é criada executando-se dois modelos e agregando os resultados). O modelo do segundo estágio é usado para adicionar detalhes mais refinados à saída do primeiro estágio.
Comparativamente, a versão beta rodava com 3,1B parâmetros e usava apenas um único modelo.
O SDXL 0.9 roda em dois modelos CLIP, incluindo um dos maiores modelos OpenCLIP treinados até hoje (OpenCLIP ViT-G/14). Isso reforça a capacidade do 0.9 de criar imagens realistas com maior profundidade e resolução de 1024×1024.
Um artigo de pesquisa detalhando as especificações e testes deste modelo será divulgado pela equipe SDXL em breve.
Requisitos do Sistema
Apesar de sua capacidade de processamento e arquitetura de modelo avançada, o SDXL 0.9 pode ser rodado em uma GPU moderna de consumo, exigindo apenas um sistema operacional Windows 10 ou 11 ou Linux, com 16GB de RAM, e um Nvidia GeForce RTX 20 (ou equivalente) com no mínimo 8GB de VRAM. Usuários de Linux também podem usar uma placa compatível da AMD com 16GB de VRAM.
Próximos passos
O lançamento geral aberto do SDXL 1.0 está previsto para meados de julho (data a confirmar), seguindo o SDXL 0.9.
Contato: Para mais informações ou para dar feedback sobre o SDXL 0.9, por favor entre em contato conosco em research@stability.ai.