Stable Diffusion: a ferramenta de gerar imagens com IA

Você já imaginou poder criar imagens incríveis a partir de simples descrições em texto? Pois é isso que o Stable Diffusion, uma ferramenta de inteligência artificial (IA), é capaz de fazer. Neste artigo, você vai conhecer mais sobre essa tecnologia, como ela funciona, quais são as suas vantagens e desafios, e como usá-la para gerar imagens de alta qualidade e criatividade. Enfim, vamos seguir.

O que é o Stable Diffusion?

O Stable Diffusion é um software que gera imagens a partir de textos, usando um modelo de difusão latente, que é um tipo de rede neural generativa profunda que adiciona e remove ruído das imagens de referência até obter uma imagem final que corresponda ao texto. Esse método permite gerar imagens mais fotorrealistas, criativas e diversificadas do que os modelos baseados em GAN, que são mais propensos a artefatos e distorções. Além disso, o Stable Diffusion possui código aberto e pode ser usado tanto na versão web quanto na versão local. Outros geradores de imagens, como o DALL-E, o Midjourney e o Jasper Art, têm código fechado e funcionam apenas na versão web, com limitações de créditos, resolução e estilo.

O Stable Diffusion foi lançado em agosto de 2022, fruto de uma colaboração entre a Stability AI, a Runway, a EleutherAI e a LAION. Ele foi treinado com um conjunto de dados chamado LAION-Aesthetics V2, que contém mais de 14 milhões de imagens com descrições em inglês, abrangendo diversos temas, estilos e gêneros. O custo do treinamento foi de cerca de 600 mil dólares, usando 256 GPUs Nvidia A100.

Como funciona o Stable Diffusion?

O Stable Diffusion funciona a partir de prompts de texto, que são as descrições das imagens que se deseja gerar. Esses prompts podem conter palavras-chave, adjetivos, cores, formas, tamanhos, posições, estilos, etc. Por exemplo, se você digitar “um cachorro azul com asas de borboleta”, o Stable Diffusion vai tentar criar uma imagem que represente essa ideia.

O processo de geração de imagens pelo Stable Diffusion é baseado em um modelo de difusão latente, que consiste em duas etapas principais: a etapa de ruído e a etapa de denoising. A etapa de ruído consiste em adicionar ruído às imagens de referência, que são as imagens do conjunto de dados que possuem descrições similares ao prompt de texto. O ruído é uma forma de distorcer ou alterar as imagens, tornando-as menos nítidas e mais aleatórias. O objetivo dessa etapa é fazer com que as imagens de referência se tornem mais parecidas com o prompt de texto, ou seja, mais próximas da imagem desejada.

A etapa de denoising consiste em remover o ruído das imagens de referência, restaurando-as para a sua forma original. O objetivo dessa etapa é fazer com que as imagens de referência se tornem mais realistas e coerentes, ou seja, mais distantes do prompt de texto. Essas duas etapas se repetem várias vezes, alternando entre adicionar e remover ruído, até que se obtenha uma imagem final que seja uma combinação das imagens de referência e do prompt de texto. Essa imagem final é a imagem gerada pelo Stable Diffusion, que deve ser o mais fiel possível à descrição em texto.

Quais são as vantagens e desafios do Stable Diffusion?

O Stable Diffusion é uma plataforma de inteligência artificial que gera imagens a partir de textos, usando um modelo de difusão latente. Ele tem algumas vantagens e desafios, que vamos listar a seguir:

Vantagens:

Ele permite criar imagens realistas, criativas e diversificadas, usando prompts de texto em inglês.
Ele tem código aberto e pode ser usado tanto na versão web quanto na versão local. Assim, oferecendo mais controle e personalização aos usuários.
Ele usa um método de difusão que adiciona e remove ruído das imagens de referência, evitando artefatos e distorções comuns em modelos baseados em GAN.
Ele tem diversas aplicações, como arte, design, educação, entretenimento, pesquisa, etc.

Desafios:

Ele requer um computador com recursos potentes, como uma placa de vídeo e uma boa memória, para rodar a versão local.
Ele ainda tem dificuldades em gerar rostos humanos realistas e naturais, podendo apresentar características pouco harmônicas ou estranhas.
Ele pode gerar imagens indesejadas ou ofensivas, se o usuário usar negative prompts, que são textos que contêm palavras negativas, violentas ou preconceituosas.
Ele pode gerar imagens que violem direitos autorais ou privacidade, se o usuário usar textos que se refiram a obras ou pessoas protegidas por lei.

Como usar o Stable Diffusion?

Para usar o Stable Diffusion, você pode escolher entre a versão web ou a versão local, dependendo da sua preferência e disponibilidade. A versão web é mais simples e acessível, mas tem limitações de recursos e qualidade. A versão local é mais completa e personalizável, mas requer uma instalação mais complexa e um hardware mais robusto. Veja como usar cada uma delas:

Versão web

A versão web do Stable Diffusion pode ser acessada pelo site Stable Diffusion Web (Online), que é uma interface gráfica criada por um desenvolvedor independente. Nesse site, você pode gerar imagens gratuitamente, mas com algumas restrições, como anúncios, marca d’água, resolução baixa e créditos limitados. Para usar a versão web, siga os passos abaixo:

Acesse o site Stable Diffusion Web (Online) e clique em “Get Started for Free”.
Na aba “Prompt”, digite, de preferência em inglês, as características da imagem que deseja gerar, separadas por vírgula. Por exemplo, “a blue dog with butterfly wings”.
Clique no botão “Generate” e aguarde alguns minutos até que a ferramenta gere a imagem.
Você pode salvar a imagem normalmente, clicando com o botão direito do mouse e escolhendo a opção “Salvar imagem como”.

Versão local

A versão local do Stable Diffusion pode ser instalada no seu computador, seguindo as instruções do site oficial Stable Diffusion UI, que é o repositório do código-fonte do software. Nesse site, você pode baixar os arquivos necessários para rodar o Stable Diffusion localmente, mas é preciso ter um computador com uma placa de vídeo compatível com a tecnologia CUDA da Nvidia e uma boa memória. Para usar a versão local, siga os passos abaixo:

Primeiramente, acesse o site Stable Diffusion UI e clique na opção “v2.16” ou na versão mais atualizada disponível.
Em seguida, clique no arquivo “stable-diffusion-ui-win64.zip” para baixá-lo e extraia os arquivos em uma pasta de sua preferência.
Em terceiro lugar, execute o arquivo “update” para abrir uma janela de prompt de comando e atualizar os dados necessários para o funcionamento do software.
Posteriormente, execute o arquivo “run” para abrir outra janela de prompt de comando e iniciar o software. Esse arquivo será o executável para abrir o Stable Diffusion local, então você pode criar um atalho para ele.
A versão local funciona offline, mas o layout e as funções dela necessitam de um navegador. Portanto, copie o link gerado no prompt de comando e abra no navegador de sua preferência.
Na aba “Prompt”, digite, de preferência em inglês, as características da imagem que deseja gerar, separadas por vírgula. Você também pode alterar os parâmetros de geração, como resolução, profundidade, temperatura, etc.
Clique no botão “Generate” e aguarde alguns minutos até que a ferramenta gere a imagem.
Você pode salvar a imagem normalmente, clicando com o bot
o botão direito do mouse e escolhendo a opção “Salvar imagem como”.
Você também pode aplicar algumas funções extras, como augment, restore_face e load_model, que permitem modificar a imagem gerada, usando transformações, restaurações e modelos alternativos.

Em última análise…

Em suma, o Stable Diffusion é uma ferramenta de inteligência artificial que gera imagens a partir de textos, usando um modelo de difusão latente. O app é capaz de criar imagens realistas, criativas e diversificadas, usando prompts de texto em inglês. Ele tem código aberto e uma utilização diversa, com a versão web e uma versão local, oferecendo mais controle e personalização aos usuários.

O Stable Diffusion contempla diversas aplicações, como arte, design, educação, entretenimento, pesquisa, etc. Sobretudo, é uma plataforma inovadora e promissora, que representa um avanço na geração de imagens a partir de textos.