ESQUEÇA O LENSA! CRIE SUAS PRÓPRIAS IMAGENS DE GRAÇA COM INVOKEAI!

Victor Gerhardt
8 de dez. de 2022
6 min de leitura

Mas é claro... É claro que eu vou gastar um tempão escrevendo um post de instalação do Stable Diffusion, gastando horas pra testar tudinho para, dois dias depois, o tutorial ficar obsoleto. Tá, não exatamente obsoleto, já que ambas interfaces que ensinei a instalar são, de fato, muito boas em suas propostas (facilidade de instalação e versatilidade, respectivamente), mas eis que me surge uma nova interface gráfica para Stable Diffusion chamada InvokeAI, que é muito boa e tá ali, no meio do caminho entre as duas: o melhor dos dois mundos. O Invoke AI também possui a vantagem de funcionar em placas de vídeo menos potentes (com 4GB de VRAM já funciona, de acordo com os desenvolvedores). Então, antes de passar o tão aguardado treinamento que prometi no último post, vou guiar rapidamente uma instalação do Invoke AI. Mas, se você já tem uma das duas interfaces, pode pular pra parte do treinamento sem problemas.

Instalando o InvokeAI

1. Entre nesse link, vá até láááá embaixo e faça download do arquivo .zip correspondente a seu sistema operacional (sim, Maczeiros, tem pra vocês também);

2. Descompacte o arquivo na sua pasta de preferência, mas saiba que vamos precisar de bastante espaço;

3. Execute o arquivo "WinLongPathsEnabled.reg" e fala pro seu PC "não é vírus, confia";

4. Execute o arquivo "install.bat" e espere;

5. Agora é a parte pentelha, porque a a telinha preta vai perguntar até a cor dos teus olhos. Vai começar perguntando a pasta pra instalar os modelos e arquivos de configuração, então você escreve ali bonitinho o caminho da pasta do item 2. No meu caso, foi y:\petunia\invokeAI;

6. Vai perguntar a mesma coisa para os outputs (pasta onde estarão suas imagenzinhas). No meu caso, foi y:\petunia\invokeAI\outputs;

7. Agora, você vai se deparar com esse questionamento:

O instalador está perguntando se você curte imagens com conteúdo sexual. Então, se você for menor de idade e/ou não curte ver pessoas como vieram ao mundo, aperte "n", que significa "nudez? curto não, parça". Mas, se fores um danadinho, aperte y e seja feliz;

8. Você não precisa entender isso agora. Só dá Enter:

9. A próxima pergunta quer saber o seguinte:

Está perguntando a quantidade de modelos que você quer baixar. Eu recomendo apertar "r" e dar enter, para instalar só os recomendados, mas se estiver ousado (lê-se, com tempo e espaço no HD) senta o dedo no "a";

10. Essa é parte mais chatinha, pois é o único passo que vamos ter que minimizar a instalação, pois os pentelhos pediram isso:

Mas é tranquilo. É só criar uma conta no HuggingFace e aceitar os termos desse link e desse aqui. Aí, entra nesse link e clica em "New Token". É esse numerozinho que a tela preta quer, então copia ele, volta na tela preta e clique com o botão direito pra colar. Só aí poder dar Enter e esperar. Aconselho deixar tudo baixando (é tipo, mais de 10GB) e ir pegar um arzinho na rua, visitar sua tia, sei lá.

Quando terminar, você vai ver isso:

11. Agora é só abrir o arquivo "invoke.bat". Sempre que for usar o Stable Diffusion, é esse arquivo que você vai abrir. Pode até colocar um atalho na Área de Trabalho pra facilitar. Ele vai perguntar como queremos usar o Stable Diffusion, o que vamos responder apenas apertando "2" e dando enter, o que significa que queremos a interface bonitona. Vai demorar um cadinho pra carregar tudo, então tenha paciência.

Quando terminar, você acessa o link http://127.0.0.1:9090/ no seu navegador favorito e está tudo pronto.

Fazendo o modelo do seu rosto com o Dreambooth

Prontinho, chegou o momento que todos estavam esperando: Finalmente, vamos fazer o nosso próprio modelo, treinado com a nossa bela face (ou a de quem você preferir). Esse é um processo fácil, mas demorado, e pode ser feito de qualquer lugar com internet, pois, para isso, não vamos usar o poder computacional no nosso PC, mas sim de outras pessoas através do Google Collab. O treinamento de um modelo exige uma memória gráfica consideravelmente maior (mais de 10GB), então, para democratizar a tecnologia, foram criados esses ambientes colaborativos que qualquer um pode acessar. Mas fica o aviso: existe um limite no quanto podemos usar sem ter que pagar nada. Vou explicar melhor durante o tutorial. Bora lá.

1. Precisamos deixar nossas fotos prontas para o treinamento. Selecione 12 fotos suas com foco no rosto e de boa qualidade. Tente selecionar uma boa variedade de fotos com variadas iluminações, expressões e ângulos. Agora precisamos que essas fotos estejam em um tamanho bem específico: quadradas com 512px de lado. Felizmente não precisamos cortar e dimensionar uma a uma (mas você pode, se quiser). Clique aqui e você irá para o Birme, site especializado em redimencionar com facilidade grandes quantidades de imagens. O legal é que, por padrão, o Birme já deixa configurado como 512px, então nem precisa mexer nisso, basta arrastar pra lá todas suas fotos, ajeitar a área de recorte de cada uma se não estiver legal e mandar baixar. Com as fotos devidamente prontas, faça o favor de selecionar todas e renomeá-las para algo único, que é como você quer ser identificado pelo prompt mais tarde. Se você se chamar Eduardo, não renomeie as fotos pra eduardo, e sim pra algo único, tipo duduzimdagalera ou algo do tipo. No meu caso, estou treinando com fotos do Lello, integrante do Nerdice. Para usar as fotos, eu as renomeei para "lellooctavio". Agora sim estamos prontos.

2. Acesse esse link. Esse é o ambiente colaborativo que vamos rodar para executar nosso treinamento. Você vai precisar de uma conta no Google e um espacinho legal sobrando no armazenamento do Drive. O Google oferece 15GB grátis e 5GB já são o suficiente, mas eu recomendo ter mais espaço para backup. Sempre existe a possibilidade de criar uma conta nova, né? Então dá teus pulos aí.

3. Você pode ver lá na parte de cima da página um botão "Conectar". Aperte.

Atenção: voltei do futuro pra cá pra evitar que cometessem o mesmo erro que eu. Ao se conectar com um computador, existe a chance de você cair em uma máquina com pouca memória RAM, e isso poderá ser um problema. Então, quando se conectar, certifique-se disso.

Evitem uma máquina com pouca RAM, como a da esquerda. Fiquem tentando até aparecer uma mais próxima a da direita.

4. Agora nós vamos executar os passos do treinamento um a um, apertando o botão de "play" à esquerda de cada passo após realizar as pequenas configurações necessárias. O primeiro que vamos apertar será para conectarmos a nossa conta do Google que será usada para armazenamento. Toda vez que um passo for bem sucedido, um ✓ vai aparecer ao lado.

5. Dê o play em Dependecies e aguarde o ✓

6. Estamos no Passo "Model Download", mas antes de dar o play, vamos precisar inserir uma token do Hugging face no campo Huggingface_Token. Veja no passo 10 no tutorial desse mesmo post caso tenha alguma dúvida. Cole esse token no campo e, aí sim, dê o play.

7. Agora chegamos no Dreambooth. Primeiro precisamos criar uma sessão. Basta nomeá-la (usei o mesmo nome das minhas fotos) e selecionar o gênero da pessoa mas fotos. Certifique-se que a versão do modelo é a 1.5 e pode dar o play.

8. Chegou o momento de enviar as imagens e não tem nenhum segredo aqui, apenas deixe desmarcado o box "Crop_size", já que nossas fotos estão certinhas. Ao dar o play, vai aparecer um botão "Escolher Arquivos", então clica nele e selecione todas as fotos que preparamos.

9. Imagens enviadas, agora é a parte do treinamento em si com o Dreambooth. Antes de dar o play, precisamos dar algumas orientações. Em "Training_Steps", o ideal é colocar o número de fotos que enviamos e multiplicar por 200. No nosso caso, com 12 fotos, fica 2400. O outro campo que precisamos preencher é o "Resolution". É só colocar 512.

Ainda não dê o play. Em "Train_text_encoder_for:" coloque 50. Depois disso pode dar o play.

10. Agora é só ter paciência. Você vai ver essa tela abaixo e o processo deve levar uma hora mais ou menos, então não desconecte, sequer feche a janela.

Após o término do treinamento, entre no seu Google Drive e o seu modelo vai estar.

Agora você baixa esse arquivo e pronto: só falta instalar o modelo e partir pro abraço.

Pra instalar o modelo no Automatic1111, basta copiá-lo para o local da pasta de instalação "\stable-diffusion-webui\models\Stable-diffusion", simples assim. Depois, basta selecioná-lo no box de modelos.

Infelizmente no InvokeAI é um pouquinho mais chato, então vou ensinar a maneira mais "fácil" e sagaz de fazer isso. Na pasta de instalação do InvokeAI, entre no caminho em que se encontram os modelos: "invokeAI\models\ldm\stable-diffusion-v1". O que vamos fazer é substituir nosso modelo pelo modelo padrão do Invoke. Pra isso, primeiro faça um backup do arquivo "v1-5-pruned-emaonly.ckpt", ou simplesmente recorte-o e cole-o em algum outro lugar. Depois, coloque nosso modelo criado nessa pasta e renomeie-o exatamente como o modelo padrão: "v1-5-pruned-emaonly.ckpt". Só isso. Assim que abrirmos o InvokeAI, nosso modelo já estará ativo e pronto para a ação.

Então é isso. Agora é só usar à vontade. Vou colocar abaixo várias imagens que criei com o modelo gerado, assim como o prompt que usei pra cada uma. Algumas das imagens eu usei o Automatic1111 e outras usei o InvokeAI. Na legenda de cada imagem tem prompt usado, que pode servir de inspiração para quem está começando.

Perfectly-centered portrait-photograph of (lellooctavio) wearing (((black jacket))) in a ((cyberpunk city)), ((neon light)), lifelike, super highly detailed, professional digital painting, artstation, concept art, Unreal Engine 5, Photorealism, HD quality, 8k resolution, cinema 4d, 3D, beautiful, cinematic, art by artgerm and greg rutkowski and alphonse mucha and loish and WLOP

a detailed drawing of lellooctavio as a marine corp, intricate details, high contrast, art by Yoji Shinkawa

cg render of lellooctavio as a pixar character, highly detailed, rendered, ray - tracing, cgi animated, 3 d, cool clothes, soft shade, soft lighting, portrait pose, art by pixar

hyper realistic detailed face portrait of lellooctavio as a grizzled viking warrior in heavy cyberpunk armor by alphonse mucha, ayami kojima, amano, greg hildebrandt, and mark brooks, male, masculine, art nouveau, neo - gothic, gothic, character concept design

fully tattooed lellooctavio, shaman clothing, ritual, fame of thrones, fibonacci, sweat drops, insane, intricate, highly detailed, surrealistic, digital painting, artstation, concept art, smooth, sharp focus, illustration, unreal engine 5, 8 k, art by artgerm and greg rutkowski and alphonse mucha

An extremely psychedelic experience portrait of lellooctavio, colorful, surreal, dramatic lighting, cosmonaut, LSD, face, detailed, intricate, elegant, highly detailed, digital painting, artstation, concept art, smooth, sharp focus, illustration, art by Sam Spratt, Dan Mumford, Artem Demura and Alphonse Mucha

A very detailed portrait of lellooctavio as fortnite character, gameplay screenshot, 8k quality super realistic

A very detailed illustration of lellooctavio as a realistic fantasy knight, closeup portrait, digital art, trending on artstation, symmetry, art by magali villeneuve, donato giancola and greg rutkowski

portrait of lellooctavio, dreamy and ethereal, expressive pose, big black eyes, exciting expression, fantasy, intricate, elegant, dark and moody smoke, highly detailed, digital painting, artstation, concept art, smooth, sharp focus, illustration, art by guy denning

a very detailed painting of lellooctavio as a cyberpunk mercenary, ultra realistic, concept art, intricate details, eerie, highly detailed, photorealistic, octane render, 8 k, unreal engine. art by artgerm and greg rutkowski and charlie bowater and magali villeneuve and alphonse mucha

lellooctavio in the style of kentaro miura, 4 k, 8 k, absolute detail of even the smallest details and particles, beautiful shadows, beautiful art, black and white drawing, high rendering of the details of the environment, faces and characters

portrait lellooctavio as jesus christ, intricate details, 8 k, realistic light, art by Magali Villeneuve

portrait lellooctavio as pirate, intricate details, using heavy pirate clothes holdind a pirate sword, wearing a pirate hat, 8 k, realistic light, art by Magali Villeneuve

a picture of lellooctavio as a fortnite character

Criei também algumas versões femininas:

a very detailed portrait of lellooctavio as a beautiful woman, very beautiful, red lipstick, long wavy black hair, dreamy and ethereal, expressive pose, exciting expression, fantasy, intricate, elegant, dark and moody smoke, highly detailed, professional photograph, smooth, sharp focus, 8 k octane detailed render, post - processing, masterpiece, Hyperrealistic

detailed portrait of lellooctavio as a sexy woman using lipstick and makeup, hyperrealistic photography, intricate details, cinematic lightining

Ah, uma coisa importante. Todas as imagens foram feitas com a configuração abaixo. Então fiquem atentos a essas opções, pois elas alteram como a sua imagem será processada.

"Images" é apenas o número de imagens que você quer com o prompt, aí é a seu critério.

Ufa, acho que meu trabalho acabou por enquanto. Essa tecnologia avança a cada dia e o jeito é sempre ficar atualizando, mas, com tudo o que ensinei nos últimos posts, vocês já tem em mãos essa arma poderosa que é minha amada Stable Diffusion. Usem com sabedoria, padawans. Nos próximos posts eu pretendo abordar questões éticas e trabalhistas a respeito dessa tecnologia. Então, até lá.

Até mais, nerds!

ESQUEÇA O LENSA! CRIE SUAS PRÓPRIAS IMAGENS DE GRAÇA COM INVOKEAI!

Instalando o InvokeAI

Fazendo o modelo do seu rosto com o Dreambooth

Posts recentes

1 comentário