“Computadores fazem arte / Artistas fazem dinheiro, dinheiro / Computadores avançam / Artistas pegam carona / Cientistas criam o novo / Artistas levam a fama”. Como não lembrar desses versos de Chico Science e Nação Zumbi ao falar de computadores criando obras de arte… ou será que não? Veja um pouco de como isso funciona e alguns exemplos de ilustrações geradas por inteligência artificial de nuvens usando diferentes movimentos artísticos europeus das Idades Moderna e Contemporânea.
Uma inteligência artificial generativa (IA) é um tipo de algoritmo (conjunto de instruções) que é capaz de criar novos dados/informações a partir de dados existentes. Na geração de imagens, essas IA geralmente são chamadas de redes neurais generativas (GNNs), que são um subconjunto de redes neurais artificiais. Vou explicar como elas funcionam de uma forma simplificada:
Treinamento
Para criar uma IA generativa de imagens, primeiro é necessário alimentá-la com um grande conjunto de dados de imagens, chamado de conjunto de treinamento. Essas imagens podem ser de qualquer tipo: rostos, paisagens, animais, etc. Durante o treinamento, a IA tenta aprender as características comuns dessas imagens, capturando padrões e relações entre os pixels.
Redes Neurais
Uma rede neural é um modelo matemático que tenta imitar o funcionamento do cérebro humano. Ela é composta por neurônios artificiais, organizados em camadas. Para imagens, essas redes geralmente têm camadas convolucionais, que são especializadas em detectar padrões visuais em diferentes partes da imagem.
Gerador e Discriminador
Em uma GNN, há duas partes principais: o gerador e o discriminador. O gerador é responsável por criar novas imagens. Ele recebe uma entrada aleatória (um vetor de números aleatórios) e tenta gerar uma imagem que se assemelhe às imagens do conjunto de treinamento. O discriminador é treinado para distinguir entre imagens reais (do conjunto de treinamento) e imagens geradas pelo gerador. Ele recebe tanto imagens reais quanto geradas como entrada e tenta classificá-las corretamente.
Treinamento Adversarial
O gerador e o discriminador são treinados em um processo chamado treinamento adversarial. Durante o treinamento, o gerador tenta enganar o discriminador, gerando imagens que o discriminador considerará reais. Enquanto isso, o discriminador tenta melhorar sua capacidade de distinguir entre imagens reais e geradas. Esse jogo de “gato e rato” continua até que o gerador seja capaz de produzir imagens que sejam tão convincentes que o discriminador não consiga mais distingui-las das imagens reais.
Geração de Imagens
Depois que o treinamento é concluído, o gerador pode ser usado para criar novas imagens. Para isso, basta alimentar o gerador com um vetor de números aleatórios e ele gerará uma imagem correspondente.
Em resumo, uma IA generativa de imagens funciona através do treinamento de uma rede neural para aprender padrões em um conjunto de imagens e, em seguida, gerar novas imagens com base nesses padrões aprendidos. O processo de treinamento envolve um jogo entre o gerador, que cria imagens, e o discriminador, que tenta distinguir entre imagens reais e geradas.
Nuvens e movimentos artísticos
Existem ferramentas que permitem ao usuário apenas escrever uma descrição do que deseja que a imagem tenha e aguardar alguns segundos para que um modelo de IA generativa já treinado crie essa imagem para você. O DALL-E é um desses modelos, desenvolvido pela OpenAI e cujo nome é um trocadilho com o pintor surrealista espanhol Salvador Dalí e o personagem de animação “WALL-E”. Seu uso está disponível online e gratuitamente em sites como o do Microsoft Copilot.
Ao digitar a descrição textual (conhecido como “prompt”) e autorizar o início do processamento, após alguns segundos são geradas quatro imagens diferentes baseadas no que você escreveu. Mesmo que escreva o mesmo texto novamente, nunca serão geradas imagens iguais porque a inicialização de cada modelo é diferente. Seguem as imagens geradas e os respectivos “prompts”, asism como alguns comentários – a resolução original é de 1024 x 1024 pixels cada uma, mas foi reduzido para que a página não ficasse muito “pesada”.
Caso reconheça alguns elementos de pinturas feitas por humanos, isso não é coincidência, pois a IA aprendeu com elas. Cada movimento artístico contém características marcantes que aparecem nas ilustrações, mas a descrição textual deve conter elementos suficientes para que o resultado seja o mais próximo do que a pessoa tem em mente. Por exemplo, a inclusão de prédios e seres de representação típica de cada movimento devem ser inseridos à mão no “prompt” para um melhor resultado.
Nem sempre a IA acerta. Por exemplo, no caso de desenhar uma nuvem Altocumulus lenticularis no topo de uma montanha: o resultado não desenhou esse tipo de nuvem, e somente deixando explícito que a nuvem deveria ter um formato de disco voador é que obteve-se algo mais próximo, embora não muito respeitando os processos físicos de sua formação. Em outros casos, mesmo falando para ter “somente nuvens do tipo Cirrus”, apareceram nuvens do tipo Cumulus, ou pedir para desenhar nuvens Cumulonimbus e só apareceram Cumulus congestus (que nem deveriam gerar raios).