Criar imagens a partir de texto em segundos – e fazê-lo com uma placa gráfica convencional e sem supercomputadores? Por mais fantasioso que possa parecer, isso é possível pelo novo modelo Stable Diffusion AI. O algoritmo subjacente foi desenvolvido pelo Machine Vision & Learning Group liderado pelo Prof. Björn Ommer (LMU Munich).
Por Tech Xplore.
“Mesmo para leigos não abençoados com talento artístico e sem conhecimentos especiais de computação e hardware de computador, o novo modelo é uma ferramenta eficaz que permite que os computadores gerem imagens sob comando. Como tal, o modelo remove uma barreira para pessoas comuns expressarem sua criatividade “, diz Ommer. Mas também há benefícios para artistas experientes, que podem usar o Stable Diffusion para converter rapidamente novas ideias em uma variedade de rascunhos gráficos. Os pesquisadores estão convencidos de que essas ferramentas baseadas em IA serão capazes de expandir as possibilidades de geração de imagens criativas com pincel e Photoshop tão fundamentalmente quanto o processamento de texto baseado em computador revolucionou a escrita com canetas e máquinas de escrever.
Em seu projeto, os cientistas da LMU tiveram o apoio da start-up Stability.Ai, em cujos servidores o modelo de IA foi treinado. “Esse poder computacional adicional e os exemplos extras de treinamento transformaram nosso modelo de IA em um dos algoritmos de síntese de imagem mais poderosos”, diz o cientista da computação.
A essência de bilhões de imagens de treinamento
Um aspecto especial da abordagem é que, apesar de todo o poder do modelo treinado, ele é tão compacto que funciona em uma placa de vídeo convencional e não requer um supercomputador, como antigamente era o caso da síntese de imagens. Para isso, a inteligência artificial destila a essência de bilhões de imagens de treinamento em um modelo de IA de apenas alguns gigabytes.
“Uma vez que essa IA tenha realmente entendido o que constitui um carro ou quais características são típicas de um estilo artístico, ela terá apreendido precisamente essas características salientes e, idealmente, deverá ser capaz de criar mais exemplos, assim como os alunos de uma oficina de um antigo mestre podem produzir trabalhos no mesmo estilo”, explica Ommer. Em busca do objetivo dos cientistas da LMU de fazer com que os computadores aprendam a ver – ou seja, a entender o conteúdo das imagens – este é outro grande passo à frente, que avança ainda mais a pesquisa básica em aprendizado de máquina e visão computacional.
O modelo treinado foi lançado recentemente gratuitamente sob a licença “CreativeML Open RAIL-M” para facilitar mais pesquisas e aplicações dessa tecnologia de forma mais ampla. “Estamos empolgados para ver o que será construído com os modelos atuais , bem como para ver quais trabalhos futuros surgirão de esforços de pesquisa aberta e colaborativa”, diz o pesquisador doutor Robin Rombach.
Mais informações: Robin Rombach et al, High-Resolution Image Synthesis with Latent Diffusion Models, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2022)