O Google não tem o melhor histórico quando se trata de inteligência artificial geradora de imagens.
Em fevereiro, o gerador de imagens integrado ao Gemini, o chatbot AI do Google, foi encontrado aleatoriamente injetando diversidade de gênero e racial em prompts sobre pessoas, resultando em imagens de nazistas racialmente diversos, entre outras imprecisões ofensivas.
O Google retirou o gerador, prometendo melhorá-lo e eventualmente relançá-lo. Enquanto aguardamos seu retorno, a empresa está lançando uma ferramenta aprimorada de geração de imagens, Imagen 2, dentro de sua plataforma de desenvolvimento Vertex AI - embora seja uma ferramenta com um foco decididamente mais empresarial.
Imagen 2 - que na verdade é uma família de modelos, lançada em dezembro após ser apresentada na conferência I/O do Google em maio de 2023 - pode criar e editar imagens a partir de uma simples descrição de texto, assim como o DALL-E e o Midjourney da OpenAI. De interesse para empresários, o Imagen 2 pode renderizar texto, emblemas e logotipos em vários idiomas, sobrepondo esses elementos em imagens existentes - por exemplo, em cartões de visita, vestuário e produtos.
Depois de ser lançado em versão de pré-visualização, a edição de imagens com o Imagen 2 agora está disponível no Vertex AI juntamente com duas novas capacidades: inpainting e outpainting. O inpainting e outpainting, recursos presentes em outros geradores populares de imagens como DALL-E, podem ser usados para remover partes indesejadas de uma imagem, adicionar novos componentes e expandir as bordas de uma imagem para criar um campo de visão mais amplo.
Mas o verdadeiro destaque do upgrade do Imagen 2 é o que o Google chama de "texto para imagens em movimento".
O Imagen 2 agora pode criar vídeos curtos de quatro segundos a partir de descrições de texto, seguindo a linha de ferramentas de geração de clipes de IA como o Runway, Pika e Irreverent Labs. Fiel ao foco corporativo do Imagen 2, o Google apresenta imagens em movimento como uma ferramenta para profissionais de marketing e criativos, como um gerador de GIFs para anúncios mostrando natureza, comida e animais - temas nos quais o Imagen 2 foi ajustado.
O Google diz que as imagens em movimento podem capturar "uma variedade de ângulos de câmera e movimentos", ao mesmo tempo que "suportam consistência durante toda a sequência." Porém, por enquanto elas estão em baixa resolução: 360 pixels por 640 pixels. O Google promete que isso vai melhorar no futuro.