O Google encontrou uma nova maneira de demonstrar o que seu modelo de IA Gemini pode fazer, com a ajuda de um robô.
Este era um robô da Divisão de Todos os Robôs do Google, que foi fechada no ano passado. Mas aparentemente os robôs ainda estão por aí, então o Google colocou uma gravata amarela em um deles e usou o Gemini para ensinar o robô a responder a comandos e navegar no espaço de escritório do DeepMind.
Para conseguir isso, o Google está usando modelos de linguagem de visão (VLMs) que são treinados em imagens e vídeos juntamente com texto, permitindo que eles respondam a perguntas e realizem tarefas que requerem percepção.
Por exemplo, em um vídeo um funcionário do Google pede para o robô levá-lo a algum lugar para desenhar coisas. O robô diz que precisa de um minuto para pensar, então leva o funcionário até um quadro branco. Em outro vídeo, o robô é instruído a seguir as direções no quadro branco, onde um mapa mostra as direções para chegar ao que é chamado de Área Azul. O robô segue as direções até uma área de testes de robótica e anuncia: 'Consegui seguir as direções no quadro branco'.
Clique no play para ver o robô em ação, e depois nos diga o que você achou nos comentários!