‘Robô da Google’ é treinado por inteligência artificial e realiza tarefas domésticas; veja vídeos
O time de robótica do braço de pesquisas da Google anunciou progresso no desenvolvimento de um robô que utiliza inteligência artificial para realizar tarefas domésticas, como lavar louças. O modelo faz utilização de aprendizagem “texto para imagem” com o objetivo de aprender como se comportar e realizar tarefas mais complexas.
A ideia central é de que o modelo de geração de imagens a partir de um texto auxiliam a obtenção de dados do robô do Google, fazendo com que aprenda mais rápido.
“Avanços recentes no aprendizado de robôs mostraram-se promissores em permitir que os robôs executem uma variedade de tarefas de manipulação e generalizem para novos cenários […]”, diz o anúncio.
Para obter conjuntos de dados em grande escala, antes o robô dependia de demonstrações que exigiam “alto envolvimento humano” ou “esquemas de coleta de dados autônomos de engenharia pesada”, ambos difíceis de escalar conforme a empresa.
“Para atenuar esse problema, propomos uma rota alternativa e aproveitamos os modelos de base de texto para imagem amplamente usados em visão computacional e processamento de linguagem natural para obter dados significativos para o aprendizado de robôs sem exigir dados adicionais do robô.”
O método foi batizado de “Scaling RObot Aprendendo com a experiência imaginada semântica” (ROSIE em inglês).
Fei Xia, cientista que trabalha no Google desenvolvendo a tecnologia, explica em seu perfil do Twitter que “tudo o que você precisa dizer é uma tarefa de origem como ‘colocar a lata de coca na gaveta superior’, e uma tarefa de destino, como ‘colocar a lata de coca na gaveta superior bagunçada’”.
Text-to-image generative models, meet robotics!
We present ROSIE: Scaling RObot Learning with Semantically Imagined Experience, where we augment real robotics data with semantically imagined scenarios for downstream manipulation learning.
Website: https://t.co/vIAnaK3Y3c
?? pic.twitter.com/I4ZmakUljJ— Fei Xia (@xf1280) February 22, 2023
“Há um vasto conhecimento codificado nesses modelos de difusão e, para nossa surpresa, há até sinais que eles entendem um pouco de física modelando o processo de formação da imagem, veja como o tecido gerado tem dobras dentro da pinça. Garante uma investigação mais aprofundada”, comenta.
There is vast knowledge encoded in those diffusion models and to our surprise, there are even signs of life that they understand some physics by modeling the image formation process, see how the generated cloth has folds within the gripper pinch. Warrant further investigation pic.twitter.com/S5OE0I7qEn
— Fei Xia (@xf1280) February 22, 2023
O robô é capaz de reimaginar o ambiente e se adaptar conforme os dados que aprende com o modelo de “texto para imagem”.