Pesquisador do MIT desenvolve sistema para ensinar os sentidos de conexão da IA

Dois dos sentidos importantes nos quais os humanos confiam para explorar o mundo são a visão e o toque. Os seres humanos podem combinar os sentidos da visão e do toque para saber que objeto estão segurando e vendo. Robôs e sistemas de IA são incapazes de fazer isso. O pesquisador Yunzhu Li e sua equipe do MIT estão trabalhando em um sistema para ajudar os robôs a preencher a lacuna sensorial quando foram programados para ver ou sentir.

A equipe criou um sistema que cria sinais táteis a partir de entradas visuais e prediz qual objeto e qual parte está sendo tocada nessas entradas táteis. Os pesquisadores usaram seu sistema com um braço robótico KUKA e um sensor tátil especial chamado GelSight, projetado por outro grupo do MIT.

A equipe usou uma câmera na web para gravar quase 200 objetos, incluindo ferramentas, produtos domésticos, tecidos e outros, sendo tocados mais de 12.000 vezes. Eles então dividiram esses 12.000 videoclipes em quadros estáticos e compilaram um conjunto de dados VisGel de mais de 3 milhões de imagens emparelhadas visual / tátil.

Os cientistas dizem que, olhando a cena, seu modelo pode imaginar a sensação de tocar uma superfície plana ou uma borda afiada. Li diz que, ao tocar cegamente, o modelo pode prever a interação com o ambiente a partir de sentimentos puramente táteis. Ele observa que, reunindo os dois sentidos, eles podem capacitar o robô e reduzir os dados necessários para tarefas que envolvem manipulação e apreensão de objetos.

O sistema que a equipe desenvolveu usa redes adversárias generativas ou GANs. Os GANs usam imagens visuais ou táteis para gerar imagens na outra modalidade. Eles usam um gerador e um discriminador que competem entre si, onde o gerador visa criar imagens reais para enganar o discriminador. Cada vez que o discriminador pega o gerador, ele precisa expor o raciocínio interno da decisão e permitir que o gerador melhore. No futuro, a equipe pretende melhorar seu sistema usando dados coletados em áreas mais não estruturadas.

Artigos Relacionados

Back to top button