Accueil Tech today Regardez un robot naviguer dans les bureaux de Google DeepMind à l’aide...

Regardez un robot naviguer dans les bureaux de Google DeepMind à l’aide de Gemini

Par

juillet 11, 2024

L’IA générative s’est déjà révélée très prometteuse chez les robots. Les applications comprennent les interactions en langage naturel, l’apprentissage des robots, la programmation sans code et même le design. Cette semaine, l’équipe DeepMind Robotics de google présente un autre point d’équilibre potentiel entre les deux disciplines : la navigation.

Dans un article intitulé « Mobility VLA : Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs », l’équipe démontre comment elle a mis en œuvre Google Gemini 1.5 Pro pour apprendre à un robot à répondre aux commandes et à naviguer dans un bureau. Naturellement, DeepMind a utilisé certains des robots de tous les jours qui traînent depuis que Google a fermé le projet au milieu de licenciements généralisés l’année dernière.

Dans une série de vidéos jointes au projet, les employés de DeepMind ouvrent avec un « OK, Robot » de style assistant intelligent avant de demander au système d’effectuer différentes tâches autour de l’espace de bureau de 9 000 pieds carrés.

Following directions from a whiteboard.2024 07 10 17 13 26

Par exemple, un Googler demande au robot de l’emmener quelque part pour dessiner des choses. « OK », répond le robot, vêtu d’un nœud papillon jaune enjoué, « donnez-moi une minute. Penser avec les Gémeaux… Le robot conduit ensuite l’humain vers un tableau blanc de la taille d’un mur. Dans une deuxième vidéo, une autre personne dit au robot de suivre les instructions sur le tableau blanc.

Une simple carte montre au robot comment se rendre dans la « zone bleue ». Encore une fois, le robot réfléchit un instant avant de faire une longue promenade vers ce qui s’avère être un robot testant. « J’ai réussi à suivre les instructions sur le tableau blanc », annonce le robot avec un niveau de confiance en soi dont la plupart des humains ne peuvent que rêver.

Avant ces vidéos, les robots se sont familiarisés avec l’espace à l’aide de ce que l’équipe appelle la « navigation d’instruction multimodale avec tours de démonstration (MINT) ». En effet, cela signifie que le robot se promène dans le bureau tout en indiquant différents points de repère avec la parole. Ensuite, l’équipe utilise la vision hiérarchique-langage-action (VLA) pour « combiner[e] la compréhension de l’environnement et le pouvoir de raisonnement du bon sens. Une fois les processus combinés, le robot peut répondre à des commandes écrites et dessinées, ainsi qu’à des gestes.