L’IA générative s’est déjà révélée très prometteuse chez les robots. Les applications comprennent les interactions en langage naturel, l’apprentissage des robots, la programmation sans code et même le design. Cette semaine, l’équipe DeepMind Robotics de google présente un autre point d’équilibre potentiel entre les deux disciplines : la navigation.

Dans un article intitulé « Mobility VLA : Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs », l’équipe démontre comment elle a mis en œuvre Google Gemini 1.5 Pro pour apprendre à un robot à répondre aux commandes et à naviguer dans un bureau. Naturellement, DeepMind a utilisé certains des robots de tous les jours qui traînent depuis que Google a fermé le projet au milieu de licenciements généralisés l’année dernière.

Dans une série de vidéos jointes au projet, les employés de DeepMind ouvrent avec un « OK, Robot » de style assistant intelligent avant de demander au système d’effectuer différentes tâches autour de l’espace de bureau de 9 000 pieds carrés.

Following directions from a whiteboard.2024 07 10 17 13 26

Par exemple, un Googler demande au robot de l’emmener quelque part pour dessiner des choses. « OK », répond le robot, vêtu d’un nœud papillon jaune enjoué, « donnez-moi une minute. Penser avec les Gémeaux… Le robot conduit ensuite l’humain vers un tableau blanc de la taille d’un mur. Dans une deuxième vidéo, une autre personne dit au robot de suivre les instructions sur le tableau blanc.

Une simple carte montre au robot comment se rendre dans la « zone bleue ». Encore une fois, le robot réfléchit un instant avant de faire une longue promenade vers ce qui s’avère être un robot testant. « J’ai réussi à suivre les instructions sur le tableau blanc », annonce le robot avec un niveau de confiance en soi dont la plupart des humains ne peuvent que rêver.

Publicité

Avant ces vidéos, les robots se sont familiarisés avec l’espace à l’aide de ce que l’équipe appelle la « navigation d’instruction multimodale avec tours de démonstration (MINT) ». En effet, cela signifie que le robot se promène dans le bureau tout en indiquant différents points de repère avec la parole. Ensuite, l’équipe utilise la vision hiérarchique-langage-action (VLA) pour « combiner[e] la compréhension de l’environnement et le pouvoir de raisonnement du bon sens. Une fois les processus combinés, le robot peut répondre à des commandes écrites et dessinées, ainsi qu’à des gestes.

Take me somewhere to draw things.2024 07 10 17 15 47

Google affirme que le robot a eu un taux de réussite d’environ 90% sur plus de 50 interactions avec les employés.

[ad_2]

5/5 - (180 votes)
Publicité
Article précédentComment obtenir un fusil de précision à impact lourd dans Fortnite et pourquoi vous devriez le faire
Article suivantL'acteur d'Elden Ring Igon déclare que l'enregistrement était « intense et inhabituel »

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici