Google a ouvert leur Modèle IA pour convertir des séquences d’instructions en langage naturel en actions dans l’interface utilisateur d’un appareil mobile. Le modèle est basé sur l’architecture d’apprentissage en profondeur Transformer et atteint une précision de 70% sur un nouvel ensemble de données de référence créé pour le projet.
Une équipe de scientifiques de Google Research a publié un article décrivant le modèle au récent Association pour la linguistique computationnelle (ACL) conférence. Le but du projet est d’aider à développer des interfaces en langage naturel pour les utilisateurs d’appareils mobiles qui sont malvoyants ou qui ont temporairement besoin d’un mode «mains libres». Le système utilise deux modèles Transformer en séquence: le premier pour convertir les instructions en langage naturel en une série de «phrases d’action», et le second pour «ancrer» les phrases d’action en les associant aux objets d’interface utilisateur à l’écran. Comme l’a écrit le chercheur Yang Li dans un article de blog décrire le projet,
Ce travail jette les bases techniques de l’automatisation des tâches sur les appareils mobiles, ce qui réduirait le besoin de manœuvrer dans les détails de l’interface utilisateur, ce qui peut être particulièrement utile pour les utilisateurs malvoyants ou mal placés.
le Transformateur est une architecture d’apprentissage en profondeur pour mapper des séquences d’entrée sur des séquences de sortie développée par Google en 2017. Elle présente plusieurs avantages par rapport à d’autres architectures d’apprentissage de séquence, telles que les réseaux de neurones récurrents (RNN), notamment une plus grande stabilité dans la formation et une inférence plus rapide; par conséquent, la plupart traitement du langage naturel de pointe (NLP) sont basés sur des transformateurs. L’opération clé dans un transformateur est attention, qui apprend les relations entre les différentes parties des séquences d’entrée et de sortie. Par exemple, dans un Transformer formé pour traduire d’une langue à une autre, l’attention apprend souvent le mappage des mots de la langue source aux mots de la langue cible.
Dans la nouvelle IA de Google, un transformateur utilise une forme d’attention appelée attention à la zone pour identifier travées de mots adjacents dans les instructions d’entrée qui sont mappés à des actions discrètes: par exemple, «naviguer vers». Ce Transformer convertit une séquence d’instructions d’entrée dans un langage naturel en une séquence de tuples qui représentent des actions d’interface utilisateur. Chaque tuple se compose d’une opération (comme «ouvrir» ou «cliquer»), une description d’un objet sur lequel opérer (comme «Paramètres» ou «Tiroir d’applications») et un paramètre facultatif (par exemple, du texte qui devrait être tapé dans une zone de texte). Pour exécuter ces actions, elles doivent être ancré en identifiant l’objet d’interface utilisateur correct. Ceci est fait par un deuxième transformateur; les entrées de ce Transformer incluent à la fois un tuple de phrase d’action et l’ensemble des objets d’interface utilisateur actuellement sur l’écran de l’appareil. Le Transformer apprend à sélectionner un objet en fonction de la description du tuple de phrase d’action.
Pour entraîner le modèle, Google a créé deux ensembles de données — un pour chaque transformateur. Un ensemble de données appelé AndroidHowTo pour l’entraînement à l’extraction de phrases d’action Transformer a été collecté en grattant sur le Web pour trouver des réponses aux questions «comment faire» liées aux appareils Android. Les annotateurs humains ont étiqueté les données en identifiant les tuples de phrase d’action dans les instructions de réponse. L’ensemble de données final contient près de 10 000 instructions étiquetées, représentant 190 000 actions. Pour le transformateur de mise à la terre, l’équipe a généré un ensemble de données synthétiques appelé RicoSCA. En commençant par un ensemble de données accessible au public appelé Rico, qui contient 72k écrans d’interface utilisateur pour les applications Android, l’équipe a sélectionné au hasard des éléments d’interface utilisateur à partir d’écrans et a généré des commandes pour eux, telles que «appuyer» ou «cliquer». L’ensemble de données résultant contient près de 300 000 commandes.
Pour évaluer les performances globales du système, les chercheurs ont créé un ensemble de données appelé PixelHelp, compilé à partir des pages d’aide du téléphone Pixel. Les opérateurs humains ont utilisé des émulateurs de téléphone Pixel pour effectuer les tâches décrites dans les pages. Un enregistreur a enregistré leurs actions, ce qui a créé un mappage des instructions en langage naturel aux opérations de l’interface utilisateur. L’ensemble de données résultant contient 187 instructions en plusieurs étapes. La nouvelle IA a été évaluée sur cet ensemble de données et a atteint une précision de 70,59%.
La nouvelle IA de Google est l’un des nombreux efforts d’automatisation en langage naturel des appareils mobiles. Apple a présenté Raccourcis Siri en 2018, permettant aux utilisateurs de définir des séquences d’actions pouvant être déclenchées par une commande vocale. Alex d’Amazon a récemment présenté le possibilité d’automatiser les applications ce soutien lien profond. Les solutions Siri et Alexa nécessitent que les applications les prennent explicitement en charge. En revanche, l’IA de Google apprend à fonctionner directement sur l’interface utilisateur de l’appareil, ce qui lui permet d’être utilisée avec n’importe quelle application.
Google code de génération de modèle et de jeu de données sont disponibles sur GitHub.
.