À quoi ressemble l’avenir de la recherche sur Internet ? Google considère que cela ressemble plus à une conversation informelle avec un ami.

Alors que le moteur de recherche de Google est en ligne depuis plus de deux décennies, la technologie qui l’alimente est en constante évolution. Récemment, la société a annoncé un nouveau système d’intelligence artificielle appelé MUM, qui signifie Multitask Unified Model. MUM est conçu pour capter les subtilités et les nuances du langage humain à l’échelle mondiale, ce qui pourrait aider les utilisateurs à trouver plus facilement les informations qu’ils recherchent ou leur permettre de poser des questions plus abstraites.

Google a déjà utilisé MUM dans une tâche indépendante pour en savoir plus sur les différentes manières dont les gens se réfèrent Vaccins contre le covid, mais dit que la nouvelle technologie ne fait pas encore partie de leur système de recherche. Bien qu’il n’y ait actuellement aucun calendrier défini pour le déploiement de la fonctionnalité dans la recherche en direct, l’équipe travaille activement au développement d’autres tâches ponctuelles que MUM doit accomplir.

Voici ce qu’il faut savoir sur ce qu’est MUM, en quoi c’est différent de ce qui s’est passé avant, et plus encore.

Résoudre le jeu du nom du vaccin COVID

Lorsque les vaccins sont devenus disponibles plus tôt cette année, Pandu Nayak, vice-président de la recherche chez Google, et ses collègues ont conçu une « expérience » qui a donné aux gens des informations sur les vaccins COVID – où les obtenir, comment ils fonctionnent et où ils étaient disponibles – quand les utilisateurs l’ont recherché. L’expérience a regroupé toutes ces informations essentielles et pertinentes et les a épinglées en haut de la première page des résultats de recherche. Mais d’abord, l’équipe avait besoin de le programmer pour qu’il n’apparaisse que lorsque les requêtes portaient sur les vaccins COVID. Cela pourrait devenir un problème car les gens du monde entier peuvent se référer aux vaccins COVID de différentes manières et par des noms différents.

Publicité

L’année dernière, l’équipe a passé des centaines d’heures à parcourir les ressources pour identifier tous les différents noms de COVID lui-même. Mais cette année, ils avaient MUM. « Nous avons pu mettre en place une expérience très simple avec MUM qui en quelques secondes a pu générer plus de 800 noms pour 17 vaccins différents dans 50 langues différentes », explique Nayak. « Nous avons beaucoup de tâches linguistiques à résoudre, qu’il s’agisse de classification, de classement, d’extraction d’informations et bien d’autres. À court terme, nous prévoyons d’utiliser MUM pour améliorer chacun d’entre eux. Non pas que cela conduira à une nouvelle fonctionnalité ou à une nouvelle expérience, mais plutôt, les fonctionnalités existantes et les expériences existantes fonctionneront beaucoup mieux.

Rencontre avec MUM à Google I/O

Nous avons entendu parler de MUM pour la première fois lors de la conférence des développeurs Google I/O au printemps, lorsque Prabhakar Raghavan, vice-président senior de Google, l’a dévoilé.

La nouvelle technologie est l’évolution naturelle de la recherche basée sur l’apprentissage automatique que Google a affinée et modifiée au cours de la dernière décennie. Google se vante que MUM est capable d’acquérir une connaissance approfondie du monde, de comprendre la langue et de la générer, et de s’entraîner dans 75 langues à la fois. Des pilotes internes testent également s’il peut être multimodal, c’est-à-dire capable de comprendre simultanément différentes formes d’informations telles que du texte, des images et des vidéos.

Toute cette complexité peut être illustrée par un exemple simple présenté à la conférence et via un article de blog. Supposons que vous demandiez à Google : « J’ai fait une randonnée au mont Adams et je souhaite maintenant faire une randonnée au mont Fuji l’automne prochain, que dois-je faire différemment pour me préparer ? » C’est le type de requête de recherche que la plupart des gens ne prendraient pas la peine de saisir aujourd’hui, car les utilisateurs comprennent que ce n’est généralement pas ainsi que vous recherchez des informations en ligne.

« C’est une question que vous poseriez avec désinvolture à un ami, mais les moteurs de recherche d’aujourd’hui ne peuvent pas y répondre directement parce qu’elle est tellement conversationnelle et nuancée », a expliqué Raghavan à I/O. Mais idéalement, MUM comprendrait que vous cherchez à comparer deux montagnes, et comprendrait également que la « préparation » pourrait inclure des choses comme l’entraînement physique pour le terrain et l’équipement de randonnée pour l’automne. Il serait capable de décortiquer votre question et de la décomposer en un ensemble de requêtes, d’en savoir plus sur chaque aspect de votre problème, puis de le reconstituer. Les utilisateurs peuvent cliquer pour en savoir plus sur les résultats de recherche liés à chaque aspect de la question, et également obtenir un texte global qui explique comment la requête d’origine a été répondue.

Des expériences comme celles-ci sont l’objectif à long terme des ingénieurs de MUM, et le temps qu’il faudra pour atteindre cet objectif n’est pas encore clair. A rebours, à moyen terme, les ingénieurs de Google forment MUM à reconnaître la relation entre les mots et les images, et ça se passe bien. Nayak dit que lorsqu’ils ont demandé à MUM de générer une image pour un nouveau texte, ils l’ont alimenté, comme Siberian Husky, cela a fait « un travail assez remarquable ».

Bref historique de la recherche

Depuis sa création en 1998, Google a continuellement cartographié le Web, rassemblant une multitude de contenus et créant un index pour organiser toutes les informations.

Vous pouvez penser à l’index de recherche Google comme fonctionnant comme l’index à la fin d’un livre. Il vous indique toutes les pages sur lesquelles un mot spécifique apparaît. Sauf avec Internet, il y a deux différences importantes. Premièrement, un livre peut avoir entre 300 et peut-être 1 000 pages, ce qui est modeste par rapport aux milliers de milliards de pages du Web. La deuxième différence importante est qu’avec un index à la fin d’un livre, vous recherchez un mot à la fois, alors que sur le Web, vous recherchez des combinaisons de mots. « Nous recevons chaque jour des milliards de requêtes du monde entier à cause de cette échelle et de cette explosion combinatoire », explique Nayak. « Et le fait remarquable ici est que 15 % des recherches que nous obtenons chaque jour sont des recherches que nous n’avons jamais vues auparavant. Il y a une quantité incroyable de nouveauté dans le flux de requêtes.

Une partie de la nouveauté est attribuée aux nouvelles façons de mal orthographier les mots, ajoute Nayak, et une partie est due au fait que le monde change constamment et qu’il y a des choses nouvelles (et parfois très spécifiques) que les gens demandent.

YouTube video

Pour réduire toutes les informations Web possibles à celles qui sont vraiment pertinentes pour votre requête, Google utilise un algorithme pour classer ce qu’il pense être les pages les plus utiles en haut, en utilisant des facteurs tels que la fraîcheur et l’emplacement, ainsi que la manière dont les différentes pages sont liées. à une autre. « De loin, la classe de facteurs la plus importante concerne la compréhension de la langue », explique Nayak. « La compréhension du langage est vraiment au cœur de la recherche, car vous devez comprendre ce que signifie la requête, vous devez comprendre ce que signifient les documents et comment ces deux éléments correspondent. »

Bien sûr, les logiciels ne peuvent pas vraiment comprendre le langage comme nous le faisons, avec toutes ses subtilités et ses nuances. Mais les programmeurs peuvent développer diverses stratégies qui tentent de se rapprocher de la façon dont nous comprenons le langage. Il y a un peu plus de 16 ans, Google a créé la première version du système de synonymes, qui tenait compte du fait que différents mots ont des significations différentes dans différents contextes. Ainsi, « changer » peut signifier « ajuster » lorsque vous parlez de la luminosité d’un ordinateur portable. Sans comprendre cela, de nombreuses pages pertinentes auraient été exclues des résultats de recherche en raison de variations dans le choix des mots.

[Related: Your Google search history needs its own password]

Puis, il y a une dizaine d’années, l’entreprise a créé le graphique des connaissances. L’idée sous-jacente était que les mots, dans les requêtes ou dans les documents, ne sont pas seulement des flux de caractères, mais peuvent signifier quelque chose s’ils font référence à des personnes, des lieux ou des choses dans le monde. « Si vous ne comprenez pas la référence de ce que signifie une chaîne de caractères particulière, alors vous n’avez pas entièrement compris ce que signifie ce mot », explique Nayak. Des entités telles que des personnes, des lieux, des objets, des entreprises ont été placées dans une base de données et le graphe de connaissances relie les relations entre elles. Il compile également un bref résumé sur les faits rapides à connaître sur une entité comme une célébrité ou un point de repère.

Par exemple, si vous recherchez « Marie Curie », le graphique des connaissances de Google peut vous indiquer quand et où elle est née, avec qui elle était mariée, qui étaient ses enfants, où elle est allée à l’université et pourquoi elle était connue. C’est un moyen de présenter facilement des informations en dehors de la liste des résultats de page que Google affiche après une recherche.

L’apprentissage automatique s’intensifie

Il y a environ six ans, Google a lancé sa première version de recherche basée sur l’apprentissage automatique. Ensuite, il a continué à l’améliorer sur la base de recherches croissantes dans la communauté de l’apprentissage en profondeur autour d’algorithmes de langage naturel qui peuvent examiner le contexte dans lequel un mot est utilisé pour comprendre sa signification et déterminer les parties du contexte auxquelles prêter attention. En 2019, Google a introduit le BERT architecture pour la recherche. Son algorithme d’entraînement était en fait une série d’exercices de « remplissage des blancs ». Vous prendriez une phrase courante, bloqueriez des mots au hasard et demanderiez au réseau de prédire quels sont ces mots. On l’appelle aussi le modèle de langage masqué.

[Related: How Google Aims To Dominate Artificial Intelligence]

Pour une requête telle que « pouvez-vous obtenir des médicaments pour quelqu’un à la pharmacie ? BERT a compris qu’il ne s’agissait pas seulement de prendre une ordonnance, mais aussi de prendre une ordonnance pour quelqu’un d’autre, comme un ami ou un membre de la famille. « Nous avons pu faire apparaître un résultat plus pertinent car il a relevé une certaine subtilité dans la question que nous n’étions pas en mesure de traiter auparavant », a déclaré Nayak.

À l’avenir, MUM est capable non seulement de comprendre le langage comme BERT, mais est également capable de générer du langage. Comparativement, MUM est beaucoup plus grand que BERT et a plus de capacités (Google dit qu’il est environ 1 000 fois plus puissant). MUM est formé sur un sous-ensemble de haute qualité du corpus Web public dans toutes les différentes langues servies par Google. L’équipe de recherche supprime le contenu de mauvaise qualité, le contenu pour adultes, le contenu explicite, le discours de haine, de sorte que le type de langage que MUM apprend est, dans un sens, bon (espérons-le). En étant formé simultanément sur toutes les langues en même temps, il est capable de généraliser les informations des langues avec beaucoup de données aux langues avec moins de données, ce qui peut combler les lacunes où il y a moins de données disponibles pour la formation.

Mais Nayak reconnaît qu’il existe certainement des défis avec les grands modèles de langage comme MUM que l’équipe travaille activement à résoudre. « L’un, par exemple, est la question de la partialité. Parce que cela est formé à partir du corpus Web, il y a cette préoccupation de savoir si cela reflète ou renforce les biais présents sur le Web », explique Nayak. Le fait qu’il soit entraîné sur un sous-ensemble de haute qualité du corpus, espère Nayak, éliminera certains des biais les plus flagrants. Google continue d’utiliser évaluateurs de qualité de recherche et d’autres processus d’évaluation pour vérifier leurs résultats et rechercher des schémas de problèmes. « Cela ne résout pas tous les problèmes, mais c’est une atténuation importante. »

[Related: Your guide to every Google app’s privacy settings]

MUM s’appuie sur un ensemble de fonctionnalités innovantes que Google a expérimenté pour améliorer la recherche. « Aujourd’hui, lorsque les gens viennent chercher, ce n’est pas comme s’ils venaient avec des requêtes entièrement formées dans leur tête. Ils viennent chercher avec une intention générale sur quelque chose qui se passe dans leur vie », dit Nayak. « Vous devez prendre ce besoin flou que vous avez, le convertir en une ou plusieurs requêtes que vous pouvez envoyer à Google, en savoir plus sur les différents aspects du problème et le mettre ensemble. »

Des fonctionnalités telles que la saisie semi-automatique ont, dans une certaine mesure, essayé de faciliter le processus de recherche, mais MUM pourrait ouvrir un nouvel ensemble de possibilités. « La vraie question à laquelle je pense avec tous les outils de recherche », dit Nayak, « parce que ce sont des outils, c’est : même si ce n’est pas parfait, est-ce utile ? »


Rate this post
Publicité
Article précédentPris au piège dans des sous-sols et des voitures, ils ont perdu la vie dans une tempête sauvage
Article suivantLa suite d’aventures pointer-cliquer Beyond a Steel Sky arrive sur consoles en novembre • Fr.techtribune
Avatar De Violette Laurent
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici