L’avenir de la recherche est une conversation – du moins, selon Google.

C’est un argumentaire que la société fait depuis des années, et c’était la pièce maîtresse de la semaine dernière Conférence des développeurs d’E / S. Là, l’entreprise a fait la démonstration de deux systèmes d’IA «révolutionnaires» – LaMDA et MUM – qu’elle espère un jour intégrer dans tous ses produits. Pour montrer son potentiel, Google avait LaMDA parler comme la planète naine Pluton, répondant à des questions sur l’environnement du corps céleste et son survol depuis la sonde New Horizons.

Au fur et à mesure que cette technologie sera adoptée, les utilisateurs pourront «parler à Google»: utiliser un langage naturel pour récupérer des informations sur le Web ou leurs archives personnelles de messages, de rendez-vous de calendrier, de photos, etc.

C’est plus que du marketing pour Google. La société envisage de toute évidence ce qui constituerait un changement majeur vers son produit de base depuis des années. UNE article de recherche récent Un quatuor d’ingénieurs de Google intitulé «Repenser la recherche» pose exactement la question suivante: est-il temps de remplacer les moteurs de recherche «classiques», qui fournissent des informations en classant les pages Web, par des modèles de langage IA qui fournissent ces réponses directement à la place?

Il y a deux questions à se poser ici. Le premier est pouvez que ce soit fait? Après des années de progrès lents mais précis, les ordinateurs sont-ils vraiment prêts à comprendre toutes les nuances de la parole humaine? Et deuxièmement, devrait que ce soit fait? Qu’arrive-t-il à Google si l’entreprise abandonne la recherche classique? De manière assez appropriée, aucune des deux questions n’a de réponse simple.

Publicité

Il ne fait aucun doute que Google défend depuis longtemps une vision de la recherche vocale. Il a lancé Google Voice Search en 2011, puis l’a mis à niveau vers Google Now en 2012; lancé Assistant en 2016; et dans de nombreuses E / S depuis, a mis au premier plan l’informatique ambiante pilotée par la parole, souvent avec des démos de vie à la maison sans faille orchestrée par Google.

Malgré des avancées claires, je dirais que l’utilité réelle de cette technologie est bien en deçà des démos. Découvrez l’introduction ci-dessous de Google Home en 2016, par exemple, où Google promet que l’appareil permettra bientôt aux utilisateurs de «contrôler des choses au-delà de la maison, comme réserver une voiture, commander un dîner ou envoyer des fleurs à maman, et bien plus encore. . » Certaines de ces choses sont désormais techniquement réalisables, mais je ne pense pas qu’elles soient courantes: la parole ne s’est pas avérée être l’interface flexible et irréprochable de nos rêves.

YouTube video

Tout le monde aura des expériences différentes, bien sûr, mais je trouve que je n’utilise ma voix que pour des tâches très limitées. Je dicte des e-mails sur mon ordinateur, règle des minuteries sur mon téléphone et joue de la musique sur mon haut-parleur intelligent. Aucun de ceux-ci ne constitue une conversation. Ce sont des commandes simples, et l’expérience m’a appris que si j’essaye quelque chose de plus compliqué, les mots échoueront. Parfois, cela est dû au fait de ne pas être entendu correctement (Siri est atroce sur ce point), mais il est souvent plus logique de taper ou de taper ma requête sur un écran.

En regardant les démos d’E / S de cette année, je me suis souvenu du battage médiatique entourant les voitures autonomes, une technologie qui n’a jusqu’à présent pas réussi à répondre à ses plus grandes revendications (rappelez-vous qu’Elon Musk promettait qu’une voiture autonome prendrait un voyage de fond en 2018? Ce n’est pas encore arrivé). Il existe des parallèles frappants entre les domaines de la conduite autonome et de la technologie vocale. Les deux ont connu des améliorations majeures ces dernières années grâce à l’arrivée de nouvelles techniques d’apprentissage automatique couplées à des données abondantes et des calculs bon marché. Mais les deux luttent également avec la complexité du monde réel.

Dans le cas des voitures autonomes, nous avons créé des véhicules qui ne fonctionnent pas de manière fiable en dehors des paramètres contrôlés. Par beau temps, avec des marquages ​​routiers clairs et dans les rues larges, les voitures autonomes fonctionnent bien. Mais conduisez-les dans le monde réel, avec ses signes manquants, du grésil et de la neige, des conducteurs imprévisibles, et ils sont clairement loin d’être totalement autonomes.

Il n’est pas difficile de voir la similitude avec la parole. La technologie peut gérer des commandes simples et directes qui ne nécessitent la reconnaissance que d’un petit nombre de verbes et de noms (pensez à «jouer de la musique», «vérifier la météo», etc.) ainsi que quelques suivis de base, mais lancez-les systèmes dans les eaux profondes de la conversation et ils pataugent. Comme l’a commenté Sundar Pichai, PDG de Google, à I / O la semaine dernière: «Le langage est infiniment complexe. Nous l’utilisons pour raconter des histoires, faire des blagues et partager des idées. […] La richesse et la flexibilité du langage en font l’un des plus grands outils de l’humanité et l’un des plus grands défis de l’informatique.

Cependant, il y a des raisons de penser que les choses sont différentes maintenant (pour la parole en tout cas). Comme Google l’a noté à I / O, il a connu un énorme succès avec une nouvelle architecture d’apprentissage automatique connue sous le nom de Transformers, un modèle qui sous-tend désormais les systèmes de traitement du langage naturel (NLP) les plus puissants au monde, y compris le GPT-3 d’OpenAI et le BERT de Google. (Si vous recherchez une explication accessible de la technologie sous-jacente et pourquoi elle est si efficace pour analyser le langage, je recommande vivement ce billet de blog de l’ingénieur Google Dale Markowitz.)

L’arrivée de Transformers a créé une floraison vraiment incroyable et vraiment impressionnante des capacités linguistiques de l’IA. Comme ce fut démontré avec GPT-3, l’IA peut désormais générer une variété apparemment infinie de textes, de la poésie aux pièces de théâtre, de la fiction créative au code, et bien plus encore, toujours avec une ingéniosité et une verve surprenantes. Ils fournissent également des résultats de pointe dans divers tests vocaux et linguistiques et, ce qui est mieux, les systèmes évoluent incroyablement bien. Cela signifie que si vous injectez plus de puissance de calcul, vous obtenez des améliorations fiables. La suprématie de ce paradigme est parfois connue en IA sous le nom de «leçon amère»Et c’est une très bonne nouvelle pour des entreprises comme Google. Après tout, ils ont beaucoup de calcul, et cela signifie qu’il y a beaucoup de chemin à parcourir pour améliorer ces systèmes.

Google a canalisé cette excitation à I / O. Au cours d’une démo de LaMDA, qui a été formé spécifiquement sur le dialogue conversationnel, le modèle d’IA se faisait d’abord passer pour Pluton, puis un avion en papier, répondant aux questions avec imagination, fluidité et (surtout) précision factuelle. «Avez-vous déjà eu des visiteurs?» un utilisateur a demandé à LaMDA-as-Pluto. L’IA a répondu: «Oui, j’en ai eu. Le plus notable était New Horizons, le vaisseau spatial qui m’a rendu visite. »

UNE démo de MUM, un modèle multimodal qui comprend non seulement le texte, mais aussi l’image et la vidéo, avait un accent similaire sur la conversation. Quand on a demandé au modèle: «J’ai parcouru le mont. Adams et veulent maintenant faire une randonnée sur le mont. Fuji l’automne prochain, que dois-je faire différemment pour me préparer? » il était assez intelligent pour savoir que le questionneur ne cherche pas seulement à comparer les montagnes, mais que la «préparation» signifie trouver un équipement adapté aux conditions météorologiques et une formation pertinente sur le terrain. Si ce genre de subtilité peut se transférer dans un produit commercial – et c’est évidemment un énorme, de la taille d’un gratte-ciel si – alors ce serait un véritable pas en avant pour l’informatique vocale.

Cela nous amène cependant à la prochaine grande question: même si Google pouvez transformer la parole en conversation, devrait il? Je ne prétendrai pas avoir une réponse définitive à cela, mais il n’est pas difficile de voir de gros problèmes à venir si Google emprunte cette voie.

Premièrement, les problèmes techniques. Le plus important est qu’il est impossible pour Google (ou pour toute entreprise) de valider de manière fiable les réponses produites par le type d’IA de langage que l’entreprise est en train de démontrer. Il n’y a aucun moyen de savoir exactement ce que ces types de modèles ont appris ou quelle est la source de toute réponse qu’ils fournissent. Leurs données d’entraînement se composent généralement de segments importants d’Internet et, comme vous vous en doutez, cela inclut à la fois des données fiables et des informations erronées. Toute réponse qu’ils donnent peut être extraite de n’importe où en ligne. Cela peut également les conduire à produire des résultats qui reflètent les notions sexistes, racistes et biaisées intégrées dans certaines parties de leurs données de formation. Et ce sont des critiques que Google lui-même a apparemment été ne veut pas compter avec.

De même, bien que ces systèmes aient de larges capacités et soient capables de parler sur un large éventail de sujets, leurs connaissances sont finalement superficielles. Comme le disent les chercheurs de Google dans leur article «Repenser la recherche», ces systèmes apprennent des affirmations telles que «le ciel est bleu», mais pas des associations ou des relations causales. Cela signifie qu’ils peuvent facilement produire mauvaise information sur la base de leur propre incompréhension du fonctionnement du monde.

Kevin Lacker, programmeur et ancien ingénieur en qualité de recherche Google, a illustré ce type d’erreurs dans GPT-3 dans cet article de blog informatif, en notant comment vous pouvez assommer le programme avec des questions de bon sens telles que «Qu’est-ce qui est le plus lourd, un grille-pain ou un crayon?» (GPT-3 dit: « Un crayon ») et « Combien d’yeux mon pied a-t-il? » (R: «Votre pied a deux yeux»).

Pour citer à nouveau les ingénieurs de Google dans «Repenser la recherche»: ces systèmes «n’ont pas une vraie compréhension du monde, ils ont tendance à halluciner, et surtout ils sont incapables de justifier leurs propos en se référant aux pièces justificatives du corpus qu’ils ont formé plus de. »

Ces problèmes sont amplifiés par le type d’interface que Google envisage. Bien qu’il soit possible de surmonter des difficultés avec des choses comme le sourcing (vous pouvez former un modèle pour fournir des citations, par exemple, en notant la source de chaque fait qu’il donne), Google imagine que chaque réponse est livrée ex cathedra, comme si elle était parlée par Google lui-même. Cela crée potentiellement un fardeau de confiance qui n’existe pas avec les moteurs de recherche actuels, où il appartient à l’utilisateur d’évaluer la crédibilité de chaque source et le contexte des informations qui leur sont présentées.

Les écueils liés à la suppression de ce contexte sont évidents lorsque nous examinons les « extraits en vedette » et les « panneaux de connaissances » de Google – des cartes que Google affiche en haut de la page de résultats de recherche Google.com en réponse à des requêtes spécifiques. Ces panels mettent en évidence les réponses comme si elles faisaient autorité, mais le problème est souvent qu’elles ne le sont pas, un problème que l’ancien blogueur des moteurs de recherche (et maintenant employé de Google) Danny Sullivan a surnommé le « une vraie réponse » problème.

YouTube video

Ces extraits ont fait les gros titres lorsque les utilisateurs découvrent des erreurs particulièrement flagrantes. Un exemple de 2017 impliquait de demander à Google «Obama envisage-t-il la loi martiale?» et recevoir la réponse (citée sur un site d’information sur le complot) que, oui, bien sûr qu’il l’est (s’il l’était, cela ne s’est pas produit).

Dans les démos que Google a montrées à I / O cette année de LaMDA et MUM, il semble que la société se penche toujours vers ce format «une vraie réponse». Vous demandez et la machine répond. Dans la démo de MUM, Google a noté que les utilisateurs recevront également «des conseils pour approfondir les sujets», mais il est clair que l’interface dont la société rêve est un va-et-vient direct avec Google lui-même.

Cela fonctionnera pour certaines requêtes, certainement; pour des demandes simples qui sont l’équivalent de la recherche de demander à Siri de régler une minuterie sur mon téléphone (par exemple, demander quand est née Madonna, qui a chanté «Lucky Star», etc.). Mais pour des problèmes complexes, comme ceux que Google a fait à I / O avec MUM, je pense qu’ils échoueront. Des tâches telles que la planification de vacances, la recherche de problèmes médicaux, l’achat d’articles coûteux, la recherche de conseils de bricolage ou de fouilles dans un passe-temps préféré, nécessitent toutes un jugement personnel, plutôt qu’un résumé informatique.

La question, alors, est-ce que Google sera capable de résister à l’attrait d’offrir une vraie réponse? Les observateurs technologiques ont noté pendant un certain temps que les produits de recherche de l’entreprise sont devenus plus centrés sur Google au fil du temps. L’entreprise enfouit de plus en plus les résultats sous des publicités à la fois externes (pointant vers des sociétés tierces) et internes (orientant les utilisateurs vers les services Google). Je pense que le paradigme «parler à Google» correspond à cette tendance. La motivation sous-jacente est la même: il s’agit de supprimer les intermédiaires et de servir directement les utilisateurs, probablement parce que Google pense qu’il est le mieux placé pour le faire.

D’une certaine manière, il s’agit de l’accomplissement de la mission d’entreprise de Google «d’organiser les informations du monde entier et de les rendre universellement accessibles et utiles». Mais cette approche pourrait également nuire à ce qui fait du produit de l’entreprise un tel succès en premier lieu. Google n’est pas utile car il vous dit ce que vous devez savoir, il est utile car il vous aide à trouver ces informations par vous-même. Google est l’index, pas l’encyclopédie et il ne doit pas sacrifier la recherche de résultats.

Rate this post
Publicité
Article précédentHuawei abandonnera Android la semaine prochaine – Les P30 et P40 pourraient être les premiers sur la liste
Article suivantLe créateur de Google Duo, Justin Uberti, rejoint le Clubhouse
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici