Gémeaux, ChatGPT, Humane Pin et Rabbit R1.
Tendances numériques

En avance sur Google E/S 2024, il ne faisait aucun doute que Google parlerait d’IA. L’événement a commencé sur une note tout à fait tapageuse. La sensation YouTube Marc Rebillet a commencé le show vêtu d'un peignoir après être sorti d'une tasse géante.

La star des médias sociaux a donné le ton pour le reste de l'événement en demandant aux membres du public des idées musicales folles qui ont pris vie via le logiciel AI DJ de Google. L'hôte n'aurait pas pu rêver d'un meilleur départ. Selon les mots du PDG Sundar Pichai, les dirigeants de Google ont prononcé le mot « IA » 121 fois.

À la fin de l’événement, je me retrouvais avec deux questions obsédantes. Premièrement : Google essaie-t-il de résoudre des problèmes qui n'existent même pas dans la vie d'une personne moyenne en la nourrissant de force avec la glace Gemini ? Deuxièmement : existe-t-il un marché pour le matériel d’IA spécialisé valant quelques centaines de dollars alors que l’IA sur les téléphones acquiert un ensemble hallucinant de super pouvoirs ?

Le statut des bibelots IA

Joe Maring / Tendances numériques

Jusqu'à présent, nous avons de jolis gadgets d'IA orange comme le Rabbit R1, ainsi que quelque chose d'aussi beau que le Épingle d’IA humaine. Une marque fabrique même un pendentif IA. Certains d’entre eux écoutent seulement. D’autres parlent, enregistrent des vidéos, passent des appels, exploitent des robots IA bavards et tentent même de donner un sens au monde qui vous entoure.

Publicité

Maintenant, je ne vais pas discuter des mauvais résultats de ces appareils jusqu’à présent. Mais Joe Maring, rédacteur en chef de la section mobile de Digital Trends, déclare que Rabbit R1 est l'un des pires gadgets qu'il ait jamais utilisé. L’histoire de Humane AI Pin n’a pas non plus été très différente. Aie! D'accord, ce sont tous des appareils de première génération en leur genre, alors donnons-leur un peu de répit.

Mais voici la réalité. Leur avenir ne semble pas brillant, ni facile à payer, ni même pratique. En l’espace de deux jours, deux poids lourds de l’IA – OpenAI et Google – ont fait valoir ce point de manière presque concluante.

L'IA est désormais consciente du monde

OpenAI

Commençons par la vision, un pouvoir qui permet à une IA de voir le monde à travers l'objectif d'une caméra et de parler de ce qu'elle voit. Google a présenté quelque chose appelé Gémeaux en direct à I/O 2024. Un jour avant cela, OpenAI a révélé GPT-4o, où « o » signifie omnimodal. C'est juste une façon élégante de dire multimodal, ce qui signifie que votre ami IA peut gérer le texte, l'audio et les visuels pour l'entrée et la sortie. Mais l’objectif ultime est identique pour les deux produits.

Vous lancez l'IA de votre choix, pointez la caméra vers pratiquement n'importe quoi et l'IA répondra à vos questions contextuelles. Vous pouvez allumer la caméra frontale et demander à l’IA de fournir des commentaires pendant qu’elle vous regarde jouer à Pierre, Papier, Ciseaux avec un ami. Il permet de savoir si votre chemise rose n'est pas la meilleure tenue pour un entretien d'embauche.

En cas de besoin, il peut observer des objets et les expliquer en portugais, identifier des bâtiments comme un guide touristique fidèle et ressentir une occasion spéciale en regardant les confettis étalés sur une table. Pointez-le sur le code et l'IA vous expliquera le but du code. Et si l’IA a vu vos clés de voiture à un moment donné, elle vous dira exactement où vous les avez laissées.

Démo en direct des capacités de vision de GPT-4o

Désormais, toutes les fonctionnalités susmentionnées ne sont pas uniformes dans ChatGPT (riche en jus GPT-4o) et Gemini Live (avec la technologie Google Astra derrière). Mais les fondamentaux sont partagés. Il s’agit également d’un moment crucial où les lignes de fracture entre l’expérience de l’IA sur les téléphones et sur le matériel dédié s’élargissent.

L’énigme du matériel

OpenAI

Le Rabbit R1 et le Humane AI Pin disposent respectivement de caméras de 8 mégapixels et de 12 MP. Oui, ils peuvent voir le monde et lui donner un sens, mais ils ne peuvent pas égaler les qualités visuelles des caméras haute résolution optiquement stabilisées sur un smartphone à moitié décent de la génération actuelle.

En un mot, un smartphone moyen transmettra des points de données visuelles plus sains à un moteur d’IA, local ou basé sur le cloud, ce qui se traduira directement par une meilleure compréhension. Pensez-y comme si vous compariez un vlog tourné sous un jour difficile avec un budget et un téléphone phare et demandez à vos amis de décrire tout ce qu'ils voient. Bien sûr, un clip flou ou éclaté ne sera pas d’une grande aide ici.

Ensuite, il y a la partie informatique. Entre eux, les gadgets d’IA les plus en vogue de 2024 fonctionnent sur du silicium MediaTek et Qualcomm de niveau bas à moyen. Ces appareils ne sont pas alourdis par le poids d'un système d'exploitation complet, mais d'après ce que nous avons vu jusqu'à présent, même un smartphone à moitié décent peut exécuter des tâches d'IA à un rythme considérablement plus rapide que le R1 ou le Humane's Pin.

Google

Je ne veux pas que mon gadget IA prenne 15 secondes pour traiter une demande alors que même le bon vieux Siri peut faire un meilleur travail. C’est une mauvaise référence, mais c’est là que se situe la R1. Maintenant que nous parlons de silicium, voyons comment le traitement joue ici un rôle clé. Les astuces de l’IA générative prennent vie de deux manières. La plupart des solutions transmettent les requêtes à un serveur cloud, ce qui signifie qu'elles nécessitent une connexion Internet.

La deuxième option est le traitement hors ligne, comme le fait le modèle Gemini Nano de Google sur la série Pixel 8 et les téléphones Samsung, entre autres. Le plus gros avantage est que vous n’avez pas besoin d’une connexion Internet dans ce scénario. Il n’existe actuellement aucun truc d’IA qui puisse fonctionner sans connexion Internet.

L'IA sur appareil est un véritable joyau

Joe Maring / Tendances numériques

Avec sur l'appareil Lors du traitement, l'application Recorder sur les téléphones Pixel peut transcrire et résumer les enregistrements audio. Magic Compose améliorera votre jeu de textos sans demander de connexions Wi-Fi ou cellulaires. Il en va de même pour les traductions et la transcription. En fait, Google a jeté les bases de traductions hors ligne fiables dès 2018 avec sa technologie de traduction automatique neuronale.

Mais ce n'est que la pointe de l'iceberg. Plus tard cette année, Google lancera Gemini Nano avec multimodalité. Cela signifie que vous n'aurez pas besoin d'une connexion Internet pour que Gemini Live puisse voir, comprendre et fournir des réponses contextuelles à ce qu'il voit et entend via la caméra, l'écran et le micro de votre téléphone.

Google améliore même la fonctionnalité d'accessibilité TalkBack avec Gemini. C'est une énorme victoire pour les personnes confrontées à des problèmes d'élocution et de visibilité, mais qui ont besoin d'un compagnon TalkBack fiable doté de capacités multimodales, mais qui n'ont pas accès à une connexion Internet.

Google

De plus, vous ai-je dit que le traitement de l'IA sur l'appareil est plus rapide et qu'il est considérablement plus sûr car aucune donnée ne quitte votre téléphone ? Plus important encore, cela réduit en fin de compte le coût de fourniture des fonctionnalités d’IA générative.

Le coût pour les consommateurs est actuellement l’une des plus grandes incertitudes en ce qui concerne l’ensemble du blitz marketing des téléphones IA. L'IA sur l'appareil est un énorme soupir de soulagement dans ce chaos, car vous avez au moins une idée du strict minimum que votre téléphone peut faire sans trop vous soucier de la compatibilité des fonctionnalités dans les années à venir.

Les Gémeaux le font bien

Google

Enfin, se pose la question bien trop cruciale de l’interaction. Ma vie tourne autour de Gmail, Docs, Drive, Maps, Photos et Search, entre autres. Google a créé Gems, alias des assistants personnalisés basés sur Gemini pour gérer des tâches spécifiques étroitement liées à d'autres produits de l'écosystème.

Par exemple, lorsque vous demandez à Gemini de planifier un voyage pour vous, il consultera votre boîte de réception Gmail pour la planification des billets, puis combinera les données de votre invite vocale/textuelle avec les informations pertinentes de la recherche Google pour créer un plan de voyage entièrement étoffé.

Pour ceux qui sont prêts à payer pour Gemini aAdvanced, il existe encore plus de superpuissances de productivité. Il peut traiter des PDF jusqu'à 1 500 pages, 30 000 lignes de code, une vidéo d'une heure ou un mélange de différents formats de fichiers.

Gemini traitera toutes ces entrées et vous proposera ensuite des versions résumées, identifiera les aspects cruciaux et fera même office d'enseignant après avoir ingéré tout ce matériel. Il peut même utiliser des feuilles de calcul banales et créer un rapport financier détaillé avec une compréhension claire des bénéfices et des informations associées.

L'IA entendra même les appels et alertera les utilisateurs si l'appelant est une arnaque. En fait, Gemini ne vous mènera même pas à une autre application. Lorsque vous en avez besoin, l'interface Gemini survolera simplement l'application que vous utilisez actuellement, fera son travail et disparaîtra.

Difficile de battre un smartphone

Google

Le point que je veux souligner ici est qu’une IA devrait servir d’assistant, mais elle doit trouver le bon équilibre entre polyvalence fonctionnelle et commodité pratique. Elle ne peut le faire que lorsqu’elle a accès aux données qui me tiennent à cœur, personnellement et professionnellement. Et je veux que toutes ces intelligences soient servies de la meilleure façon possible, sans frais financiers supplémentaires.

À l’heure actuelle, des produits comme Rabbit R1 ou Humane AI Pin peuvent à peine effleurer la surface d’une interconnexion de produits aussi profonde. De plus, le matériel lui-même empêche l’IA d’exploiter tout son potentiel. Je ne peux pas imaginer que Google accorde une licence à Gemini Nano pour quelque chose comme le Rabbit R1, et même si cela se produit, l'expérience sera entravée par le matériel.

Alors, pourquoi payer un supplément et se contenter d’une expérience médiocre alors que le téléphone dans votre poche peut faire un travail de tueur ? Le téléphone AI est là. Et c'est là pour rester. Les bibelots orange et brillants de l’IA, en revanche, sont presque morts.

Recommandations des rédacteurs

->Google Actualités

5/5 - (184 votes)
Publicité
Article précédentElden Ring Shadow of the Erdtree n'a pas besoin d'un mode facile
Article suivantGoogle lance une nouvelle fonctionnalité Android pour inciter les utilisateurs à revenir dans leurs applications installées

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici