OpenAI lance un nouveau modèle d'IA, GPT-4o, avec une démo en direct
Lors d'une démonstration sur scène, les chercheurs d'OpenAI ont montré les capacités du nouveau modèle, qui sera gratuit pour tous les utilisateurs.
Dans un marché aussi âprement disputé que celui des smartphones, il est parfois judicieux de surveiller la concurrence. Cela est particulièrement vrai lorsqu'il s'agit d'Android de Google et d'iOS d'Apple dans le domaine de l'IA pour smartphone.
Google a déjà annoncé plusieurs fonctionnalités importantes basées sur l’IA pour les téléphones Android, tandis qu’Apple est largement reconnu comme étant à la traîne dans la course à « l’IA sur smartphone ». Les observateurs de l'industrie technologique s'attendent à ce que cette situation change d'ici environ un mois, lorsque Apple devrait introduire une série de nouvelles fonctionnalités génératives basées sur l'IA lors de sa conférence mondiale des développeurs (WWDC).
En attendant, Google continue de renforcer son avance et a dévoilé cette semaine plusieurs nouvelles fonctionnalités pour Android lors de sa propre conférence des développeurs Google I/O. La société a démarré avec une extension de sa fonction déjà impressionnante de recherche circulaire, qu'elle a dévoilée pour la première fois avec Samsung lors de l'événement Galaxy Unpacked de cette société plus tôt cette année.
Au cas où vous ne l'auriez pas vu, Circle-to-Search offre un moyen graphique très intuitif de trouver tout ce qui s'affiche actuellement sur l'écran de votre téléphone. Vous appuyez longuement sur le bouton home de votre téléphone Android et, comme son nom l'indique, utilisez simplement votre doigt (ou un stylet) pour sélectionner un objet ou un texte sur l'écran de votre téléphone avec un cercle ou un gribouillage, puis Google effectuera automatiquement une recherche sur l’élément en surbrillance. Vous pouvez même poser des questions sur l’objet pour en savoir plus.
Il s'agit d'une extension simple mais très utile de votre téléphone (ou tablette) qui exploite les processeurs IA des derniers appareils pour essentiellement « voir » de l'intérieur ce qui se trouve sur votre écran. Plus important encore, c’est le genre d’expérience qui permet enfin à votre smartphone de se sentir intelligent. Après tout, si vous pouvez voir ce qu’il y a à l’écran, pourquoi pas ?
La dernière extension de Circle-to-Search est une fonctionnalité d'aide aux devoirs qui, curieusement, semble partager un certain nombre de similitudes avec les dernières éditions de ChatGPT 4o qu'OpenAI vient d'introduire. La version de Google peut aider à résoudre les problèmes de physique et de mathématiques que les élèves visualisent sur les écrans de leurs appareils, en expliquant tout au long du processus comment les résoudre (et pas seulement en donnant les réponses). C'est un excellent exemple de la façon dont les fonctionnalités basées sur l'IA peuvent apporter de nouvelles expériences incroyablement utiles à nos téléphones et tablettes.
Google améliore la recherche : Google s'investit pleinement dans l'IA et Gemini : comment cela affectera vos recherches Google
Google a également décrit comment il intègre plus profondément ses modèles d'IA générative Gemini dans Android. Google a fourni des exemples de la façon dont Gemini vous permettra de faire des choses comme glisser-déposer des images générées par l'IA dans des documents, des e-mails et des messages. De plus, grâce aux capacités de synthèse de Gemini, vous pourrez trouver les informations spécifiques que vous recherchez dans une vidéo grâce à une fonctionnalité qu'ils appellent « Demander cette vidéo ».
L'une des grandes tendances qu'Apple devrait souligner à la WWDC est la possibilité d'exécuter des modèles de langage étendus (LLM), qui alimentent les fonctionnalités d'IA générative, directement sur les iPhones. Cela permettra à certaines applications de fonctionner seules au lieu de devoir passer par le cloud. Même si cela ne semble pas très grave au premier abord, cette approche offre plusieurs avantages, notamment en termes de confidentialité et même de performances. Pour être clair, les recherches générales continueront à nécessiter une connexion externe, mais les applications et expériences qui exploitent vos propres documents, e-mails, messages, etc. peuvent être effectuées uniquement sur l'appareil, empêchant ainsi l'exposition éventuelle d'informations privées.
Google reconnaît également ces avantages et a souligné que son modèle Gemini Nano étant intégré à la prochaine version d'Android, il sera le premier système d'exploitation mobile à le faire. Plus important encore, Google a également annoncé qu'il apporterait une version multimodale de Gemini Nano, c'est-à-dire une version qui reconnaît la langue parlée, le son et les entrées de la caméra en plus du texte, sur Android plus tard cette année. Cela devrait ouvrir la voie à un ensemble d’expériences considérablement améliorées et permettre la création d’assistants numériques puissants et intelligents, capables de comprendre et de répondre intelligemment à vos demandes. En fait, Google a dévoilé sa vision intrigante et convaincante de ce que peut être un assistant numérique, lors de l'événement I/O via son Projet Astra.
Google a également présenté certaines applications d'IA qui vont bien au-delà des choses pour lesquelles nous avons vu l'IA générative généralement utilisée. La nouvelle fonctionnalité TalkBack, par exemple, qui exploitera les fonctionnalités multimodales de Gemini Nano, pourra décrire des images aux personnes malvoyantes. La société a également présenté une fonction de détection d'arnaque qui peut écouter une conversation téléphonique que vous avez et vous avertir si elle pense qu'il s'agit d'un type de fraude. Bien que certaines personnes puissent s’inquiéter à juste titre du fait qu’un agent basé sur l’IA surveille une conversation, le processus ne se produit que sur l’appareil. (C'est également un bon exemple de la raison pour laquelle il est si important d'exécuter certaines applications uniquement sur l'appareil.)
Pour les utilisateurs de téléphones Android, attendez-vous à voir ce type de fonctionnalités basées sur l’IA déployées sur des appareils de nouvelle génération tout au long de l’année. Pour les propriétaires d'iPhone, Apple proposera son propre ensemble de fonctionnalités basées sur l'IA, mais il y a de fortes chances que beaucoup d'entre elles soient similaires à ce que Google a annoncé. En fait, la rumeur dit même qu'Apple pourrait accorder une licence à certaines technologies de Google et d'OpenAI pour les intégrer dans sa prochaine version d'iOS.
Quoi qu’il en soit, il est clair que nous entrons dans une nouvelle ère passionnante d’appareils véritablement « intelligents » dotés de fonctionnalités basées sur l’IA qui devraient rendre l’expérience de leur utilisation à la fois plus intuitive et plus enrichissante.
Bob O'Donnell, chroniqueur de USA TODAY, est président et analyste en chef de Recherche en analyse technologique, un cabinet d'études de marché et de conseil. Vous pouvez le suivre sur Twitter @bobodtech.
->Google Actualités