En bref: OpenAI veut créer une intelligence artificielle générale (AGI) qui profite à toute l’humanité, et qui inclut la capacité de comprendre les concepts quotidiens et de les mélanger de manière créative. Les derniers modèles d’IA de la société combinent le traitement du langage naturel avec la reconnaissance d’image et montrent des résultats prometteurs pour atteindre cet objectif.

OpenAI est connu pour développer des modèles d’IA impressionnants tels que GPT-2 et GPT-3, qui sont capables d’écrire de fausses nouvelles crédibles mais peuvent également devenir des outils essentiels pour détecter et filtrer la désinformation en ligne et le spam. Auparavant, ils ont également créé des robots capables de battre des adversaires humains dans des jeux comme Dota 2, car ils peuvent jouer d’une manière qui nécessiterait des milliers d’années d’entraînement.

Le groupe de recherche a mis au point deux modèles supplémentaires qui s’appuient sur cette base. Le premier appelé DALL-E est un réseau neuronal qui peut essentiellement créer une image basée sur la saisie de texte. Le co-fondateur et scientifique en chef d’OpenAI, Ilya Sutskever, note qu’avec ses 12 milliards de paramètres, DALL-E est capable de créer presque tout ce que vous pouvez décrire, même des concepts qu’il n’aurait jamais vus en formation.

2021 01 06 Image 12

Par exemple, le nouveau système d’IA est capable de générer une image qui représente « une illustration d’un bébé radis daikon dans un tutu promenant un chien », « un vitrail avec une image d’une fraise bleue », « un fauteuil dans le la forme d’un avocat »ou« un escargot fait d’une harpe ».

DALL-E est capable de générer plusieurs résultats plausibles pour ces descriptions et bien d’autres, ce qui montre que la manipulation de concepts visuels à travers l’utilisation du langage naturel est désormais à portée de main.

Publicité

Sutskever dit que «le travail impliquant des modèles génératifs a le potentiel d’avoir des impacts sociétaux importants et larges. À l’avenir, nous prévoyons d’analyser comment des modèles comme DALL-E sont liés à des problèmes sociétaux tels que l’impact économique sur certains processus de travail et certaines professions, le potentiel de biais dans les résultats du modèle et les défis éthiques à long terme impliqués par cette technologie. « 

2021 01 06 Image 13

Le deuxième modèle d’IA multimodal introduit par OpenAI s’appelle AGRAFE. Formé sur pas moins de 400 millions de paires de textes et d’images extraites du Web, la force de CLIP est sa capacité à prendre un concept visuel et à trouver la description textuelle la plus susceptible d’être une description précise de celui-ci en utilisant très peu de formation.

Cela peut réduire le coût de calcul de l’IA dans certaines applications telles que la reconnaissance de caractères d’objet (OCR), la reconnaissance d’actions et la géolocalisation. Cependant, les chercheurs ont constaté qu’il ne fonctionnait pas dans d’autres tâches telles que la détection des tumeurs des ganglions lymphatiques et la classification des images satellites.

En fin de compte, DALL-E et CLIP ont été conçus pour donner aux modèles de langage comme GPT-3 une meilleure compréhension des concepts quotidiens que nous utilisons pour comprendre le monde qui nous entoure, même s’ils sont encore loin d’être parfaits. C’est une étape importante pour l’IA, qui pourrait ouvrir la voie à de nombreux outils utiles qui augmenteront les humains dans leur travail.

Rate this post
Publicité
Article précédentL’avenir de la Formule 1 est avant-gardiste, fermé et électrique, selon ce concept
Article suivantUn écran OLED pliable pour les joueurs | Technologie / Gadgets
Avatar De Violette Laurent
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici