Accueil Tech today ChatGPT comprend désormais la vidéo en temps réel, sept mois après qu’OpenAI...

OpenAI dévoile le mode vocal avancé de ChatGPT en mai 2024.

ChatGPT comprend désormais la vidéo en temps réel, sept mois après qu’OpenAI en ait fait la première démonstration

Par

décembre 12, 2024

OpenAI a enfin publié les capacités de vidéo en temps réel pour ChatGPT qu’il a présentées il y a près de sept mois.

Jeudi, lors d’un livestream, la société a déclaré que le mode vocal avancé, sa fonctionnalité conversationnelle de type humain pour ChatGPT, recevait une vision. À l’aide de l’application ChatGPT, les utilisateurs abonnés à ChatGPT Plus, Team ou Pro peuvent pointer leur téléphone sur des objets et faire en sorte que ChatGPT réponde en temps quasi réel.

Le mode vocal avancé avec vision peut également comprendre ce qui se trouve sur l’écran d’un appareil, via le partage d’écran. Il peut expliquer divers menus de paramètres, par exemple, ou donner des suggestions sur un problème mathématique.

Pour accéder au mode vocal avancé avec vision, appuyez sur l’icône vocale à côté de la barre de chat ChatGPT, puis appuyez sur l’icône vidéo en bas à gauche, qui démarrera la vidéo. Pour partager l’écran, appuyez sur le menu à trois points et sélectionnez « Partager l’écran ».

Le déploiement du mode vocal avancé avec vision commencera aujourd’hui, selon OpenAI, et se terminera la semaine prochaine. Mais tous les utilisateurs n’y auront pas accès. OpenAI indique que les abonnés à ChatGPT Enterprise et Edu ne bénéficieront pas de la fonctionnalité avant janvier, et qu’il n’y a pas de calendrier pour les utilisateurs de ChatGPT dans l’UE, en Suisse, en Islande, en Norvège et au Liechtenstein.

Dans un Démo récente Dans l’émission 60 Minutes de CNN, le président d’OpenAI, Greg Brockman, a participé au quiz Anderson Cooper sur ses compétences en anatomie. Comme Cooper dessinait des parties du corps sur un tableau noir, ChatGPT pouvait « comprendre » ce qu’il dessinait.

« L’emplacement est parfait », a déclaré l’assistant. « Le cerveau est juste là dans la tête. Pour ce qui est de la forme, c’est un bon début. Le cerveau est plus ovale.

Dans cette même démo, le mode vocal avancé avec vision a cependant fait une erreur sur un problème de géométrie, suggérant qu’il est sujet aux hallucinations.

Le mode vocal avancé avec vision a été retardé à plusieurs reprises – supposément en partie parce qu’OpenAI a annoncé la fonctionnalité bien avant qu’elle ne soit prête pour la production. En avril, OpenAI a promis que le mode vocal avancé serait déployé pour les utilisateurs « dans quelques semaines ». Des mois plus tard, l’entreprise a déclaré qu’elle avait besoin de plus de temps.

Lorsque le mode vocal avancé est finalement arrivé au début de l’automne pour certains utilisateurs de ChatGPT, il lui manquait le composant d’analyse visuelle. Dans la perspective du lancement d’aujourd’hui, OpenAI s’est concentré sur l’intégration de l’expérience du mode vocal avancé uniquement vocal à d’autres plates-formes et utilisateurs dans l’UE.

En plus du mode vocal avancé avec vision, OpenAI a lancé aujourd’hui un « mode Père Noël » festif, qui ajoute la voix du Père Noël en tant que voix prédéfinie dans ChatGPT. Les utilisateurs peuvent le trouver en appuyant ou en cliquant sur l’icône du flocon de neige dans l’application ChatGPT à côté de la barre d’invite.