Qu’est-ce qui vient de se passer? Malgré toutes les avancées réalisées par l’IA au cours des six derniers mois environ, nous n’avons pas encore vraiment vu son plein potentiel utilisé dans les jeux. Mais au Computex 2023, le patron de Nvidia, Jensen Huang, nous a donné un aperçu de ce que pourrait être l’avenir du jeu.
Jensen a dévoilé Nvidia Avatar Cloud Engine (ACE) pour les jeux lors de son discours d’ouverture sur Computex, un service d’IA personnalisé qui, selon Nvidia, apporte de l’intelligence aux personnages non jouables grâce à des interactions en langage naturel alimentées par l’IA.
Huang a déclaré qu’ACE for Games permet des conversations audio-faciales, de synthèse vocale et en langage naturel. Se référant à ce dernier, le PDG a déclaré qu’il s’agissait « essentiellement d’un grand modèle de langage ».
ACE for Games permet à un PNJ d’écouter la conversation d’un joueur, qu’il peut entrer en utilisant sa propre voix, et de générer une réponse – pas de lignes prédéfinies qui se répètent sans cesse. Le système peut également animer le visage d’un personnage afin qu’il corresponde aux mots générés qu’il prononce.
Huang a démontré la technologie en action via une démo en temps réel alimentée par Unreal Engine 5, conçue par Convai, appelé Kairos. Le clip très semblable à Cyberpunk 2077 montre un joueur entrant dans un magasin de ramen et parlant au PNJ Jin. On entend le joueur poser des questions avec sa voix et recevoir des réponses qui s’inscrivent dans le contexte de l’histoire et du personnage.
Les dialogues sont assez secs et raides, mais c’est tout de même une technologie impressionnante. Il est facile d’imaginer à quoi ressemblera ACE for Games une fois qu’il aura été affiné un peu plus.
Vous pouvez voir un autre exemple du travail de Convai dans la vidéo ci-dessous.
Nvidia a expliqué que ACE for Games s’appuie sur Nvidia Omniverse et offre un accès à trois composants. Le premier est Nvidia NeMo, qui est utilisé pour créer, personnaliser et déployer des modèles de langage. Il dispose d’une fonctionnalité appelée NeMo Guardrails qui peut protéger les utilisateurs contre les conversations « à risque », ce qui sera probablement nécessaire lorsqu’il sera appliqué aux jeux vidéo.
Un autre composant est Nvidia Riva, utilisé pour la reconnaissance vocale automatique et la synthèse vocale afin que les joueurs puissent avoir des conversations en direct via un microphone.
Le dernier élément est Nvidia Omniverse Audio2Face. Ce composant est ce qui permet aux animations faciales des personnages de correspondre aux mots qu’ils prononcent. La technologie est déjà utilisée dans les prochains jeux STALKER 2: Heart of Chernobyl et Fort Solis.
« Les réseaux de neurones permettant à Nvidia ACE for Games sont optimisés pour différentes capacités, avec différents compromis de taille, de performances et de qualité. Le service de fonderie ACE for Games aidera les développeurs à affiner les modèles pour leurs jeux, puis à les déployer via Nvidia DGX Cloud , PC GeForce RTX ou sur site pour l’inférence en temps réel », explique Nvidia. « Les modèles sont optimisés pour la latence – une exigence essentielle pour des interactions immersives et réactives dans les jeux. »
Huang n’a pas dit quelles étaient les exigences pour utiliser ACE pour les jeux, mais elles seront probablement assez lourdes dans sa forme actuelle.
Il y a encore beaucoup de place pour l’amélioration de la technologie, mais ACE pour les jeux pourrait être la première étape vers un avenir où les joueurs peuvent poser aux PNJ n’importe quelle question qu’ils aiment, tant qu’elle est liée au jeu, et recevoir le type de réponse qu’ils cherchaient, pas une réponse en conserve. L’idée de coéquipiers contrôlés par l’IA qui ressemblent à des humains dans leur dialogue et la façon dont ils suivent les commandes vocales est également intéressante.