C’est une pure coïncidence bien sûr, mais le jour où le créateur de Metal Gear Solid Hideo Kojima muses sur Twitter que l’IA finira par reprendre la remasterisation d’anciens jeux, Digital Foundry publie une vidéo qui utilise l’apprentissage automatique pour rafraîchir la révélation classique de MGS2 de l’E3 2000. Pour mon argent, l’original est l’une des plus grandes bandes-annonces de tous les temps – et pour un certain nombre de raisons, les opportunités de voir cette vidéo de la façon dont elle était censée être vue sont limitées, donc extraire la meilleure version d’archives qui soit et la mise à l’échelle de l’IA était irrésistible.
La bande-annonce elle-même est tout simplement incroyable, même aujourd’hui – et pour un certain nombre de raisons. C’était d’abord une véritable vitrine en temps réel. C’était la PlayStation 2 qui produisait des visuels d’une qualité que nous n’avions jamais vue auparavant – de véritables éléments « next-gen » étaient exposés avant même la sortie de la machine en Europe. Deuxièmement, la technologie exposée ne concernait pas seulement les graphiques, il s’agissait de systèmes. Au cours des neuf minutes d’action intense, nous avons pu voir des systèmes de destruction de l’environnement, l’IA, la furtivité, des dommages spécifiques à certaines parties du corps et bien plus encore. Et enfin, il y avait la direction, avec des caméras cinématographiques installées pour capturer l’action : la bande-annonce de MGS avait des nuances de James Cameron et Michael Bay dans sa présentation et probablement beaucoup plus d’influences de Kojima. Oui, il y avait aussi des allusions à l’histoire, mais en plus de cela, Kojima n’avait pas peur d’insérer de l’humour aussi. La bande-annonce nous a époustouflés par son contenu, puis nous a laissé le sourire à la fin.
Bien sûr, le fait que la bande-annonce soit sortie à l’été 2000 signifie que la distribution d’une version de qualité décente était problématique, certainement en ligne. Internet ne disposait d’aucune plate-forme de lecture vidéo décente au tournant du siècle – et YouTube regorge d’horribles rendus à basse résolution et à faible fréquence d’images de l’actif d’origine à ce jour. Je travaillais sur un magazine PlayStation à l’époque et Konami a partagé une version Beta-SP de la bande-annonce avec nous pour nos DVD montés sur la couverture, mais la bande a été retournée et un rendu converti en PAL est tout ce qui nous reste.
Cependant, heureusement, une version de bonne qualité de l’actif existe, bien qu’en quantités très limitées. Konami lui-même s’est rendu compte qu’il s’agissait de quelque chose de spécial avec cette bande-annonce et l’a sorti en DVD au Japon, afin que nous puissions enfin l’apprécier à ses 60 images par seconde d’origine. Mon collègue John Linneman a traité avec amour l’actif et l’a partagé sur YouTube en 2017 – et ce DVD est la base de la version améliorée de l’IA.
Topaz Video Enhance AI est l’outil que j’ai utilisé pour le travail, et la tâche à laquelle il est confronté est intimidante. Nous avons une source 480i, ce qui signifie que pour créer une version 4K60, le modèle d’apprentissage en profondeur doit fonctionner avec seulement 240 lignes d’image source par image. Les versions récentes de l’outil ont inclus des modèles de traitement conçus pour les sources entrelacées – deux d’entre eux, en fait. L’un est conçu pour le matériel entrelacé provenant de sources de faible qualité comme les cassettes VHS tandis que l’autre est destiné aux DVD et aux cassettes 1080i.
Les résultats sont certainement intrigants : le texte est facilement agrandi, tout comme les éléments HUD vus lorsque Snake utilise son pistolet tranquillisant. Le plus dramatique est le traitement par le modèle des œuvres d’art emblématiques de Yoji Shinkawa, présentées plus tard dans la bande-annonce. Ailleurs, les résultats sont mitigés mais toujours intéressants. Les zones internes montrées dans la bande-annonce sont habilement gérées, et il est en fait assez remarquable de voir comment les plans externes dans la tempête voient les détails augmenter considérablement – peut-être trop, au point d’être trop affinés à certains moments. Des éléments tels que les fatigues des soldats qui gagnent en clarté et en définition sont faciles à traiter, mais la façon dont le modèle d’IA trouve des détails dans la tempête peut défier l’imagination. La plus grande limitation réside dans le fait qu’à l’origine, le MGS2 était à l’époque rendu sur le terrain – ne délivrant jamais que 240 lignes par image. Le modèle d’IA n’est pas formé pour lisser les irrégularités les plus flagrantes et dans certaines scènes, il y a peu de gain du tout – juste une clarté supplémentaire.
Cependant, comme le dit Kojima, l’avenir est à l’IA et des outils comme Topaz Video Enhance AI sont déjà utilisés dans l’industrie, notamment déployés pour les remasters de jeux. Les textures sont « remasterisées » avec l’IA, tandis que les séquences vidéo animées sont rendues à une résolution inférieure considérablement grâce à la mise à l’échelle de l’IA. Plus la source d’origine est propre, plus une IA est capable d’en faire. Mais il y a une certaine IA voir à la matière. Les sorties peuvent également être aléatoires : dans mes expériences, ce que j’ai trouvé le plus limitatif, c’est que le réglage réel de l’image de sortie est limité à inexistant, et les modèles eux-mêmes sont comme des « boîtes noires ». En tant qu’utilisateur, nous ne comprenons pas comment il fait ce qu’il fait et donc comment améliorer ses résultats en cas de problème. Dans le cas de mes efforts ici, je ne peux m’empêcher de me demander à quel point les résultats seraient meilleurs si les données d’entraînement provenaient entièrement de jeux vidéo.
En fin de compte, la technologie est extrêmement excitante – mais nous n’en sommes encore qu’aux premiers jours et il y a un long chemin à parcourir. L’apprentissage en profondeur a du chemin à parcourir non seulement en termes d’intelligence, mais également en termes de vitesse : la bande-annonce complète dure environ neuf minutes mais a pris environ trois heures à traiter. C’est avec un matériel d’étude d’IA sans aide supplémentaire. Nvidia DLSS a montré qu’une application plus ciblée liée directement à un moteur de jeu produit des résultats plus rapides de plusieurs ordres de grandeur et mieux – et à court et moyen terme, c’est là que nous verrons probablement les exemples les plus intéressants et les plus dramatiques de la façon dont l’apprentissage en profondeur peut radicalement améliorer la qualité des jeux auxquels nous jouons.