The Finals, le FPS multijoueur aux décors destructibles et récupérateur d’argent des anciens développeurs de Battlefield, est actuellement au milieu d’une version bêta ouverte qui permet à quiconque d’aller jeter un œil à son gameplay shoot-y, smash-y et cash-y. Vous pourrez également l’écouter – et vous remarquerez peut-être quelque chose d’un peu bizarre chez les annonceurs de son jeu télévisé dans un jeu lorsque vous le ferez. C’est vrai : ce sont des voix générées par l’IA, pas des acteurs humains.
youtube.com/watch?v=dV6NhY1Ckb8″ rel= »noopener » target= »_blank »>Regarder sur YouTube
Le concepteur audio d’Embark Studios, Andreas Almström, a confirmé la décision d’utiliser la technologie de synthèse vocale de l’IA dans un épisode de podcast sur la réalisation de The Finals en juillet, qui a été récemment repéré par Gianni Matragrano. Matragrano est lui-même acteur de jeux vidéo, étant apparu dans Genshin Impact, Evil West, Trepang2 et plus encore.
« Alors voici le truc : qu’ont fait les voix off ? » Almström a répondu lorsque l’animateur du podcast lui a demandé qui avait fourni les voix off dans The Finals. « Le fait est que nous avons utilisé l’IA à quelques exceptions près. »
Almström a expliqué que « toutes les voix des concurrents, comme les aboiements, et nos deux commentateurs sont des synthèses vocales de l’IA », avec « des choses que nous appelons des vocalisations » – y compris les bruits respiratoires et les grognements émis par les personnages joueurs lorsqu’ils courent, sautent et sauter – fourni par les propres développeurs d’Embark. Ce n’est pas faute d’avoir essayé, remarquez : « Nous ne parvenons pas encore vraiment à faire en sorte que l’IA effectue ce genre de tâches », a déclaré Almström.
Almström a affirmé que la décision d’utiliser des voix générées par l’IA reposait sur la capacité de la technologie à fournir des voix suffisamment proches du son humain, tout en pouvant être générées dans un temps relativement court par rapport à la présence d’acteurs humains dans la cabine.
« La raison pour laquelle nous choisissons cette voie est que la synthèse vocale de l’IA est finalement extrêmement puissante », a déclaré Almström. « Cela nous amène assez loin en termes de qualité et nous permet d’être extrêmement réactifs aux nouvelles idées et de garder les choses vraiment, vraiment fraîches. »
L’objectif d’aller « assez loin » peut être entendu assez clairement dans un clip des commentateurs de la finale partagé par Matragrano, avec notamment une accentuation étrange de certains mots et un flux bizarre de phrases – écoutez « l’équipe qui range assez d’argent en premier ». triomphes »à partir de 0:08 dans le clip ci-dessous, où l’absence de pause dans « premiers triomphes » se fond presque en un seul mot. Unreal Tournament, ce n’est pas le cas.
« Si cela semble un peu bizarre, cela se marie quand même assez bien avec le fantasme du jeu télévisé virtuel », a ajouté Almström dans le podcast, évitant apparemment les critiques sur les étranges performances vocales de l’IA. Personnellement, je ne suis pas convaincu : cela ne ressemble pas à un annonceur virtuel futuriste, juste à un programme de synthèse vocale qui ne sait pas comment aborder des mots simples comme le ferait un humain ordinaire, et encore moins un acteur professionnel. .
Donc je suppose que la finale se déroulera avec des voix IA… ? pic.twitter.com/PIAbR43ZrT
– Gianni Matragrano (@GetGianni) 28 octobre 2023
Matragrano a remis en question l’affirmation d’Almström selon laquelle il fallait « des mois » pour enregistrer la voix off d’un nouveau mode de jeu créé par un concepteur – ce qui, selon Almström, prenait « une question d’heures » avec l’IA – répliquant que les acteurs humains sont habitués à enregistrer des sessions de meilleure qualité dans un jour ou deux.
Bien sûr, cela sans souligner les préoccupations éthiques évidentes entourant le processus de génération de l’IA et son utilisation à la place d’acteurs rémunérés – un point clé des récentes grèves de la SAG-AFTRA, alors que le syndicat a exprimé ses inquiétudes concernant les répliques numériques de acteurs étant utilisés sans consentement éclairé ni paiement approprié.
« Vous pouvez littéralement obtenir une voix de qualité professionnelle pour moins d’un grand total, réaliser quelques sessions d’enregistrement et bam, vous avez tout l’audio dont vous avez besoin », a déclaré Matragrano. « En fait, nous rendons les choses très faciles. Et puis, cela sonnera bien et ne sera pas quelque chose dont même les joueurs qui ne se soucient pas vraiment de l’éthique de l’IA continuent de se plaindre.
Dans un autre cas récent d’utilisation de l’IA dans un jeu vidéo, CD Projekt Red a utilisé cette technologie pour recréer la voix du regretté acteur polonais Miłtrokogost Reczek – avec la permission de la famille de l’acteur – pour la réapparition du ripperdoc de Cyberpunk 2077, Viktor Vektor dans l’extension Phantom Liberty de cette année. Ailleurs, God of War Ragnarok a utilisé une technologie similaire pour vieillir les dialogues enregistrés par l’acteur d’Atreus Sunny Suljic afin de correspondre à son ton prépubère antérieur.
Recréer la voix d’un acteur décédé – même avec sa permission – et transformer un dialogue initialement interprété par un humain semble toujours très différent du remplacement complet d’interprètes humains dans votre jeu, mais c’est une situation qu’Almström s’attend au moins à devenir de plus en plus courante.
« Nous entrons vraiment dans une nouvelle aube en ce qui concerne les voix des jeux vidéo », a déclaré le concepteur audio.
Indépendamment de ce que vous pensez des voix de l’IA de The Finals, d’une manière ou d’une autre, pour le meilleur ou pour le pire, c’est sans aucun doute vrai.