Dans un nouveau document de recherche, Google a détaillé la technologie derrière son impressionnante démo Project Starline de la conférence I/O de cette année. Project Starline est essentiellement une cabine de chat vidéo 3D qui vise à remplacer une visioconférence 2D en tête-à-tête par une expérience qui donne l’impression d’être assis devant un véritable être humain.
Cela semble simple, mais le document de recherche de Google souligne à quel point il est difficile de faire croire à votre cerveau qu’il y a un véritable être humain assis à quelques mètres de vous. De toute évidence, l’image doit être de haute résolution et exempte d’artefacts gênants, mais elle doit également être correcte par rapport à votre position relative dans la cabine. L’audio est un autre défi, car le système doit donner l’impression que les mots d’une personne viennent de sa vraie bouche. Et puis il y a juste la petite question du contact visuel.
Mais, à terme, l’espoir est que Project Starline puisse offrir un sentiment de présence similaire à celui de la réalité virtuelle ou augmentée, sans que les utilisateurs aient besoin de porter des casques ou des trackers encombrants.
Le document détaille exactement la quantité de matériel nécessaire pour commencer à résoudre ces problèmes. Le système est construit autour d’un grand panneau 8K de 65 pouces qui fonctionne à 60 Hz. Autour de celui-ci, les ingénieurs de Google ont disposé trois « capsules de capture » capables de capturer à la fois des images couleur et des données de profondeur. Le système comprend également quatre caméras de suivi supplémentaires, quatre microphones, deux haut-parleurs et des projecteurs infrarouges. Au total, des images couleur de quatre points de vue sont capturées, ainsi que trois cartes de profondeur, pour un total de sept flux vidéo. L’audio est capturé à 44,1 kHz et codé à 256 Kbps.
De toute évidence, tout ce matériel génère beaucoup de données qui doivent être transmises, et Google dit que la bande passante de transmission varie de 30 Mbps à 100 Mbps, selon « le détail de la texture des vêtements de l’utilisateur et l’ampleur de ses gestes ». C’est donc bien plus qu’un appel Zoom standard, mais rien qu’un bureau typique d’une zone métropolitaine ne puisse gérer. Project Starline est équipé de quatre cartes graphiques Nvidia haut de gamme (deux cartes Quadro RTX 6000 et deux Titan RTX) pour encoder et décoder toutes ces données. La latence de bout en bout serait en moyenne de 105,8 millisecondes.
D’après la façon dont Google le dit, les employés qui ont utilisé Starline sur les trois sites où il a été installé pensent qu’il bat la vidéoconférence traditionnelle lorsqu’il s’agit de créer un sentiment de présence, de connexion personnelle, ainsi que d’aider à être attentif et à évaluer les réactions. La société affirme qu’en neuf mois, 117 participants ont tenu un total de 308 réunions dans ses cabines de téléprésence, avec une durée moyenne de réunion d’un peu plus de 35 minutes.
Tout cela semble très prometteur, mais pour l’instant, rien n’indique quand, ni même si, le système pourrait un jour être commercialisé. Il existe également très peu d’informations sur le coût réel de la vaste gamme de matériel de Starline (bien que le tableau 4 du document de recherche présente le matériel de suivi et d’affichage qu’il utilise, si vous avez envie de faire des calculs). Pour l’instant, Google dit qu’il étend la disponibilité de Project Starline « dans plus de bureaux de Google aux États-Unis ».