Jusqu’à récemment, la reconstruction de surface 3D était un processus relativement lent et laborieux impliquant d’importants essais et erreurs et une saisie manuelle. Mais que diriez-vous si vous pouviez prendre une vidéo d’un objet ou d’une scène avec votre smartphone et la transformer en un modèle précis et détaillé, comme un maître sculpteur crée des chefs-d’œuvre en marbre ou en argile ? Ses créateurs affirment que le bien nommé Neuralangelo fait exactement cela grâce à la puissance des réseaux de neurones et avec une précision submillimétrique.

Un projet conjoint de chercheurs du École d’ingénierie WhitingDépartement d’informatique et géant de la technologie Nvidiacet algorithme de reconstruction de surface neurale haute fidélité peut restituer avec précision les formes d’objets du quotidien, de statues célèbres, de bâtiments familiers et d’environnements entiers à partir d’une seule vidéo de smartphone ou d’une séquence de drone sans aucune entrée supplémentaire nécessaire.

De Gauche À Droite, Le Rendu Rvb De Neuralangelo, La Sortie De Surface De Maillage 3D Et La Carte Normale De Shriver Hall

Légende: De gauche à droite, le rendu RVB de Neuralangelo, la sortie de surface de maillage 3D et la carte normale de Shriver Hall

Image crédit: Université John Hopkins

Les algorithmes qui alimentent les environnements de réalité virtuelle, la navigation robotique autonome et les salles d’opération intelligentes ont tous une exigence fondamentale : ils doivent être capables de traiter et d’interpréter avec précision les informations du monde réel pour fonctionner correctement. Ce type de connaissance est obtenu grâce à la reconstruction de surface 3D, dans laquelle un algorithme prend plusieurs images 2D de différents points de vue pour restituer des environnements réels d’une manière que d’autres programmes peuvent reconnaître et manipuler.

Le projet Neuralangelo a été initié par Zhaoshuo « Max » Li— qui a obtenu un master en informatique à la Whiting School en 2019, suivi d’un doctorat en informatique en 2023 — lors de son stage de l’été 2022 chez NVIDIA, où il est aujourd’hui chercheur. Son objectif n’était pas seulement d’améliorer les techniques de reconstruction 3D existantes mais aussi de les rendre accessibles à toute personne disposant d’un smartphone.

« Comment pouvons-nous acquérir la même compréhension que les humains d’un environnement 3D en utilisant des vidéos disponibles à bas prix, rendant ainsi cette technologie accessible à tous ? » Il a demandé.

Travailler avec les conseillers de Johns Hopkins Russel TaylorProfesseur d’informatique John C. Malone, et Mathias Unberathprofesseur adjoint d’informatique, et les chercheurs de NVIDIA Thomas Müller et Alex Evans, le chef de projet Ming-Yu Liu et le mentor de stage Chen-Hsuan Lin, Li ont entrepris de démocratiser la reconstruction de surface 3D.

La première étape de l’équipe dans la création de Neuralangelo consistait à résoudre les problèmes auxquels les algorithmes de reconstruction antérieurs étaient confrontés lors du rendu de grandes zones de couleurs homogènes, de motifs de texture répétitifs et de fortes variations de couleur. Parce que les algorithmes traditionnels utilisent des gradients analytiques qui ne regardent et ne comparent que des sections de pixels locaux à la fois, ils produisent des reconstructions imprécises avec des surfaces « bruyantes » – avec des gouttes flottant au-dessus d’un toit, par exemple – ou manquantes, avec des trous dans ce qui devrait être un mur de briques solide, dit l’équipe.

« La solution la plus simple consiste à ajouter une saisie manuelle », explique Li. « Et vous obtenez alors de meilleurs résultats, mais pas au niveau de Neuralangelo. »

« Nous imaginons un Neuralangelo qui sait plus que ce à quoi ressemble la géométrie d’un objet ; il comprend ce qu’il regarde », dit-il.

Zhaoshuo ‘Max’ Li

Ingénieur ’19 (MS), ’23 (PhD)

Au lieu d’augmenter l’effort humain, l’équipe Neuralangelo s’est attaquée à la racine du problème, en choisissant d’utiliser des gradients numériques dans leur représentation de grille de hachage multi-résolution, ce qui a considérablement amélioré la qualité de reconstruction de l’algorithme. Cela signifie que Neuralangelo regarde au-delà des pixels locaux et utilise une approche plus holistique pour affiner et améliorer les surfaces détaillées et lisser davantage les surfaces plates, tout en capturant tous les détails importants d’une scène, déclare l’équipe.

Les chercheurs ont également mis en œuvre un processus d’optimisation grossier à fin. Semblable à un sculpteur sculptant des détails de plus en plus fins dans un morceau de marbre, l’algorithme commence à une résolution de hachage grossière – imaginez une estimation grossière et grossière d’un objet ou d’une scène – puis augmente progressivement la résolution pour « découper » des détails plus fins et les subtilités jusqu’à ce qu’il atteigne une reconstruction 3D réaliste et haute fidélité, explique l’équipe.

Ils ont ensuite adapté l’algorithme pour extraire des images de vidéos 2D capturées manuellement. Là où les algorithmes traditionnels souffrent lorsqu’ils sont confrontés à des artefacts vidéo tels que des variations d’exposition, telles que le passage de la lumière directe du soleil à une ombre lourde, l’architecture de Neuralangelo lui permet intrinsèquement de s’adapter à de telles variations, qui se produisent naturellement dans la capture vidéo réaliste, explique Li.

L’équipe cite la reconstruction par Neuralangelo de l’extérieur de Shriver Hall à partir d’une vidéo de drone de deux minutes comme exemple de ses capacités.

Aucun appareil de mesure sophistiqué, comme le lidar, qui coûte souvent des centaines ou des milliers de dollars, n’est nécessaire pour capturer une salle d’opération, une scène de rue ou une pièce de votre maison ; vous pouvez obtenir la même qualité de rendu uniquement avec l’appareil photo de votre smartphone, explique Li.

La qualité de la vidéo d’entrée affecte toujours le résultat final, mais les smartphones, les drones et les caméras professionnelles fonctionnent tous, selon Li.

« Je dis aux gens : ‘Rentrez les ordures, sortez les ordures' », dit-il. « Mais c’est à peu près vrai pour toute entrée d’algorithme. »

Neuralangelo se débat toujours avec des surfaces hautement réfléchissantes. En raison de sa puissance de représentation élevée, il a tendance à reconstruire entièrement les scènes reflétées dans des surfaces semblables à des miroirs, rendant quelque chose qui ressemble plus à un diorama qu’à du verre plat, mais l’équipe de recherche de NVIDIA affirme qu’elle travaille déjà pour résoudre ce problème. Li espère également que grâce au code source accessible au public, lui et la plus grande communauté d’infographistes pourront optimiser l’algorithme pour obtenir des résultats en quelques minutes.

En attendant, Neuralangelo est salué comme un développement passionnant pour les passionnés d’impression 3D, les concepteurs de jeux vidéo et d’actifs CGI, et pour une utilisation dans des applications chirurgicales. Li a même employé Neuralangelo dans sa thèseen l’utilisant pour produire une reconstruction haute fidélité du crâne d’un patient à utiliser lors d’une chirurgie compliquée de la base du crâne.

Il envisage de futures applications de réalité augmentée qui alertent les chirurgiens de leur proximité avec le cerveau d’un patient, comme les alertes de proximité des piétons des voitures autonomes.

« Pour les humains, il est très difficile de quantifier des distances spécifiques, qu’il s’agisse de mètres ou de précision millimétrique, mais les algorithmes peuvent fournir des ensembles de compétences complémentaires », explique-t-il.

Comparaison Qualitative De Colmap, Une Approche De Base Avec Des Surfaces Manquantes Et Bruitées, Et Neuralangelo

Légende: Comparaison qualitative de COLMAP, une approche de base avec des surfaces manquantes et bruitées, et Neuralangelo

Image crédit: Nvidia

L’équipe de Neuralangelo a présenté ses conclusions fin juin au Conférence 2023 sur la vision par ordinateur et la reconnaissance de formes à Vancouver, au Canada, et Li dit qu’il y a déjà beaucoup d’enthousiasme pour l’avenir de l’algorithme.

Il compare les futurs assistants virtuels utilisant Neuralangelo au « JARVIS » d’Iron Man, capables d’interagir avec les utilisateurs, de donner des commentaires en temps réel et, surtout, de comprendre exactement ce qui se passe dans le monde réel.

« Nous imaginons un Neuralangelo qui sait plus que ce à quoi ressemble la géométrie d’un objet ; il comprend ce qu’il regarde », dit-il.

Li attribue aux connaissances et aux compétences qu’il a acquises et affinées tout en terminant son doctorat à Hopkins l’avoir aidé à se préparer à relever de tels défis du monde réel et à l’avoir mis en contact avec des opportunités dans l’industrie.

« La combinaison des bases théoriques et de l’expérience pratique du département d’informatique m’a préparé à comprendre et à relever les défis de la recherche », dit-il. « La faculté promeut également activement les collaborations avec l’industrie et m’a aidé à entrer en contact avec des chercheurs de renommée mondiale au sein de JHU et au-delà. »

Voyez Neuralangelo en action, gracieuseté de NVIDIA, dans la vidéo liée ici.

->Google Actualités

4.3/5 - (37 votes)
Publicité
Article précédent« The Last of Us » ne mérite pas sa nomination pour le meilleur drame aux Emmys 2023
Article suivantFortnite: Comment obtenir des éclaboussures de claque

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici