Facebook a introduit un modèle qui transforme les images bidimensionnelles courantes en photos 3D. La méthode, publiée pour la première fois lors de la conférence d’infographie virtuelle SIGGRAPH 2020 de ce mois-ci, transforme les images à prise unique et fonctionne directement sur un appareil mobile. Bien que ce ne soit pas une technique nouvelle pour les smartphones avancés d’aujourd’hui, le système proposé est conçu pour fonctionner même sur des téléphones mobiles bas de gamme et sans connexion Internet.
Avec une seule image prise en entrée, le système estime la profondeur de la scène et le contenu des régions de parallaxe à l’aide de méthodes basées sur l’apprentissage. Il le fait en quatre étapes:
Étape 1: Estimation de la profondeur. Les chercheurs ont proposé une nouvelle architecture, Tiefenrausch, avec trois améliorations:
- Structure de bloc efficace et rapide sur les appareils mobiles
- Nouvelle conception de réseau qui équilibre la précision, la latence et la taille du modèle à l’aide d’un algorithme de recherche d’architecture neuronale
- Réduction de la taille du modèle et de la latence grâce à la quantification 8 bits
Étape 2: Génération de couches. Les discontinuités de profondeur ont été résolues en regroupant les discontinuités en caractéristiques de type courbe (code couleur, (a) dans l’illustration ci-dessus) et en déduisant des contraintes spatiales pour mieux façonner leur croissance (lignes pointillées, voir ci-dessus). Les pixels sont soulevés sur une image de profondeur en couches (LDI). Les chercheurs ont synthétisé une nouvelle géométrie en exécutant un algorithme d’expansion pendant 50 itérations pour obtenir un LDI multicouche avec un chevauchement suffisant pour l’affichage avec parallaxe.
Étape 3: peinture couleur. Les chercheurs se sont penchés sur la structure LDI en parcourant les connexions de pixels LDI pour agréger un voisinage local autour d’un pixel, ce qui leur a permis de former un réseau en 2D puis d’utiliser les poids pré-entraînés pour l’inpainting LDI. Ils ont créé une nouvelle architecture, Farbrausch, pour optimiser le réseau inpainting à une taille adaptée aux mobiles.
Étape 4: maillage. Un algorithme personnalisé construit directement un maillage triangulaire 3D simplifié. Il exploite la structure de représentation 2.5D en opérant dans le domaine de l’atlas de texture 2D: simplifiant et triangulant les polygones de la carte d’abord en 2D, puis les élevant ensuite en 3D.
Au total, le traitement ne prend que quelques secondes, même sur les appareils mobiles bas de gamme hors ligne. Lors d’expériences, la méthode a montré des performances et une précision comparables aux approches actuelles de génération d’images 3D de pointe.
Le papier Photographie 3D One Shot est sur arXiv. Le code est disponible sur GitHub.
Analyste: Reina Qi Wan | Éditeur: Michael Sarazen; Fangyu Cai
Rapport synchronisé | Une enquête sur les solutions d’intelligence artificielle en Chine en réponse à la pandémie COVID-19 – 87 études de cas de plus de 700 fournisseurs d’IA
Ce rapport offre un aperçu de la manière dont la Chine a exploité les technologies d’intelligence artificielle dans la bataille contre le COVID-19. Il est également disponible sur Kindle d’Amazon. Parallèlement à ce rapport, nous avons également introduit un base de données couvrant 1428 solutions d’intelligence artificielle supplémentaires à partir de 12 scénarios de pandémie.
Cliquez sur ici pour trouver plus de rapports de notre part.
Nous savons que vous ne voulez manquer aucune histoire. Abonnez-vous à notre populaire IA mondiale synchronisée chaque semaine pour obtenir des mises à jour hebdomadaires de l’IA.