Des chercheurs de l’UC Berkeley, Waymo et Google Research ont proposé une variante Block-NeRF basée sur une grille pour représenter des environnements plus vastes. Dans l’article, Block-NeRF: Scalable Large Scene Neural View Synthesis, les chercheurs ont démontré que lors de la mise à l’échelle de NeRF pour rendre des scènes à l’échelle de la ville couvrant plusieurs blocs, il est essentiel de décomposer la scène en NeRF formés individuellement.
Bloc-NeRF est construit sur NeRFs et l’extension mip-NeRF récemment introduite, une représentation multi-échelle pour éclat neuronal anti-aliasing champs qui réduisent les problèmes de crénelage qui nuisent aux performances de NeRF dans les scènes où les images d’entrée observent une scène donnée à différentes distances. L’équipe intègre également des techniques de NeRF dans le Sauvage (NeRF-W) pour gérer les apparences de scène incohérentes lors de l’application de NeRF aux points de repère de l’ensemble de données Photo Tourism. La proposition Bloc-NeRF peut ainsi combiner plusieurs NeRF pour reconstruire un vaste environnement cohérent à partir de millions d’images
Les chercheurs ont utilisé Block-NeRF, une variante de Éclat neuronal Champs pouvant représenter des environnements à grande échelle. Les chercheurs ont démontré que lors de la mise à l’échelle de NeRF rendu à l’échelle de la ville scènes couvrant plusieurs blocs, il est essentiel de décomposer la scène en NeRF formés individuellement. Cette décomposition dissocie le temps de rendu de la taille de la scène, permet au rendu de s’adapter à des environnements arbitrairement grands et permet des mises à jour par bloc de l’environnement. L’équipe a adopté plusieurs changements architecturaux pour apporter NeRF robuste aux données capturés au fil des mois dans différentes conditions environnementales. Ils ont également ajouté l’apparence encastrementsa appris le raffinement de la pose et l’exposition contrôlable à chaque NeRF individuel, et a introduit une procédure pour aligner l’apparence entre les NeRF adjacents afin qu’ils puissent être combinés de manière transparente.
Les chercheurs ont utilisé celui de San Francisco Place Alamo quartier comme zone cible et le district de Mission Bay comme référence. L’ensemble de données de formation a été dérivé de 13,4 heures de temps de conduite provenant de 1 330 cycles de collecte de données différents pour un total de 2 818 745 images de formation.