Nvidia a développé un moyen de transformer des photos 2D en scènes 3D

Nvidia a développé un moyen de transformer des photos 2D en scènes 3D

Les chercheurs en IA de Nvidia ont trouvé un moyen de transformer une poignée d'images 2D en une scène 3D presque instantanément en utilisant une formation de réseau neuronal ultra-rapide couplée à un rendu rapide.

Connu sous le nom de rendu inverse, le processus exploite l'IA pour se rapprocher du comportement de la lumière dans le monde réel afin de transformer des images 2D prises sous différents angles en scènes 3D.

Les chercheurs de Nvidia ont appliqué leur nouvelle approche à une nouvelle technologie populaire appelée Neural Radiation Fields, ou NeRF en abrégé. Le résultat, que la société a surnommé Instant NeRF, est la technique NeRF la plus rapide à ce jour, et dans certains cas plus de 1000 XNUMX fois plus rapide. Le modèle neuronal utilisé ne prend que quelques secondes pour s'entraîner sur quelques dizaines de photos fixes, bien qu'il nécessite également des données sur les angles de caméra à partir desquels elles ont été prises.

Le vice-président de la recherche graphique de Nvidia, David Luebke, a fourni des informations supplémentaires sur la différence entre NeRF et Instant NeRF dans un article de blog, en disant :

"Alors que les représentations 3D traditionnelles telles que les maillages polygonaux sont similaires aux images vectorielles, les NeRF sont comme des bitmaps : elles capturent de manière dense la façon dont la lumière rayonne d'un objet ou dans une scène. En ce sens, Instant NeRF pourrait être aussi important pour la 3D que les appareils photo numériques et la compression JPEG l'ont été pour la photographie 2D, augmentant considérablement la vitesse, la facilité et la portée de la capture et du partage 3D.

Cas d'utilisation possibles

À l'aide de réseaux de neurones, les NeRF peuvent restituer des scènes 3D réalistes basées sur une collection d'entrée d'images 2D. La partie la plus intéressante, cependant, est de savoir comment les réseaux de neurones utilisés pour les créer peuvent combler les lacunes entre les images 2D même lorsque les objets ou les personnes qui s'y trouvent sont bloqués par des obstacles.

En règle générale, la création d'une scène 3D à l'aide de méthodes traditionnelles peut prendre de quelques heures à plusieurs heures, selon la complexité et la résolution de l'affichage. En introduisant l'IA dans l'image, même les premiers modèles NeRF ont pu générer des scènes nettes et sans artefacts en quelques minutes après avoir été formés pendant plusieurs heures.

Les NeRF instantanés de Nvidia sont capables de réduire de plusieurs ordres de grandeur le temps de rendu requis à l'aide d'une technique développée par l'entreprise appelée codage de grille de hachage multi-résolution qui a été optimisée pour fonctionner efficacement sur les GPU Nvidia. Le modèle que la société a dévoilé au GTC 2022 utilise la boîte à outils Nvidia CUDA et la bibliothèque Tiny CUDA Neural Networks, qui peuvent être formées et exécutées sur un seul GPU Nvidia, bien que les cartes graphiques avec Nvidia Tensor Cores puissent gérer le travail encore plus rapidement.

À l'avenir, la technologie Instant NeRF pourrait être utilisée pour créer rapidement des avatars ou des scènes pour des mondes virtuels, capturer les participants à une vidéoconférence et leurs environnements en 3D ou reconstruire des scènes pour des cartes numériques 3D. Alternativement, la technologie pourrait également être utilisée pour former des robots et des voitures autonomes afin de mieux comprendre la taille et la forme d'objets du monde réel en capturant des images 2D ou des séquences vidéo d'eux. Dans le même temps, les industries de l'architecture et du divertissement peuvent utiliser Instant NeRF pour générer rapidement des représentations numériques d'environnements réels que les créateurs peuvent modifier et étendre.

Les chercheurs de Nvidia explorent également comment leur nouvelle technique de codage d'entrée pourrait être utilisée pour accélérer divers défis d'IA, tels que l'apprentissage par renforcement, la traduction linguistique et les algorithmes d'apprentissage en profondeur à usage général.