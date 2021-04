Dans le cadre de sa conférence GTC 2021, Nvidia présente ce 16 avril ses travaux de recherche sur la génération de modèles 3D à partir d'images 2D. Le projet se nomme GANverse3D et s'appuie comme son nom l'indique sur un réseau antagoniste génératif (GAN), une technique de machine learning qui se démarque par sa capacité à "créer".



Le plus connu d'entre eux est StyleGAN, qui permet de créer des portraits photoréalistes de personnes fictives. Nvidia l'a publié en décembre 2018, et a par la suite présenté GauGAN, qui permet de générer des peintures à partir de croquis grossiers, ou encore GameGAN, qui reproduit une partie de Pac-Man par simple imitation visuelle.



GANverse3D se distingue d'entre eux par le fait qu'il génère un modèles 3D à partir d'une seule image. C'est une tâche particulièrement complexe car une image 2D ne présente pas tous les angles d'un objet, et le GAN doit donc les générer pour compléter le modèle. La difficulté du problème fait que seuls trois types "d'objets" ont été mis en avant dans les recherches : les oiseaux, les chevaux et les voitures.



Et le seul cas d'usage que Nvidia juge suffisamment solide pour le moment concerne les voitures, car elles ont des textures simples (par rapport à la fourrure d'un chat par exemple) et ne se déforment pas lorsqu'elles sont en mouvement (contrairement à un être humain qui est articulé).





Pour mettre en avant ce nouveau GAN, l'entreprise a pris l'exemple de la légendaire KITT, la Pontiac Firebird dotée d'une conscience propre au cœur de la série télévisée K2000 (Knight Rider dans la version originale). Le modèle utilisé a été entraîné sur 55 000 images de voitures (présentant plusieurs angles de vue).



Il est capable de distinguer les différents éléments d'une voiture, comme les phares, les vitres ou les roues. L'entraînement terminé, une seule image de KITT suffit à construire la maquette 3D. Une fois les textures générées par le GAN, les outils Omniverse et PhysX sont utilisés pour améliorer leur qualité et leur conférer un rendu plus réaliste, puis la placer dans un contexte de conduite avec d'autres voitures afin de produire une vidéo. Si l'entraînement du GAN prend plusieurs jours en centre de calcul, l'inférence à partir de l'image ne prend que 65 millisecondes sur un GPU V100, d'après Sanja Fidler, directrice du laboratoire de recherche Nvidia à Toronto.



Comme la vidéo et l'image d'illustration de cet article le montrent, le résultat n'est pas d'une qualité visuelle exceptionnelle, mais il reste supérieur à ce que permet de faire un réseau de type graphisme inversé entraîné sur Pascal3D, d'après Nvidia. Et Richard Kerris, qui dirige Omniverse au sein de Nvidia, y voit de vrais usages pour les constructeurs automobiles. "Lors de la création d'images promotionnelles, le véhicule mis en avant demande beaucoup d'efforts et d'attention, mais les éléments de contexte qui sont à l'arrière-plan n'ont pas besoin d'autant de détails," explique-t-il.



GANverse3D représente selon lui un moyen de créer rapidement et gratuitement ces éléments d'arrière-plan. Il pourrait aussi être appliqué à toute autre illustration nécessitant des voitures, comme des visions d'artiste pour des projets de développement urbain. Et puisque GANverse3D fonctionne avec Omniverse, les modèles qu'il génère peuvent rapidement être importés dans les outils de conception habituels des designers.



Il est par ailleurs possible d'utiliser StyleGAN pour créer des images réalistes de voitures qui n'existent pas réellement, et ne sont donc pas soumises à des droits de propriété intellectuelle, puis d'utiliser GANverse3D pour en créer des maquettes 3D non soumises à un copyright. Comme tous les travaux de Nvidia Research, le code de GANverse3D sera rendu public. Cela se fera d'ici un mois.