Entre les passionnés de technologie graphique et les sorciers de chez Nvidia, c’est une histoire d’amour qui dure depuis de longues années déjà et qui s’entretient à grands coups de démonstrations techniques impressionnantes. Et l’écurie verte vient de récidiver avec une nouvelle preuve de concept assez saisissante : voici Instant NeRF, un système capable de transformer une poignée d’images en rendus 3D photoréalistes en quelques secondes.
L’idée de base n’est pas nouvelle; cela fait déjà des années que les spécialistes cherchent à transposer des images 2D dans un espace en trois dimensions, avec des résultats très variables. Les plus anciens peinent à produire des images identifiables. Mais les plus récents, basés sur une technique appelée NeRF, sont déjà capables de proposer des conversions 3D visuellement tolérables, voire de très bonne qualité.
En revanche, même les plus avancées souffrent de deux problèmes souvent rédhibitoires. Le premier, comme souvent dans les projets en lien avec l’IA, est le temps de calcul; il s’agit souvent d’algorithmes extrêmement lourds qui peuvent mettre un temps fou à traiter une poignée d’images.
Un tour de magie informatique réalisé en un clin d’œil
L’autre souci est lié aux angles disponibles. Avec les systèmes à l’ancienne, il est difficile d’obtenir un résultat propre sous tous les angles à moins d’utiliser des centaines, voire des milliers d’images pour la reconstruction 3D. Dans le cas contraire, on se retrouve avec des artefacts visuels comme du flou ou des déformations sur le produit final (voir la vidéo ci-dessus).
Pour résumer, cette technique existe déjà, mais elle fait l’objet de compromis constants entre la qualité et le temps de traitement; les meilleurs systèmes actuels sont capables de produire un rendu de très bonne qualité en quelques minutes, mais il faut toujours de longues heures pour entraîner le modèle en amont.
Mais avec Instant NeRF, NVIDIA promet d’extraire le meilleur des deux mondes pour proposer un rendu 3D extrêmement précis à partir de quelques dizaines de photos à peine, et surtout avec des performances jusqu’à 1000 fois supérieures à celles des meilleurs systèmes actuels – soit en “quelques centièmes de seconde” !
Pour atteindre ces performances ébouriffantes, Nvidia a développé une technique baptisée “Multi-resolution hash grid encoding”. La firme de ne donne que très peu de détails sur son fonctionnement. Très grossièrement, on sait cependant que le concept consiste à produire plusieurs petits sous-réseaux neuronaux, qui sont chacun exponentiellement plus rapides à entraîner qu’un méga-réseau unique.
Des applications potentielles dans touts les secteurs
La preuve de concept est déjà impressionnante, mais le plus intéressant, c’est qu’elle dispose de nombreuses perspectives d’avenir très concrètes. Par exemple, la prochaine étape sera vraisemblablement de passer à la vitesse supérieure, à savoir convertir des photos non pas en simple rendus 3D, mais en véritable objet digitaux en 3 dimensions manipulables par des professionnels.
Le communiqué explique par exemple qu’un système comme Instant NeRF pourrait être utilisé en architecture ou dans le monde du divertissement. Il pourrait alors servir à créer rapidement du contenu à la volée; quelques photos d’un monument historique, et pouf, le voilà intégré à un jeu ou à un film en deux temps, trois mouvements !
Instant NeRF pourrait même se trouver des applications fonctionnelles. On pense notamment au pilotage autonome; il existe en effet de nombreux engins comme des voitures, des drones, ou même des machines industrielles dont le degré d’autonomie et de fiabilité dépend directement de leur capacité à transposer des images 2D en représentation 3D de leur environnement. On n’arrête pas le progrès !
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.
Dans le monde de l’observation militaire ça fera fureur.