Vous avez peut-être déjà vu des films de science-fiction ou des émissions de télévision où le protagoniste demande de zoomer sur une image et d’améliorer les résultats – révélant un visage, une plaque d’immatriculation ou tout autre détail clé – et le plus récent de Google intelligence artificielle les moteurs, basés sur ce que l’on appelle les modèles de diffusion, sont capables de réaliser cette astuce.
C’est un processus difficile à maîtriser, car ce qui se passe essentiellement, c’est que des détails d’image sont ajoutés que l’appareil photo n’a pas capturés à l’origine, en utilisant des conjectures ultra-intelligentes basées sur d’autres images similaires.
La technique est appelée synthèse d’image naturelle par Google et, dans ce scénario particulier, la super-résolution d’image. Vous commencez avec une petite photo en blocs et pixélisée, et vous vous retrouvez avec quelque chose de net, clair et naturel. Il ne correspond peut-être pas exactement à l’original, mais il est suffisamment proche pour paraître réel à une paire d’yeux humains.
Google a en fait dévoilé deux nouveaux outils d’IA pour le travail. Le premier s’appelle SR3, ou Super-résolution via un raffinement répété, et cela fonctionne en ajoutant du bruit ou de l’imprévisibilité à une image, puis en inversant le processus et en le supprimant – un peu comme un éditeur d’images pourrait essayer d’affiner vos photos de vacances.
« Les modèles de diffusion fonctionnent en corrompant les données d’entraînement en ajoutant progressivement bruit gaussien, effaçant lentement les détails des données jusqu’à ce qu’elles deviennent du bruit pur, puis formant un réseau de neurones pour inverser ce processus de corruption », expliquent le chercheur Jonathan Ho et l’ingénieur logiciel Chitwan Saharia de Recherche Google.
Grâce à une série de calculs de probabilité basés sur une vaste base de données d’images et quelques apprentissage automatique magique, SR3 est capable d’imaginer à quoi ressemble une version pleine résolution d’une image basse résolution en blocs. Vous pouvez en savoir plus à ce sujet dans le document que Google a publié sur arXiv.
Le deuxième outil est le MDP, ou Modèles de diffusion en cascade. Google les décrit comme des « pipelines » à travers lesquels les modèles de diffusion – y compris SR3 – peuvent être dirigés pour des mises à niveau de résolution d’image de haute qualité. Il prend les modèles d’amélioration et en fait des images plus grandes, et Google a a publié un article là-dessus aussi.
En utilisant différents modèles d’amélioration à différentes résolutions, l’approche CDM est capable de battre des méthodes alternatives pour agrandir les images, selon Google. Le nouveau moteur AI a été testé sur ImageNet, une gigantesque base de données d’images d’entraînement couramment utilisées pour la recherche sur la reconnaissance visuelle d’objets.
Les résultats finaux de SR3 et CDM sont impressionnants. Dans un test standard avec 50 volontaires humains, les images générées par SR3 de visages humains ont été confondues avec de vraies photos environ 50% du temps – et considérant qu’un algorithme parfait devrait atteindre un score de 50%, c’est impressionnant.
Il vaut la peine de réitérer que ces images améliorées ne correspondent pas exactement aux originaux, mais ce sont des simulations soigneusement calculées basées sur des calculs de probabilité avancés.
Google affirme que l’approche de diffusion produit de meilleurs résultats que les options alternatives, y compris réseaux contradictoires génératifs (GAN) qui opposent deux les réseaux de neurones les uns contre les autres pour affiner les résultats.
Google promet beaucoup plus de ses nouveaux moteurs d’intelligence artificielle et des technologies associées, non seulement en termes de mise à l’échelle des images de visages et d’autres objets naturels, mais également dans d’autres domaines de la modélisation des probabilités.
« Nous sommes ravis de tester davantage les limites des modèles de diffusion pour une grande variété de problèmes de modélisation générative », l’équipe explique.
.