L'IA peut désormais jouer à Minecraft aussi bien que vous - voici pourquoi c'est important

L'IA peut désormais jouer à Minecraft aussi bien que vous - voici pourquoi c'est important

Les experts d'OpenAI ont formé un réseau de neurones pour jouer à Minecraft à un niveau aussi élevé que celui des joueurs humains.

Le réseau neuronal a été formé sur 70 000 heures de séquences diverses dans le jeu, complétées par une petite base de données de vidéos dans lesquelles les sous-traitants ont effectué des tâches spécifiques dans le jeu, et des entrées au clavier et à la souris ont également été enregistrées.

Après des ajustements, OpenAI a constaté que le modèle était capable de toutes sortes de capacités complexes, de la nage à la chasse aux animaux et à la consommation de leur viande. Il a également attrapé le "saut de pilier", un mouvement dans lequel le joueur place un bloc de matériel sous lui à mi-saut pour gagner de la hauteur.

Peut-être le plus impressionnant, l'IA a pu créer des outils en diamant (qui nécessitaient une longue série d'actions à exécuter en séquence), ce qu'OpenAI a décrit comme une réalisation "sans précédent" pour un agent informatique.

Une percée dans l'IA ?

L'importance du projet Minecraft est qu'il démontre l'efficacité d'une nouvelle technique qu'OpenAI met en œuvre pour former des modèles d'IA, appelée Video PreTraining (VPT), ​​​​qui, selon la société, pourrait accélérer le développement "d'agents utilisant l'informatique générale". "

Historiquement, la difficulté d'utiliser la vidéo brute comme source pour former des modèles d'IA a été que ce qui s'est passé est assez simple à comprendre, mais pas nécessairement comment. En effet, le modèle d'IA absorberait les résultats souhaités, mais ne comprendrait pas les combinaisons d'entrées nécessaires pour les atteindre.

Avec VPT, cependant, OpenAI combine un grand ensemble de données vidéo extraites de sources Web publiques avec un ensemble soigneusement sélectionné d'images étiquetées avec les mouvements pertinents du clavier et de la souris pour établir le modèle de base.

Pour affiner le modèle de base, l'équipe intègre des ensembles de données plus petits conçus pour enseigner des tâches spécifiques. Dans ce contexte, OpenAI a utilisé des images de joueurs effectuant des actions de début de jeu telles que l'abattage d'arbres et la construction de tables d'artisanat, ce qui aurait entraîné une "grande amélioration" de la fiabilité avec laquelle le modèle pouvait effectuer ces tâches.

Une autre technique consiste à "récompenser" le modèle d'IA pour avoir accompli chaque étape d'une séquence de tâches, une pratique connue sous le nom d'apprentissage par renforcement. C'est ce processus qui a permis au réseau de neurones de collecter tous les ingrédients d'une pioche en diamant avec un taux de réussite de niveau humain.

"La VPT ouvre la voie aux agents pour apprendre à agir en regardant un grand nombre de vidéos sur Internet. Par rapport à la modélisation vidéo générative ou aux méthodes contrastives qui ne produiraient que des arrière-plans représentatifs, la VPT offre la possibilité passionnante d'"apprendre directement à grande échelle". les antécédents comportementaux des vidéos dans plus de domaines que le simple langage », a expliqué OpenAI dans un article de blog (ouvre dans un nouvel onglet).

"Bien que nous n'expérimentions que sur Minecraft, le jeu est très ouvert et l'interface humaine native (souris et clavier) est très générique, nous pensons donc que nos résultats sont de bon augure pour d'autres domaines similaires, par exemple l'utilisation d'un ordinateur." .

Pour stimuler de nouvelles expérimentations dans l'espace, OpenAI s'est associé au concours MineRL NeurIPS, faisant don de ses données commerciales et de son code de modèle aux candidats essayant d'utiliser l'IA pour résoudre les complexes de Minecraft. Le grand prix : 100,000 XNUMX €.