Qu'est-ce que l'IA générative ? L'évolution de l'intelligence artificielle


L'IA générative est un terme général désignant tout type de processus automatisé qui utilise des algorithmes pour produire, manipuler ou synthétiser des données, souvent sous la forme d'images ou de texte lisible par l'homme. C'est ce qu'on appelle génératif car l'IA crée quelque chose qui n'existait pas auparavant. C'est ce qui la différencie de l'IA discriminatoire, qui fait des distinctions entre différents types d'intrants. Pour le dire autrement, l'IA discriminante essaie de répondre à une question comme "Cette image est-elle un dessin d'un lapin ou d'un lion ?" tandis que l'IA générative répond à des invites telles que "Dessine-moi un lion et un lapin assis l'un à côté de l'autre".

Cet article vous présente l'IA générative et ses utilisations avec des modèles populaires tels que ChatGPT et DALL-E. Nous examinerons également les limites de la technologie, y compris pourquoi "trop ​​de doigts" est devenu un indicateur clair d'art généré artificiellement.

L'essor de l'IA générative

L'IA générative existe depuis des années, peut-être depuis qu'elle a été développée au MIT en 1966 par ELIZA, un chatbot qui simule une conversation avec un thérapeute. Systèmes d'IA. . Vous avez presque certainement entendu parler de ChatGPT, un chatbot basé sur le texte qui produit une prose remarquablement humaine. DALL-E et Stable Diffusion ont également attiré l'attention sur leur capacité à créer des images réalistes et dynamiques basées sur des repères textuels. Nous nous référons souvent à ces systèmes et à d'autres comme eux in tant que modèles car ils representent une tentative de simuler ou de modéliser certains aspects du monde sur la base d'un sous-ensemble (parfois très important) d'informations À propos de ça.

Les résultats de ces systèmes sont si bizarres que de nombreuses personnes posent des questions philosophiques sur la nature de la conscience et s'inquiètent de l'impact économique de l'IA générative sur les emplois humains. Mais bien que toutes ces créations d'IA soient certainement de grandes nouvelles, il y a sans doute moins de choses sous la surface que certains ne le supposent. Nous aborderons certaines de ces questions générales dans un instant. Voyons d'abord ce qui se passe sous le capot de modèles comme ChatGPT et DALL-E.

Comment fonctionne l'IA générative ?

L'IA générative utilise l'apprentissage automatique pour traiter de grandes quantités de données visuelles ou textuelles, en grande partie extraites d'Internet, puis détermine les éléments les plus susceptibles d'apparaître à proximité d'autres éléments. Une grande partie du travail de programmation d'IA générative consiste à créer des algorithmes capables de distinguer les "choses" qui intéressent les créateurs d'IA : des mots et des phrases dans le cas de chatbots comme ChatGPT, ou des éléments visuels pour DALL-E. Mais fondamentalement, l'IA générative crée sa sortie en évaluant une grande quantité de données sur lesquelles elle a été formée, puis en répondant aux invites avec quelque chose qui relève du domaine de la probabilité tel que déterminé par cet organisme.

L'auto-complétion, lorsque votre téléphone portable ou Gmail suggère ce que pourrait être le reste du mot ou de la phrase que vous tapez, est une forme d'IA générative de bas niveau. Des modèles comme ChatGPT et DALL-E poussent simplement l'idée à des hauteurs beaucoup plus avancées.

Former des modèles d'IA génératifs

Le processus par lequel les modèles sont développés pour accueillir toutes ces données est appelé formation. Certaines techniques sous-jacentes sont en jeu ici pour différents types de modèles. ChatGPT utilise ce qu'on appelle un transformateur (c'est ce que signifie le T). Un transformateur tire le sens de longues chaînes de texte pour comprendre comment différents mots ou composants sémantiques peuvent être liés les uns aux autres, puis détermine la probabilité qu'ils se produisent à proximité les uns des autres. Ces transformateurs s'exécutent sans surveillance sur une grande quantité de texte en langage naturel dans un processus appelé pré-entraînement (c'est-à-dire Pin ChatGPT), avant d'être réglés par des humains interagissant avec le modèle.

Une autre technique utilisée pour former des modèles est ce qu'on appelle un réseau contradictoire génératif, ou GAN. Dans cette technique, vous avez deux algorithmes concurrents. L'une consiste à générer du texte ou des images sur la base de probabilités dérivées d'un grand ensemble de données ; l'autre est une IA discriminatoire, qui a été formée par des humains pour évaluer si ce résultat est réel ou généré par l'IA. L'IA générative tente à plusieurs reprises de "tromper" l'IA discriminatoire, s'adaptant automatiquement pour favoriser les résultats positifs. Une fois que l'IA générative « gagne » systématiquement cette compétition, les humains affinent l'IA discriminante et le processus recommence.

L'une des choses les plus importantes à garder à l'esprit ici est que bien qu'il y ait une intervention humaine dans le processus de formation, la plupart de l'apprentissage et de l'adaptation se font automatiquement. Il faut tellement d'itérations pour amener les modèles au point où ils produisent des résultats intéressants que l'automatisation est essentielle. Le processus est assez gourmand en calculs.

L'IA générative est-elle réactive ?

Les mathématiques et le codage utilisés pour créer et former des modèles d'IA génératifs sont assez complexes et dépassent le cadre de cet article. Mais si vous interagissez avec les modèles qui sont le résultat final de ce processus, l'expérience peut être carrément bizarre. Vous pouvez demander à DALL-E de produire des objets qui ressemblent à de véritables œuvres d'art. Vous pouvez avoir des conversations avec ChatGPT qui ressemblent à une conversation avec un autre être humain. Les chercheurs ont-ils vraiment créé une machine à penser ?

Chris Phipps, un ancien responsable du traitement du langage naturel chez IBM qui a travaillé sur les produits d'IA de Watson, dit non. Il décrit ChatGPT comme une "très bonne machine de prédiction".

Il est très bon pour prédire ce que les humains trouveront cohérent. Ce n'est pas toujours cohérent (la plupart du temps ça l'est), mais ce n'est pas parce que ChatGPT "comprend". C'est tout le contraire : les humains qui consomment la sortie sont vraiment doués pour faire toutes les hypothèses implicites dont nous avons besoin pour donner un sens à la sortie.

Phipps, qui est également comédien, établit une comparaison avec un jeu d'improvisation commun appelé Mind Meld.

Deux personnes pensent à un mot puis le prononcent simultanément à haute voix. Vous pourriez dire "boot" et je dis "arbre". Nous avons trouvé ces mots de manière complètement indépendante et au début ils n'avaient rien à voir les uns avec les autres. Les deux participants suivants prennent ces deux mots et essaient de trouver quelque chose qu'ils ont en commun et de le dire à haute voix en même temps. Le jeu continue jusqu'à ce que deux participants prononcent le même mot. Peut-être que deux personnes disent "bûcheron". Cela ressemble à de la magie, mais en réalité, nous utilisons notre cerveau humain pour raisonner sur l'entrée ("boot" et "tree") et trouver une connexion. Nous faisons le travail de compréhension, pas la machine. Il se passe beaucoup plus de choses avec ChatGPT et DALL-E que les gens ne l'admettent. ChatGPT peut écrire une histoire, mais nous, les humains, travaillons dur pour lui donner un sens.

Tester les limites de l'intelligence informatique

Quelques indices que nous pouvons donner à ces modèles d'IA rendront le point de vue de Phipps assez évident. Par exemple, considérez l'énigme "Qu'est-ce qui pèse le plus, une livre de plomb ou une livre de plumes ?" La réponse, bien sûr, est qu'ils pèsent le même poids (une livre), même si notre instinct ou notre bon sens nous disent que les plumes sont plus légères.

ChatGPT répondra correctement à cette énigme, et vous pouvez supposer que c'est le cas, car c'est un ordinateur froidement logique qui n'a pas de "bon sens" pour le faire trébucher. Mais ce n'est pas ce qui se passe sous le capot. ChatGPT ne raisonne pas logiquement la réponse ; il génère simplement une sortie basée sur vos prédictions de ce qui devrait suivre une question sur une livre de plumes et une livre de plomb. Étant donné que votre ensemble d'entraînement comprend un tas de textes expliquant le puzzle, il crée une version de cette réponse correcte. Mais si vous demandez à ChatGPT si deux livres de plumes pèsent plus qu'une livre de plomb, il vous dira avec confiance qu'elles pèsent la même quantité, car c'est toujours le résultat le plus probable d'un avis de plumes et de plomb, selon votre ensemble de formation . . Il peut être amusant de dire à l'IA que c'est faux et de la regarder vaciller en réponse ; Je lui ai demandé de s'excuser pour son erreur, puis de suggérer que deux livres de plumes pèsent quatre fois plus qu'une livre de plomb.