Par Olivier
Dans le monde en constante évolution de l'intelligence artificielle, les modèles de langage de grande envergure (LLM)* tels que GPT-2, GPT-3 et GPT-4 ont marqué un tournant majeur. Ces modèles ont démontré des performances stupéfiantes dans une variété de tâches linguistiques, ouvrant la voie à des applications fascinantes, y compris la création d'images à partir de textes descriptifs. ChatGPT a introduit ces modèles de langage dans la sphère publique, les rendant accessibles au grand public. Il est désormais indéniable que les LLM sont là pour rester et qu'ils entraîneront des changements drastiques dans l'écosystème global du texte en ligne et des images.
*LLM (Large Language Model) : fait référence à des modèles tels que le GPT-3 développé par OpenAI. Conçus pour ingérer et générer du texte, ils utilisent des réseaux de neurones afin d'analyser les structures et les règles linguistiques.
Cependant, une étude récente intitulée "The Curse of Recursion: Training on Generated Data Makes Models Forget," menée par Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot et Ross Anderson, nous invite à réfléchir à l'avenir de ces modèles. Que se passera-t-il lorsque les LLM contribueront de manière significative au langage que l'on trouve en ligne ?
Cette question conduit à une découverte inquiétante : l'utilisation de contenu généré par les modèles dans l'entraînement de ces derniers provoque des défauts irréversibles, où les extrémités de la distribution de contenu original disparaissent.
Les auteurs de l'étude appellent ce phénomène "Dommages du modèle" (Model Collapse) et démontrent qu'il peut survenir non seulement dans les LLM, mais aussi dans d'autres types de modèles générateurs, tels que les Variational Autoencoders (1) et les Gaussian Mixture Models (2).
Ils développent une intuition théorique derrière ce phénomène et montrent sa prévalence parmi tous les modèles apprenants. Cette découverte soulève une question cruciale : comment préserver les avantages de l'entraînement à partir de données à grande échelle tout en évitant les pièges du "Model Collapse" ?
L'une des conclusions les plus importantes de cette étude est que la valeur des données collectées à partir d'interactions humaines réelles avec les systèmes informatiques devient de plus en plus précieuse à mesure que le contenu généré par les LLM prolifère sur Internet. Ces données originelles deviennent essentielles pour maintenir la qualité et la pertinence des modèles. La nécessité de distinguer le contenu généré de celui créé par des individus devient plus urgente que jamais.
Cette étude nous rappelle que malgré les avancées impressionnantes des LLM, il est essentiel de comprendre leurs limites et de prendre au sérieux les défis qu'ils posent en termes de préservation de la diversité du contenu en ligne. Le futur de l'IA et de la génération de contenu dépendra de notre capacité à relever ces défis, à trouver des solutions innovantes et à maintenir un équilibre entre l'automatisation et l'authenticité dans le monde numérique en constante évolution.
Où sont les limites de la récursivité...?
1) Un "Variational Autoencoder" (Autoencodeur Variationnel en français) est un type de modèle d'intelligence artificielle qui apprend à représenter des données de manière compacte et utile. Il est composé de deux parties principales : un "codeur" et un "décodeur".
En résumé, les autoencodeurs variationnels sont des modèles qui apprennent à représenter des données de manière compacte tout en étant capables de générer de nouvelles données similaires. Ils sont utilisés dans divers domaines de l'intelligence artificielle, notamment la génération d'images et la compression de données.
2) Un "Gaussian Mixture Model" (Modèle de Mélange de Gaussien en français) est un modèle statistique utilisé pour représenter un ensemble de données qui semble être constitué d'un mélange de plusieurs sous-groupes ou composants.
En résumé, les Modèles de Mélange de Gaussien sont utilisés pour modéliser des données qui proviennent potentiellement de plusieurs sources différentes. Ils sont largement utilisés en statistiques et en apprentissage automatique pour comprendre la structure sous-jacente des données et effectuer des tâches telles que la classification et la génération de données.
MAO. — Agence de communication digitale & stratégie de marque à Nice
www.mao.agency