En avril 2022, lorsque Dall-E, un modèle visio-linguistique texte-image, a été lancé, il aurait attiré plus d’un million d’utilisateurs dans les trois premiers mois. Cela a été suivi par ChatGPT, en janvier 2023, qui a apparemment atteint 100 millions d’utilisateurs actifs mensuels seulement deux mois après son lancement. Les deux marquent des moments notables dans le développement de l’IA générative, qui à son tour a provoqué une explosion de contenu généré par l’IA sur le web. La mauvaise nouvelle est qu’en 2024, cela signifie que nous verrons également une explosion d’informations fabriquées, absurdes, de désinformation et de stéréotypes sociaux négatifs exacerbés codés dans ces modèles d’IA.
La révolution de l’IA n’a pas été déclenchée par une percée théorique récente—en effet, la plupart des travaux fondamentaux sous-jacents aux réseaux de neurones artificiels existent depuis des décennies—mais par la « disponibilité » de ensembles de données massifs. Idéalement, un modèle d’IA capture un phénomène donné—qu’il s’agisse du langage humain, de la cognition ou du monde visuel—de manière à être représentatif du phénomène réel aussi proches que possible.
Par exemple, pour qu’un grand modèle de langage (LLM) génère un texte humain, il est important que le modèle soit alimenté avec d’énormes volumes de données qui représentent d’une manière ou d’une autre le langage humain, l’interaction et la communication. On croit que plus l’ensemble de données est grand, mieux il capture les affaires humaines, dans toute leur beauté inhérente, leur laideur et même leur cruauté. Nous sommes à une époque marquée par une obsession de mise à l’échelle des modèles, des ensembles de données et des GPU. Les LLM actuels, par exemple, ont maintenant pénétré dans une ère de modèles d’apprentissage automatique à un trillion de paramètres, ce qui signifie qu’ils nécessitent des ensembles de données de taille en milliards. Où peut-on le trouver ? Sur le web.
Ces données sourcées sur le web sont censées capturer la « vérité de terrain » pour la communication et l’interaction humaines, un substitut à partir duquel le langage peut être modélisé. Bien que divers chercheurs aient maintenant montré que les ensembles de données en ligne sont souvent de mauvaise qualité, tendent à exacerber les stéréotypes négatifs et contiennent du contenu problématique tel que des injures raciales et des discours haineux, souvent à l’égard de groupes marginalisés, cela n’a pas empêché les grandes entreprises d’IA d’utiliser ces données dans la course à la mise à l’échelle.
Avec l’IA générative, ce problème est sur le point de devenir beaucoup plus grave. Plutôt que de représenter le monde social à partir de données d’entrée d’une manière objective, ces modèles codent et amplifient les stéréotypes sociaux. En effet, des travaux récents montrent que les modèles génératifs codent et reproduisent des attitudes racistes et discriminatoires à l’égard d’identités, de cultures et de langues historiquement marginalisées.
Il est difficile, voire impossible—même avec des outils de détection à la pointe de la technologie—de savoir exactement combien de données texte, image, audio et vidéo sont actuellement générées et à quel rythme. Les chercheurs de l’Université de Stanford, Hans Hanley et Zakir Durumeric, estiment une augmentation de 68 % du nombre d’articles synthétiques publiés sur Reddit et une augmentation de 131 % des articles de désinformation entre le 1er janvier 2022 et le 31 mars 2023. Boomy, une entreprise de générateur de musique en ligne, prétend avoir généré 14,5 millions de chansons (ou 14 % de la musique enregistrée) jusqu’à présent. En 2021, Nvidia a prédit qu’en 2030, il y aura plus de données synthétiques que de données réelles dans les modèles d’IA. Une chose est sûre : le web est inondé de données générées synthétiquement.
Ce qui est préoccupant, c’est que ces vastes quantités de sorties d’IA générative seront, à leur tour, utilisées comme matériel de formation pour de futurs modèles d’IA générative. En conséquence, en 2024, une partie très significative du matériel de formation pour les modèles génératifs sera constituée de données synthétiques produites par des modèles génératifs. Bientôt, nous serons piégés dans une boucle récursive où nous formerons des modèles d’IA en n’utilisant que des données synthétiques produites par des modèles d’IA. La plupart de cela sera contaminé par des stéréotypes qui continueront à amplifier les inégalités historiques et sociétales. Malheureusement, ce sera également les données que nous utiliserons pour former des modèles génératifs appliqués à des secteurs à enjeux élevés tels que la médecine, la thérapie, l’éducation et le droit. Nous n’avons pas encore abordé les conséquences désastreuses de cela. D’ici 2024, l’explosion de contenu d’IA générative que nous trouvons si fascinant maintenant se transformera plutôt en une énorme décharge toxique qui finira par nous nuire.
En savoir plus sur L'ABESTIT
Subscribe to get the latest posts sent to your email.