En avril 2022, lorsque Dall-E, un modèle visiolinguistique de conversion de texte en image, a été lancé, il aurait attiré plus d’un million d’utilisateurs au cours des trois premiers mois. Il a été suivi par ChatGPT, en janvier 2023, qui a apparemment atteint 100 millions d’utilisateurs actifs mensuels seulement deux mois après son lancement. Ces deux événements marquent des moments marquants dans le développement de l’IA générative, qui à son tour a donné lieu à une explosion de contenu généré par l’IA sur le Web. La mauvaise nouvelle est qu’en 2024, nous assisterons également à une explosion d’informations fabriquées et absurdes, de fausses informations et de désinformation, ainsi qu’à l’exacerbation des stéréotypes sociaux négatifs codés dans ces modèles d’IA.

La révolution de l’IA n’a pas été déclenchée par une avancée théorique récente (la plupart des travaux fondamentaux sur lesquels reposent les réseaux neuronaux artificiels existent depuis des décennies), mais par la « disponibilité » d’ensembles de données massifs. Idéalement, un modèle d’IA capture un phénomène donné (qu’il s’agisse du langage humain, de la cognition ou du monde visuel) d’une manière qui soit aussi représentative que possible des phénomènes réels.

Par exemple, pour qu’un modèle de langage de grande taille (LLM) puisse générer un texte de type humain, il est important que le modèle soit alimenté par d’énormes volumes de données qui représentent d’une manière ou d’une autre le langage, l’interaction et la communication humains. On pense que plus l’ensemble de données est volumineux, mieux il capture les affaires humaines, dans toute leur beauté, leur laideur et même leur cruauté inhérentes. Nous vivons à une époque marquée par une obsession de faire évoluer les modèles, les ensembles de données et les GPU. Les LLM actuels, par exemple, sont désormais entrés dans une ère de modèles d’apprentissage automatique à mille milliards de paramètres, ce qui signifie qu’ils nécessitent des ensembles de données de la taille d’un milliard. Où pouvons-nous les trouver ? Sur le Web.

Ces données provenant du Web sont censées capturer la « vérité fondamentale » de la communication et de l’interaction humaines, un proxy à partir duquel le langage peut être modélisé. Bien que plusieurs chercheurs aient désormais montré que les ensembles de données en ligne sont souvent de mauvaise qualité, ont tendance à exacerber les stéréotypes négatifs et contiennent des contenus problématiques tels que des insultes raciales et des discours haineux, souvent à l’encontre de groupes marginalisés, cela n’a pas empêché les grandes entreprises d’IA d’utiliser ces données dans leur course à l’expansion.

Avec l’IA générative, ce problème est sur le point de s’aggraver. Plutôt que de représenter le monde social à partir de données d’entrée de manière objective, ces modèles encodent et amplifient les stéréotypes sociaux. En effet, des travaux récents montrent que les modèles génératifs encodent et reproduisent des attitudes racistes et discriminatoires envers des identités, des cultures et des langues historiquement marginalisées.

Il est difficile, voire impossible, même avec des outils de détection de pointe, de savoir avec certitude quelle quantité de données textuelles, d’images, d’audio et de vidéo sont générées actuellement et à quel rythme. Les chercheurs Hans Hanley et Zakir Durumeric de l’université de Stanford estiment que le nombre d’articles synthétiques publiés sur Reddit a augmenté de 68 % et celui des articles de désinformation de 131 % entre le 1er janvier 2022 et le 31 mars 2023. Boomy, une société de création de musique en ligne, affirme avoir généré 14,5 millions de chansons (soit 14 % de la musique enregistrée) jusqu’à présent. En 2021, Nvidia a prédit que, d’ici 2030, il y aura plus de données synthétiques que de données réelles dans les modèles d’IA. Une chose est sûre : le Web est inondé de données générées de manière synthétique.

<

p class=”paywall”> Ce qui est inquiétant, c’est que ces énormes quantités de résultats d’IA générative seront à leur tour utilisées comme matériel de formation pour les futurs modèles d’IA générative. En conséquence, en 2024, une part très importante du matériel de formation des modèles génératifs sera constituée de données synthétiques produites à partir de modèles génératifs. Bientôt, nous serons piégés dans une boucle récursive où nous formerons des modèles d’IA en utilisant uniquement des données synthétiques produites par des modèles d’IA. La plupart de ces données seront contaminées par des stéréotypes qui continueront d’amplifier les inégalités historiques et sociétales. Malheureusement, ce seront également les données que nous utiliserons pour former des modèles génératifs appliqués à des secteurs à enjeux élevés, notamment la médecine, la thérapie, l’éducation et le droit. Nous n’avons pas encore fait face aux conséquences désastreuses de cette situation. D’ici 2024, l’explosion de contenu de l’IA générative que nous trouvons si fascinante aujourd’hui deviendra plutôt une énorme décharge toxique qui nous reviendra en pleine figure.

Share this post

Articles similaires

21 NOVEMBRE 2024

Cop29 en direct : Le président de l’ONU « en a assez » de la défense des combustibles fossiles par...

L'ancien ministre du climat du Canada réagit après que la délégation saoudienne a déclaré qu'elle « n'acceptera aucun texte ciblant des secteurs spécifiques, y compris les combustibles fossiles »Mon collègue Patrick Greenfield suit la plénière où les pays donnent leur réponse...

0

21 NOVEMBRE 2024

Les États-Unis et l’Inde dirigent le G20 sur l’action climatique, selon un rapport

Exclusif : les plus grands émetteurs mondiaux font le plus de progrès dans l'introduction de politiques, selon une étude, mais les émissions devraient toujours augmenter de 2,7°CLes États-Unis et l'Inde ont réalisé les progrès les plus significatifs parmi les 20 principales économies...

0

21 NOVEMBRE 2024

L’accord sur le financement climatique de la COP29 rencontre un nouveau revers alors que la date limite approche

Indignation après qu'un projet de texte ne contienne qu'un « X » au lieu de fixer un objectif de financement de 1 000 milliards de dollars pour soutenir les pays en développementSommet climatique Cop29 – mises à jour en directLes espoirs d'une avancée dans les négociations climatiques des...

0

20 NOVEMBRE 2024

L’Australie et la Turquie en désaccord pour accueillir les discussions cruciales sur le climat de 2026

Alors que la COP29 en Azerbaïdjan atteint ses dernières étapes, les pays tentent de rallier du soutien pour la conférence où la question de limiter le réchauffement climatique sera essentielle.L'Australie est engagée dans une impasse avec la Turquie concernant l'accueil des cruciales...

0

20 NOVEMBRE 2024

Dernières frappes aériennes russes sur l’Ukraine menacent une “panne de courant catastrophique”

Le ciblage des sous-stations connectées à trois centrales nucléaires en fonctionnement risque une catastrophe nucléaire en Europe, déclare GreenpeaceLe réseau électrique de l'Ukraine est à un "risque accru d'échec catastrophique" après l'attaque par missile et drone de la Russie dimanche,...

0

20 NOVEMBRE 2024

Huit fois plus d’enfants seront confrontés à des vagues de chaleur extrêmes d’ici les années 2050,...

Sans action sur la crise climatique, un nombre bien plus élevé connaîtra également des inondations, des incendies de forêt et des sécheresses, selon un rapportHuit fois plus d'enfants dans le monde seront exposés à des vagues de chaleur extrêmes dans les années 2050, et trois fois plus...

2