Les données synthétiques sont un enseignant dangereux

En avril 2022, lorsque Dall-E, un modèle visiolinguistique de conversion de texte en image, a été lancé, il aurait attiré plus d’un million d’utilisateurs au cours des trois premiers mois. Il a été suivi par ChatGPT, en janvier 2023, qui a apparemment atteint 100 millions d’utilisateurs actifs mensuels seulement deux mois après son lancement. Ces deux événements marquent des moments marquants dans le développement de l’IA générative, qui à son tour a donné lieu à une explosion de contenu généré par l’IA sur le Web. La mauvaise nouvelle est qu’en 2024, nous assisterons également à une explosion d’informations fabriquées et absurdes, de fausses informations et de désinformation, ainsi qu’à l’exacerbation des stéréotypes sociaux négatifs codés dans ces modèles d’IA.

La révolution de l’IA n’a pas été déclenchée par une avancée théorique récente (la plupart des travaux fondamentaux sur lesquels reposent les réseaux neuronaux artificiels existent depuis des décennies), mais par la « disponibilité » d’ensembles de données massifs. Idéalement, un modèle d’IA capture un phénomène donné (qu’il s’agisse du langage humain, de la cognition ou du monde visuel) d’une manière qui soit aussi représentative que possible des phénomènes réels.

Par exemple, pour qu’un modèle de langage de grande taille (LLM) puisse générer un texte de type humain, il est important que le modèle soit alimenté par d’énormes volumes de données qui représentent d’une manière ou d’une autre le langage, l’interaction et la communication humains. On pense que plus l’ensemble de données est volumineux, mieux il capture les affaires humaines, dans toute leur beauté, leur laideur et même leur cruauté inhérentes. Nous vivons à une époque marquée par une obsession de faire évoluer les modèles, les ensembles de données et les GPU. Les LLM actuels, par exemple, sont désormais entrés dans une ère de modèles d’apprentissage automatique à mille milliards de paramètres, ce qui signifie qu’ils nécessitent des ensembles de données de la taille d’un milliard. Où pouvons-nous les trouver ? Sur le Web.

Ces données provenant du Web sont censées capturer la « vérité fondamentale » de la communication et de l’interaction humaines, un proxy à partir duquel le langage peut être modélisé. Bien que plusieurs chercheurs aient désormais montré que les ensembles de données en ligne sont souvent de mauvaise qualité, ont tendance à exacerber les stéréotypes négatifs et contiennent des contenus problématiques tels que des insultes raciales et des discours haineux, souvent à l’encontre de groupes marginalisés, cela n’a pas empêché les grandes entreprises d’IA d’utiliser ces données dans leur course à l’expansion.

Avec l’IA générative, ce problème est sur le point de s’aggraver. Plutôt que de représenter le monde social à partir de données d’entrée de manière objective, ces modèles encodent et amplifient les stéréotypes sociaux. En effet, des travaux récents montrent que les modèles génératifs encodent et reproduisent des attitudes racistes et discriminatoires envers des identités, des cultures et des langues historiquement marginalisées.

Il est difficile, voire impossible, même avec des outils de détection de pointe, de savoir avec certitude quelle quantité de données textuelles, d’images, d’audio et de vidéo sont générées actuellement et à quel rythme. Les chercheurs Hans Hanley et Zakir Durumeric de l’université de Stanford estiment que le nombre d’articles synthétiques publiés sur Reddit a augmenté de 68 % et celui des articles de désinformation de 131 % entre le 1er janvier 2022 et le 31 mars 2023. Boomy, une société de création de musique en ligne, affirme avoir généré 14,5 millions de chansons (soit 14 % de la musique enregistrée) jusqu’à présent. En 2021, Nvidia a prédit que, d’ici 2030, il y aura plus de données synthétiques que de données réelles dans les modèles d’IA. Une chose est sûre : le Web est inondé de données générées de manière synthétique.

p class=”paywall”> Ce qui est inquiétant, c’est que ces énormes quantités de résultats d’IA générative seront à leur tour utilisées comme matériel de formation pour les futurs modèles d’IA générative. En conséquence, en 2024, une part très importante du matériel de formation des modèles génératifs sera constituée de données synthétiques produites à partir de modèles génératifs. Bientôt, nous serons piégés dans une boucle récursive où nous formerons des modèles d’IA en utilisant uniquement des données synthétiques produites par des modèles d’IA. La plupart de ces données seront contaminées par des stéréotypes qui continueront d’amplifier les inégalités historiques et sociétales. Malheureusement, ce seront également les données que nous utiliserons pour former des modèles génératifs appliqués à des secteurs à enjeux élevés, notamment la médecine, la thérapie, l’éducation et le droit. Nous n’avons pas encore fait face aux conséquences désastreuses de cette situation. D’ici 2024, l’explosion de contenu de l’IA générative que nous trouvons si fascinante aujourd’hui deviendra plutôt une énorme décharge toxique qui nous reviendra en pleine figure.

Les données synthétiques sont un enseignant dangereux

Partager

Articles similaires

Articles similaires

Cop29 en direct : Le président de l’ONU « en a assez » de la défense des combustibles fossiles par...

Les États-Unis et l’Inde dirigent le G20 sur l’action climatique, selon un rapport

L’accord sur le financement climatique de la COP29 rencontre un nouveau revers alors que la date limite approche

L’Australie et la Turquie en désaccord pour accueillir les discussions cruciales sur le climat de 2026

Dernières frappes aériennes russes sur l’Ukraine menacent une “panne de courant catastrophique”

Huit fois plus d’enfants seront confrontés à des vagues de chaleur extrêmes d’ici les années 2050,...