Une matière première devenue rare
Dans la course effrénée à l’intelligence artificielle, les entreprises technologiques ont un besoin vital : disposer de données originales en quantité massive. Les grands modèles de langage, qui alimentent les assistants conversationnels, les outils de rédaction ou de synthèse, doivent être nourris en permanence avec des contenus frais pour rester pertinents. Or, cette ressource s’épuise rapidement, car les corpus réellement nouveaux et exploitables deviennent plus difficiles à trouver.
- Données propres : textes, images, sons ou vidéos utilisables pour l’entraînement.
- Volumes croissants : les besoins doublent régulièrement depuis plusieurs années.
- Risque de pénurie : les sources de haute qualité se raréfient.
Des travailleurs recrutés pour produire du contenu sur mesure
Face au manque de matière première, certaines sociétés embauchent des contractuels pour créer des jeux de données spécifiques. Ces missions peuvent paraître atypiques : gérer une paie hebdomadaire pour des musiciens de Broadway, filmer des gestes répétitifs du quotidien ou encore documenter des tâches très ciblées. L’objectif est simple : générer des exemples humains, utiles à l’apprentissage des modèles, mais souvent rémunérés à bas coût et dans des conditions précaires.
- Micro-tâches spécialisées : scénarios complexes, routines administratives, gestes domestiques.
- Contrats courts : travail ponctuel, peu sécurisé, parfois interrompu sans préavis.
- Pression économique : les travailleurs acceptent ces missions faute d’alternative stable.
Quand l’IA sert à fabriquer des données pour l’IA
Le cœur du problème est ironique : une partie de ces sous-traitants utilise à son tour des chatbots pour produire le travail demandé. Selon plusieurs témoignages rapportés au magazine New Scientist, cette pratique est devenue fréquente. Des contractuels s’appuient sur des modèles de langage pour rédiger des scénarios, organiser des fichiers ou corriger leurs livrables, ce qui revient à nourrir des systèmes d’IA avec du contenu généré par d’autres IA.
- Automatisation du travail : utilisation d’un LLM pour accélérer les tâches.
- Chaîne de dépendance : une IA sert à produire les données d’entraînement d’une autre IA.
- Pratique répandue : plusieurs insiders décrivent ce comportement comme courant.
Des données “contaminées” mais difficiles à détecter
Les entreprises tentent de limiter ces abus, mais la détection reste imparfaite. Une travailleuse, citée sous le prénom d’Alice, explique qu’il suffit souvent de masquer les tics linguistiques caractéristiques des modèles génératifs pour faire passer un texte d’IA pour un travail humain. En retravaillant le style, en supprimant les formulations trop lisses ou répétitives, les contractuels peuvent soumettre des contenus qui paraissent authentiques.
- Indices surveillés : répétitions, tournures trop mécaniques, syntaxe trop uniforme.
- Réécriture manuelle : suppression des signatures textuelles des chatbots.
- Contrôle limité : les outils de vérification ne repèrent pas tout.
Des conditions de travail qui favorisent ces dérives
Au-delà de la technique, le phénomène révèle une réalité sociale plus large. Plusieurs travailleurs disent recourir à l’IA pour éviter les erreurs, préserver leur mission et limiter le stress. Quand les contrats sont mal payés, instables et exigeants, l’usage d’un outil automatisé devient une stratégie de survie. Un témoignage souligne même que l’habitude s’installe vite : au départ pour éviter une faute, puis parce qu’il devient plus simple de confier une partie du travail à un modèle de langage.
- Rémunération faible : le niveau de paiement pousse à chercher des raccourcis.
- Précarité : la peur de perdre son revenu encourage l’usage de l’automatisation.
- Charge mentale : les contractuels veulent surtout sécuriser leur mission.
Un signal d’alerte pour l’avenir de l’IA
Ce phénomène soulève une question essentielle : si les entreprises d’IA alimentent leurs modèles avec des contenus de plus en plus synthétiques, la qualité des modèles pourrait se dégrader. Les spécialistes avertissent depuis longtemps qu’un recyclage excessif de données générées par machine peut fragiliser les systèmes, les rendre moins fiables et amplifier leurs biais. À mesure que la rareté des données s’accentue, la tentation de contourner les règles augmente, mais le coût à long terme pourrait être lourd pour l’ensemble du secteur.
- Risque de baisse de qualité : modèles entraînés sur des données moins fiables.
- Effet boule de neige : l’IA produit des données pour l’IA, qui produit à son tour d’autres données.
- Enjeu stratégique : sans données humaines robustes, la progression des modèles peut ralentir.
En savoir plus sur L'ABESTIT
Subscribe to get the latest posts sent to your email.



