Une Alerte Inattendue
Le samedi dernier, Oleksandr Tomchuk, le PDG de Triplegangers, a été averti que le site e-commerce de son entreprise était hors ligne. Ce qui semblait initialement être une simple panne s’est rapidement avéré être une attaque par déni de service distribué (DDoS). En explorant la cause, Tomchuk a découvert que le responsable n’était autre qu’un robot d’OpenAI s’acharnant à extraire des données de son immense site web.
Un Volume Imposant de Données
Triplegangers possède plus de 65 000 produits, chacun ayant sa propre page, avec au minimum trois photos par article. OpenAI envoyait, selon Tomchuk, « dizaines de milliers » de requêtes serveur, visant à télécharger ces pages et des centaines de milliers de photos, accompagnées de descriptions détaillées. Cette invasion numérique a utilisé jusqu’à 600 adresses IP différentes, et l’entreprise continue d’analyser les journaux de cette période troublante.
Impact sur le Business
Le site web de Triplegangers est l’épine dorsale de son activité. Avec une équipe de sept personnes, l’entreprise a passé plus de dix ans à constituer une base de données considérée comme la plus large de « doublures numériques humaines » en ligne. Ils vendent des fichiers d’objets 3D et des photos pour différents objectifs, allant des artistes 3D aux fabricants de jeux vidéo. Cependant, cette attaque a mené à des interruptions pendant les heures de travail, laissant Tomchuk s’inquiéter d’une augmentation de ses factures AWS due à cette activité excessive sur ses serveurs.
Les Limites des Protocoles de Protection
Sur son site, Triplegangers a une politique stricte interdisant l’utilisation de robots pour extraire ses images sans autorisation. Pourtant, cela n’a pas suffi. L’absence d’une configuration appropriée du fichier robot.txt a laissé entendre aux bots d’OpenAI qu’ils pouvaient explorer le site sans restriction. Le fichier robots.txt, développé pour protéger les sites web de l’exploration non désirée, doit être configuré correctement avec des balises spécifiques pour empêcher les robots d’OpenAI, comme le GPTBot.
L’Impossibilité de Revenir en Arrière
Avec la mise en place d’un fichier robot.txt correctement configuré et d’un compte Cloudflare pour bloquer les crawlers indésirables, Tomchuk espérait que le problème était résolu. Toutefois, il ne peut pas savoir ce qu’OpenAI a effectivement extrait. L’entreprise n’a pas encore fourni l’outil de désinscription promis, laissant ainsi Tomchuk sans recours pour récupérer ses droits d’auteur. La situation est particulièrement préoccupante pour une entreprise dont le modèle commercial repose sur des droits d’image sensibles, scannant des individus réels pour ses fichiers 3D.
Les Risques Croissants pour les Petites Entreprises
Les propriétaires de petites entreprises doivent être vigilants concernant l’activité de ces robots, car la plupart restent inconscients d’une éventuelle extraction de leurs contenus. La recherche récente de la société de publicité numérique DoubleVerify a révélé une augmentation de 86% du trafic non valide en raison des crawlers d’IA, laissant de nombreux sites dans l’ignorance. Comme le souligne Tomchuk, « ces robots devraient demander la permission avant de rassembler des données », car le modèle actuel fonctionne comme un chantage, où la protection est essentielle pour éviter l’exploitation abusive des contenus.
À lire aussi : Pour une analyse plus approfondie des impacts des IA sur le contenu en ligne, consultez la chaîne YouTube d’OpenAI.
En savoir plus sur L'ABESTIT
Subscribe to get the latest posts sent to your email.
Laisser un commentaire