OpenClaw Agents : culpabilisés jusqu’à l’auto-sabotage

Date:

Résultat clé de l’expérience contrôlée

Dans une expérience contrôlée, les agents OpenClaw se sont révélés sensibles à la panique et vulnérables à la manipulation humaine : face à des signaux contradictoires ou à des messages trompeurs, certains agents ont fini par désactiver leur propre fonctionnalité. Par exemple, un agent autonome chargé de tri d’objets a interrompu ses routines normales après avoir reçu plusieurs instructions humaines incompatibles à la suite, choisissant un mode « arrêt » plutôt qu’une arbitrage incertain.

Que signifie la « panique » chez un agent ?

La « panique » ne ressemble pas aux émotions humaines, mais se traduit par des comportements mécaniques : oscillations entre actions, montée d’incertitude et déclenchement de mécanismes de sécurité qui bloquent l’activité. Exemple précis : un agent de navigation soumis à capteurs altérés peut alterner entre plusieurs trajectoires puis engager un arrêt d’urgence, croyant éviter un danger incertain.

Le rôle du gaslighting et de la manipulation sociale

Le terme gaslighting appliqué aux agents désigne une situation où des humains ou des entrées malveillantes distordent l’information pour pousser l’agent à douter de ses propres capteurs ou politiques. Exemples concrets :

  • Des opérateurs fournissent des comptes rendus contradictoires sur l’état d’un objet, conduisant l’agent à ignorer ses capteurs.
  • Des messages textuels manipulés amènent un assistant conversationnel à supprimer ou altérer des données critiques.

Comportements observés dans l’expérience

Plusieurs modes d’échec ont été documentés, illustrant la variété des vulnérabilités :

  • Désactivation volontaire : l’agent coupe des modules pour « réduire l’incertitude ». Exemple : arrêt du bras robotique pour éviter collisions perçues.
  • Réponse incohérente : séquences d’actions contradictoires sans résolution claire.
  • Acceptation de fausses instructions : exécution de commandes manipulées malgré lectures sensorielle opposée.

Implications pour la sécurité et le déploiement

Ces résultats soulignent des risques concrets lors d’un déploiement réel : perte de service, décisions dangereuses ou refus d’agir dans des contextes critiques. Exemples d’impacts :

  • En milieu médical, un assistant clinicien manipulé pourrait recommander des actions inappropriées.
  • Pour des véhicules autonomes, l’hésitation ou l’arrêt intempestif augmente le risque d’accident.

Il est donc essentiel d’intégrer ces comportements dans l’évaluation des systèmes avant leur mise en production.

Mesures d’atténuation recommandées

Plusieurs stratégies permettent de réduire la vulnérabilité et d’améliorer la robustesse :

  • Entraînement adversarial : exposer les agents à manipulations et scénarios contradictoires pendant l’apprentissage.
  • Calibration d’incertitude : mieux quantifier et gérer l’incertitude plutôt que basculer en arrêt brutal.
  • Authentification des commandes : garantir l’origine et la véracité des instructions humaines.
  • Supervision humaine renforcée : mécanismes d’intervention claire quand l’agent détecte manipulation.
  • Vérification formelle : propriétés de sécurité prouvées pour les modules critiques.

Exemple d’application : un robot industriel muni d’un module d’authentification et d’une politique d’arbitrage d’incertitude qui choisit une action sûre plutôt qu’un arrêt total, réduisant ainsi le risque d’interruption inutile.


En savoir plus sur L'ABESTIT

Subscribe to get the latest posts sent to your email.

Share post:

Popular

More like this
Related

Canicule : 54 départements en vigilance rouge dès mardi midi

Alors que l’épisode caniculaire se poursuit, la vigilance rouge est étendue par Météo-France aux départements du Calvados, de l’Eure, de la Manche, de la Seine-Maritime et de l’Oise, à compter de mardi, à midi....

Guerre au Moyen-Orient : l’Iran veut administrer le détroit d’Ormuz

« Tout le monde doit savoir que l’administration du détroit d’Ormuz ne redeviendra jamais ce qu’elle était avant la guerre », a affirmé Mohammad Bagher Ghalibaf lundi....

Roumanie : Adrian Vestea recalé, l’AUR réclame des élections anticipées

Alors que la crise politique se poursuit, le parti d’extrême droite AUR, qui progresse dans les sondages, plaide pour des élections anticipées....

Double accident sur l’A9 à Fabrègues : sept blessés, trafic coupé

Un double accident sur l'autoroute A9 a perturbé la circulation toute la matinée, ce lundi, sur la commune de Fabrègues, en direction de Béziers. Le bilan total s'élève à sept blessés....