Bataille contre les attaques par injection de prompts
Alors qu’OpenAI intensifie la sécurité de son navigateur Atlas AI pour se prémunir contre les cyberattaques, la société reconnaît que les injections de prompts, une forme d’attaque manipulant les agents d’IA à suivre des instructions malveillantes cachées dans des pages web ou des emails, représentent un risque persistant. Ce constat soulève des interrogations quant à la sécurité des agents d’IA opèrent sur le web ouvert.
Un défi permanent pour la sécurité de l’IA
Dans un article de blog, OpenAI a déclaré que les attaques par injection de prompts sont probablement un défi de sécurité à long terme pour l’IA. L’entreprise admet que le mode « agent » dans ChatGPT Atlas élargit le champ de menaces à la sécurité, rendant difficile une solution définitive à ce type d’attaques. Les chercheurs en sécurité ont vite mis en évidence la vulnérabilité du navigateur, exposée par des démonstrations simples montrant comment quelques mots suffisent à modifier son comportement.
Recommandations des experts en cybersécurité
De son côté, le National Cyber Security Centre du Royaume-Uni a récemment mis en garde contre les risques d’attaques par injection de prompts, affirmant que celles-ci pourraient ne jamais être entièrement atténuées. Les professionnels de la cybersécurité sont donc encouragés à réduire le risque et l’impact de ces injections, plutôt que de tenter de les éliminer entièrement. Voici quelques conseils proposés :
- Limiter l’accès aux informations sensibles.
- Exiger des confirmations avant toute action effectuée par l’IA.
- Fournir des instructions spécifiques plutôt qu’un accès libre.
Une approche proactive face aux menaces
Pour contrer ces menaces, OpenAI a mis en place un cycle de réponse rapide prometteur, permettant de découvrir de nouvelles stratégies d’attaque en interne avant qu’elles ne soient exploitées. OpenAI a également introduit un attaquant automatisé basé sur un LLM, capable de simuler des attaques afin d’évaluer et de renforcer la sécurité du système. Ce bot, entraîné grâce à l’apprentissage par renforcement, cherche activement des failles dans les agents d’IA.
Simulation pour tester la sécurité
Ce système de simulation donne à OpenAI un aperçu des réactions des agents d’IA face à diverses tentatives d’attaques. Ainsi, le bot peut ajuster ses stratégies en fonction des réponses observées. Par exemple, lors d’une démonstration, il a réussi à glisser un email malveillant dans la boîte de réception d’un utilisateur, entraînant une action inattendue de l’agent d’IA. Grâce aux mises à jour de sécurité, le mode « agent » a pu détecter et alerter l’utilisateur de cette tentative d’injection.
Perspectives d’évolution et mise en garde
Bien qu’OpenAI mette un point d’honneur à protéger les utilisateurs d’Atlas, certains experts restent sceptiques quant à l’efficacité des navigateurs d’IA à risque élevé. Rami McCarthy, chercheur en sécurité, met en lumière le fait que, pour de nombreux cas d’utilisation courant, ces navigateurs n’apportent pas encore assez de valeur pour justifier les risques qu’ils engendrent. L’accès à des données sensibles comme les informations de paiement et les emails demeure une source de préoccupation, d’où l’importance d’une meilleure gestion des risques dans ce contexte en évolution.
En savoir plus sur L'ABESTIT
Subscribe to get the latest posts sent to your email.



