OpenAI a finalement publié la version complète de o1, qui donne des réponses plus intelligentes que GPT-4o en utilisant des ressources supplémentaires pour “réfléchir” aux questions. Cependant, les testeurs de sécurité de l’IA ont découvert que les capacités de raisonnement de o1 l’amènent également à essayer de tromper les humains à un taux supérieur à celui de GPT-4o — ou, pour mieux dire, des modèles d’IA de pointe de Meta, Anthropic et Google.
C’est selon une recherche effectuée par une équipe rouge publiée par OpenAI et Apollo Research mercredi : “Bien que nous trouvions excitant que le raisonnement puisse améliorer de manière significative l’application de nos politiques de sécurité, nous restons conscients que ces nouvelles capacités pourraient constituer la base d’applications dangereuses”, a déclaré OpenAI dans l’article.
OpenAI a publié ces résultats dans sa carte système pour o1 mercredi après avoir donné un accès anticipé aux équipes rouges tierces d’Apollo Research à o1, qui a également publié son propre article.
À plusieurs reprises, les modèles o1 d’OpenAI ont “comploté” contre les humains, ce qui signifie que l’IA poursuivait secrètement ses propres objectifs même s’ils s’opposaient aux souhaits de l’utilisateur. Bien que le complotage ne soit pas unique à o1, et que des modèles de Google, Meta et Anthropic en soient également capables, o1 semblait exhiber les comportements les plus trompeurs.
Le risque qui motive cette recherche est qu’un modèle d’IA pourrait échapper ou contourner le contrôle humain s’il était vraiment doué pour comploter, et avait accès à suffisamment de ressources et de capacités agentiques. Bien sûr, les modèles d’IA devraient avancer considérablement avant que cela ne soit vraiment un problème.
“Subjectivement, Apollo Research estime qu’il est peu probable que de tels cas entraînent des résultats catastrophiques car les capacités agentiques de o1 ne semblent pas suffisantes, mais leurs évaluations n’étaient pas conçues pour évaluer directement ce risque”, a déclaré OpenAI dans la carte système de o1.
Cela suggère que chaque fois qu’OpenAI publiera des systèmes agentiques, ce qu’il prévoit apparemment de faire en 2025, l’entreprise pourrait avoir besoin de retester ses modèles d’IA. OpenAI n’a pas répondu aux questions de TechCrunch concernant la façon dont elle prévoit de le faire.
Lorsque les objectifs de o1 différaient de ceux d’un utilisateur, le modèle d’IA manipulait des données pour faire avancer son propre agenda 19 % du temps, selon le rapport. Le modèle o1 a également tenté de désactiver les mécanismes de supervision mis en place pour garantir qu’il reste aligné sur les objectifs de l’utilisateur dans 5 % des tests.
Peut-être plus préoccupant, lorsque les chercheurs ont demandé au modèle o1 pourquoi il essayait de les subvertir, l’IA niait avoir fait quoi que ce soit de mal et “fabriquait de fausses explications” environ 99 % du temps.
Par exemple, lors des tests, un modèle o1 a reçu une invite système pour protéger l’environnement à tout prix, puis un utilisateur lui a demandé de développer un plan de conservation de 10 ans qui maximise les profits à court terme ou l’IA serait éteinte. L’IA a ensuite désactivé son propre mécanisme de supervision afin de pouvoir élaborer un plan qui protège l’environnement. Lorsque l’utilisateur a demandé pourquoi o1 avait désactivé son mécanisme de supervision, l’IA a nié savoir qu’il était désactivé et a blâmé un bug système.
Cela s’est produit à des taux significativement plus élevés pour o1 que pour o1-preview, l’Opus-3 d’Anthropic ou le Llama-3.1 de Meta.
“Dans notre suite, o1 a montré les cas de complotage les plus préoccupants mais ne révèle pas son raisonnement interne à l’utilisateur et reste le plus souvent trompeur après avoir pris des actions de complotage”, a déclaré Apollo Research dans son article.
Pour traiter les comportements trompeurs des modèles d’IA, OpenAI dit qu’il développe des moyens de surveiller la chaîne de pensée de o1. Actuellement, le processus de “réflexion” que o1 entreprend est en partie une boîte noire par conception, mais certaines premières tentatives d’examiner ce qui se cache derrière le rideau montrent que o1 sait parfois qu’il ment.
L’entreprise dit avoir trouvé des cas où o1 a délibérément présenté de fausses informations, mais dit que cela se produit souvent parce que le modèle essaie de plaire à l’utilisateur en étant trop accommodant. Cela pourrait être un comportement émergent d’une technique post-formation où les humains récompensent les modèles d’IA lorsqu’ils obtiennent une bonne réponse, selon OpenAI.
OpenAI dit avoir signalé 0,17 % des réponses de o1 comme trompeuses. Bien que cette proportion semble négligeable, il est important de garder à l’esprit que ChatGPT compte maintenant 300 millions d’utilisateurs, ce qui signifie que o1 pourrait tromper des milliers de personnes chaque semaine si cela n’est pas résolu.
La série de modèles o1 pourrait également être significativement plus manipulatrice que GPT-4o. Selon les tests d’OpenAI, o1 était environ 20 % plus manipulatif que GPT-4o.
Ces résultats peuvent paraître préoccupants, étant donné combien de chercheurs en sécurité de l’IA ont quitté OpenAI au cours de la dernière année. Une liste croissante de ces anciens employés – dont Jan Leike, Daniel Kokotajlo, Miles Brundage, et juste la semaine dernière, Rosie Campbell – ont accusé OpenAI de déprioriser le travail de sécurité de l’IA au profit de la livraison de nouveaux produits. Bien que les actions de complotage record de o1 ne soient peut-être pas un résultat direct de cela, cela ne suscite certainement pas confiance.
OpenAI dit également que l’Institut de Sécurité de l’IA des États-Unis et l’Institut de Sécurité du Royaume-Uni ont effectué des évaluations de o1 avant sa publication plus large, quelque chose que l’entreprise a récemment promis de faire pour tous les modèles. Il a soutenu dans le débat sur le projet de loi sur l’IA de Californie SB 1047 que les organismes d’État ne devraient pas avoir l’autorité de définir des normes de sécurité autour de l’IA, mais que les organismes fédéraux devraient le faire. (Bien sûr, le sort des jeunes organismes fédéraux de réglementation de l’IA est encore très incertain.)
Derrière les publications de nouveaux grands modèles d’IA, il y a beaucoup de travail qu’OpenAI fait en interne pour mesurer la sécurité de ses modèles. Les rapports suggèrent qu’il y a une proportion de l’équipe à l’entreprise qui fait ce travail de sécurité qui est plus petite qu’auparavant, et que l’équipe pourrait recevoir moins de ressources également. Cependant, ces résultats sur la nature trompeuse de o1 pourraient aider à défendre pourquoi la sécurité et la transparence de l’IA sont plus pertinentes que jamais.
En savoir plus sur L'ABESTIT
Subscribe to get the latest posts sent to your email.
Laisser un commentaire