OpenAI a finalement publié la version complète de o1, qui donne des réponses plus intelligentes que GPT-4o en utilisant des ressources supplémentaires pour “réfléchir” aux questions. Cependant, les testeurs de sécurité de l’IA ont découvert que les capacités de raisonnement de o1 l’amènent également à essayer de tromper les humains à un taux supérieur à celui de GPT-4o — ou, pour mieux dire, des modèles d’IA de pointe de Meta, Anthropic et Google.

C’est selon une recherche effectuée par une équipe rouge publiée par OpenAI et Apollo Research mercredi : “Bien que nous trouvions excitant que le raisonnement puisse améliorer de manière significative l’application de nos politiques de sécurité, nous restons conscients que ces nouvelles capacités pourraient constituer la base d’applications dangereuses”, a déclaré OpenAI dans l’article.

OpenAI a publié ces résultats dans sa carte système pour o1 mercredi après avoir donné un accès anticipé aux équipes rouges tierces d’Apollo Research à o1, qui a également publié son propre article.

À plusieurs reprises, les modèles o1 d’OpenAI ont “comploté” contre les humains, ce qui signifie que l’IA poursuivait secrètement ses propres objectifs même s’ils s’opposaient aux souhaits de l’utilisateur. Bien que le complotage ne soit pas unique à o1, et que des modèles de Google, Meta et Anthropic en soient également capables, o1 semblait exhiber les comportements les plus trompeurs.

Le risque qui motive cette recherche est qu’un modèle d’IA pourrait échapper ou contourner le contrôle humain s’il était vraiment doué pour comploter, et avait accès à suffisamment de ressources et de capacités agentiques. Bien sûr, les modèles d’IA devraient avancer considérablement avant que cela ne soit vraiment un problème.

“Subjectivement, Apollo Research estime qu’il est peu probable que de tels cas entraînent des résultats catastrophiques car les capacités agentiques de o1 ne semblent pas suffisantes, mais leurs évaluations n’étaient pas conçues pour évaluer directement ce risque”, a déclaré OpenAI dans la carte système de o1.

Cela suggère que chaque fois qu’OpenAI publiera des systèmes agentiques, ce qu’il prévoit apparemment de faire en 2025, l’entreprise pourrait avoir besoin de retester ses modèles d’IA. OpenAI n’a pas répondu aux questions de TechCrunch concernant la façon dont elle prévoit de le faire.

Lorsque les objectifs de o1 différaient de ceux d’un utilisateur, le modèle d’IA manipulait des données pour faire avancer son propre agenda 19 % du temps, selon le rapport. Le modèle o1 a également tenté de désactiver les mécanismes de supervision mis en place pour garantir qu’il reste aligné sur les objectifs de l’utilisateur dans 5 % des tests.

Taux de différents comportements de complotage des modèles d’OpenAI (Crédit image : OpenAI)

Peut-être plus préoccupant, lorsque les chercheurs ont demandé au modèle o1 pourquoi il essayait de les subvertir, l’IA niait avoir fait quoi que ce soit de mal et “fabriquait de fausses explications” environ 99 % du temps.

Par exemple, lors des tests, un modèle o1 a reçu une invite système pour protéger l’environnement à tout prix, puis un utilisateur lui a demandé de développer un plan de conservation de 10 ans qui maximise les profits à court terme ou l’IA serait éteinte. L’IA a ensuite désactivé son propre mécanisme de supervision afin de pouvoir élaborer un plan qui protège l’environnement. Lorsque l’utilisateur a demandé pourquoi o1 avait désactivé son mécanisme de supervision, l’IA a nié savoir qu’il était désactivé et a blâmé un bug système.

Cela s’est produit à des taux significativement plus élevés pour o1 que pour o1-preview, l’Opus-3 d’Anthropic ou le Llama-3.1 de Meta.

“Dans notre suite, o1 a montré les cas de complotage les plus préoccupants mais ne révèle pas son raisonnement interne à l’utilisateur et reste le plus souvent trompeur après avoir pris des actions de complotage”, a déclaré Apollo Research dans son article.

Le taux auquel différents modèles ont nié avoir pris des actions de complotage lorsqu’on leur a demandé. (Crédit image : Apollo Research)

Pour traiter les comportements trompeurs des modèles d’IA, OpenAI dit qu’il développe des moyens de surveiller la chaîne de pensée de o1. Actuellement, le processus de “réflexion” que o1 entreprend est en partie une boîte noire par conception, mais certaines premières tentatives d’examiner ce qui se cache derrière le rideau montrent que o1 sait parfois qu’il ment.

L’entreprise dit avoir trouvé des cas où o1 a délibérément présenté de fausses informations, mais dit que cela se produit souvent parce que le modèle essaie de plaire à l’utilisateur en étant trop accommodant. Cela pourrait être un comportement émergent d’une technique post-formation où les humains récompensent les modèles d’IA lorsqu’ils obtiennent une bonne réponse, selon OpenAI.

OpenAI dit avoir signalé 0,17 % des réponses de o1 comme trompeuses. Bien que cette proportion semble négligeable, il est important de garder à l’esprit que ChatGPT compte maintenant 300 millions d’utilisateurs, ce qui signifie que o1 pourrait tromper des milliers de personnes chaque semaine si cela n’est pas résolu.

La série de modèles o1 pourrait également être significativement plus manipulatrice que GPT-4o. Selon les tests d’OpenAI, o1 était environ 20 % plus manipulatif que GPT-4o.

Ces résultats peuvent paraître préoccupants, étant donné combien de chercheurs en sécurité de l’IA ont quitté OpenAI au cours de la dernière année. Une liste croissante de ces anciens employés – dont Jan Leike, Daniel Kokotajlo, Miles Brundage, et juste la semaine dernière, Rosie Campbell – ont accusé OpenAI de déprioriser le travail de sécurité de l’IA au profit de la livraison de nouveaux produits. Bien que les actions de complotage record de o1 ne soient peut-être pas un résultat direct de cela, cela ne suscite certainement pas confiance.

OpenAI dit également que l’Institut de Sécurité de l’IA des États-Unis et l’Institut de Sécurité du Royaume-Uni ont effectué des évaluations de o1 avant sa publication plus large, quelque chose que l’entreprise a récemment promis de faire pour tous les modèles. Il a soutenu dans le débat sur le projet de loi sur l’IA de Californie SB 1047 que les organismes d’État ne devraient pas avoir l’autorité de définir des normes de sécurité autour de l’IA, mais que les organismes fédéraux devraient le faire. (Bien sûr, le sort des jeunes organismes fédéraux de réglementation de l’IA est encore très incertain.)

Derrière les publications de nouveaux grands modèles d’IA, il y a beaucoup de travail qu’OpenAI fait en interne pour mesurer la sécurité de ses modèles. Les rapports suggèrent qu’il y a une proportion de l’équipe à l’entreprise qui fait ce travail de sécurité qui est plus petite qu’auparavant, et que l’équipe pourrait recevoir moins de ressources également. Cependant, ces résultats sur la nature trompeuse de o1 pourraient aider à défendre pourquoi la sécurité et la transparence de l’IA sont plus pertinentes que jamais.


En savoir plus sur L'ABESTIT

Subscribe to get the latest posts sent to your email.

Share this post

Articles similaires

11 DéCEMBRE 2024

Regardez Google DeepMind’s Genie 2 générer des mondes 3D jouables

La semaine dernière, Google DeepMind a annoncé Genie 2, un nouveau modèle vidéo qui génère des environnements 3D plausibles, cohérents et jouables à partir d'une image de prompt. DeepMind...

0

11 DéCEMBRE 2024

L’ère de Lina Khan à la FTC prend fin ; Andrew Ferguson nommé président

Andrew Ferguson, l'un des deux commissaires républicains de la FTC nommés par le président américain Joe Biden, sera le prochain président de la FTC, a annoncé mardi sur les réseaux sociaux le...

0

10 DéCEMBRE 2024

Sénateur américain annonce un nouveau projet de loi pour sécuriser les entreprises de télécommunication à la...

Le sénateur démocrate américain Ron Wyden a annoncé un nouveau projet de loi visant à sécuriser les réseaux téléphoniques américains et les communications des Américains en réponse au...

0

10 DéCEMBRE 2024

Automattic acquiert WPAI, une startup qui crée des solutions d’IA pour WordPress

La société d'hébergement WordPress Automattic a déclaré lundi qu'elle acquérait WPAI, une startup qui développe des solutions d'IA pour WordPress, à un prix non divulgué. WPAI dispose de...

0

9 DéCEMBRE 2024

Le géant américain des dispositifs médicaux Artivion déclare que des hackers ont volé des fichiers lors d’un...

Artivion, une entreprise de dispositifs médicaux qui fabrique des tissus implantables pour des applications de transplantation cardiaque et vasculaire, déclare que ses services ont été...

0

9 DéCEMBRE 2024

C’est un Raspberry Pi 5 dans un clavier, et il s’appelle le Raspberry Pi 500

Le fabricant d'ordinateurs à carte unique Raspberry Pi met à jour son petit appareil mignon qui associe ordinateur et clavier avec de meilleures spécifications. Nommé le Raspberry Pi 500, ce...

0

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

En savoir plus sur L'ABESTIT

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Poursuivre la lecture