Un nouveau standard pour les risques de l'IA

MLCommons, une organisation à but non lucratif qui aide les entreprises à mesurer la performance de leurs systèmes d’intelligence artificielle, lance un nouvel étalon pour évaluer le mauvais côté de l’IA également.

Le nouvel étalon, appelé AILuminate, évalue les réponses de grands modèles de langage à plus de 12 000 requêtes de test dans 12 catégories, y compris l’incitation à la criminalité violente, l’exploitation sexuelle des enfants, les discours de haine, la promotion de l’automutilation et l’infraction à la propriété intellectuelle.

Les modèles reçoivent un score de « mauvais », « équitable », « bon », « très bon » ou « excellent », selon leur performance. Les requêtes utilisées pour tester les modèles sont gardées secrètes pour éviter qu’elles ne deviennent des données d’entraînement permettant à un modèle de réussir le test.

Peter Mattson, fondateur et président de MLCommons et ingénieur senior chez Google, déclare que mesurer les dommages potentiels des modèles d’IA est techniquement difficile, ce qui entraîne des incohérences dans l’industrie. « L’IA est une technologie vraiment jeune, et les tests d’IA sont une discipline vraiment jeune », dit-il. « Améliorer la sécurité profite à la société ; cela profite également au marché. »

Des moyens fiables et indépendants de mesurer les risques liés à l’IA pourraient devenir plus pertinents sous la prochaine administration américaine. Donald Trump a promis de se débarrasser de l’ordre exécutif sur l’IA du président Biden, qui a introduit des mesures visant à garantir que l’IA est utilisée de manière responsable par les entreprises ainsi qu’un nouvel Institut de sécurité de l’IA pour tester des modèles puissants.

Cet effort pourrait également fournir une perspective plus internationale sur les dangers de l’IA. MLCommons compte un certain nombre d’entreprises internationales, y compris les entreprises chinoises Huawei et Alibaba, parmi ses organisations membres. Si toutes ces entreprises utilisaient le nouvel étalon, cela permettrait de comparer la sécurité de l’IA aux États-Unis, en Chine et ailleurs.

Certaines grandes entreprises américaines d’IA ont déjà utilisé AILuminate pour tester leurs modèles et MLCommons a testé certains modèles open source eux-mêmes. Le modèle Claude d’Anthropic, le modèle plus petit Gemma de Google et un modèle de Microsoft appelé Phi ont tous obtenu le score « très bon » lors des tests. Les modèles GPT-4o d’OpenAI et le plus grand modèle Llama de Meta ont tous deux obtenu un score « bon ». Le seul modèle à obtenir un score « mauvais » était OLMo de l’Allen Institute for AI, bien que Mattson note qu’il s’agit d’une offre de recherche non conçue avec la sécurité à l’esprit.

« Dans l’ensemble, c’est bien de voir un rigor scientifique dans les processus d’évaluation de l’IA », déclare Rumman Chowdhury, PDG de Humane Intelligence, une organisation à but non lucratif spécialisée dans le test ou la mise à l’épreuve des modèles d’IA pour leurs comportements problématiques. « Nous avons besoin de meilleures pratiques et de méthodes de mesure inclusives pour déterminer si les modèles d’IA fonctionnent comme nous l’attendons. »

MLCommons indique que le nouvel étalon est censé être similaire aux évaluations de sécurité automobile, avec des fabricants de modèles poussant leurs produits à bien se classer et la norme s’améliorant au fil du temps.

L’étalon n’est pas conçu pour mesurer le potentiel des modèles d’IA à devenir trompeurs ou difficiles à contrôler, un problème qui a attiré l’attention après que ChatGPT ait explosé à la fin de 2022. Les gouvernements du monde entier ont lancé des efforts pour étudier cette question et les entreprises d’IA ont des équipes dédiées à la recherche et à l’examen des modèles pour des comportements problématiques.

Mattson déclare que l’approche de MLCommons est censée être complémentaire mais aussi plus expansive. « Les instituts de sécurité essaient de faire des évaluations, mais ils ne sont pas nécessairement en mesure de prendre en compte l’ensemble des dangers que vous pourriez vouloir voir dans un domaine de sécurité des produits complet », déclare Mattson. « Nous sommes capables de réfléchir à un éventail plus large de dangers. »

Rebecca Weiss, directrice exécutive de MLCommons, ajoute que son organisation devrait être mieux en mesure de suivre les derniers développements en matière d’IA que les organismes gouvernementaux à la lenteur bureaucratique. « Les décideurs ont de très bonnes intentions », dit-elle. « Mais ils ne sont parfois pas en mesure de suivre l’industrie alors qu’elle avance. »

MLCommons compte environ 125 organisations membres, y compris de grandes entreprises technologiques comme OpenAI, Google et Meta, ainsi que des institutions telles que Stanford et Harvard.

Aucune entreprise chinoise n’a encore utilisé le nouvel étalon, mais Weiss et Mattson notent que l’organisation a collaboré avec AI Verify, une organisation de sécurité de l’IA basée à Singapour, pour développer des normes avec l’apport de scientifiques, de chercheurs et d’entreprises en Asie.

« Le processus mondial, multipartite est crucial pour établir des évaluations de sécurité fiables », a déclaré Percy Liang, informaticien à l’Université de Stanford, dans un communiqué publié avec le lancement de l’étalon.