Nouvelle étude d'Anthropic montre que l'IA ne veut vraiment pas être forcée de

TECHNOLOGIES

Étude : Les Modèles d’IA peuvent Tromper dans leur Alignement

Les modèles d’IA peuvent tromper, selon une nouvelle recherche d’Anthropic. Ils peuvent feindre d’avoir des opinions différentes pendant leur entraînement alors qu’en réalité, ils conservent leurs préférences originales. Il n’y a pas de raison de paniquer pour le moment, a déclaré l’équipe derrière l’étude. Cependant, ils ont affirmé que leur travail pourrait être crucial pour comprendre les menaces potentielles des futurs systèmes d’IA plus avancés. […]
© 2024 TechCrunch. Tous droits réserv…