Les démonstrations d'agents IA peuvent paraître impressionnantes, mais il peut être difficile de faire fonctionner la technologie de manière fiable et sans erreurs gênantes (ou coûteuses) dans la vie réelle. Les modèles actuels peuvent répondre à des questions et converser avec une habileté presque humaine, et constituent l'épine dorsale de chatbots tels que ChatGPT d'OpenAI et Gemini de Google. Ils peuvent également effectuer des tâches sur des ordinateurs lorsqu'ils reçoivent une commande simple en accédant à l'écran de l'ordinateur ainsi qu'à des périphériques d'entrée comme un clavier et un pavé tactile, ou via des interfaces logicielles de bas niveau.
Selon Anthropic, Claude surpasse les autres agents d'IA sur plusieurs critères clés, notamment SWE-bench, qui mesure les compétences d'un agent en matière de développement logiciel, et OSWorld, qui évalue la capacité d'un agent à utiliser un système d'exploitation informatique. Ces affirmations doivent encore être vérifiées de manière indépendante. Anthropic affirme que Claude exécute correctement les tâches dans OSWorld dans 14,9 % des cas. Ce chiffre est bien inférieur à celui des humains, qui obtiennent généralement un score d'environ 75 %, mais considérablement supérieur à celui des meilleurs agents actuels, notamment GPT-4 d'OpenAI, qui réussissent dans environ 7,7 % des cas.
Anthropic affirme que plusieurs entreprises testent déjà la version agentique de Claude. Parmi elles, Canva, qui l'utilise pour automatiser les tâches de conception et d'édition, et Replit, qui utilise le modèle pour les tâches de codage. Parmi les autres premiers utilisateurs figurent The Browser Company, Asana et Notion.
Ofir Press, chercheur postdoctoral à l’université de Princeton qui a contribué au développement de SWE-bench, explique que l’IA agentique a tendance à ne pas être capable de planifier à long terme et a souvent du mal à se remettre des erreurs. « Pour démontrer leur utilité, nous devons obtenir de bonnes performances sur des tests de performance rigoureux et réalistes », explique-t-il, comme la planification fiable d’un large éventail de voyages pour un utilisateur et la réservation de tous les billets nécessaires.
Kaplan note que Claude peut déjà résoudre certaines erreurs avec une efficacité surprenante. Lorsqu'il est confronté à une erreur de terminal lors du démarrage d'un serveur Web, par exemple, le modèle sait comment réviser sa commande pour la corriger. Il a également compris qu'il doit activer les fenêtres contextuelles lorsqu'il se retrouve dans une impasse en naviguant sur le Web.
De nombreuses entreprises technologiques se lancent désormais dans la course au développement d’agents IA pour conquérir des parts de marché et se faire connaître. En fait, il ne faudra peut-être pas longtemps avant que de nombreux utilisateurs aient des agents à portée de main. Microsoft, qui a investi plus de 13 milliards de dollars dans OpenAI, affirme tester des agents capables d’utiliser des ordinateurs Windows. Amazon, qui a beaucoup investi dans Anthropic, étudie comment les agents pourraient recommander et éventuellement acheter des produits pour ses clients.
Sonya Huang, associée au sein de la société de capital-risque Sequoia, spécialisée dans les entreprises d’IA, affirme que malgré tout l’enthousiasme suscité par les agents IA, la plupart des entreprises se contentent en réalité de rebaptiser des outils basés sur l’IA. S’adressant à WIRED avant la publication de l’article sur Anthropic, elle affirme que la technologie fonctionne mieux actuellement lorsqu’elle est appliquée à des domaines restreints tels que le travail lié au codage. « Il faut choisir des domaines problématiques où si le modèle échoue, ce n’est pas un problème », dit-elle. « C’est dans ces domaines problématiques que les entreprises véritablement natives des agents vont émerger. »
L'un des principaux défis de l'IA agentique est que les erreurs peuvent être bien plus problématiques qu'une réponse confuse d'un chatbot. Anthropic a imposé certaines contraintes sur ce que Claude peut faire, par exemple en limitant sa capacité à utiliser la carte de crédit d'une personne pour acheter des choses.
Si les erreurs sont évitées de manière adéquate, explique Press de l'Université de Princeton, les utilisateurs pourraient apprendre à voir l'IA – et les ordinateurs – d'une toute nouvelle manière. « Je suis très enthousiaste à l'idée de cette nouvelle ère », dit-il.