Les démonstrations d'agents IA peuvent paraître impressionnantes, mais il peut être difficile de faire fonctionner la technologie de manière fiable et sans erreurs gênantes (ou coûteuses) dans la vie réelle. Les modèles actuels peuvent répondre à des questions et converser avec une habileté presque humaine, et constituent l'épine dorsale de chatbots tels que ChatGPT d'OpenAI et Gemini de Google. Ils peuvent également effectuer des tâches sur des ordinateurs lorsqu'ils reçoivent une commande simple en accédant à l'écran de l'ordinateur ainsi qu'à des périphériques d'entrée comme un clavier et un pavé tactile, ou via des interfaces logicielles de bas niveau.

Selon Anthropic, Claude surpasse les autres agents d'IA sur plusieurs critères clés, notamment SWE-bench, qui mesure les compétences d'un agent en matière de développement logiciel, et OSWorld, qui évalue la capacité d'un agent à utiliser un système d'exploitation informatique. Ces affirmations doivent encore être vérifiées de manière indépendante. Anthropic affirme que Claude exécute correctement les tâches dans OSWorld dans 14,9 % des cas. Ce chiffre est bien inférieur à celui des humains, qui obtiennent généralement un score d'environ 75 %, mais considérablement supérieur à celui des meilleurs agents actuels, notamment GPT-4 d'OpenAI, qui réussissent dans environ 7,7 % des cas.

Anthropic affirme que plusieurs entreprises testent déjà la version agentique de Claude. Parmi elles, Canva, qui l'utilise pour automatiser les tâches de conception et d'édition, et Replit, qui utilise le modèle pour les tâches de codage. Parmi les autres premiers utilisateurs figurent The Browser Company, Asana et Notion.

Ofir Press, chercheur postdoctoral à l’université de Princeton qui a contribué au développement de SWE-bench, explique que l’IA agentique a tendance à ne pas être capable de planifier à long terme et a souvent du mal à se remettre des erreurs. « Pour démontrer leur utilité, nous devons obtenir de bonnes performances sur des tests de performance rigoureux et réalistes », explique-t-il, comme la planification fiable d’un large éventail de voyages pour un utilisateur et la réservation de tous les billets nécessaires.

Kaplan note que Claude peut déjà résoudre certaines erreurs avec une efficacité surprenante. Lorsqu'il est confronté à une erreur de terminal lors du démarrage d'un serveur Web, par exemple, le modèle sait comment réviser sa commande pour la corriger. Il a également compris qu'il doit activer les fenêtres contextuelles lorsqu'il se retrouve dans une impasse en naviguant sur le Web.

De nombreuses entreprises technologiques se lancent désormais dans la course au développement d’agents IA pour conquérir des parts de marché et se faire connaître. En fait, il ne faudra peut-être pas longtemps avant que de nombreux utilisateurs aient des agents à portée de main. Microsoft, qui a investi plus de 13 milliards de dollars dans OpenAI, affirme tester des agents capables d’utiliser des ordinateurs Windows. Amazon, qui a beaucoup investi dans Anthropic, étudie comment les agents pourraient recommander et éventuellement acheter des produits pour ses clients.

Sonya Huang, associée au sein de la société de capital-risque Sequoia, spécialisée dans les entreprises d’IA, affirme que malgré tout l’enthousiasme suscité par les agents IA, la plupart des entreprises se contentent en réalité de rebaptiser des outils basés sur l’IA. S’adressant à WIRED avant la publication de l’article sur Anthropic, elle affirme que la technologie fonctionne mieux actuellement lorsqu’elle est appliquée à des domaines restreints tels que le travail lié au codage. « Il faut choisir des domaines problématiques où si le modèle échoue, ce n’est pas un problème », dit-elle. « C’est dans ces domaines problématiques que les entreprises véritablement natives des agents vont émerger. »

L'un des principaux défis de l'IA agentique est que les erreurs peuvent être bien plus problématiques qu'une réponse confuse d'un chatbot. Anthropic a imposé certaines contraintes sur ce que Claude peut faire, par exemple en limitant sa capacité à utiliser la carte de crédit d'une personne pour acheter des choses.

Si les erreurs sont évitées de manière adéquate, explique Press de l'Université de Princeton, les utilisateurs pourraient apprendre à voir l'IA – et les ordinateurs – d'une toute nouvelle manière. « Je suis très enthousiaste à l'idée de cette nouvelle ère », dit-il.

Share this post

Articles similaires

21 NOVEMBRE 2024

Neuralink obtient l’approbation pour commencer des essais humains au Canada

Les premiers essais cliniques de Neuralink en dehors des États-Unis auront lieu au Canada. Neuralink a obtenu l'approbation de Santé Canada pour lancer des essais humains dans le pays, l'Hôpital Western de Toronto étant le "premier et unique site chirurgical" pour la procédure. L'entreprise a...

0

21 NOVEMBRE 2024

The Google Pixel 9 Pro avec 1 To de stockage est à 150 $ de réduction pour le Black Friday

Le Black Friday est vraiment dans l'air maintenant, et nous avons les bonnes affaires pour le prouver. Le dernier et le meilleur smartphone de Google, le Pixel 9 Pro, est à 150 $ de réduction. Cette offre s'applique à la version 1 To du modèle standard. Avec la remise appliquée, le Pixel 9 Pro...

0

21 NOVEMBRE 2024

Avowed preview : Fantasy classique d’Obsidian avec un budget AAA

Il semble que 2025 sera une excellente année pour les jeux de rôle d'action. Nous avons déjà lancé les choses avec un grand Dragon Age: Veilguard, mais l'année prochaine apportera également Kingdom Come: Deliverance 2, Fable et le sujet de la dissection d'aujourd'hui, Avowed. Chaque titre...

0

21 NOVEMBRE 2024

Les 41 bonnes affaires technologiques du Black Friday à ne pas manquer sur Amazon, Walmart, Apple, Anker et...

Le Black Friday peut techniquement n’être qu’un seul jour, mais il a évolué pour englober l’ensemble du mois de novembre aux États-Unis à ce stade. Au cours des dernières années, des détaillants comme Amazon, Walmart et Target ont ouvert la saison des achats de vacances de plus en...

0

21 NOVEMBRE 2024

Les offres du Black Friday d’Anker incluent jusqu’à 47 % de réduction sur les batteries externes, les...

Le Black Friday et le Cyber Monday offrent de grandes opportunités pour obtenir une multitude de technologies à moindre coût, et certaines des meilleures offres que vous pouvez généralement trouver concernent les équipements de charge et les accessoires mobiles. Anker propose certains de nos...

0

21 NOVEMBRE 2024

Herman Miller a une vente de 25 pour cent de réduction pour le Black Friday

Herman Miller n'est pas l'endroit où vous allez pour ramasser un article décontracté — eh bien, peut-être que vous le faites, et c'est super. Mais une vente de 25 % de réduction sur tous ses produits en magasin et en ligne avant le Black Friday rend les offres de la marque haut de gamme plus...

0