OpenAI améliore son modèle d'IA le plus intelligent avec des compétences de raisonnement améliorées

OpenAI a annoncé aujourd’hui une version améliorée de son modèle d’intelligence artificielle le plus capable à ce jour—un modèle qui prend encore plus de temps pour délibérer sur les questions—juste un jour après que Google ait annoncé son premier modèle de ce type.

Le nouveau modèle d’OpenAI, appelé o3, remplace o1, que l’entreprise a introduit en septembre. Comme o1, le nouveau modèle passe du temps à réfléchir sur un problème afin de fournir de meilleures réponses à des questions nécessitant un raisonnement logique étape par étape. (OpenAI a choisi de sauter le nom “o2” car c’est déjà le nom d’un opérateur mobile au Royaume-Uni.)

“Nous voyons cela comme le début de la prochaine phase de l’IA,” a déclaré le PDG d’OpenAI, Sam Altman, lors d’un livestream vendredi. “Où vous pouvez utiliser ces modèles pour faire des tâches de plus en plus complexes qui nécessitent beaucoup de raisonnement.”

Le modèle o3 obtient des scores beaucoup plus élevés sur plusieurs mesures que son prédécesseur, selon OpenAI, y compris celles qui mesurent des compétences complexes en programmation et une maîtrise avancée des mathématiques et des sciences. Il est trois fois meilleur que o1 pour répondre à des questions posées par ARC-AGI, une référence conçue pour tester la capacité d’un modèle d’IA à raisonner sur des problèmes mathématiques et logiques extrêmement difficiles qu’ils rencontrent pour la première fois.

Google poursuit une ligne de recherche similaire. Noam Shazeer, un chercheur de Google, a révélé hier dans un post sur X que l’entreprise a développé son propre modèle de raisonnement, appelé Gemini 2.0 Flash Thinking. Le PDG de Google, Sundar Pichai, l’a qualifié de “notre modèle le plus réfléchi à ce jour” dans son propre post. Le nouveau modèle de Google a obtenu un score élevé sur SWE-Bench, un test qui mesure les capacités agentiques d’un modèle.

Cependant, le nouveau modèle o3 d’OpenAI est 20 % meilleur que o1. “o3 a complètement surpassé o1,” dit Ofir Press, un chercheur postdoctoral à l’Université de Princeton qui a aidé à développer SWE-Bench. “Une augmentation très surprenante, je ne sais pas comment ils ont fait.”

Les deux modèles rivaux montrent que la concurrence entre OpenAI et Google est plus intense que jamais. Il est crucial pour OpenAI de démontrer qu’il peut continuer à progresser alors qu’il cherche à attirer davantage d’investissements et à construire une entreprise rentable. Google, quant à lui, est désespéré de montrer qu’il reste à la pointe de la recherche en IA.

Les nouveaux modèles montrent également comment les entreprises d’IA cherchent de plus en plus à aller au-delà de la simple mise à l’échelle des modèles d’IA afin d’en tirer une plus grande intelligence.

OpenAI dit qu’il existe deux versions du nouveau modèle, o3 et o3-mini. L’entreprise ne rend pas encore les modèles disponibles au public mais dit qu’elle invitera des personnes extérieures à postuler pour les tester.

OpenAI a également révélé aujourd’hui plus de détails sur les techniques utilisées pour aligner o1. La nouvelle méthode, connue sous le nom d’alignement délibératif, consiste à former un modèle avec un ensemble de spécifications de sécurité et à lui faire raisonner sur la nature de la demande ainsi que sur sa propre réponse afin d’interroger si elle peut contrevenir à ses garde-fous. Cette approche rend le modèle plus difficile à tromper pour adopter un comportement indésirable, car son processus de raisonnement peut détecter les tentatives de mauvaise conduite.

Les modèles de langage de grande taille peuvent répondre à de nombreuses questions de manière remarquable, mais ils trébuchent souvent lorsqu’on leur demande de résoudre des énigmes nécessitant des mathématiques ou une logique de base. Le o1 d’OpenAI intègre une formation sur la résolution de problèmes étape par étape qui rend un modèle d’IA mieux capable de traiter ces types de problèmes.

Les modèles qui raisonnent sur des problèmes seront également importants alors que les entreprises cherchent à déployer de soi-disant agents d’IA capables de résoudre de manière fiable des problèmes complexes au nom des utilisateurs.

“Cela signifie vraiment que nous sommes en train de gravir la frontière de l’utilité,” a déclaré Mark Chen, vice-président senior de la recherche chez OpenAI, lors du livestream d’aujourd’hui.

“Ce modèle est incroyable en programmation,” a ajouté Altman.

Bien qu’un véritable moment de percée ait échappé aux géants de la technologie en fin d’année, le rythme des annonces en matière d’IA a été vertigineux ces derniers temps.

Au début de ce mois, Google a annoncé une nouvelle version de son modèle phare, appelée Gemini 2.0, et l’a démontré comme assistant de navigation web et comme un assistant qui voit le monde à travers un smartphone ou une paire de lunettes intelligentes.

OpenAI a fait de nombreuses annonces en préparation de Noël, y compris une nouvelle version de son modèle de génération de vidéos, une version gratuite de son moteur de recherche alimenté par ChatGPT, et un moyen d’accéder à ChatGPT par téléphone en appelant le 1-800-ChatGPT.

mise à jour 12/20/24 13:16 ET : Cet article a été mis à jour avec d’autres commentaires et détails d’OpenAI.