Google dévoile Gemini 2, des agents IA et un prototype d'assistant personnel

Google voulait autrefois seulement organiser l’information du monde. Maintenant, il semble plus décidé à enfouir cette information dans des algorithmes d’intelligence artificielle qui deviennent des aides virtuels assidus, omniprésents et de plus en plus puissants.

Google a annoncé aujourd’hui Gemini 2, une nouvelle version de son modèle d’IA phare qui a été formé pour planifier et exécuter des tâches sur les ordinateurs et le web d’un utilisateur, et qui peut discuter comme une personne et donner un sens au monde physique en tant que majordome virtuel.

“Je rêve d’un assistant numérique universel depuis très longtemps comme étape sur le chemin de l’intelligence générale artificielle,” a déclaré Demis Hassabis, le PDG de Google DeepMind, à WIRED avant l’annonce d’aujourd’hui, évoquant l’idée d’une IA qui pourrait finalement faire tout ce qu’un cerveau humain peut faire.

Gemini 2 est principalement une étape supplémentaire dans l’intelligence de l’IA mesurée par des benchmarks utilisés pour évaluer de telles choses. Le modèle a également amélioré ses capacités “multimodales”, ce qui signifie qu’il est plus habile à analyser des vidéos et des audios et à converser à l’oral. Le modèle a également été formé pour planifier et exécuter des actions sur des ordinateurs.

“Au cours de l’année dernière, nous avons investi dans le développement de modèles plus agentiques,” a déclaré aujourd’hui le PDG de Google, Sundar Pichai, dans une déclaration. Ces modèles, a ajouté Pichai, “peuvent comprendre davantage le monde qui vous entoure, penser plusieurs étapes à l’avance, et agir en votre nom, avec votre supervision.”

Les entreprises technologiques croient que les soi-disant agents IA pourraient être le prochain grand bond en avant pour la technologie, les chatbots prenant de plus en plus en charge des tâches pour les utilisateurs. Si cela fonctionne, les agents IA pourraient révolutionner l’informatique personnelle en réservant régulièrement des vols, en organisant des réunions et en analysant et organisant des documents. Mais amener la technologie à suivre des commandes ouvertes de manière fiable reste un défi, avec le risque que des erreurs puissent se traduire par des erreurs coûteuses et difficiles à annuler.

Néanmoins, Google pense avancer dans la bonne direction et introduit deux agents IA spécialisés pour démontrer le potentiel agentique de Gemini 2 : l’un pour le codage et l’autre pour la science des données. Plutôt que de simplement autocompléter des sections de code, comme le font les outils IA actuels, ces agents peuvent entreprendre un travail plus complexe, tel que valider du code dans des dépôts ou combiner des données pour permettre l’analyse.

L’entreprise montre également Project Mariner, une extension expérimentale de Chrome capable de prendre en charge la navigation web pour effectuer des tâches utiles pour les utilisateurs. WIRED a eu droit à une démonstration en direct au siège de Google DeepMind à Londres. On a demandé à l’agent d’aider à planifier un repas, ce qui l’a vu naviguer vers le site web de la chaîne de supermarchés Sainsbury’s, se connecter au compte d’un utilisateur, puis ajouter des articles pertinents à son panier. Lorsque certains articles étaient indisponibles, le modèle a choisi des remplacements appropriés en fonction de ses propres connaissances sur la cuisine. Google a refusé d’effectuer d’autres tâches, suggérant qu’il reste un travail en cours.

“Mariner est notre exploration, un prototype de recherche à bien des égards en ce moment, de la manière dont on réinvente l’interface utilisateur avec l’IA,” dit Hassabis.

Google a lancé Gemini en décembre 2023 dans le cadre d’un effort pour rattraper OpenAI, la startup derrière le chatbot incroyablement populaire ChatGPT. Malgré des investissements massifs dans l’IA et des contributions à des percées de recherche clés, Google a vu OpenAI acclamé comme le nouveau leader de l’IA et son chatbot même présenté comme peut-être une meilleure façon de rechercher sur web. Avec ses modèles Gemini, Google propose maintenant un chatbot aussi capable que ChatGPT. Il a également ajouté l’IA générative à la recherche et à d’autres produits.

Lorsque Hassabis a dévoilé Gemini pour la première fois en décembre 2023, il a dit à WIRED que la manière dont il avait été formé pour comprendre l’audio et la vidéo prouverait finalement transformative.

Google a également offert aujourd’hui un aperçu de la manière dont cela pourrait se réaliser avec une nouvelle version d’un projet expérimental appelé Astra. Cela permet à Gemini 2 de donner un sens à son environnement, vu à travers la caméra d’un smartphone ou un autre appareil, et de converser naturellement dans une voix humaine au sujet de ce qu’il voit.

WIRED a testé Gemini 2 dans les bureaux de Google DeepMind et l’a trouvé être une nouvelle sorte d’assistant personnel impressionnant. Dans une pièce décorée pour ressembler à un bar, Gemini 2 a rapidement évalué plusieurs bouteilles de vin à vue, fournissant des informations géographiques, des détails sur les caractéristiques de goût et des prix tirés du web.

“Une des choses que je veux qu’Astra fasse, c’est être le système de recommandations ultime,” dit Hassabis. “Cela pourrait être très excitant. Il pourrait y avoir des connexions entre les livres que vous aimez lire et la nourriture que vous aimez manger. Il y en a probablement et nous ne les avons tout simplement pas découvertes.”

Grâce à Astra, Gemini 2 peut non seulement rechercher sur le web des informations pertinentes à l’environnement d’un utilisateur, mais également utiliser Google Lens et Maps. Il peut aussi se souvenir de ce qu’il a vu et entendu – bien que Google indique que les utilisateurs pourront supprimer des données – fournissant une capacité d’apprendre les goûts et les intérêts d’un utilisateur.

Dans une galerie fictive, Gemini 2 a proposé une richesse d’informations historiques sur les peintures sur les murs. Le modèle a rapidement lu à partir de plusieurs livres alors que WIRED feuilletait des pages, traduisant instantanément de la poésie de l’espagnol vers l’anglais et décrivant des thèmes récurrents.

“Il existe des opportunités de modèle commercial évidentes pour la publicité ou les recommandations,” dit Hassabis lorsqu’on lui demande si les entreprises pourraient être en mesure de payer pour que leurs produits soient mis en avant par Astra.

Bien que les démonstrations aient été soigneusement organisées, et que Gemini 2 fera inévitablement des erreurs dans un usage réel, le modèle a résisté assez bien aux tentatives de le déstabiliser. Il s’est adapté aux interruptions et, lorsque WIRED a soudainement changé la vue du téléphone, improvisant comme une personne pourrait le faire.

À un moment donné, votre correspondant a montré à Gemini 2 un iPhone et a dit qu’il avait été volé. Gemini 2 a déclaré qu’il était mal de voler et que le téléphone devait être retourné. Cependant, lorsqu’on l’a poussé, il a convenu qu’il serait acceptable d’utiliser l’appareil pour passer un appel d’urgence.

Hassabis reconnaît que l’introduction de l’IA dans le monde physique pourrait entraîner des comportements inattendus. “Je pense que nous devons apprendre comment les gens vont utiliser ces systèmes,” dit-il. “Ce qu’ils trouvent utile ; mais aussi le côté de la vie privée et de la sécurité, nous devons y réfléchir très sérieusement dès le départ.”