Des Robots Innovants en Action
Les robots, comme le Spot de Boston Dynamics, font désormais preuve d’une précision remarquable en lisant des instruments analogiques tels que des thermomètres et des manomètres tout en explorant des usines et entrepôts. Cette avancée technologique est le fruit du dernier modèle d’IA robotique de Google DeepMind, conçu pour améliorer les capacités de raisonnement incarné interagissant avec des environnements physiques.
Le Modèle Gemini Robotics-ER 1.6
Le modèle Gemini Robotics-ER 1.6, annoncé le 14 avril, est un modèle de raisonnement de haut niveau pour robots capable de planifier et exécuter des tâches. Il permet une lecture précise d’instruments complexes et des inspections visuelles à travers des fenêtres transparentes, un progrès significatif rendu possible grâce à la collaboration continue entre Google DeepMind et Boston Dynamics.
Des Tests dans des Environnements Industriels
Boston Dynamics teste avec enthousiasme des travailleurs robotiques, tant quadrupèdes qu’humanoïdes, dans divers environnements industriels, y compris les usines automobiles du groupe Hyundai. Le robot Spot, en particulier, est utilisé comme un inspecteur robotique pour surveiller les installations industrielles. Ces tâches d’inspection demandent un raisonnement visuel complexe pour interpréter divers instruments.
La Vision Agentique au Coeur des Performances
Pour exécuter ces tâches, le modèle Gemini Robotics-ER 1.6 offre une vision agentique. Cela combine un raisonnement visuel avec la capacité d’exécuter du code, permettant de créer un « carnet de croquis visuel » pour inspecter et manipuler des images. Cette fonctionnalité a été introduite avec le modèle Gemini 3.0 Flash en janvier 2026.
Des Améliorations Spectaculaires
La performance des robots en matière de lecture d’instruments a considérablement progressé : elle est passée de 23 % avec le précédent modèle 1.5 à 98 % avec le modèle 1.6. À titre de comparaison, le modèle Gemini 3.0 Flash avait atteint une précision de 67 %. Même sans la vision agentique, le modèle de base 1.6 atteint 86 % de précision grâce à des techniques avancées de traitement d’images.
Une Compréhension Environnementale Renforcée
Le modèle Gemini Robotics-ER 1.6 utilise un processus qui lui permet de pointer vers différents éléments d’une image visuelle, facilitant ainsi des tâches complexes telles que le comptage d’objets et l’identification des caractéristiques les plus saillantes. Il offre également une capacité de raisonnement multi-vues, utilisant plusieurs flux de caméras pour mieux comprendre son environnement.
En savoir plus sur L'ABESTIT
Subscribe to get the latest posts sent to your email.




