L’idée d’ un robot capable de réaliser une large gamme de tâches ménagères, allant du déchargement du sèche-linge au pliage du linge en passant par le nettoyage d’une table en désordre, a longtemps semblé être de la pure science-fiction—peut-être le plus célèbre incarné par Rosey dans Les Jetsons des années 1960.
Physical Intelligence, une startup à San Francisco, a démontré que ce rêve pourrait en réalité ne pas être si loin, en mettant au point un modèle d’intelligence artificielle unique qui a appris à accomplir une large gamme de tâches domestiques utiles—y compris toutes celles mentionnées ci-dessus—en étant entraîné sur une quantité de données sans précédent.
Cet exploit soulève la perspective d’introduire quelque chose d’aussi magique et généralement capable qu’un autre modèle d’IA comme ChatGPT dans le monde physique.
L’avènement des grands modèles de langage (LLMs)—des algorithmes d’apprentissage général nourris de vastes pans de texte provenant de livres et d’internet—a conféré aux chatbots des capacités générales considérablement plus élevées. Physical Intelligence vise à créer quelque chose de semblable dans le monde physique en entraînant un algorithme similaire avec d’énormes quantités de données robotiques à la place.
“Nous avons une recette qui est très générale, qui peut tirer parti de données provenant de nombreux types d’incarnations, de différents types de robots, et qui est similaire à la façon dont les gens entraînent des modèles de langage,” déclare le PDG de l’entreprise, Karol Hausman.
L’entreprise a passé les huit derniers mois à développer son “modèle de base”, appelé π0 ou pi-zéro. π0 a été entraîné en utilisant d’énormes quantités de données provenant de plusieurs types de robots accomplissant diverses tâches domestiques. L’entreprise fait souvent appel à des humains pour téléopérer les robots afin de fournir l’enseignement nécessaire.
Physical Intelligence, également connu sous le nom de PI ou π, a été fondée plus tôt cette année par plusieurs chercheurs en robotique éminents pour poursuivre une nouvelle approche en robotique inspirée par des percées dans les capacités linguistiques de l’IA.
“La quantité de données sur laquelle nous nous entraînons est plus importante que tout modèle de robotique jamais réalisé, de manière très significative, à notre connaissance,” déclare Sergey Levine, cofondateur de Physical Intelligence et professeur associé à l’UC Berkeley. “Ce n’est en aucun cas un ChatGPT, mais peut-être que c’est proche de GPT-1,” ajoute-t-il, en référence au premier grand modèle de langage développé par OpenAI en 2018.
Des vidéos publiées par Physical Intelligence montrent une variété de modèles de robots accomplissant un éventail de tâches ménagères avec une habileté impressionnante. Un robot à roues atteint dans un sèche-linge pour récupérer des vêtements. Un bras robotique débarrasse une table encombrée de tasses et d’assiettes. Une paire de bras robotiques saisit et plie le linge. Un autre exploit impressionnant maîtrisé par l’algorithme de l’entreprise est la construction d’une boîte en carton, ce qui implique qu’un robot plie doucement ses côtés et ajuste délicatement les pièces ensemble.
Le pliage des vêtements est particulièrement difficile pour les robots, nécessitant une intelligence générale plus développée sur le monde physique, explique Hausman, car cela implique de traiter une large gamme d’objets flexibles qui se déforment et se froissent de manière imprévisible.
L’algorithme affiche des quirks étonnamment semblables à celles des humains, secouant des t-shirts et des shorts pour les aplatir, par exemple.
Hausman note que l’algorithme ne fonctionne pas parfaitement, et comme les chatbots modernes, les robots échouent parfois de manière surprenante et amusante. Lorsqu’on a demandé à un robot de placer des œufs dans un carton, celui-ci a un jour décidé de trop remplir la boîte et de la forcer à se fermer. Une autre fois, un robot a soudainement lancé une boîte hors d’une table au lieu de la remplir.
Construire des robots plus généralement capables n’est pas seulement un trope de science-fiction mais constitue, bien sûr, aussi une énorme opportunité commerciale.
Malgré des avancées impressionnantes en IA ces dernières années, les robots restent obstinément stupides et limités. Ceux que l’on trouve dans les usines et entrepôts suivent généralement des routines chorégraphiées avec précision sans grande capacité de perception de leur environnement ou d’adaptation en temps réel. Les quelques robots industriels capables de voir et de saisir des objets ne peuvent accomplir qu’un nombre limité de tâches avec une dextérité minimale en raison d’un manque d’intelligence physique générale.
Des robots plus généralement capables pourraient assumer un éventail beaucoup plus large de tâches industrielles, peut-être après des démonstrations minimales. Les robots auront également besoin de capacités plus générales pour faire face à l’énorme variabilité et au désordre des foyers humains.
L’enthousiasme général concernant les progrès de l’IA s’est déjà traduit par un optimisme quant à de nouvelles avancées majeures en robotique. La société de voitures d’Elon Musk, Tesla, développe un robot humanoïde appelé Optimus, et Musk a récemment suggéré qu’il serait largement disponible pour 20 000 à 25 000 $ et capable de réaliser la plupart des tâches d’ici 2040.
Des efforts précédents pour apprendre aux robots à accomplir des tâches difficiles se sont concentrés sur l’entraînement d’une seule machine sur une seule tâche, car il semblait que l’apprentissage n’était pas transférable. Certains travaux académiques récents ont montré qu’avec une échelle suffisante et un ajustement fin, l’apprentissage peut être transféré entre différentes tâches et robots. Un projet Google de 2023 appelé Open X-Embodiment a impliqué le partage de l’apprentissage des robots entre 22 robots différents dans 21 laboratoires de recherche différents.
Un défi clé avec la stratégie que poursuit Physical Intelligence est qu’il n’existe pas la même échelle de données robotisées disponibles pour l’entraînement que pour les grands modèles de langage sous forme de texte. Ainsi, l’entreprise doit générer ses propres données et élaborer des techniques pour améliorer l’apprentissage à partir d’un ensemble de données plus limité. Pour développer π0, l’entreprise a combiné des modèles de langage visuels, qui sont entraînés sur des images ainsi que du texte, avec la modélisation de diffusion, une technique empruntée à la génération d’images IA, pour permettre un type d’apprentissage plus général.
Pour que les robots puissent accomplir n’importe quelle tâche robotique qu’un humain leur demande, cet apprentissage devra être considérablement amplifié. “Il reste encore beaucoup à faire, mais nous avons quelque chose que vous pouvez considérer comme une structure qui illustre ce qui s’en vient,” dit Levine.