Sur une porte métallique dans le quartier Mission de San Francisco, un seul caractère—“π”—offre un indice cryptique sur le cercle vertueux du travail qui a lieu au-delà.
La porte s’ouvre pour révéler une activité fébrile impliquant à la fois des humains et des machines. Une femme utilise deux joysticks pour faire fonctionner une paire de bras robotiques de table qui soulèvent et replient soigneusement des T-shirts en une pile nette. Plusieurs robots plus grands déplacent des articles de garde-manger d’une boîte encombrée à une autre. Dans un coin de la pièce, un homme utilise une pince en plastique qui s’adapte à son poignet et qui a une webcam sur le dessus. Des pièces de robot jonchent la pièce.
L’entrepôt abrite Physical Intelligence, également connue sous le nom de PI ou π (d’où le symbole sur la porte d’entrée), une startup qui vise à offrir aux robots une mise à niveau d’intelligence artificielle profonde. Tel est l’excitation et l’attente autour du rêve de l’entreprise que les investisseurs parient des centaines de millions qu’elle réalisera la prochaine avancée révolutionnaire dans le domaine de l’IA. Physical Intelligence a annoncé la semaine dernière qu’elle avait levé 400 millions de dollars d’investisseurs comprenant OpenAI et Jeff Bezos, à une valorisation de plus de 2 milliards de dollars.
À l’intérieur d’une salle de conférence vitrée au deuxième étage du bâtiment, le PDG de la startup, Karol Hausman, un homme grand avec un léger accent allemand et quelques jours de barbe, expose sa vision.
“Si je vous mets aux commandes d’un nouveau robot, avec un peu de pratique, vous seriez probablement capable de comprendre comment le contrôler,” dit Hausman. “Et si nous parvenons vraiment à résoudre ce problème, alors l’IA sera capable de faire la même chose.”
Physical Intelligence croit pouvoir donner aux robots une compréhension humaine du monde physique et de la dextérité en alimentant son modèle d’IA principal avec des données de capteurs et de mouvements de robots effectuant un grand nombre de démonstrations. “C’est, pour nous, ce qu’il faudra pour ‘résoudre’ l’intelligence physique,” dit Hausman. “Pour insuffler de l’intelligence dans un robot simplement en le connectant à notre modèle.”
Malgré des avancées étonnantes en IA ces dernières années, personne n’a réussi à rendre les robots particulièrement intelligents ou capables. Les machines trouvées dans les usines ou les entrepôts sont essentiellement des automates high-tech, effectuant des mouvements précisément chorégraphiés sans la moindre trace d’esprit ou d’ingéniosité.
Hausman est rejoint à la table de conférence par plusieurs autres cofondateurs : Sergey Levine, un jeune professeur associé portant des lunettes à l’UC Berkeley ; Brian Ichter, un homme amical et barbu qui a précédemment travaillé avec Hausman chez Google ; et Chelsea Finn, une professeure adjointe à l’Université de Stanford qui se joint via un lien vidéo.
L’équipe réunie a ravivé l’espoir d’une révolution robotique qui s’inspire d’autres avancées récentes en IA, en particulier des capacités remarquables des grands modèles linguistiques (LLMs) qui alimentent des IA conversationnelles comme ChatGPT. Ils croient fermement qu’ils peuvent apporter ce même niveau d’émerveillement dans le monde physique—et le faire bientôt.
Les compétences linguistiques de l’IA ont commencé à changer en 2018, lorsque OpenAI a montré qu’un modèle d’apprentissage automatique connu sous le nom de transformateur pouvait générer des morceaux de texte étonnamment cohérents lorsqu’on lui donne une chaîne de départ. Les informaticiens avaient passé des décennies à essayer d’écrire des programmes pour traiter le langage dans toute sa complexité et son ambiguïté. Le modèle d’OpenAI, connu sous le nom de Transformateur Préentraîné Génératif ou GPT, s’est progressivement amélioré à mesure qu’il recevait des quantités toujours plus importantes de données prélevées dans des livres et sur Internet, devenant finalement capable de tenir des conversations cohérentes et de répondre à un large éventail de questions.
Début 2022, Hausman et Ichter, alors chez Google, avec Levine, Finn et d’autres, ont montré que les LLMs pouvaient également servir de fondation pour l’intelligence robotique. Bien que les LLMs ne puissent pas interagir avec le monde physique, ils contiennent beaucoup d’informations sur les objets et les scènes grâce à l’énorme portée de leurs données d’entraînement. Bien que imparfaite—comme quelqu’un qui comprend le monde uniquement en lisant à son sujet—ce niveau d’aperçu peut suffire à donner aux robots la capacité de concevoir des plans d’action simples.
Hausman et son équipe ont connecté un LLM à un robot à un bras dans une cuisine factice au siège de Google à Mountain View, en Californie, lui donnant le pouvoir de résoudre des problèmes ouverts. Lorsque le robot a été informé “J’ai renversé mon Coca sur la table”, il utilisait le LLM pour concevoir un plan d’action sensé qui impliquait de trouver et de récupérer la boîte, de la jeter à la poubelle, puis d’obtenir une éponge pour nettoyer le désordre—tout cela sans aucune programmation conventionnelle.
L’équipe a ensuite connecté un modèle de langage visuel, entraîné à la fois sur du texte et des images, au même robot, améliorant sa capacité à comprendre le monde qui l’entoure. Dans une expérience, ils ont mis des photos de différentes célébrités à proximité et ont ensuite demandé au robot de donner une boîte de soda à Taylor Swift. “Taylor n’est apparue dans aucune des données d’entraînement du robot, mais les modèles de langage visuel savent à quoi elle ressemble,” dit Finn, ses longs cheveux bruns encadrant un large sourire.
Plus tard dans l’année, juste au moment où ChatGPT devenait viral, l’équipe a décidé de démontrer le robot lors d’une conférence académique à Auckland, en Nouvelle-Zélande. Ils ont offert au public la possibilité de le contrôler depuis la Californie avec des commandes tapées de leur choix. Le public a été impressionné par les capacités générales de résolution de problèmes du robot ; le buzz grandissait également autour des implications plus larges de ChatGPT.
Les LLMs pourraient aider les robots à communiquer, reconnaître des choses et concevoir des plans, mais leur capacité la plus basique à prendre des actions est limitée par un manque d’intelligence concernant le monde physique. Savoir comment saisir un objet aux formes étranges est trivial pour les humains uniquement à cause d’une compréhension instinctive profonde de la façon dont les objets tridimensionnels se comportent et de la façon dont nos mains et nos doigts fonctionnent. Les roboticistes réunis ont reconnu que les capacités remarquables de ChatGPT pourraient peut-être se traduire par quelque chose de tout aussi impressionnant dans les compétences physiques d’un robot—si des actions plutôt que des mots pouvaient être capturées à grande échelle et apprises. “Il y avait une énergie dans l’air,” se souvient Finn de l’événement.
Il y a eu des signes que cela pourrait effectivement fonctionner. En 2023, Quan Vuong, un autre cofondateur de Physical Intelligence, a rassemblé des chercheurs de 21 institutions différentes pour entraîner 22 bras robotiques sur une gamme de tâches en utilisant le même modèle transformateur unique. Le résultat était plus que la somme de ses parties. “Dans la plupart des cas, le nouveau modèle était meilleur que celui que les chercheurs avaient développé spécifiquement pour leur robot,” dit Finn.
Tout comme les humains utilisent une vie d’apprentissage pour passer de la maladresse d’enfance à jouer du piano quelques années plus tard, alimenter les robots avec des données d’entraînement beaucoup plus vastes pourrait débloquer d’extraordinaires nouvelles compétences.
Les attentes d’une révolution robotique sont également alimentées par les nombreux robots humanoïdes maintenant vantés par des startups telles qu’Agility et Figure ainsi que de grandes entreprises comme Hyundai et Tesla. Ces machines sont encore limitées dans leurs capacités, mais les démonstrations télécommandées peuvent les faire sembler plus capables, et les partisans promettent de grandes choses. Elon Musk est même allé jusqu’à suggérer que les robots humanoïdes pourraient surpasser le nombre d’êtres humains sur Terre d’ici 2040—une suggestion qui devrait probablement être prise avec un camion de sel.
L’idée d’investir des centaines de millions dans une entreprise qui cherche à réaliser une percée fondamentale en recherche pourrait même sembler folle. Mais OpenAI a montré à quel point le retour sur investissement peut être élevé, et l’entreprise a contribué à la fois à l’investissement de démarrage de Physical Intelligence et à son dernier investissement par l’intermédiaire de son fonds de startups. “La raison d’investir, c’est le talent,” dit une source familière avec la pensée d’OpenAI. “Ils ont certaines des meilleures personnes en robotique sur la planète.”
OpenAI semble également intensifier ses propres efforts en robotique. La semaine dernière, Caitlin Kalinowski, qui a précédemment dirigé le développement de casques de réalité virtuelle et augmentée chez Meta, a annoncé sur LinkedIn qu’elle rejoignait OpenAI pour travailler sur du matériel, y compris la robotique.
Lachy Groom, un ami du PDG d’OpenAI Sam Altman et investisseur et cofondateur de Physical Intelligence, se joint à l’équipe dans la salle de conférence pour discuter du côté commercial du plan. Groom porte un sweat à capuche semblant cher et semble remarquablement jeune. Il insiste sur le fait que Physical Intelligence a beaucoup de marge de manœuvre pour poursuivre une percée dans l’apprentissage robotique. “Je viens d’avoir un appel avec Kushner,” dit-il en référence à Joshua Kushner, fondateur et partenaire directeur de Thrive Capital, qui a dirigé le tour d’investissement de démarrage de la startup. Il est également, bien sûr, le frère du gendre de Donald Trump, Jared Kushner.
Quelques autres entreprises cherchent désormais à réaliser le même type de percée. Une appelée Skild, fondée par des roboticiens de l’Université Carnegie Mellon, a levé 300 millions de dollars en juillet. “Tout comme OpenAI a construit ChatGPT pour le langage, nous construisons un cerveau à usage général pour les robots,” dit Deepak Pathak, PDG de Skild et professeur adjoint à la CMU.
Personne n’est sûr que cela puisse être réalisé de la même manière qu’OpenAI a résolu le code de langage de l’IA.
Il n’existe tout simplement pas de dépôt d’actions de robots à l’échelle d’Internet similaire aux données de texte et d’image disponibles pour entraîner les LLMs. Réaliser une percée en intelligence physique pourrait de toute façon nécessiter des données exponentiellement plus importantes.
“Les mots en séquence sont, dimensionnellement parlant, un petit jouet par rapport à tout le mouvement et l’activité des objets dans le monde physique,” dit Illah Nourbakhsh, un roboticien à la CMU qui n’est pas impliqué avec Skild. “Les degrés de liberté que nous avons dans le monde physique sont tellement plus nombreux que juste les lettres de l’alphabet.”
Ken Goldberg, un universitaire à l’UC Berkeley qui travaille sur l’application de l’IA aux robots, met en garde contre le fait que l’excitation grandissante autour de l’idée d’une révolution robotique alimentée par des données ainsi que des humanoïdes atteint des proportions similaires à la hype. “Pour atteindre les niveaux de performance attendus, nous aurons besoin d’un ‘bon vieux génie’, de modularité, d’algorithmes et de métriques,” dit-il.
Russ Tedrake, un informaticien au Massachusetts Institute of Technology et vice-président de la recherche en robotique au Toyota Research Institute, dit que le succès des LLMs a poussé de nombreux roboticiens, y compris lui-même, à repenser ses priorités de recherche et à se concentrer sur des moyens de poursuivre l’apprentissage robotique à une échelle plus ambitieuse. Mais il admet que d’énormes défis demeurent.
“C’est encore un peu un rêve,” dit Tedrake de l’idée de débloquer des capacités robotiques générales grâce à l’apprentissage à grande échelle. “Bien que les gens aient montré des signes de vie.”
Le secret pour progresser, suggère Tedrake, pourrait impliquer d’enseigner aux robots à apprendre de nouvelles manières, par exemple en regardant des vidéos YouTube d’humains faisant des choses. On se demande si cette méthode pourrait conduire à un comportement étrange dans les futures machines, comme une capacité surnaturelle à exécuter des danses TikTok ou des flips de bouteilles. Tedrake explique que cette approche, au départ, n’apprendrait aux robots que des mouvements simples, comme tendre la main pour saisir quelque chose, et qu’elle devrait être combinée avec des données recueillies lors d’un travail robotique réel.
“Lorsque vous et moi mêlons notre intelligence à regarder des vidéos YouTube, nous pouvons inférer les forces que les gens utilisent,” dit-il. “Il y a une certaine quantité de [apprentissage] qui nécessite simplement que les robots interagissent avec des objets physiques.”
Hausman me conduit au rez-de-chaussée pour voir comment Physical Intelligence prévoit de poursuivre l’apprentissage robotique à grande échelle. Une paire de bras robotiques essaie maintenant de plier des vêtements sans aide humaine, utilisant l’algorithme de l’entreprise. Les bras se déplacent rapidement et sûrement pour saisir un T-shirt, puis plient le vêtement lentement et de manière crude, tout comme un enfant pourrait le faire, avant de le déposer.
Certaines tâches, comme plier des vêtements, sont particulièrement utiles pour former des robots, dit Hausman, car cette corvée consiste à traiter un large éventail d’articles qui sont souvent déformés et froissés, et qui se plient et se fléchissent pendant que vous essayez de les manipuler. “C’est une bonne tâche, car pour la résoudre vraiment, vous devez généraliser,” dit-il. “Même si vous collectez beaucoup de données, vous ne seriez pas en mesure de les recueillir dans chaque situation que pourrait connaître un article de vêtement.”
Physical Intelligence espère rassembler beaucoup plus de données en collaborant avec d’autres entreprises, telles que des sociétés de commerce électronique et de fabrication, qui ont des robots effectuant une variété de choses. La startup espère également développer du matériel sur mesure, tel que la pince équipée d’une webcam ; elle n’a pas précisé comment cela serait utilisé, mais cela pourrait peut-être permettre un entraînement en crowdsourcing avec des personnes réalisant des tâches quotidiennes.
Après avoir regardé les démonstrations, je quitte Physical Intelligence en pleine effervescence à l’idée de robots beaucoup plus intelligents. En revenant au soleil, je me demande si le monde est vraiment prêt pour quelque chose comme ChatGPT pour s’immiscer dans le monde physique et prendre en charge tant de tâches physiques. Cela pourrait révolutionner les usines et les entrepôts et être une aubaine pour l’économie, mais cela pourrait aussi provoquer une panique plus générale concernant le potentiel de l’IA à automatiser le travail.
Quelques mois plus tard, je fais le point avec Physical Intelligence et découvre que l’équipe a déjà réalisé des progrès robotiques impressionnants.
Haussman, Levine et Finn se pressent dans une fenêtre Zoom pour expliquer que l’entreprise a développé son premier modèle en utilisant une énorme quantité de données d’entraînement sur plus de 50 tâches ménagères complexes courantes.
Le trio me montre une vidéo d’un robot mobile déchargeant un sèche-linge ; une autre d’un bras robotique nettoyant une table de cuisine en désordre ; puis une paire de bras robotiques qui semblent maintenant remarquablement compétents pour plier des vêtements. Je suis frappé par la façon dont les mouvements du robot semblent humains. D’un coup de poignet robotique, il secoue un short pour l’aplatir avant de le plier.
La clé pour obtenir des capacités plus générales n’était pas seulement une quantité copieuse de données mais également la combinaison d’un LLM avec un type de modèle emprunté à la génération d’images IA. “Ce n’est pas ChatGPT en aucun cas, mais c’est peut-être proche de GPT-1,” dit Levine en référence au premier grand modèle linguistique d’OpenAI.
Il y a aussi des gaffes étrangement humaines, ou peut-être enfantines. Dans l’une d’elles, un robot remplit trop un carton avec des œufs et essaie de le forcer à se fermer. Dans une autre, un robot jette un contenant hors de la table au lieu de le remplir d’objets. Le trio semble peu préoccupé. “Ce qui est vraiment excitant pour nous, c’est que nous avons cette recette générale,” dit Hausman, “qui montre des signes de vie vraiment intéressants.”
Laisser un commentaire