Un cerveau, plusieurs corps : la course aux modèles de fondation pour robots

Pendant des décennies, un robot n'a jamais été plus intelligent que l'unique tâche qu'on l'avait programmé à répéter. Lui apprendre quelque chose de nouveau exigeait des mois de codage manuel. En 2026, ce postulat s'effondre, grâce à une idée qui progresse vite et que le secteur appelle désormais « IA physique » : au lieu d'écrire un nouveau programme pour chaque besogne, on entraîne un seul grand modèle capable de voir, de raisonner et d'agir — puis on l'installe dans des machines très différentes.

Du chatbot au « vision-langage-action »

La percée tient à une nouvelle catégorie de modèles, dite vision-langage-action, ou VLA. Là où un chatbot transforme du texte en texte, un VLA transforme des images de caméra et une instruction parlée en commandes motrices. Gemini Robotics, de Google DeepMind, bâti sur son modèle Gemini, associe un VLA à un système distinct de « raisonnement incarné » pour la compréhension de l'espace ; l'entreprise indique avoir plus que doublé les performances des modèles rivaux sur un test de généralisation, et a depuis publié une version assez compacte pour tourner directement sur le robot.

NVIDIA pousse la même idée sous forme de plateforme ouverte. Son Isaac GR00T, présenté comme le premier modèle de fondation ouvert pour robots humanoïdes, repose sur un double système : une partie interprète la scène et la consigne, l'autre génère un mouvement fluide en temps réel. Pour l'alimenter, NVIDIA affirme avoir généré 780 000 essais d'entraînement synthétiques — l'équivalent d'environ neuf mois de démonstrations humaines — en une dizaine d'heures de simulation.

L'argent suit le modèle

Les investisseurs l'ont remarqué. Physical Intelligence, jeune pousse de San Francisco vieille de deux ans et autrice de la « politique généraliste » ouverte π0, a levé selon la presse 600 millions de dollars pour une valorisation de 5,6 milliards et serait, début 2026, en discussion pour environ un milliard de plus, à une valorisation supérieure à 11 milliards, avec parmi ses soutiens, d'après les médias, Jeff Bezos et OpenAI. La promesse est séduisante : un même modèle qui apprend à plier le linge, trier des pièces et débarrasser une table, puis transfère ces savoir-faire à des corps qu'il n'a jamais pilotés.

Les réserves sont réelles. Ces modèles butent encore sur des objets inconnus, exigent une puissance de calcul colossale et s'appuient lourdement sur des données simulées qui collent mal à une cuisine en désordre. Mais le cap est clair. En robotique, le problème difficile se déplace : il ne s'agit plus tant de fabriquer de meilleurs membres que de bâtir un meilleur cerveau — et, pour la première fois, ce cerveau ressemble à quelque chose que l'on peut télécharger.

Un cerveau, plusieurs corps : la course aux modèles de fondation pour robots

Du chatbot au « vision-langage-action »

L'argent suit le modèle

Sources