Le goulot des données : pourquoi les robots peinent encore à apprendre du monde réel

Les modèles de langage ont bondi parce qu'ils avaient une matière extraordinaire pour apprendre : un corpus quasi illimité de texte humain. La robotique n'a pas d'équivalent. Il n'existe pas d'archive à l'échelle d'Internet de ce que l'on ressent en saisissant un verre glissant, en se rattrapant d'un faux pas ou en pliant une chemise. Cette absence — le goulot des données — est sans doute la première raison pour laquelle des corps de robots capables manquent encore d'esprits de robots capables.

Pourquoi les données robotiques sont si difficiles

Les données d'interaction physique coûtent cher à collecter. Chaque exemple exige un vrai robot, du temps réel et un objet réel, souvent sous la supervision d'un humain. On ne les aspire pas du web. Pire, des données recueillies sur un robot, dans un labo, avec un jeu d'objets, ne se transfèrent souvent pas à une autre machine dans un autre contexte. Résultat : des milliers de petits jeux de données incompatibles plutôt qu'un grand, utile.

Les approches en jeu

Trois stratégies dominent en 2026. La simulation génère des millions d'essais virtuels bon marché, puis transfère la compétence apprise vers le matériel — rapide, mais l'écart entre la simulation et la réalité désordonnée est réel. La téléopération fait guider les robots par des humains pour enregistrer des démonstrations de grande qualité — excellentes données, mais lentes et coûteuses. Et les jeux de données mutualisés entre institutions visent à bâtir le corpus commun qu'aucun labo seul ne peut produire. Les efforts sérieux combinent les trois.

La leçon fait écho au reste de l'IA moderne : la ressource limitante est rarement le modèle, souvent la donnée. Les équipes qui perceront l'apprentissage robotique scalable et transférable — et non celles au matériel le plus clinquant — sont les plus susceptibles de définir la prochaine décennie de la robotique.