Eén brein, vele lichamen: de race om robotfundamentmodellen

Decennialang was een robot nooit slimmer dan de ene taak die hij geprogrammeerd kreeg te herhalen. Hem iets nieuws leren betekende maanden handmatig programmeren. In 2026 stort dat uitgangspunt in, dankzij een snel opkomend idee dat de sector nu „fysieke AI" noemt: in plaats van voor elke klus een nieuw programma te schrijven, train je één groot model dat kan zien, redeneren en handelen — en plaats je het vervolgens in heel verschillende machines.

Van chatbot naar „vision-language-action"

De doorbraak is een nieuwe klasse modellen, bekend als vision-language-action, of VLA. Waar een chatbot tekst in tekst omzet, zet een VLA camerabeelden en een gesproken instructie om in motorcommando's. Gemini Robotics van Google DeepMind, gebouwd op zijn Gemini-model, koppelt een VLA aan een apart systeem voor „belichaamd redeneren" voor ruimtelijk inzicht; het bedrijf meldt de prestaties van rivaliserende modellen op een generalisatietest meer dan verdubbeld te hebben, en bracht sindsdien een versie uit die compact genoeg is om op de robot zelf te draaien.

NVIDIA duwt hetzelfde idee als een open platform. Zijn Isaac GR00T, gepresenteerd als het eerste open fundamentmodel voor humanoïde robots, gebruikt een dubbel systeem: één deel interpreteert het tafereel en de opdracht, het andere genereert in realtime vloeiende beweging. Om het te voeden, zegt NVIDIA 780.000 synthetische trainingsruns te hebben gegenereerd — het equivalent van ongeveer negen maanden menselijke demonstraties — in zo'n elf uur simulatie.

Het geld volgt het model

Investeerders hebben het gemerkt. Physical Intelligence, een twee jaar oude start-up uit San Francisco achter de open „generalistische policy" π0, haalde naar verluidt 600 miljoen dollar op bij een waardering van 5,6 miljard en zou begin 2026 in gesprek zijn voor zo'n miljard extra, bij een waardering van meer dan 11 miljard, met volgens de pers Jeff Bezos en OpenAI onder de geldschieters. De belofte is verleidelijk: één model dat leert was te vouwen, onderdelen te sorteren en een tafel af te ruimen, en die vaardigheden vervolgens overdraagt op lichamen die het nooit heeft aangestuurd.

De kanttekeningen zijn reëel. Deze modellen struikelen nog over onbekende voorwerpen, vergen enorme rekenkracht en leunen zwaar op gesimuleerde data die slecht aansluiten bij een rommelige keuken. Maar de richting is duidelijk. Het moeilijke probleem in de robotica verschuift: het gaat niet langer om betere ledematen, maar om een beter brein — en voor het eerst lijkt dat brein op iets wat je kunt downloaden.

Eén brein, vele lichamen: de race om robotfundamentmodellen

Van chatbot naar „vision-language-action"

Het geld volgt het model

Sources