Humanoide Roboter – Warum KI jetzt einen Körper bekommt

Bild mit KI erzeugt

Stell dir vor, du fragst eine KI nicht mehr, wie man den Luftfilter im Auto wechselt – sondern sie macht es einfach selbst. Genau um diese Verschiebung geht es in einem ZEIT-Wissen-Artikel: Weg von rein digitalen Chatbots, hin zu Maschinen, die sehen, greifen, laufen und handeln können.

Der Text startet mit einer Szene aus der jüngeren KI-Geschichte: OpenAI baute eine Roboterhand mit vielen Gelenken, die lernen sollte, einen Zauberwürfel einhändig zu lösen. Trainiert wurde das Ganze nicht an echten Würfeln, sondern in einer Simulation – per Reinforcement Learning, also über Belohnung und Bestrafungspunkte. In der Praxis klappte es erstaunlich oft. Aber der Preis war absurd: Das Training war extrem energiehungrig und dauerte lange. Am Ende wurde das Projekt gestoppt – und OpenAI fokussierte sich stattdessen auf ChatGPT.

Genau dieser Erfolg von ChatGPT & Co. ist der Funke, der die Robotik gerade wieder anzündet. Denn die Idee ist verführerisch: Nimm die sprachgewaltige KI aus dem Chatfenster und steck sie in einen Körper. Dann könnte aus „Antworten geben“ ein „Dinge erledigen“ werden.

„Embodied Cognition“ (Verkörperte Kognition): Intelligenz braucht Hände, Augen und Bewegung

Im Zentrum steht das Forschungsfeld der verkörperten Kognition. Die (zugespitzte) Grundannahme: Wirklich allgemeine Intelligenz entsteht nicht nur aus Text und Daten, sondern braucht einen Körper, der die Welt aktiv erkundet. Menschen sind nicht nur klug, weil sie denken – sondern weil sie über Jahre hinweg die Welt anfassen, ausprobieren, scheitern, korrigieren.

Und genau da liegt die große Hoffnung: Wenn Chatbots schon so gut in Sprache sind, könnten sie als „Denkorgan“ für Humanoide dienen. Das würde Roboter vom jahrelangen „Demo-Status“ (Roboterfußball, wackelige Prototypen) in Richtung Alltag schieben: Küche, Werkstatt, Lager, vielleicht sogar Haushalt.

Der Artikel nennt Beispiele aus der aktuellen Welle: Firmen zeigen humanoide Roboter als Helfer, die einfache Aufgaben erledigen – vom Servieren bis zum Aufräumen. Noch ist das eher Showroom als Baumarktregal. Aber die Frage steht im Raum: Könnte es auch in der Robotik so etwas geben wie einen „ChatGPT-Schock“ – einen plötzlichen Sprung, der alle überrascht?

Im Berliner Labor zeigt sich: ChatGPT kann reden – aber mit der Welt hapert’s

Dann wird es sehr konkret: In Berlin wird Roboterintelligenz nicht mit Smalltalk getestet, sondern mit einem kniffligen Mechanismus – einer Art „Lockbox“, also einem Puzzle-Tresor mit Schiebern und Rädern, der nur mit der richtigen Reihenfolge aufgeht. Solche Aufgaben nutzt man sonst, um Tierintelligenz zu vergleichen.

Ein Roboterarm schaut mit Kamera auf das System, und ein großes Sprach-/Bildmodell soll beim Lösen helfen. Dabei zeigt sich ein zentrales Problem: Diese Systeme können oft nicht zuverlässig kleine Veränderungen in der Szene erkennen. Für viele Bildaufgaben reicht es, Muster grob zuzuordnen („das ist der Eiffelturm“). Aber für Robotik ist entscheidend, ob ein Riegel gerade wirklich um ein paar Zentimeter verschoben wurde. Genau dieses „präzise Welt-Tracking“ ist für heutige Vision-Language-Modelle schwierig.

Der Roboter schafft es zwar häufig, die Box zu öffnen – aber oft eher durch Ausprobieren als durch echtes Verstehen.

Der harte Befund: Die KI ist am Anfang okay – aber sie lernt nicht dazu

Besonders spannend ist der Vergleich: In einem Experiment wurden verschiedene KI-„Gehirne“ gegeneinander getestet und mit Menschen verglichen. Das Ergebnis wirkt wie ein Realitätscheck für den Hype: Am Anfang sind die KIs ungefähr auf menschlichem Niveau und lösen die Aufgabe in vielen Fällen. Aber dann passiert das, was man von Menschen erwartet – und von den Modellen eben nicht: Menschen werden schnell besser, merken sich Muster, bauen Strategien auf. Die KIs bleiben dagegen eher beim Herumprobieren. Nach vielen Wiederholungen sind sie nicht deutlich schlauer als zuvor.

Die zugespitzte Pointe des Artikels: Selbst Tiere mit winzigen Gehirnen können bei solchen Aufgaben oft effizienter lernen als ein großes Modell, das ansonsten „so klug wirkt“.

Zwei Wege aus der Sackgasse: „Mehr Daten“ vs. „mehr Abstraktion“

Wie kommt man da raus? Der Artikel skizziert zwei konkurrierende Richtungen:

  1. Noch mehr Daten (und mehr Simulation):
    Die Idee: Wenn Modelle mit gigantischen Mengen an Videos und Szenen trainiert werden, bekommen sie ein besseres „Bauchgefühl“ für die physische Welt. Das ähnelt dem Prinzip großer Sprachmodelle – nur eben für Bewegung, Objekte, Alltagshandlungen.

  2. Mehr Abstraktion (weniger Daten, mehr Regeln/Annahmen):
    Der Berliner Ansatz setzt stärker darauf, Robotern Grundhypothesen über die Welt beizubringen. Beispiel: Eine Schublade bewegt sich typischerweise nur entlang einer Achse. Wenn der Roboter das „weiß“, muss er nicht Millionen Clips sehen, um Schubladen zu verstehen – er kann viel schneller handeln. Das ist extrem dateneffizient und spart Ressourcen.

Welche Route am Ende gewinnt (oder ob beide zusammenwachsen), ist offen. Klar ist nur: Für echte Roboter im Alltag reicht es nicht, dass eine KI eloquent ist. Sie muss robust wahrnehmen, zielgerichtet handeln und aus Erfahrung lernen – ohne dass jedes Training ein Energie-Monster wird.

Der Schlussakkord: Robotik ist wieder „heiß“

Zum Ende hin deutet der Artikel an, dass auch alte Player wieder aufwachen: Robotik wird neu priorisiert, es gibt neue Netzwerke und Institute, und selbst OpenAI wirkt, als würde das Thema wieder stärker anziehen. Der Subtext ist deutlich: Die nächste große KI-Welle könnte weniger im Chatfenster passieren – und mehr auf zwei Beinen, mit Greifhänden und Kameras.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert