Sprachmodelle wie bei KI-Chatbots: Google trainiert neue Roboter-Generation

Die Suche nach hilfreichen Robotern war schon immer eine Herkulesaufgabe, denn ein Roboter, der allgemeine Aufgaben in der Welt erledigen kann, muss in der Lage sein, komplexe, abstrakte Aufgaben in äußerst variablen Umgebungen zu bewältigen – insbesondere in solchen, die er noch nie zuvor gesehen hat.

Robotics Transformer 2 oder RT-2 ist die neue Version dessen, was Google als Vision-Language-Action-Modell (VLA) bezeichnet. RT-2 ist ein Transformer-basiertes Modell, das auf Text und Bilder aus dem Web trainiert wird und Roboteraktionen direkt ausgeben kann. So wie Sprachmodelle anhand von Texten aus dem Web trainiert werden, um allgemeine Ideen und Konzepte zu lernen, lehrt RT-2 Roboter mit Hilfe von Webdaten, visuelle und sprachliche Muster besser zu erkennen, um Anweisungen zu interpretieren und daraus abzuleiten, welche Objekte für die Anfrage am besten geeignet sind.

Im Unterschied zu Chatbots benötigen Roboter jedoch so etwas wie eine “Erdung”, sie müssen die Umstände der realen Welt mit ihren Fähigkeiten verknüpfen. Bei ihrer Ausbildung geht es nicht nur darum, beispielsweise alles zu lernen, was man über einen Apfel wissen muss: Wie er wächst, welche physikalischen Eigenschaften er hat oder sogar, dass einer angeblich auf Sir Isaac Newtons Kopf gelandet ist. Ein Roboter muss in der Lage sein, einen Apfel im Kontext zu erkennen, ihn von einer roten Kugel zu unterscheiden, zu verstehen, wie er aussieht, und vor allem wissen, wie er ihn aufnimmt.

-> Weiterlesen auf heise.de <-