El RT-2 de DeepMind convierte el control de robots en una cuestión de chat de IA

DeepMind's RT-2 turns robot control into an AI chat issue.

La versión 2 del transformador de robótica de DeepMind es un modelo de lenguaje grande que se entrena no solo en imágenes y texto, sino también en datos de coordenadas del movimiento de un robot en el espacio. Una vez entrenado, se le puede presentar una imagen y un comando y puede generar tanto un plan de acción como las coordenadas necesarias para completar el comando.

Un elemento clave del futuro de la robótica será cómo los humanos pueden instruir a las máquinas en tiempo real. Pero qué tipo de instrucción es una pregunta abierta en la robótica.

Nueva investigación realizada por la unidad DeepMind de Google propone que un modelo de lenguaje grande, similar a ChatGPT de OpenAI, al recibir una asociación entre palabras e imágenes, y un poco de datos registrados de un robot, crea una forma de escribir instrucciones a una máquina de manera tan simple como se conversa con ChatGPT.

También: Los mejores chatbots de IA

El artículo de DeepMind, “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,” escrito por Anthony Brohan y colegas, y publicado en un blog, presenta a RT-2, lo que llama un modelo “visión-lenguaje-acción”. (También hay un repositorio de GitHub complementario). El acrónimo RT significa “transformador de robótica”.

El desafío es cómo lograr que un programa que consume imágenes y texto produzca como resultado una serie de acciones que sean significativas para un robot. “Para permitir que los modelos de visión-lenguaje controlen un robot, deben entrenarse para generar acciones”, como lo expresan los autores.

La idea clave del trabajo es que “representamos las acciones del robot como otro lenguaje”, escriben Brohan y su equipo. Esto significa que las acciones registradas de un robot pueden convertirse en la fuente de nuevas acciones de la misma manera en que entrenar con texto de internet hace que ChatGPT genere nuevo texto.

También: Este perro del ejército es parte de un cerebro más grande para la tecnología de interfaz cerebro-máquina

Las acciones del robot se codifican en el transformador de robótica como coordenadas en el espacio, conocidas como grados de libertad.

“El espacio de acción consiste en desplazamiento posicional y rotacional de 6 grados de libertad del efector final del robot, así como el nivel de extensión de la pinza del robot y un comando discreto especial para terminar el episodio, que debe ser activado por la política para señalar la finalización exitosa”.

Los tokens se alimentan al programa durante el entrenamiento en la misma frase que los tokens de lenguaje de palabras y los tokens de imágenes. Las coordenadas del robot se convierten en otra parte de una frase.

Las acciones del robot se codifican en el transformador de robótica como coordenadas en el espacio, conocidas como grados de libertad. Los tokens se alimentan al programa durante el entrenamiento en la misma frase que los tokens de lenguaje de palabras y los tokens de imágenes. Las coordenadas del robot se convierten en otra parte de una frase.

El uso de coordenadas es un hito significativo. Por lo general, la física de los robots se especifica mediante programación de bajo nivel que es diferente de las redes neuronales de lenguaje e imagen. Aquí, todo está mezclado.

El programa RT se basa en dos esfuerzos previos de Google, llamados PaLI-X y PaLM-E, que son modelos de visión-lenguaje. Como su nombre lo indica, los modelos de visión-lenguaje son programas que mezclan datos de texto con datos de imágenes, de modo que el programa desarrolla la capacidad de relacionar ambos, como asignar subtítulos a imágenes o responder una pregunta sobre lo que hay en una imagen.

También: ¿Qué es Google Bard? Aquí tienes todo lo que necesitas saber

Mientras PaLI-X se enfoca solo en tareas de imágenes y texto, PaLM-E, presentado recientemente por Google, lleva un paso más allá al utilizar el lenguaje y la imagen para guiar a un robot generando comandos como salida. RT va más allá de PaLM-E al generar no solo el plan de acción, sino también las coordenadas de movimiento en el espacio.

RT-2 “es un avance significativo”, dijo Sergey Levine, profesor asociado en el departamento de ingeniería eléctrica de la Universidad de California en Berkeley, en una correspondencia por correo electrónico con ENBLE. “Básicamente, RT-2 se puede considerar como una versión de extremo a extremo de lo que logran PaLM-E + RT1, en un solo modelo”, dijo Levine, quien trabajó en el proyecto PaLM-E. “Esto hace que la transferencia de conocimiento a escala de internet a los robots sea más directa y puede proporcionar una clase de enfoques más escalables en el futuro”.

En el caso de RT-2, es un sucesor de la versión del año pasado, RT-1. La diferencia entre RT-1 y RT-2 es que el primer RT se basaba en un programa de lenguaje y visión pequeño, EfficientNet-B3. Pero RT-2 se basa en PaLI-X y PaLM-E, modelos de lenguaje grandes. Esto significa que tienen muchos más pesos neuronales o parámetros, lo que tiende a hacer que los programas sean más competentes. PaLI-X tiene 5 mil millones de parámetros en una versión y 55 mil millones en otra. PaLM-E tiene 12 mil millones.

El entrenamiento de RT-2 incorpora combinaciones de imágenes y texto, y acciones extraídas de datos de robots grabados.

Una vez que se ha entrenado RT-2, los autores realizan una serie de pruebas que requieren que el robot recoja cosas, las mueva, las suelte, etc., todo escribiendo comandos en lenguaje natural y una imagen en el indicador, al igual que pedirle a ChatGPT que componga algo.

También: 7 consejos avanzados para escribir comandos en ChatGPT que debes conocer

Por ejemplo, cuando se presenta un indicador en el que la imagen muestra una mesa con un montón de latas y una barra de caramelos:

Dado  Instrucción: Elija el objeto que es diferente de todos los demás objetos

El robot generará una acción acompañada de coordenadas para recoger la barra de caramelos:

Predicción: Plan: recoger rxbar chocolate. Acción: 1 128 129 125 131 125 128 127

Los números de tres dígitos son claves de un libro de códigos de movimientos de coordenadas.

RT-2, dado un indicador, generará tanto un plan de acción como una serie de coordenadas en un espaciador para llevar a cabo esas acciones.

Un aspecto clave es que muchos elementos de las tareas pueden ser objetos nuevos, nunca antes vistos. “RT-2 es capaz de generalizar a una variedad de situaciones del mundo real que requieren razonamiento, comprensión de símbolos y reconocimiento humano”, afirman.

“Observamos varias capacidades emergentes” como resultado. “El modelo es capaz de reutilizar habilidades de recoger y colocar aprendidas a partir de datos de robots para colocar objetos cerca de ubicaciones semánticamente indicadas, como números o iconos específicos, a pesar de que esas señales no estén presentes en los datos de los robots. El modelo también puede interpretar relaciones entre objetos para determinar qué objeto recoger y dónde colocarlo, a pesar de que no se proporcionen tales relaciones en las demostraciones del robot.”

También: 4 formas de detectar la exageración de la IA generativa frente a la realidad

En pruebas contra RT-1 y otros programas, RT-2 utilizando PaLI-X o PaLM-E es mucho más competente para completar tareas, logrando en promedio alrededor del 60% de las tareas con objetos nunca antes vistos, en comparación con menos del 50% de los programas anteriores.

También hay diferencias entre PaLI-X, que no está desarrollado específicamente para robots, y PaLM-E, que sí lo está. “También observamos que si bien el modelo basado en PaLI-X más grande da mejores resultados en comprensión de símbolos, razonamiento y reconocimiento de personas en promedio, el modelo más pequeño basado en PaLM-E tiene ventaja en tareas que implican razonamiento matemático”. Los autores atribuyen esa ventaja a “la diferente mezcla de pre-entrenamiento utilizada en PaLM-E, lo que resulta en un modelo más capaz de realizar cálculos matemáticos que el modelo pre-entrenado principalmente visualmente de PaLI-X”.

Los autores concluyen que el uso de programas de visión-lenguaje-acción puede “poner el campo del aprendizaje de robots en una posición estratégica para mejorar aún más con los avances en otros campos”, de modo que el enfoque pueda beneficiarse a medida que el manejo del lenguaje e imagen mejoren.

También: Informe sobre el estado de la tecnología de la información: la IA generativa pronto se popularizará, según el 90% de los líderes de TI

Hay una advertencia, sin embargo, y se refiere a la idea de control del robot en tiempo real. Los modelos de lenguaje grandes requieren mucha capacidad de cálculo, lo que se convierte en un problema para obtener respuestas.

“El costo de cálculo de estos modelos es alto y, a medida que se aplican estos métodos en entornos que demandan control de alta frecuencia, la inferencia en tiempo real puede convertirse en un cuello de botella importante”, escriben. “Una dirección emocionante para futuras investigaciones es explorar técnicas de cuantificación y destilación que podrían permitir que estos modelos se ejecuten a velocidades más altas o en hardware de menor costo”.