Cómo Google y UCLA están incitando a la inteligencia artificial a elegir la siguiente acción para obtener una mejor respuesta
Google y UCLA están impulsando la IA para tomar mejores decisiones.

El programa AVIS de Google puede seleccionar dinámicamente una serie de pasos a realizar, como identificar un objeto en una imagen y luego buscar información sobre ese objeto.
Los programas de inteligencia artificial han impresionado al público con la forma en que producen una respuesta sin importar la consulta. Sin embargo, la calidad de la respuesta a menudo queda corta porque programas como ChatGPT simplemente responden a la entrada de texto, sin un conocimiento particular sobre el tema, y pueden producir falsedades directas como resultado.
Un reciente proyecto de investigación de la Universidad de California y Google permite a los grandes modelos de lenguaje, como Chat-GPT, seleccionar una herramienta específica –ya sea una búsqueda web o reconocimiento óptico de caracteres– que luego puede buscar una respuesta en múltiples pasos desde una fuente alternativa.
También: Investigadores afirman que ChatGPT miente sobre resultados científicos y necesita alternativas de código abierto
El resultado es una forma primitiva de “planificación” y “razonamiento”, una forma en que un programa determina en cada momento cómo abordar una pregunta y, una vez abordada, si la solución fue satisfactoria.
- Estas nuevas aspiradoras Roborock de gama media podrían hacer que r...
- Reproducir los créditos Este es el mejor proyector para el hogar qu...
- La startup de bicicletas eléctricas en quiebra VanMoof encuentra co...
El esfuerzo, llamado AVIS (“Búsqueda Autónoma de Información Visual con Grandes Modelos de Lenguaje”) por Ziniu Hu y sus colegas de la Universidad de California en Los Ángeles, y colaboradores de Google Research, se encuentra publicado en el servidor de preimpresión arXiv.
AVIS se basa en el Modelo de Lenguaje de Rutas de Google, o PaLM, un gran modelo de lenguaje que ha generado múltiples versiones adaptadas a una variedad de enfoques y experimentos en IA generativa.
AVIS se encuentra en la tradición de investigaciones recientes que buscan convertir los programas de aprendizaje automático en “agentes” que actúan de manera más amplia que simplemente producir una predicción de la siguiente palabra. Incluyen BabyAGI, un “sistema de gestión de tareas potenciado por IA” introducido este año, y PaLM*E, introducido este año por investigadores de Google, que puede instruir a un robot a seguir una serie de acciones en el espacio físico.
El gran avance del programa AVIS es que, a diferencia de BabyAGI y PaLM*E, no sigue un curso de acción preestablecido. En cambio, utiliza un algoritmo llamado “Planificador” que selecciona entre una opción de acciones sobre la marcha, a medida que surge cada situación. Esas elecciones se generan a medida que el modelo de lenguaje evalúa el texto solicitado, dividiéndolo en subpreguntas y correlacionando esas subpreguntas con un conjunto de acciones posibles.
Incluso la elección de acciones es un enfoque novedoso aquí.
También: Google actualiza Vector AI para permitir a las empresas entrenar a GenAI con sus propios datos
Hu y sus colegas realizaron una encuesta a 10 personas que tuvieron que responder a los mismos tipos de preguntas, como “¿Cuál es el nombre del insecto?” mostrado en una imagen. Se registraron sus elecciones de herramientas, como la búsqueda de imágenes de Google.
Los autores luego tomaron esos ejemplos de elecciones humanas y los colocaron en lo que ellos llaman un “gráfico de transición”, un modelo de cómo los humanos eligen herramientas en cada momento.
El Planificador luego utiliza el gráfico, eligiendo entre “ejemplos relevantes en contexto […] que se ensamblan a partir de las decisiones previamente tomadas por los humanos”. Es una forma de hacer que el programa se modele a sí mismo en las elecciones de los humanos, utilizando ejemplos pasados como entrada adicional para el modelo de lenguaje.
También: El enfoque de múltiples vistas de la IA está llegando y será poderoso
Para actuar como una verificación de sus elecciones, el programa AVIS tiene un segundo algoritmo, un “Razonador”, que evalúa qué tan útil fue cada herramienta después de que el modelo de lenguaje la probó, antes de decidir si enviar una respuesta a la pregunta original. Si la elección de herramienta en particular no fue útil, el Razonador enviará al Planificador de vuelta a la mesa de dibujo.
El flujo de trabajo total de AVIS consiste en formular preguntas, seleccionar herramientas y luego usar el Razonador para verificar si la herramienta ha producido una respuesta satisfactoria.
Hu y su equipo probaron AVIS en algunas pruebas de referencia automatizadas estándar de respuesta a preguntas visuales, como OK-VQA, introducida en 2019 por investigadores de la Universidad Carnegie Mellon. En esa prueba, AVIS logró “una precisión del 60.2, superior a la mayoría de los métodos existentes adaptados para este conjunto de datos”, informan. En otras palabras, el enfoque general aquí parece superar a los métodos que han sido cuidadosamente adaptados para ajustarse a una tarea específica, un ejemplo de la creciente generalidad de la IA de aprendizaje automático.
También: La IA generativa encabeza la lista de las 25 tecnologías emergentes de Gartner para 2023
En conclusión, Hu y su equipo señalan que esperan ir más allá de las preguntas de imágenes en trabajos futuros. “Nuestro objetivo es ampliar nuestro marco dinámico de toma de decisiones impulsado por LLM para abordar otras tareas de razonamiento”, escriben.