Uh oh, ahora la IA es mejor que tú en la ingeniería de instrucciones
La IA ahora es mejor en ingeniería de instrucciones que tú
![](https://www.zdnet.com/a/img/resize/f2bad62fe90d272fdcc2848b1617b45b0db15a35/2023/09/15/bd3ca25f-a5c6-4467-953c-85377fbd3dd2/300702-a-computer-keyboard-as-big-as-a-football-field-wit-xl-1024-v1-0.png?auto=webp&precrop=1024,688,x0,y0&width=1280)
Acabas de descubrir tu próximo movimiento profesional: convertirte en un experto en ingeniería de indicaciones, el arte de crear la mejor frase de entrada para un programa de inteligencia artificial generativa como ChatGPT de OpenAI.
No tan rápido: el arte de la indicación podría ser tomado por la automatización a través de modelos de lenguaje grandes.
También: 7 consejos avanzados para escribir indicaciones en ChatGPT que debes conocer
En un documento publicado la semana pasada por la unidad DeepMind de Google, los investigadores Chengrun Yang y su equipo crearon un programa llamado OPRO que hace que los modelos de lenguaje grandes prueben diferentes indicaciones hasta que encuentren una que se acerque más a resolver una tarea. Es una forma de automatizar el tipo de prueba y error que una persona haría escribiendo.
El documento de investigación, “Modelos de Lenguaje Grandes como Optimizadores”, publicado en el servidor de preimpresión arXiv, detalla un experimento sobre cómo “optimizar” cualquier cosa con un modelo de lenguaje, es decir, hacer que el programa produzca respuestas cada vez mejores, acercándose a un estado ideal.
- Estos apliques de pared Govee cube iluminarán cualquier habitación ...
- 6 herramientas de IA para potenciar tu trabajo y vida diaria
- 4 formas en que la inteligencia artificial generativa puede estimul...
Yang y su equipo decidieron, en lugar de programar explícitamente ese estado ideal, utilizar modelos de lenguaje grandes para expresar en lenguaje natural el ideal a alcanzar. Esto permite que el programa de IA se adapte a solicitudes de optimización en constante cambio para diferentes tareas.
También: Ampliando ChatGPT: ¿Pueden los complementos de chatbot de IA realmente cambiar el juego?
Como escriben Yang y los coautores, la flexibilidad en el manejo del lenguaje de los modelos de lenguaje grandes “plantea una nueva posibilidad para la optimización: en lugar de definir formalmente el problema de optimización y derivar el paso de actualización con un solucionador programado, describimos el problema de optimización en lenguaje natural, y luego instruimos al modelo de lenguaje grande a generar iterativamente nuevas soluciones basadas en la descripción del problema y las soluciones encontradas anteriormente.”
En el centro del programa OPRO se encuentra un algoritmo llamado “Meta-Prompt”. Meta-Prompt revisa las indicaciones anteriores y evalúa cómo estas indicaciones funcionaron para resolver un problema dado. Luego, genera múltiples indicaciones que puede probar para encontrar la mejor.
La estructura de Meta-Prompt de DeepMind
De hecho, Meta-Prompt es como una persona sentada frente al teclado escribiendo muchas nuevas posibilidades basadas en lo que ha visto funcionar y no funcionar antes. Meta-Prompt se puede conectar a cualquier modelo de lenguaje grande para producir las indicaciones y respuestas reales. Los autores probaron varios modelos de lenguaje grandes, incluyendo GPT-3 y GPT-4, y el modelo de lenguaje PaLM 2 de Google.
Los autores comienzan probando OPRO en problemas sencillos. Uno de ellos es la regresión lineal, en la que el programa se le indica que “minimice una función”, es decir, encuentre un par de números que sean similares a ejemplos anteriores pero que produzcan un valor numérico más pequeño como resultado.
También: Cómo acceder a miles de audiolibros gratuitos, gracias a la IA de Microsoft y Project Gutenberg
La idea es que el modelo de lenguaje sea capaz de encontrar soluciones para un problema matemático simplemente mediante la indicación, algo que normalmente se abordaría con un programa diseñado específicamente para ese problema, conocido como “solucionador”. Como escriben los autores, “los modelos de lenguaje grandes capturan adecuadamente las direcciones de optimización en problemas a pequeña escala basándose únicamente en la trayectoria de optimización pasada proporcionada en la meta-indicación”.
Resulta que el arte de escribir una buena indicación para un modelo de lenguaje grande también puede ser considerado como una tarea a ser optimizada.
Los investigadores han sabido eso durante algún tiempo. Científicos de Microsoft propusieron a principios de este año lo que llamaron “Optimización Automática de Indicaciones”. Ese enfoque edita automáticamente la escritura de la indicación para mejorarla. Yang y su equipo fueron más allá. En lugar de simplemente editar una indicación anterior para mejorarla, Meta-Prompt genera indicaciones completamente nuevas.
Como ellos lo expresan, “Cada paso de optimización en nuestro trabajo genera nuevas indicaciones que tienen como objetivo aumentar la precisión de las pruebas basándose en una trayectoria de indicaciones generadas previamente, en lugar de editar una indicación de entrada de acuerdo con comentarios en lenguaje natural o requerir que la nueva indicación siga el mismo significado semántico”.
También: Los mejores generadores de imágenes de IA: DALL-E 2 y alternativas
Después de los problemas iniciales, Yang y su equipo se propusieron ver qué tan bien Meta-Prompt puede optimizar las indicaciones.
Prueban Meta-Prompt en algunas evaluaciones de referencia donde se ha demostrado que acertar en la indicación mejora el rendimiento.
Una de ellas es “GSM8K”, introducida en 2021 por OpenAI, una serie de problemas matemáticos de nivel escolar, como “Beth hornea 4, 2 docenas de tandas de galletas en una semana. Si estas galletas se comparten entre 16 personas por igual, ¿cuántas galletas consume cada persona?”
Una segunda prueba es una derivación de BIG-bench, la prueba de razonamiento introducida el año pasado por Google y docenas de organizaciones colaboradoras. La nueva versión de los autores de Google, llamada BIG-bench Hard, introducida este año, se centra en problemas de razonamiento donde los modelos de lenguaje de gran tamaño han fallado en el pasado en lograr una precisión a nivel humano.
Los problemas de BIG-bench son “diversos”, como escribieron los autores de Google en el artículo original, “planteando problemas desde la lingüística, el desarrollo infantil, las matemáticas, el razonamiento de sentido común, la biología, la física, el sesgo social, el desarrollo de software y más allá”.
También: ¿Cómo funciona realmente ChatGPT?
Los autores comparan sus indicaciones generadas automáticamente para ambas tareas con indicaciones elaboradas “a mano”, como se ejemplifica en el trabajo de 2022 de Takeshi Kojima y su equipo en la Universidad de Tokio y Google Research.
Famosamente, Kojima y su equipo descubrieron que podían mejorar la capacidad de los modelos de lenguaje de gran tamaño en tareas como GSM8K y BIG-bench simplemente agregando la frase “Pensemos paso a paso” al comienzo de la indicación y luego una respuesta de ejemplo. Encontraron que esa frase era suficiente para inducir pasos de “cadena de pensamiento” por parte del modelo de lenguaje.
Con Meta-Prompt, Yang y su equipo descubren que pueden generar automáticamente indicaciones con frases similares a “Pensemos paso a paso”, pero mejores, o más óptimas, en su lenguaje.
Un ejemplo de “meta-indicación” utilizada para indicar al modelo de lenguaje que genere indicaciones más óptimas. El texto naranja es la meta-indicación, instrucciones que indican al modelo de lenguaje cómo debe construir una indicación. El texto azul son algunos ejemplos. Y el texto morado describe la tarea de optimización y el formato de salida.
A veces, las indicaciones generadas automáticamente se vuelven muy intrincadas. Por ejemplo, en la tarea de razonamiento de BIG-bench llamada “temporal_sequence”, se proporcionan algunos datos de un escenario y luego se pregunta a un modelo de lenguaje a qué hora ocurrió algo, como:
Hoy, Richard fue a la piscina. ¿Entre qué horas podría haber ido?
Sabemos que: Richard se despertó a las 7 am. Samantha vio a Richard caminando en el jardín de 7 am a 8 am. Mark vio a Richard haciendo ejercicio en el gimnasio de 8 am a 9 am. David vio a Richard asistiendo a clases en la escuela de 9 am a 10 am. Andrew vio a Richard esperando en la estación de tren de 10 am a 4 pm. La piscina cerró después de las 5 pm. ¿Entre qué horas podría haber ido Richard a la piscina?
Yang y su equipo descubrieron que Meta-prompt funcionó mejor al compilar indicaciones muy complejas como la siguiente:
“Para determinar el período de tiempo posible en el que una persona fue a un lugar, primero identifique todos los períodos de tiempo en los que no se vio a la persona haciendo otra cosa y el lugar estaba abierto. Luego, descarte cualquier período de tiempo durante el cual se vio a la persona haciendo otra cosa. Los períodos de tiempo restantes son los momentos posibles en los que la persona podría haber ido al lugar.”
En general, encontraron que “nuestras indicaciones optimizadas superan en rendimiento a las indicaciones diseñadas por humanos en GSM8K y Big-Bench Hard en un margen significativo, a veces más del 50%”.
Sin embargo, todavía queda trabajo por hacer para optimizar el algoritmo que optimiza las indicaciones.
También: 6 herramientas de IA para potenciar tu trabajo y tu vida cotidiana
En particular, Meta-Prompt de OPRO no es capaz de extrapolar a partir de ejemplos negativos. “Intentamos incluir casos de error en la meta-indicación en lugar de muestrear al azar del conjunto de entrenamiento en cada paso de optimización”, observan, “pero los resultados son similares, lo que indica que los casos de error por sí solos no son lo suficientemente informativos para que el optimizador LLM comprenda la causa de la predicción incorrecta”.
Quizás, entonces, tu próximo trabajo de programación sea descubrir cómo indicar de la mejor manera al Meta-Prompt para crear mejores indicaciones.