Los científicos de Alexa de Amazon demuestran que un AI más grande no siempre es mejor

Los científicos de Alexa de Amazon demuestran que tamaño AI no siempre es mejor

Una tarea sencilla, reducir todas las palabras de un artículo a una secuencia compacta de palabras que explique el punto central del artículo, es uno de los desafíos de referencia en el aprendizaje profundo. Aquí es donde los científicos de inteligencia artificial de Amazon’s Alexa AI dicen que pueden superar los esfuerzos de programas informáticos mucho más grandes de DeepMind, Google, Meta, OpenAI y otros. El trabajo tiene implicancias en el uso de energía y en la eficiencia de la huella de carbono.

Dos líneas de investigación dominan fuertemente el aprendizaje automático en estos días: hacer que los programas sean más generales en su enfoque (para manejar cualquier tarea potencial) y hacerlos más grandes.

Las redes neuronales más grandes, medidas por sus parámetros o “pesos”, tienen más de medio billón de pesos. Modelos como el Modelo de Lenguaje de Pathways de Google, o PaLM, y el Megatron-Turing NLG 530B de Nvidia y Microsoft, están entre los más grandes, con 540 mil millones y 530 mil millones de parámetros, respectivamente. En general, cuanto más parámetros tiene un programa, mayor es la cantidad de potencia informática que consume para entrenar y también para ejecutar predicciones, lo que se llama inferencia.

Inteligencia Artificial

  • 7 consejos avanzados para escribir comandos de ChatGPT que necesitas saber
  • Los 10 mejores complementos de ChatGPT de 2023 (y cómo aprovecharlos al máximo)
  • He probado muchas herramientas de IA para el trabajo. Estos son mis 5 favoritos hasta ahora
  • ¿Humano o bot? Este juego de prueba de Turing pone a prueba tus habilidades para detectar IA

Los expertos en IA insisten en que el número de parámetros definitivamente aumentará en el futuro, hacia un billón de parámetros y más allá en un futuro no muy lejano. La cifra de 100 billones es una especie de objetivo mágico porque se cree que es el número de sinapsis en el cerebro humano, por lo que sirve como un punto de referencia.

También: Nvidia aclara la afirmación de escala de Megatron-Turing

Al mismo tiempo, hay un fervor por hacer redes neuronales profundas que sean lo más generales posible. Durante gran parte de la historia del aprendizaje automático en los últimos 40 años, los programas se especializaban en tareas como el reconocimiento de imágenes o el reconocimiento de voz. Eso ha cambiado en los últimos años, con cada vez más programas que se ofrecen a ser generalistas, como el Perceiver AR de DeepMind y otro programa de DeepMind llamado Gato, que se refiere como “un agente generalista” capaz de resolver una variedad de tareas.

La tendencia a generalizar se ha reforzado con las observaciones de pioneros del aprendizaje automático como Richard Sutton, quien ha comentado que “históricamente, los modelos genéricos que son mejores para aprovechar la computación también tienden a superar eventualmente enfoques más especializados y específicos de dominio”.

También: ‘Gato’ de DeepMind es mediocre, ¿por qué lo construyeron?

Y sin embargo, hay resultados de aprendizaje profundo que a veces van en sentido contrario: de gigantes y generales a económicos y algo enfocados, si no especializados.

En contraste con esos megaesfuerzos, investigadores de Amazon revelaron la semana pasada un programa de red neuronal con solo 20 mil millones de parámetros que supera a algunos de los modelos más grandes y generales en algunas tareas importantes de aprendizaje profundo, como resumir un artículo.

En el artículo “AlexaTM 20B: Aprendizaje de pocos ejemplos usando un modelo Seq2Seq multilingüe a gran escala”, publicado la semana pasada en arXiv, el autor Saleh Soltan y sus colegas de Amazon Alexa AI muestran que 20 mil millones de parámetros son suficientes para superar a modelos más grandes como PaLM en ciertas tareas, como resumir un artículo en pocas oraciones.

Además del artículo, Soltan ha escrito una publicación de blog sobre el tema.

El trabajo de Amazon es parte de una tendencia generalizada en la literatura reciente para encontrar alternativas al aumento de tamaño. Un artículo publicado la semana pasada por Meta (dueños de Facebook e Instagram) titulado “Aprendizaje de pocos ejemplos con modelos de lenguaje mejorados con recuperación” es un buen ejemplo. Describe un modelo de lenguaje llamado Atlas que tiene solo 11 mil millones de parámetros y se entrena utilizando solo 64 puntos de datos de ejemplo.

Al igual que AlexaTM 20B, el programa Atlas supera ampliamente a PaLM, escriben los autores, incluso con solo 64 ejemplos. La clave de Atlas es combinar el modelo de lenguaje pre-entrenado con la capacidad de recuperar información de fuentes en línea, como Wikipedia, como si se llamara a un amigo para obtener la respuesta.

También: Perceiver AR de DeepMind: un paso hacia una mayor eficiencia de la IA

En el caso de AlexaTM 20B, los autores de Amazon utilizan tres ajustes para lograr sus resultados. 

Diagrama de Amazon 2022 AlexTM 20B

El primer ajuste interesante es volver a lo básico y restaurar algo que se eliminó de los modelos de lenguaje gigantes recientes. La base de AlexaTM 20B es la misma que PaLM, GPT-3 y otros, un codificador-decodificador Transformer, el enfoque pionero en 2017 por los científicos de Google Ashish Vaswani y sus colegas. 

El Transformer utiliza unidades llamadas “auto-atención” para obtener una puntuación de probabilidad de cómo se puede encontrar cada palabra en el contexto de otras palabras. Esa puntuación se utiliza para completar los espacios en blanco al predecir palabras y formar bloques de texto significativos.

En el caso de AlexaTM 20B, Soltan y sus colegas se alejan de PaLM, GPT-3 y otros descendientes gigantes del Transformer original. Esos modelos más recientes prescinden de la mitad del Transformer, lo que se llama el codificador (la parte que mapea los datos de entrada en estados ocultos para luego decodificarlos en una respuesta). En cambio, PaLM y GPT-3 fusionan la entrada con el decodificador, formando un programa simplificado que es un modelo “solo decodificador”. 

El equipo de Alexa vuelve a introducir el codificador en el programa. Afirman que tener ambos elementos ayuda a mejorar la precisión en lo que se llama “eliminación de ruido”, que consiste en reconstruir una oración original en la que algunas palabras se han omitido. 

En el modelo “solo decodificador”, la probabilidad condicional del texto predicho se basa solo en lo que vino antes. En cambio, en la versión completa de codificador-decodificador, el modelo hace una evaluación de las probabilidades en ambas direcciones: lo que vino antes de una palabra dada y lo que sigue. Esto funciona mejor en tareas donde no solo se genera el siguiente elemento en una oración, sino que también se realizan comparaciones palabra por palabra, como en tareas de traducción de un idioma a otro.

Modelos solo decodificador de Amazon 2022 AlexTM 20B

También: La gran obra de traducción multilingüe de Meta todavía se tropieza con el griego, armenio, oromo

Como escriben, “AlexaTM 20B logra un nuevo estado de arte del 82.63% en el modo sin entrenamiento en el modo de eliminación de ruido. La principal razón por la que el modo de eliminación de ruido funciona mejor para esta tarea es que en el modo de eliminación de ruido, la entrada se repite en el codificador y el decodificador, lo que permite que el modelo utilice tanto el codificador como el decodificador para encontrar la mejor respuesta”.

Lo segundo que agregan los autores es entrenar el modelo con lo que se llama “modelado de lenguaje causal”. CLM, en resumen, es la tarea que se utiliza en GPT-3 y otros Transformers solo decodificadores. Representa específicamente cada palabra como dependiente solo de las palabras que vinieron antes, una dependencia secuencial unidireccional que se entrena para generar oraciones basadas en una indicación inicial.

Los autores combinan la tarea de eliminación de ruido con la tarea causal en el entrenamiento de AlexaTM 20B, asignando el 80% de la actividad de entrenamiento a la eliminación de ruido y el restante quinto al modelado causal.

La virtud de agregar el modelado causal es que, al igual que GPT-3, ayuda en lo que se llama “aprendizaje en contexto”. El aprendizaje en contexto es un enfoque amplio que cubre cualquier modelo capaz de realizar aprendizaje sin entrenamiento o con pocas indicaciones. Esto significa que el programa no tiene conocimiento específico del dominio; solo se le da un ejemplo y el programa realiza una predicción acorde con el tipo de pregunta planteada.

Debido a ese régimen de entrenamiento híbrido, AlexTM 20B no solo se desempeña bien en la reconstrucción de oraciones, sino que también es “el primer modelo sec2seq multilingüe capaz de aprendizaje en contexto”, escriben los autores. Es un programa híbrido, en otras palabras.

El tercer ajuste interesante de Soltan y sus colegas es aumentar enormemente la cantidad de puntos de datos que se ingresan al programa durante el entrenamiento. Durante el entrenamiento, ingresan un billón de “tokens”, piezas individuales de datos, lo que es más de tres veces la cantidad que recibe GPT-3. Los conjuntos de datos de entrenamiento en este caso consisten en entradas de Wikipedia y también en lo que se llama mC4, un conjunto de datos para entrenar Transformers introducido el año pasado por Linting Xue y sus colegas en Google. Se basa en texto en lenguaje natural en 101 idiomas de fuentes de datos web rastreadas en Common Crawl.

También: ¿Sentiente? LaMDA de Google se siente como un chatbot típico

El uso de una gran cantidad de datos de entrenamiento de entrada es uno de los elementos clave del trabajo de Alexa. Soltan y su equipo decidieron seguir ese camino, escriben, basándose en una observación realizada por Jordan Hoffman y sus colegas en OpenAI, como se publicó en un artículo el pasado marzo, “Entrenamiento de modelos de lenguaje grandes óptimos en cómputo”.

En ese artículo, Hoffman y sus colegas concluyen que “los modelos de lenguaje grandes actuales están significativamente subentrenados, como consecuencia del enfoque reciente en escalar los modelos de lenguaje mientras se mantiene constante la cantidad de datos de entrenamiento”. Al tomar una amplia gama de modelos de lenguaje de diferentes tamaños y probarlos todos con cantidades variables de tokens de entrada, los autores concluyeron que “para un entrenamiento óptimo en cómputo, el tamaño del modelo y el número de tokens de entrenamiento deben escalar de manera igual”.

Por lo tanto, AlexaTM 20B no solo es parsimonioso, sino que tiene como objetivo demostrar que menos parámetros pueden equilibrarse con más datos de entrenamiento para lograr un rendimiento convincente.

ENBLE Recomienda

¿Qué Amazon Echo comprar? Cómo elegir el mejor dispositivo Alexa para tus necesidades

Amazon ahora tiene todo un ejército de dispositivos Echo. Algunos te escuchan. Algunos también te observan. ¿Cuál deberías elegir? Te ayudamos a decidir.

Por cierto, los autores también se esfuerzan por dar forma a la mayoría de la entrada como texto natural hablado, eliminando la capitalización y la puntuación, lo cual es importante en un entorno de Alexa. “Incluimos más texto hablado que escrito para satisfacer nuestros casos de uso internos”, escriben.

Algunas de las tecnologías del equipo de IA de Alexa se utilizan en los productos de Alexa, aunque Amazon le dijo a ENBLE en un correo electrónico que el grupo “también hace investigación de mirada al futuro”. El modelo AlexaTM 20B, dijo Amazon, “es principalmente un proyecto de investigación en esta etapa”.

Agregó Amazon, “Es posible que este modelo se implemente en producción en el futuro, pero solo se utilizará la versión modificada con salvaguardias para desarrollar funciones y productos de Alexa”.

También: El enorme trabajo de traducción de idiomas de Google identifica dónde comete errores

Los autores entrenan el modelo AlexaTM 20B “durante 120 días en 128 GPUs Nvidia A100 para un total de 500k actualizaciones con un tamaño de lote acumulado de 2 millones de tokens (un total de 1 billón de actualizaciones de tokens)”, escriben.

Eso puede sonar mucho, pero es menos que PaLM, que fue entrenado por Google en dos de sus Pods TPU de cuarta generación, que consisten en 3,072 chips TPU en cada Pod, que están conectados a 768 computadoras host.

Como señalaron los autores de Google Aakanksha Chowdhery y su equipo en abril, eso fue “la configuración de TPU más grande descrita hasta la fecha”.

Los resultados se detallan en resultados de pruebas específicas. Soltan y su equipo hacen especial hincapié en su éxito en tareas particulares en lugar de en todas las tareas concebibles. Por ejemplo, Soltan y su equipo observan que “AlexaTM 20B funciona mejor o en par con el modelo decodificador denso más grande hasta la fecha (es decir, PaLM 540B) en resumen tanto en configuraciones de 1 disparo como de afinación fina”. Esto es especialmente cierto en una tarea de resumir párrafos conocida como MLSum; en alemán, español y francés, AlexaTM 20B supera claramente a PaLM.

La prueba de referencia MLSum, introducida en 2020 por el Centro Nacional de Investigación Científica de Francia, consta de 1.5 millones de artículos de periódicos. La tarea es que un modelo de lenguaje genere algunas oraciones de texto que expresen la idea presentada en el artículo completo. Esto requiere una gran reducción, obviamente, de cientos de palabras a tal vez unas pocas docenas.

Amazon

  • Cómo convertir tu antigua tablet Fire en un Echo Show
  • Cambia tus dispositivos antiguos por tarjetas de regalo de Amazon. Así es cómo
  • Las mejores tablets de Amazon: Juega con Fire
  • Reseña del Amazon Kindle Scribe: 7 meses después, está tan cerca de ser perfecto

En una cuarta prueba, XSum, realizada en inglés, el modelo AlexaTM 20B quedó en segundo lugar y superó a una versión de PaLM que era más grande que AlexaTM 20B pero más pequeña que la versión de 540 mil millones de parámetros de PaLM.

Aunque sobresale en resúmenes, el modelo AlexTM 20B no tiene buen desempeño en otras tareas. Por ejemplo, al ser probado en conjuntos de datos de “razonamiento” (como MultiArith) y tareas de “cadena de pensamiento” (que son problemas aritméticos muy simples escritos en lenguaje natural), el programa queda muy rezagado en comparación con lo logrado por modelos mucho más grandes como GPT-3.

También: El futuro de la inteligencia artificial es una historia de software, según el CEO de Graphcore

Escribe Soltan y su equipo, “AlexaTM 20B tiene un rendimiento ligeramente mejor que modelos de tamaño similar, sin embargo, no observamos la ganancia que muestran modelos mucho más grandes como GPT3 175B a partir de indicaciones especiales,” lo que significa, pistas dadas al programa sobre el próximo paso en un problema.

“Los resultados indican que escalar los parámetros del modelo es crucial para desempeñarse bien en tareas de ‘razonamiento’, como se demostró previamente en arquitecturas de solo decodificador utilizando modelos Instruct-GPT3.”

Centrándose en las tareas exitosas, como la resumización, la conclusión principal a la que llega Soltan y su equipo es que su enfoque mixto para entrenar el programa, utilizando tanto objetivos de desruido como modelado de lenguaje causal, es clave para hacer las cosas más eficientes.

“Esto sugiere que el preentrenamiento mixto, y no necesariamente el entrenamiento multitarea adicional, es la clave para entrenar modelos de lenguaje a gran escala basados en seq2seq (LLM) fuertes”, escriben.

Para volver a la pregunta original sobre el tamaño, como se ha señalado en muchos contextos, el uso de energía de los programas de IA cada vez más grandes es una preocupación ética dentro de las prácticas de IA. Los autores presentan un argumento sólido sobre la relevancia de su enfoque más eficiente.

También: Ética de la IA: Beneficios y riesgos de la inteligencia artificial

Debido a que AlexaTM 20B “es mucho más pequeño que modelos como GPT3 175B, pero logra un rendimiento similar o mejor en diferentes tareas”, escriben, “el impacto ambiental continuo de usar AlexaTM 20B para inferencia es mucho menor que el de modelos más grandes (aproximadamente 8.7 veces menor)”.

Agregan: “Por lo tanto, con el tiempo, AlexaTM 20B también tiene una huella de carbono más baja”.

Los autores ofrecen una tabla de estadísticas que muestra la huella de carbono relativa, y hay una gran diferencia en los números.

Esta es una tabla comparativa de huellas de carbono de Amazon 2022 AlexTM 20B.

Esa tabla de huellas de carbono es quizás el aspecto más interesante de todo esto. Parece que la investigación de aprendizaje profundo buscará establecer puntajes para evaluaciones ambientales, con el fin de mostrar qué tan eficiente en energía puede ser un enfoque dado. Eso está en línea con el enfoque cada vez mayor del mundo en “ESG”, es decir, factores ambientales, sociales y de gobernanza, en todas las cosas.

Esto puede significar que ser consciente del medio ambiente se ha convertido en parte del objetivo de la investigación de IA convencional.

También: IA en sesenta segundos