Meta’s Data2vec 2.0 La segunda vez es más rápida

Meta's Data2vec 2.0 Segunda vez más rápida.

Meta’s Data2vec es un ejemplo de una red neuronal generalista que puede utilizar el mismo código exacto para procesar ejemplos de datos en diferentes modalidades, en este caso, habla, texto e imágenes, y hacer predicciones sobre esos datos.

¿Qué haces cuando has demostrado tu punto en las redes neuronales?

Hacerlo más rápido es una respuesta.

El martes, Meta, el propietario de Facebook, Instagram y WhatsApp, presentó Data2vec 2.0, una versión mejorada de una red neuronal introducida a principios de este año que se comporta como una especie de generalista, realizando tareas que involucran datos de texto, imagen y habla con el mismo enfoque básico en los tres casos.

En esta segunda versión, los científicos de Meta hicieron que el programa fuera más rápido y, en algunos casos, más preciso en pruebas de referencia de tareas de aprendizaje automático.

“Data2vec 2.0 muestra que la velocidad de entrenamiento del aprendizaje auto-supervisado puede mejorarse sustancialmente sin pérdida de precisión en las tareas posteriores”, escriben los autores Alexei Baevski, Arun Babu, Wei-Ning Hsu y Michael Auli, cuatro de los autores del artículo original de Data2vec, en este nuevo trabajo, “Aprendizaje auto-supervisado eficiente con representaciones contextualizadas del objetivo para visión, habla y lenguaje”, publicado en arXiv.

También: ¿Qué es ChatGPT y por qué es importante?

El logro singular de este segundo Data2vec es reducir el tiempo necesario para entrenar Data2vec. El entrenamiento de una red neuronal se mide típicamente en términos de “épocas”, es decir, el número de veces que se le dan a la red neuronal los ejemplos de entrenamiento. También se puede medir por el tiempo de reloj, las horas, minutos y días contados desde el inicio hasta el final.

“Los experimentos muestran que Data2vec 2.0 puede alcanzar la misma precisión que muchos algoritmos existentes populares en 2-16 veces la velocidad de entrenamiento”, escriben.

El nombre Data2vec es un juego de palabras con el nombre de un programa para “incrustar” lenguaje desarrollado en Google en 2013 llamado Word2vec. Ese programa predecía cómo se agrupan las palabras, por lo que Word2vec es representativo de una red neuronal diseñada para un tipo específico de datos, en ese caso, texto.

En el caso de Data2vec, sin embargo, Baevski y sus colegas están tomando una red neuronal llamada Transformer, desarrollada por Ashish Vaswani y sus colegas en Google en 2017, y extendiéndola para ser utilizada en múltiples tipos de datos. La misma estructura de la red neuronal puede servir para entrenar los tres tipos: imagen, habla y texto, sin necesidad de ser modificada para adaptarse a las particularidades de ninguno de ellos, lo que la convierte en un programa generalista.

Baevski y sus colegas extienden el Transformer a lo que se llama aprendizaje “auto-supervisado”. En un entorno auto-supervisado, una red neuronal se entrena al tener que pasar por múltiples etapas cuyos resultados se comparan entre sí.

Primero, la red comprime una muestra de datos, lo que se conoce como construir una representación de los datos de entrada. Luego, una segunda versión de la red tiene algunos de esos datos de entrada “enmascarados”, sin revelar. Tiene que reconstruir la representación que la primera versión de la red había construido, lo que obliga a la segunda red a construir un mejor modelo de cómo encajan los datos al completar los espacios en blanco.

También: El verdadero objetivo de la IA puede que ya no sea la inteligencia

Las dos redes, la que tiene la representación comprimida de los datos de entrada completos y sin enmascarar, y la que tiene la versión incompleta que intenta completar, se llaman, de manera sensata, Teacher y Student, respectivamente. La red Student intenta desarrollar su sentido de los datos, por así decirlo, reconstruyendo lo que el Teacher ya ha logrado a pesar del enmascaramiento.

Destacado

  • Reseña del Apple Mac Studio M2 Ultra: Esta es la nueva computadora de escritorio Mac de gama alta
  • 4 cosas que Claude AI puede hacer y ChatGPT no
  • He probado cientos de relojes inteligentes, pero este ha estado en mi muñeca todo el año
  • Los mejores destornilladores eléctricos: Realiza tareas de bricolaje y reparación en la mitad del tiempo

Esta vez, los autores realizaron dos cambios clave en Data2vec para hacerlo más rápido: utilizar “convoluciones” y “amortizar” las representaciones comprimidas de la red del profesor.

En cuanto al primer cambio, la red del estudiante que debe predecir las representaciones del profesor ya no utiliza la parte del Transformer llamada decodificador para hacerlo.

Ese es el enfoque estándar, descomprimir, en cierto sentido, las representaciones comprimidas de la red del profesor. En cambio, los autores utilizan lo que se llama redes neuronales convolucionales, una herramienta fundamental en las redes neuronales para representar muestras de datos en forma comprimida y una herramienta que es mucho más antigua que el Transformer. Es un buen ejemplo de cómo la tecnología antigua puede perdurar en la programación.

“En lugar de utilizar un decodificador basado en Transformer, utilizamos un decodificador convolucional más pequeño, que encontramos más fácil y rápido de entrenar”, escriben.

En cuanto al segundo cambio, en lugar de crear repetidamente una representación comprimida en la red del profesor, el nuevo Data2vec crea la representación solo una vez. Luego, se reutiliza como objetivo, lo que se debe adivinar, para cada uno de los puntos de datos enmascarados.

Como lo expresan los autores, “para amortizar el costo de la computación del modelo del profesor, reutilizamos la representación del profesor para varias versiones enmascaradas de la muestra de entrenamiento.

“Concretamente, consideramos M versiones enmascaradas diferentes de la muestra de entrenamiento y calculamos la pérdida con respecto a la misma representación objetivo”.

La arquitectura de Data2vec 2.0. Meta esta vez ha reemplazado la segunda parte del programa, lo que había sido un decodificador basado en Transformer, con un decodificador basado en redes neuronales convolucionales, una tecnología más antigua. También reutilizaron las representaciones comprimidas de la red del “profesor” como un solo objetivo para múltiples instancias enmascaradas de los datos de la red del “estudiante”.

En la sección de resultados del artículo, Baevski y su equipo cuentan cómo redujeron el tiempo de entrenamiento y mejoraron la precisión en las tres áreas de reconocimiento de imágenes, reconocimiento de voz y procesamiento del lenguaje natural.

Para el procesamiento de imágenes, los autores utilizaron Data2vec como base para el ajuste fino de lo que se llama “ViT”, el “Transformer visual”, una red neuronal diseñada específicamente para tareas de visión que fue presentada el año pasado (PDF) por Alexey Dosovitskiy y colegas de Google. El programa Data2vec es una base preentrenada, sobre la cual ViT es un ajuste fino, en términos de la literatura.

En comparación con los resultados de enero, ViT respaldado por Data2vec volvió a superar a otras redes neuronales utilizadas como base para ViT en términos de precisión en ImageNet, la prueba clásica de asignar etiquetas a imágenes, y también superó a la versión anterior de Data2vec.

Pero además de la precisión, el nuevo Data2vec requirió mucho menos épocas de entrenamiento. El Data2vec anterior necesitaba 800 épocas; esta vez se redujo a 150 épocas. Y en comparación con una red autoencoder enmascarada, llamada MAE, otra creación de Meta (PDF), el entrenamiento se redujo de 1,600 épocas a 100, a pesar de que la precisión del nuevo Data2vec superó a MAE. El régimen de entrenamiento más rápido resulta en una gran reducción en el tiempo absoluto de entrenamiento, solo 66 horas para Data2vec 2.0 en comparación con 113.6 horas para MAE.

También: Inteligencia artificial: 5 aplicaciones innovadoras que podrían cambiarlo todo

En el reconocimiento de voz, la tarea consiste en completar las partes faltantes de un fragmento de un archivo de audio de una frase hablada. El nuevo Data2vec compitió con múltiples redes neuronales para el reconocimiento de voz, incluido el Data2vec original y los programas llamados Wav2vec, HuBERT y WavLM. En ningún caso Data2vec 2.0 superó a esas redes, pero “obtiene mayor precisión que otros modelos en menos tiempo de entrenamiento”. Por ejemplo, 43 horas de entrenamiento con Data2vec 2.0 alcanzan una precisión que requiere 57 horas para el Data2vec original.

En la tercera área, el procesamiento del lenguaje natural, se probó Data2vec 2.0 en una variedad de desafíos que comprenden el marco de evaluación general del entendimiento del lenguaje, conocido como GLUE, desarrollado en 2019 por el Instituto Courant de Ciencias Matemáticas de la Universidad de Nueva York.

En una prueba, la red debe predecir si una oración se deduce de otra, mientras que otra tarea representativa desafía a la red a etiquetar una frase gramaticalmente correcta o no.

En comparación con el Data2vec original, más dos programas basados en Transformer, el BERT de Google y una versión revisada llamada RoBERTa, presentada en 2019 por la Escuela Paul Allen de Ciencias de la Computación de la Universidad de Washington y Meta, la versión 2.0 de Data2vec obtuvo resultados destacados en las pruebas GLUE y además se entrenó más rápido.

El puntaje promedio de precisión total en todas las tareas de GLUE para esta nueva versión es de 82.6, apenas por debajo del 82.7 del Data2vec original, pero mayor que el 81.2 de BERT y mayor que el 82.5 de RoBERTa. Sin embargo, Data2vec 2.0 solo tarda 28.2 horas en alcanzar ese nivel, menos de la mitad de las 69 horas que le llevó al Data2vec original, y mucho menos que las 50.5 horas que le lleva a RoBERTa.

Además: Las personas que construyen inteligencia artificial son las que más necesitan IA

Baevski y su equipo escriben que en el futuro ampliarán Data2vec a otras formas de datos más allá del habla, la imagen y el texto, lo que plantea la posibilidad de que pueda ser aún más generalista.

Una limitación parece probable que se mantenga en su lugar. Al igual que con el Data2vec original, la versión 2.0 todavía maneja cada tipo de dato de manera diferente cuando se introducen por primera vez en la red durante el entrenamiento. Eso significa que Data2vec aún no ha desarrollado una manera completamente genérica de manejar los tipos de datos.

La imagen, el habla y el texto se preparan mediante el preprocesamiento de los datos. De esa manera, el aspecto multimodal de la red todavía depende de pistas sobre los datos, a lo que el equipo se refiere como “codificadores de entrada de modalidad específica”.

Además, cada una de las codificaciones comprimidas de la red de profesor se crea por separado para los tres tipos de datos. Aún no existe la capacidad de crear una especie de “super-codificación” que combine todos los tipos de datos a la vez en una representación única.

Y así, al igual que con el Data2vec 1.0, una red neuronal que podría ser verdaderamente Una Red para Dominarlos a Todos sigue siendo la tecnología del futuro.

Al igual que con el Data2vec original, Meta ha publicado el código en GitHub.