La enorme obra de traducción multilingüe de Meta todavía tiene dificultades con el griego, armenio y oromo.

Meta's extensive multilingual translation work still faces difficulties with Greek, Armenian, and Oromo.

“Los sistemas de traducción automática ampliamente accesibles admiten alrededor de 130 idiomas; nuestro objetivo es aumentar este número a 200”, escriben los autores en su declaración de misión.

Meta, propietaria de Facebook, Instagram y WhatsApp, presentó el miércoles su último esfuerzo en traducción automática, un opus de 190 páginas que describe cómo ha utilizado formas de redes neuronales de aprendizaje profundo para duplicar la traducción de vanguardia para 202 idiomas, muchos de ellos idiomas de “recursos limitados” como el oromo centro-occidental, un idioma del estado de Oromia en Etiopía, el tamasheq, hablado en Argelia y varias otras partes del norte de África, y el waray, el idioma del pueblo waray de Filipinas.

El informe, realizado por un equipo de investigadores de Meta, junto con académicos de UC Berkeley y Johns Hopkins, “Ningún idioma se queda atrás: escalando la traducción automática centrada en el ser humano”, se publica en el sitio web de investigación de IA de Facebook, junto con una publicación de blog complementaria, y ambos deberían ser lecturas obligatorias por el detalle detallado sobre el tema.

“Los sistemas de traducción automática ampliamente accesibles admiten alrededor de 130 idiomas; nuestro objetivo es aumentar este número a 200”, escriben en su declaración de misión.

Para obtener una vista simple, consulte el informe general de Stephanie Condon de ENBLE. Como Stephanie menciona, Meta está compartiendo sus conjuntos de datos y el código de su modelo de red neuronal en GitHub, y también ofrece premios de $200,000 a usos externos de la tecnología. La compañía se asoció con los propietarios de Wikipedia, la Fundación Wikimedia, para mejorar la traducción de los artículos de Wikipedia.

También: El último modelo de IA de Meta hará que el contenido esté disponible en cientos de idiomas

Una sorpresa enterrada en el informe es que, a pesar de una mejora mensurable en general en un grupo más grande de idiomas, como indican los sistemas de puntuación automática, cuando se trata de la evaluación humana de la calidad de las traducciones, la red neuronal de los investigadores, conocida afectuosamente como “No Language Left Behind Two Hundred” o NLLB-200, no muestra mucha mejora en varios casos de idiomas, incluidos no solo los idiomas de recursos limitados como el oromo, sino también los idiomas con material de traducción predominante como el griego y el islandés.

La lección es que, a pesar de tener la capacidad de mejorar las puntuaciones promedio, las complejidades de crear traducciones que sean significativas, al menos desde el punto de vista humano, no se pueden automatizar simplemente. Los autores descubrieron que al hacer que su red numérica fuera más grande, lo que debería significar más potente, en realidad encontraron rendimientos decrecientes al traducir frases del inglés a otro idioma y algunos efectos negativos al traducir entre frases no inglesas.

El equipo tomó muchas medidas para mejorar la traducción, incluida la entrevista a cientos de hablantes nativos de idiomas de recursos limitados, las entrevistas duraron una hora y media, en promedio, para evaluar las necesidades y preocupaciones de los hablantes. (Hay una extensa discusión sobre la ética de ese trabajo de campo y la ética de incorporar idiomas de recursos limitados que podrían verse abrumados por una avalancha de atención; esa discusión en el documento merece una atención especial).

También: El extenso trabajo de traducción de idiomas de Google identifica dónde se equivoca

Pero el corazón del trabajo es que se han esforzado mucho para compilar un nuevo conjunto de datos para entrenar su red neuronal, incluso inventando nuevos métodos, que ofrecen como código fuente, para realizar la identificación de idioma en materiales web, para identificar a qué idioma pertenecen las pruebas.

Utilizan métodos automatizados para compilar un conjunto de datos de pares de frases bilingües para todos los idiomas objetivo. El conjunto de datos tiene algunas estadísticas bastante emocionantes:

En total, hay 1220 pares de idiomas o 2440 direcciones (xx-yy y yy-xx) para entrenamiento. Estas 2440 direcciones suman más de 18 mil millones de pares de frases en total […] la mayoría de los pares tienen menos de 1 millón de frases y son direcciones de recursos limitados.

Los autores utilizan esos datos para entrenar la red neuronal NLLB, pero también utilizan un conjunto de datos de traducciones realizadas por traductores humanos. El elemento humano, el conjunto de datos “NLLB-SEED”, resulta ser bastante importante. “A pesar del tamaño considerablemente mayor de los datos de entrenamiento disponibles públicamente, el entrenamiento con NLLB-Seed lleva a un rendimiento notablemente mayor en promedio”, escriben.

El esfuerzo NLLB incluye múltiples pasos, comenzando por rastrear textos bidireccionales disponibles públicamente de pares de idiomas, identificando los idiomas a través de métodos automatizados, creando un conjunto de datos de entrenamiento gigante, entrenando la red neuronal NLLB-200 y luego evaluando el programa en un nuevo conjunto de datos de referencia creado con traductores humanos, FLORES-200.

Ten en cuenta que el equipo de Meta no está solo en este tipo de esfuerzo de conjunto de datos gigante. En mayo, los científicos de Google presentaron un esfuerzo similar y masivamente multilingüe, donde pudieron rastrear la web en busca de más de un millón de frases en más de 200 idiomas y más de 400,000 frases en más de 400 idiomas.

Esos conjuntos de datos de entrenamiento se utilizan para construir su red neuronal, NLLB-200. Comienzan con el modelo de lenguaje Transformer ubicuo de Google que sustenta la mayoría de las traducciones de idiomas en la actualidad. 

Utilizan un Transformer de 54 mil millones de parámetros, que no es enorme (algunos modelos se acercan a un billón de parámetros), pero hacen una modificación clave. 

Entre las capas individuales de la red conocidas como “cabezas de atención”, los autores intercalan ramificaciones de ejecución condicional conocidas como una mezcla dispersa de exportaciones. Básicamente, los expertos pueden elegir desactivar o activar algunos de esos 54 mil millones de parámetros al realizar predicciones, para que la red neuronal pueda cambiar su naturaleza con cada tarea. 

“Los modelos de ‘mezcla dispersa de expertos’ (MoE) son un tipo de modelos de cálculo condicional que activan un subconjunto de parámetros del modelo por entrada, a diferencia de los modelos densos que activan todos los parámetros del modelo por entrada”, explican. El valor de MoE, explican, es que “desbloquean una capacidad representativa significativa al mantener las mismas eficiencias de inferencia y entrenamiento en términos de FLOPs [operaciones de punto flotante por segundo] en comparación con la arquitectura densa central”.

La red NLLB-200, a la derecha, inserta elementos “mezcla de expertos” entre los bloques de atención estándar del modelo Transformer, a la izquierda.

(Incluso los autores encontraron un punto óptimo para este enfoque: “Insertar capas MoE [mezcla de expertos] en un intervalo de cada 4 bloques Transformer muestra el mejor rendimiento, especialmente mejorando el rendimiento en entornos de recursos muy bajos.”)

Junto con el conjunto de entrenamiento, los autores desarrollan un nuevo conjunto de datos de referencia, FLORES-200, un conjunto de datos de referencia de alta calidad y muchos a muchos que duplica la cobertura de idiomas de un esfuerzo anterior conocido como Flores-101″. El conjunto de datos se “crea con traductores humanos profesionales que traducen el conjunto de datos de origen de FLORES a los idiomas de destino y un grupo independiente de revisores de traducción que realizan evaluaciones de calidad de las traducciones humanas y brindan retroalimentación de traducción a los traductores.”

Luego, prueban cómo se desempeña el NLLB en FLORES-200.

Los resultados, como se menciona en el resumen anterior, son una mejora del 44% en comparación con programas de traducción anteriores, según las puntuaciones automatizadas comunes como BLUE y chrF. Realizan comparaciones exhaustivas entre diferentes versiones de esas puntuaciones. 

Además de las puntuaciones automatizadas, los autores hicieron que los humanos leyeran las traducciones y las calificaran, y ahí es donde aparecen algunas fallas. Utilizando un protocolo sugerido por primera vez en 2012 por Eneko Agirre y colegas llamado “Similaridad textual semántica,” el equipo de Meta utiliza una variante llamada “XSTS,” que introdujeron en un papel separado en mayo.

XSTS pide a los humanos que califiquen las traducciones en una escala del 1 al 5, siendo 1 el peor, las dos oraciones no tienen nada que ver entre sí, y 5 el mejor, prácticamente están diciendo lo mismo según una persona. 

“En resumen, XSTS es un protocolo de evaluación humana que se centra mucho más en la preservación del significado que en la fluidez”, escriben. 

“Para idiomas de recursos limitados, las traducciones suelen tener una calidad más débil, por lo que nos centramos mucho más en traducciones utilizables (que preserven el significado), aunque no sean completamente fluidas.”

La puntuación general no es mala al comparar cómo lo hace un modelo Transformer básico para traducciones hacia y desde el inglés y algunos otros idiomas, pero en realidad obtienen peores resultados en un par, del inglés al griego:

En general, NLLB-200 logra una puntuación XSTS promedio de 4.15 en las direcciones de salida del inglés y 3.75 en las direcciones de entrada al inglés. En comparación con el modelo denso de referencia, el rendimiento de NLLB-200 es más sólido. Algunas direcciones tienen una diferencia significativa, como rus_Cyrl-tgk_Cyrl [ruso a tagalo] y eng_Latn-gla_Latn [inglés a gaélico escocés]. También notamos que NLLB-200 funciona mejor que el modelo de referencia en todas las direcciones probadas, con la única excepción de eng_Latn-ell_Grek [inglés a griego], donde el rendimiento fue ligeramente peor.

Pero si profundizamos un poco más, aparecen más grietas. Este enorme esfuerzo es una empresa estadística, y como cualquier empresa estadística, más revelador que un promedio o una mediana es la distribución de las puntuaciones.

En numerosos pares de idiomas, como armenio al inglés, y oromo occidental central al inglés, y amárico, el idioma más utilizado en Etiopía, traducido al armenio, y francés traducido al wolof, el idioma nativo del pueblo wolof de Senegal, y hindi traducido al chhattisgarhi, un idioma principal en el estado central de India del mismo nombre, descubren que hay poca o ninguna mejora respecto al modelo de referencia.

Aparecen grietas donde los revisores humanos encuentran que algunos pares de idiomas se benefician muy poco o nada de las innovaciones NLLB-200, incluyendo pares de idiomas como armenio traducido al inglés y amárico, el idioma más utilizado en Etiopía, traducido al armenio. La traducción de inglés a griego resultó ser incluso peor que el modelo de referencia.

Estos ejemplos aislados, que aparecen entre los éxitos, como una gran mejora en la traducción del ruso al tagalo, un idioma dominante en Filipinas, por ejemplo, apuntan a una verdad más profunda, en la que los científicos reflexionan.

Sin interpretar las evaluaciones humanas, los autores observan los casos de fracaso en las puntuaciones automáticas de BLUE y chrF, y formulan algunas hipótesis sobre las limitaciones o deficiencias de su enfoque.

Según escriben, o bien los pares de idiomas con muchos recursos, como el griego, no se benefician de la adición del enfoque de mezcla de expertos, o bien su programa se vuelve tan poderoso que se produce un “sobreajuste”, donde una red neuronal ha memorizado simplemente algunos ejemplos sin formar una representación productiva, es decir, en realidad no ha “aprendido” nada.

Como lo expresan los autores,

Es probable que los pares de alto recurso tengan suficiente capacidad en el modelo denso de 1.3 mil millones de [parámetros] (dadas el tamaño y la naturaleza de nuestro conjunto de datos de ablación) y no se beneficien tanto de la capacidad adicional de los modelos MoE [y] A medida que aumentamos el costo computacional por actualización, la propensión de los pares de bajo recurso o muy bajo recurso a sufrir sobreajuste aumenta, lo que provoca un deterioro del rendimiento.

Los autores proponen algunas medidas que se pueden tomar para mitigar el sobreajuste, como una especie de “enmascaramiento” de varias entradas y un “enrutamiento condicional” en la mezcla de expertos.

También: Cuidado, GPT-3, aquí llega el modelo de lenguaje ‘Jurassic’ de AI21

Hay tantos otros detalles en el informe sobre diversas configuraciones experimentales que es imposible resumir todos los hallazgos. Basta con decir que los autores esperan que el enfoque de código abierto y los 200,000 dólares convenzan “a la comunidad de examinar las prácticas actuales y mejorar donde fallamos, en una misión hacia el objetivo principal de no dejar ningún idioma atrás”.

En particular, el conjunto de datos de traducción seleccionado, FLORES-200, es costoso de recopilar mediante traductores profesionales. “Ampliar Flores-200 a idiomas de bajo recurso aún más en el futuro puede ser difícil”, observan.

En general, concluyen que será importante adoptar un enfoque multidisciplinario.

Compartir NLLB con la comunidad científica y de investigación más amplia permitirá que aquellos con diversas habilidades contribuyan al avance del proyecto. En muchos aspectos, la composición del esfuerzo NLLB refleja la centralidad de la interdisciplinariedad en la formación de nuestra visión. La traducción automática se encuentra en la intersección del desarrollo tecnológico, cultural y social, y por lo tanto requiere de académicos con diferentes formaciones y perspectivas para comprender plenamente todos los aspectos. Esperamos que en futuras iteraciones, NLLB siga expandiéndose para incluir a académicos de campos subrepresentados en el mundo de la traducción automática y la inteligencia artificial, especialmente aquellos con formación en humanidades y ciencias sociales. Además, esperamos que los equipos que desarrollen tales iniciativas provengan de una amplia gama de razas, géneros e identidades culturales, al igual que las comunidades cuyas vidas buscamos mejorar.