La ola de visión múltiple de la IA está llegando y será poderosa
The wave of AI's multi-vision is coming and will be powerful.
La inteligencia artificial en su forma más exitosa, como ChatGPT o AlphaFold de DeepMind para predecir proteínas, ha estado atrapada en una dimensión notablemente estrecha: la IA solo ve las cosas desde un solo lado, como una palabra, como una imagen, como una coordenada en el espacio, como cualquier tipo de dato, pero solo uno a la vez.
En muy poco tiempo, las redes neuronales están a punto de expandirse de manera espectacular con una fusión de formas de datos que verán la vida desde muchos lados. Es un desarrollo importante, ya que puede darles a las redes neuronales una base más sólida en las formas en que el mundo se cohesiona, en las formas en que las cosas se mantienen juntas, lo cual podría ser una etapa importante en el movimiento hacia programas que algún día puedan realizar lo que podríamos llamar “razonamiento” y “planificación” sobre el mundo.
También: Meta presenta el traductor de voz a voz ‘Seamless’
La próxima ola de datos de múltiples lados tiene sus raíces en años de estudio por parte de científicos del aprendizaje automático y generalmente se conoce como “multi-vista” o, alternativamente, fusión de datos. Incluso hay una revista académica dedicada al tema, llamada Information Fusion, publicada por la gigante editorial académica Elsevier.
- Mejores smartwatches Apple Watch, Samsung Galaxy Watch, Garmin Venu...
- Un kit de manos libres para automóviles Roadmaster Bluetooth gratui...
- Se llevará a cabo la primera cumbre de seguridad de inteligencia ar...
La idea profunda de la fusión de datos es que cualquier cosa en el mundo que se esté tratando de examinar tiene muchos lados a la vez. Una página web, por ejemplo, tiene tanto el texto que se ve a simple vista como el texto del enlace que lleva a esa página, o incluso una tercera cosa, el código subyacente HTML y CSS que es la estructura de la página.
Una imagen de una persona puede tener tanto una etiqueta con el nombre de la persona como los píxeles de la imagen. Un video tiene un fotograma de video, pero también el clip de audio que acompaña a ese fotograma.
Los programas de IA actuales tratan esos datos variables como piezas separadas de información sobre el mundo, sin conexión entre ellos. Incluso cuando las redes neuronales manejan múltiples tipos de datos, como texto y audio, lo máximo que hacen es procesar esos conjuntos de datos simultáneamente, sin vincular explícitamente múltiples tipos de datos con una comprensión de que son vistas del mismo objeto.
Por ejemplo, Meta Properties, propietaria de Facebook, Instagram y WhatsApp, presentó el martes su último esfuerzo en traducción automática, una hazaña en el uso de múltiples modalidades de datos. El programa, SeamlessM4T, se entrena tanto en datos de voz como en datos de texto al mismo tiempo y puede generar tanto texto como audio para cualquier tarea.
Pero SeamlessM4T no percibe cada unidad de cada señal como una faceta del mismo objeto.
También: El generador de imágenes de IA de Meta dice que el lenguaje puede ser todo lo que necesitas
Esa visión fragmentada de las cosas está comenzando a cambiar. En un artículo publicado recientemente por la profesora asistente de la Universidad de Nueva York y miembro de la facultad Ravid Shwartz-Ziv, y el científico jefe de IA de Meta, Yann LeCun, ambos discuten el objetivo de utilizar la multi-vista para enriquecer las redes neuronales de aprendizaje profundo mediante la representación de objetos desde múltiples perspectivas.
En el artículo altamente técnico y bastante teórico, publicado en el servidor de preimpresión arXiv en abril, Shwartz-Ziv y LeCun escriben que “el éxito del aprendizaje profundo en diversos dominios de aplicación ha generado un creciente interés en los métodos de multi-vista profunda, que han mostrado resultados prometedores”.
La multi-vista se dirige hacia un momento de destino, ya que las redes neuronales cada vez más grandes de hoy en día, como SeamlessM4T, asumen cada vez más modalidades, conocidas como IA “multi-modal”.
También: Los mejores chatbots de IA del 2023: ChatGPT y alternativas
El futuro de la llamada IA generativa, programas como ChatGPT y Stable Diffusion, combinarán una multitud de modalidades en un solo programa, incluyendo no solo texto, imágenes y video, sino también nubes de puntos y gráficos de conocimiento, incluso datos de bioinformática y muchas más vistas de una escena o de un objeto.
Las diferentes modalidades ofrecen potencialmente miles de “vistas” de las cosas, vistas que podrían contener información mutua, lo que podría ser un enfoque muy rico para comprender el mundo. Pero también plantea desafíos.
La clave para la multi-vista en redes neuronales profundas es un concepto que Shwartz-Ziv y otros han hipotetizado conocido como un “cuello de botella de información”. El cuello de botella de información se vuelve problemático a medida que el número de modalidades se expande.
En un cuello de botella de información, múltiples entradas se combinan en una “representación” que extrae los detalles relevantes compartidos por las entradas como diferentes vistas del mismo objeto. En una segunda etapa, esa representación se reduce a una forma comprimida que contiene solo los elementos esenciales de la entrada necesarios para predecir una salida que corresponda a ese objeto. Ese proceso de acumulación de información mutua y luego eliminar o comprimir todo excepto lo esencial es el cuello de botella de la información.
El desafío para la multi-vista en redes multimodales grandes es saber qué información de todas las diferentes vistas es esencial para las muchas tareas que realizará una red neuronal gigante con todas esas modalidades diferentes.
También: Puedes construir tu propio chatbot de IA con esta herramienta de arrastrar y soltar
Como ejemplo simple, una red neuronal que realiza una tarea basada en texto como ChatGPT, produciendo frases de texto, podría tener problemas cuando también tiene que, por ejemplo, producir imágenes, si los detalles relevantes para la última tarea han sido descartados durante la etapa de compresión.
Como escriben Shwartz-Ziv y LeCun, “[S]eparar la información en componentes relevantes e irrelevantes se vuelve desafiante, lo que a menudo conduce a un rendimiento subóptimo”.
Aún no hay una respuesta clara a este problema, declaran los académicos. Requerirá más investigación; en particular, redefinir la multi-vista de algo que incluye solo dos vistas diferentes de un objeto a posiblemente muchas vistas.
“Para garantizar la optimalidad de este objetivo, debemos ampliar la suposición de multi-vista para incluir más de dos vistas”, escriben. En particular, el enfoque tradicional de multi-vista asume “que la información relevante se comparte entre todas las vistas y tareas diferentes, lo que podría ser demasiado restrictivo”, agregan. Es posible que las vistas compartan solo parte de la información en algunos contextos.
También: Así es como la IA generativa cambiará la economía gig para mejor
“Como resultado”, concluyen, “definir y analizar una versión más refinada de esta solución ingenua es esencial”.
No hay duda de que el auge de la multimodalidad impulsará la ciencia de la multi-vista a idear nuevas soluciones. La explosión de la multimodalidad en la práctica conducirá a nuevos avances teóricos para la IA.