El gurú de IA de Meta, LeCun La mayoría de los enfoques de IA actuales nunca conducirán a una verdadera inteligencia.
El gurú de IA de Meta, LeCun, dice que la mayoría de los enfoques de IA no llevarán a una verdadera inteligencia.

“Creo que los sistemas de IA deben ser capaces de razonar”, dice Yann LeCun, el científico jefe de IA de Meta. Los enfoques de IA populares en la actualidad, como los Transformers, muchos de los cuales se basan en su propio trabajo pionero en el campo, no serán suficientes. “Tienes que dar un paso atrás y decir, bueno, construimos esta escalera, pero queremos ir a la luna, y no hay forma de que esta escalera nos lleve allí”, dice LeCun.
(El artículo se actualiza con las refutaciones de Gary Marcus y Jürgen Schmidhuber en contexto.)
Yann LeCun, el científico jefe de IA de Meta, propietaria de Facebook, Instagram y WhatsApp, es probable que moleste a mucha gente en su campo.
Con la publicación en junio de un artículo de reflexión en el servidor de Open Review, LeCun ofreció una visión general de un enfoque que cree que tiene potencial para lograr la inteligencia a nivel humano en las máquinas.
Implícita, si no articulada en el artículo, está la afirmación de que la mayoría de los proyectos actuales en IA nunca podrán alcanzar ese objetivo a nivel humano.
- Meta’s Data2vec 2.0 La segunda vez es más rápida
- La enorme obra de traducción multilingüe de Meta todavía tiene difi...
- Los científicos de Alexa de Amazon demuestran que un AI más grande ...
En una discusión este mes con ENBLE a través de Zoom, LeCun dejó claro que ve con gran escepticismo muchas de las vías de investigación más exitosas en el aprendizaje profundo en este momento.
“Creo que son necesarios pero no suficientes”, dijo LeCun, ganador del Premio Turing, sobre las búsquedas de sus colegas.
Estas incluyen modelos de lenguaje grandes como GPT-3 basados en Transformers y otros similares. Según LeCun, los devotos de los Transformers creen que “tokenizamos todo y entrenamos modelos gigantescos para hacer predicciones discretas, y de alguna manera la IA surgirá de esto”.
“No están equivocados”, dice, “en el sentido de que eso puede ser un componente de un sistema inteligente futuro, pero creo que faltan piezas esenciales”.
También: El ilustre de la IA de Meta, LeCun, explora la frontera energética del aprendizaje profundo
Es una crítica sorprendente de lo que parece funcionar, proveniente del académico que perfeccionó el uso de las redes neuronales convolucionales, una técnica práctica que ha sido increíblemente productiva en los programas de aprendizaje profundo.
LeCun ve defectos y limitaciones en muchas otras áreas altamente exitosas de la disciplina.
También sostiene que el aprendizaje por refuerzo nunca será suficiente. Según LeCun, investigadores como David Silver de DeepMind, quien desarrolló el programa AlphaZero que dominó el ajedrez, el shogi y el go, se centran en programas que son “muy basados en la acción”, pero “la mayoría del aprendizaje que hacemos no lo hacemos tomando acciones, lo hacemos observando”.
Lecun, de 62 años, desde una perspectiva de décadas de logros, expresa sin embargo una urgencia por enfrentar lo que él considera callejones sin salida hacia los que muchos pueden estar corriendo, y tratar de guiar a su campo en la dirección que él cree que debería seguir.
“Vemos muchas afirmaciones sobre qué debemos hacer para avanzar hacia la IA a nivel humano”, dice. “Y hay ideas que creo que están mal dirigidas”.
“No hemos llegado al punto en el que nuestras máquinas inteligentes tengan tanto sentido común como un gato”, observa Lecun. “Entonces, ¿por qué no empezamos por ahí?”
Ha abandonado su fe anterior en el uso de redes generativas en cosas como predecir el siguiente fotograma en un video. “Ha sido un completo fracaso”, dice.
LeCun critica a aquellos a quienes llama los “probabilistas religiosos”, que “piensan que la teoría de la probabilidad es el único marco que se puede utilizar para explicar el aprendizaje automático”.
Según él, el enfoque puramente estadístico es intratable. “Es demasiado pedir que un modelo del mundo sea completamente probabilístico; no sabemos cómo hacerlo”.
No solo los académicos, sino también la IA industrial necesita una profunda reconsideración, argumenta LeCun. Según él, la multitud de los autos autónomos, las startups como Wayve, han sido “un poco demasiado optimistas” al pensar que podrían “arrojar datos” a grandes redes neuronales “y que pueden aprender prácticamente cualquier cosa”.
“Sabes, creo que es totalmente posible que tengamos vehículos autónomos de nivel cinco sin sentido común”, dice, refiriéndose a los términos de “ADAS”, sistemas avanzados de asistencia al conductor para la conducción autónoma, “pero tendrás que ingeniarlo hasta el extremo”.
Él cree que esta tecnología de conducción autónoma sobreingenierada será tan frágil y rígida como todos los programas de visión por computadora que quedaron obsoletos debido al aprendizaje profundo.
“En última instancia, habrá una solución más satisfactoria y posiblemente mejor que involucre sistemas que hagan un mejor trabajo al comprender cómo funciona el mundo”.
En el camino, LeCun ofrece algunas opiniones contundentes sobre sus críticos más importantes, como el profesor de la NYU, Gary Marcus: “nunca ha contribuido nada a la IA”, y Jürgen Schmidhuber, codirector del Instituto Dalle Molle para la Investigación en Inteligencia Artificial: “es muy fácil marcar territorio”.
Más allá de las críticas, el punto más importante que hace LeCun es que todos los sistemas de IA se enfrentan a ciertos problemas fundamentales, en particular, cómo medir la información.
“Tienes que dar un paso atrás y decir, está bien, construimos esta escalera, pero queremos ir a la luna, y no hay forma de que esta escalera nos lleve allí”, dice LeCun sobre su deseo de provocar una reconsideración de los conceptos básicos. “Básicamente, lo que estoy diciendo aquí es que necesitamos construir cohetes, no puedo darte los detalles de cómo construimos cohetes, pero aquí están los principios básicos”.
El artículo y los pensamientos de LeCun en la entrevista se pueden entender mejor leyendo la entrevista de LeCun a principios de este año con ENBLE, en la que argumenta a favor del aprendizaje autosupervisado basado en la energía como un camino a seguir para el aprendizaje profundo. Esas reflexiones dan una idea del enfoque principal de lo que espera construir como alternativa a las cosas que afirma que no llegarán a la línea de meta.
Robótica
- Esta mano protésica impulsada por IA está aportando diseño y estilo a un producto que cambia vidas
- Los mejores robots aspiradores disponibles en este momento
- ¿Por qué los estudiantes universitarios tienen todos los robots geniales?
- Los 5 mejores cortacéspedes robot: cuidado del césped sin esfuerzo
A continuación se muestra una transcripción ligeramente editada de la entrevista.
ENBLE: El tema de nuestra charla es este artículo, “Un camino hacia la inteligencia autónoma de las máquinas”, del cual la versión 0.9.2 es la versión vigente, ¿verdad?
Yann LeCun: Sí, considero esto como un documento de trabajo. Lo publiqué en Open Review, esperando que la gente haga comentarios y sugerencias, tal vez referencias adicionales, y luego produciré una versión revisada.
ENBLE: Veo que Juergen Schmidhuber ya agregó algunos comentarios en Open Review.
YL: Bueno, sí, él siempre lo hace. Cito uno de sus artículos en mi artículo. Creo que los argumentos que hizo en las redes sociales de que básicamente inventó todo esto en 1991, como ha hecho en otros casos, simplemente no son ciertos. Quiero decir, es muy fácil marcar territorio y, más o menos, escribir una idea sin ningún experimento, sin ninguna teoría, solo sugerir que se podría hacer de esta manera. Pero, ya sabes, hay una gran diferencia entre simplemente tener la idea, hacerla funcionar en un problema pequeño, hacerla funcionar en un problema real, hacer una teoría que explique por qué funciona y luego implementarla. Hay toda una cadena, y su idea de crédito científico es que la primera persona que simplemente tuvo la idea, debería llevarse todo el crédito. Y eso es ridículo.
(Actualización: Jürgen Schmidhuber responde: “LeCun afirma que mi ‘idea de crédito científico es que la primera persona que simplemente, más o menos, tuvo la idea, debería llevarse todo el crédito’. En ningún universo esto es cierto. Como escribí [DLC]: ‘el inventor de un método importante debería recibir crédito por inventarlo. No siempre puede ser quien lo popularice. Entonces, el popularizador debería recibir crédito por popularizarlo (pero no por inventarlo)’. Sin embargo, aparentemente, LeCun no está satisfecho con el crédito por popularizar las invenciones de otros; también quiere el crédito del inventor. Está insistiendo en una posición insostenible que es incompatible con las reglas básicas universalmente aceptadas de integridad científica [T22]”).
ENBLE: No creas todo lo que escuchas en las redes sociales.
YL: Quiero decir, el artículo principal que él dice que debería citar no tiene ninguna de las ideas principales que menciono en el artículo. Él también ha hecho esto con GANs y otras cosas, que resultaron no ser ciertas. Es fácil hacer afirmaciones, pero mucho más difícil hacer una contribución. Y, por cierto, en este artículo en particular, explícitamente dije que no es un artículo científico en el sentido usual del término. Es más bien un artículo de posición sobre hacia dónde debería ir esto. Y hay algunas ideas allí que podrían ser nuevas, pero la mayoría no lo es. No reclamo ninguna prioridad en la mayoría de lo que escribí en ese artículo, en esencia.
(Actualización: Schmidhuber responde: “Las afirmaciones de LeCun sobre mí: ‘… el artículo principal que él dice que debería citar no tiene ninguna de las ideas principales que menciono en el artículo’. Esto no tiene sentido. Enumeré no solo uno, sino varios artículos relevantes (incluyendo [AC90][UN1][AC02][HRL1][PLAN4]) que contienen la mayoría de lo que LeCun llama explícitamente sus ‘principales contribuciones originales’ [LEC22a]. LeCun dice [LEC22c]: ‘No reclamo ninguna prioridad en la mayoría de lo que escribí en ese artículo, en esencia’. Sin embargo, él enumeró sus ‘principales contribuciones originales’ [LEC22a] y demostré que no eran tales [LEC]. Las afirmaciones de LeCun sobre mí ‘También lo ha hecho con GANs’ Esta afirmación falsa no tiene justificación ni referencias. Mis redes neuronales generativas y adversarias basadas en gradientes de 1990 [AC90-AC90b] describieron los principios básicos (frecuentemente citados, implementados y utilizados) de los GAN de 2014, cuyo artículo [GAN1] no asignó correctamente el crédito [T22]. Mi publicación revisada por pares [AC20] sobre esto sigue sin ser desafiada.)
El aprendizaje por refuerzo nunca será suficiente, sostiene LeCun. Investigadores como David Silver de DeepMind, quien desarrolló el programa AlphaZero que dominó el ajedrez, el shogi y el go, son “muy basados en la acción”, observa LeCun, pero “la mayoría del aprendizaje que hacemos, no lo hacemos tomando acciones, lo hacemos observando”.
ENBLE: Y ese es quizás un buen punto para empezar, porque me intriga por qué elegiste este camino ahora. ¿Qué te hizo pensar en esto? ¿Por qué quisiste escribir esto?
YL: Bueno, he estado pensando en esto durante mucho tiempo, acerca de un camino hacia una inteligencia o aprendizaje de nivel humano o animal. Y, en mis charlas, he sido bastante vocal acerca de todo este asunto de que tanto el aprendizaje supervisado como el aprendizaje por refuerzo son insuficientes para emular el tipo de aprendizaje que observamos en animales y humanos. He estado haciendo esto durante unos siete u ocho años. Así que no es reciente. Tuve una conferencia magistral en NeurIPS hace muchos años donde hice ese punto, básicamente, y varias charlas, hay grabaciones. Ahora, ¿por qué escribir un artículo ahora? He llegado al punto en el que — [investigador de Google Brain] Geoff Hinton hizo algo similar — quiero decir, ciertamente, él más que yo, vemos que el tiempo se acaba. No somos jóvenes.
ENBLE: Sesenta es el nuevo cincuenta.
YL: Eso es cierto, pero la cuestión es que vemos muchas afirmaciones sobre qué debemos hacer para avanzar hacia la inteligencia de nivel humano. Y hay ideas que creo que están equivocadas. Así que, una idea es, oh, simplemente deberíamos agregar razonamiento simbólico sobre las redes neuronales. Y no sé cómo hacer esto. Entonces, tal vez lo que expliqué en el artículo podría ser un enfoque que haga lo mismo sin manipulación explícita de símbolos. Estos son los tradicionalmente Gary Marcuses del mundo. Gary Marcus no es una persona de IA, por cierto, es un psicólogo. Nunca ha contribuido nada a la IA. Ha hecho un trabajo realmente bueno en psicología experimental, pero nunca ha escrito un artículo revisado por pares sobre IA. Así que, ahí están esas personas.
(Actualización: Gary Marcus refuta la afirmación de falta de artículos revisados por pares. Proporcionó por correo electrónico a ENBLE los siguientes artículos revisados por pares: Razonamiento del sentido común sobre contenedores usando información radicalmente incompleta en Artificial Intelligence; Razonamiento a partir de información radicalmente incompleta: el caso de los contenedores en Advances In Cog Sys; El alcance y límites de la simulación en el razonamiento automatizado en Artificial Intelligence; Razonamiento del sentido común y conocimiento del sentido común en Communications of the ACM; Repensando el conexionismo eliminativo, Cog Psy)
Hay personas como David Silvers, investigador principal de investigación de DeepMind, que dicen que la recompensa es suficiente, básicamente, se trata de aprendizaje por refuerzo, solo necesitamos hacerlo un poco más eficiente, ¿vale? Y creo que no están equivocados, pero creo que los pasos necesarios para hacer que el aprendizaje por refuerzo sea más eficiente, básicamente, relegarían el aprendizaje por refuerzo a algo complementario. Y la parte principal que falta es aprender cómo funciona el mundo, principalmente mediante la observación sin acción. El aprendizaje por refuerzo está muy basado en la acción, aprendes cosas sobre el mundo tomando acciones y viendo los resultados.
ENBLE: Y se centra en la recompensa.
YL: Se centra en la recompensa, y también en la acción. Entonces, tienes que actuar en el mundo para poder aprender algo sobre el mundo. Y la afirmación principal que hago en el artículo sobre el aprendizaje auto-supervisado es que la mayor parte del aprendizaje que hacemos no lo hacemos tomando acciones, lo hacemos mediante la observación. Y eso es muy poco ortodoxo, tanto para las personas que trabajan en aprendizaje por refuerzo, en particular, como para muchos psicólogos y científicos cognitivos que piensan que la acción es… No estoy diciendo que la acción no sea esencial, lo es. Pero creo que la mayor parte de lo que aprendemos se trata principalmente de la estructura del mundo, e implica, por supuesto, interacción y acción y juego, y cosas así, pero gran parte de ello es observacional.
ENBLE: También lograrás molestar a las personas que trabajan con Transformers, las personas que priorizan el lenguaje, al mismo tiempo. ¿Cómo puedes construir esto sin el lenguaje primero? Es posible que logres molestar a mucha gente.
YL: Sí, estoy acostumbrado a eso. Entonces, sí, están las personas que priorizan el lenguaje, que dicen que la inteligencia se trata del lenguaje, que el sustrato de la inteligencia es el lenguaje, y así sucesivamente. Pero eso, de alguna manera, desestima la inteligencia animal. No hemos llegado al punto en el que nuestras máquinas inteligentes tengan tanto sentido común como un gato. Entonces, ¿por qué no empezamos por ahí? ¿Qué es lo que permite a un gato comprender el mundo que lo rodea, hacer cosas bastante inteligentes, planificar y cosas así, y a los perros aún mejor?
Luego están todas las personas que dicen: “Oh, la inteligencia es algo social, ¿verdad?” Somos inteligentes porque hablamos entre nosotros e intercambiamos información, y así sucesivamente. Hay todo tipo de especies no sociales que nunca conocen a sus padres y son muy inteligentes, como los pulpos o los orangutanes. Quiero decir, ciertamente los orangutanes son educados por su madre, pero no son animales sociales.
Pero la otra categoría de personas a las que podría molestar son las que dicen que escalar es suficiente. Entonces, básicamente, solo usamos Transformers gigantes, los entrenamos con datos multimodales que involucran, ya sabes, video, texto, y así sucesivamente. Petrificamos todo, y tokenizamos todo, y luego entrenamos modelos gigantes para hacer predicciones discretas, básicamente, y de alguna manera la IA surgirá de esto. No están equivocados en el sentido de que eso puede ser un componente de un futuro sistema inteligente. Pero creo que faltan piezas esenciales.
Espacio
- ¿Qué es Artemis? Todo lo que necesitas saber sobre la nueva misión lunar de la NASA
- La NASA ha resuelto el misterio de las extrañas transmisiones de datos de Voyager 1
- El nuevo láser pequeño y potente de la NASA podría encontrar agua en la Luna
- La NASA está abriendo un camino inspirador. Necesitamos asegurarnos de que todos puedan seguirlo
Hay otra categoría de personas a las que voy a molestar con este artículo. Y son los probabilistas, los probabilistas religiosos. Entonces, las personas que piensan que la teoría de la probabilidad es el único marco que se puede usar para explicar el aprendizaje automático. Y como intenté explicar en el artículo, es básicamente demasiado pedir que un modelo del mundo sea completamente probabilístico. No sabemos cómo hacerlo. Está la intratabilidad computacional. Así que propongo abandonar por completo esta idea. Y, por supuesto, ya sabes, esto es un pilar enorme no solo del aprendizaje automático, sino de toda la estadística, que afirma ser el formalismo normal para el aprendizaje automático.
La otra cosa…
ENBLE: Estás en racha…
YL: — se trata de modelos generativos. Así que, la idea es que puedes aprender a predecir y tal vez aprender mucho sobre el mundo mediante la predicción. Entonces, te doy un fragmento de video y le pido al sistema que prediga qué sucede a continuación en el video. Y puedo pedirte que predigas fotogramas de video reales con todos los detalles. Pero lo que argumento en el artículo es que eso es en realidad demasiado pedir y demasiado complicado. Y esto es algo en lo que he cambiado de opinión. Hasta hace unos dos años, solía ser defensor de lo que llamo modelos generativos de variables latentes, modelos que predicen lo que va a suceder a continuación o la información que falta, posiblemente con la ayuda de una variable latente, si la predicción no puede ser determinista. Y he renunciado a esto. Y la razón por la que he renunciado a esto se basa en resultados empíricos, donde las personas han intentado aplicar, de alguna manera, la predicción o el entrenamiento basado en la reconstrucción del tipo que se utiliza en BERT y modelos de lenguaje grandes, han intentado aplicar esto a imágenes, y ha sido un fracaso total. Y la razón por la cual es un fracaso total es, nuevamente, debido a las restricciones de los modelos probabilísticos donde es relativamente fácil predecir tokens discretos como palabras porque podemos calcular la distribución de probabilidad sobre todas las palabras en el diccionario. Eso es fácil. Pero si le pedimos al sistema que produzca la distribución de probabilidad sobre todos los posibles fotogramas de video, no tenemos idea de cómo parametrizarlo, o tenemos alguna idea de cómo parametrizarlo, pero no sabemos cómo normalizarlo. Se encuentra con un problema matemático intratable que no sabemos cómo resolver.
“No hemos llegado al punto en el que nuestras máquinas inteligentes tengan tanto sentido común como un gato”, observa Lecun. “Entonces, ¿por qué no comenzamos por ahí? ¿Qué es lo que permite a un gato comprender el mundo que lo rodea, hacer cosas bastante inteligentes, planificar y cosas así, y a los perros incluso mejor?”
Entonces, por eso digo que abandonemos la teoría de la probabilidad o el marco para cosas como esa, el más débil, modelos basados en energía. He estado abogando por esto también durante décadas, así que esto no es algo reciente. Pero al mismo tiempo, abandonar la idea de modelos generativos porque hay muchas cosas en el mundo que no son comprensibles y no predecibles. Si eres ingeniero, lo llamas ruido. Si eres físico, lo llamas calor. Y si eres una persona de aprendizaje automático, lo llamas, ya sabes, detalles irrelevantes o algo así.
Entonces, el ejemplo que utilicé en el artículo, o que he utilizado en charlas, es que deseas un sistema de predicción del mundo que ayude en un automóvil autónomo, ¿verdad? Quiere poder predecir de antemano las trayectorias de todos los demás autos, qué va a suceder con otros objetos que pueden moverse, peatones, bicicletas, un niño corriendo detrás de una pelota de fútbol, cosas así. Todo tipo de cosas sobre el mundo. Pero al borde de la carretera, puede haber árboles, y hoy hace viento, por lo que las hojas se mueven en el viento, y detrás de los árboles hay un estanque y hay ondulaciones en el estanque. Y esas son, en esencia, fenómenos en gran medida impredecibles. Y no quieres que tu modelo gaste una cantidad significativa de recursos prediciendo esas cosas que son difíciles de predecir y irrelevantes. Por eso abogo por la arquitectura de incrustación conjunta, aquellas cosas en las que la variable que estás tratando de modelar, no estás tratando de predecirla, estás tratando de modelarla, pero pasa a través de un codificador, y ese codificador puede eliminar muchos detalles sobre la entrada que son irrelevantes o demasiado complicados, básicamente equivalentes a ruido.
ENBLE: Discutimos anteriormente este año modelos basados en energía, el JEPA y el H-JEPA. Mi impresión, si te entiendo correctamente, es que estás encontrando el punto de baja energía donde estas dos predicciones de las incrustaciones X e Y son más similares, lo que significa que si hay una paloma en un árbol en una de ellas y hay algo en el fondo de una escena, esos pueden no ser los puntos esenciales que hacen que estas incrustaciones estén cerca una de la otra.
YL: Correcto. Entonces, la arquitectura JEPA realmente intenta encontrar un compromiso entre extraer representaciones que sean máximamente informativas sobre las entradas, pero también predecibles entre sí con algún nivel de precisión o confiabilidad. Encuentra un equilibrio. Entonces, si tiene la opción entre gastar una enorme cantidad de recursos incluyendo los detalles del movimiento de las hojas y luego modelar la dinámica que decidirá cómo se moverán las hojas dentro de un segundo, o simplemente descartar eso al ejecutar básicamente la variable Y a través de un predictor que elimina todos esos detalles, probablemente lo eliminará porque es demasiado difícil de modelar y capturar.
Inteligencia Artificial
- 7 consejos avanzados para escribir prompts en ChatGPT que necesitas conocer
- Los 10 mejores complementos de ChatGPT de 2023 (y cómo aprovechar al máximo)
- He probado muchas herramientas de IA para el trabajo. Estas son mis 5 favoritas hasta ahora
- ¿Humano o bot? Este juego de prueba de Turing pone a prueba tus habilidades para detectar IA
ENBLE: Una cosa que sorprende es que has sido un gran defensor de decir “Funciona, ya encontraremos más tarde la teoría de la termodinámica para explicarlo”. Aquí has adoptado un enfoque de “No sé cómo vamos a resolver esto necesariamente, pero quiero presentar algunas ideas para pensar en ello”, y tal vez incluso acercándote a una teoría o una hipótesis, al menos. Eso es interesante porque hay mucha gente gastando mucho dinero trabajando en el coche que puede ver al peatón independientemente de si el coche tiene sentido común. Y me imagino que algunas de esas personas dirán: “Está bien, no nos importa si no tiene sentido común, hemos construido una simulación, la simulación es asombrosa y la vamos a seguir mejorando, vamos a seguir escalando la simulación”.
Así que es interesante que ahora estés en posición de decir: retrocedamos un poco y pensemos en lo que estamos haciendo. Y la industria está diciendo que vamos a escalar, escalar, escalar, escalar, porque esa manivela realmente funciona. Quiero decir, la manivela de los semiconductores de las GPU realmente funciona.
YL: Hay, como, cinco preguntas ahí. Así que, quiero decir, escalar es necesario. No estoy criticando el hecho de que deberíamos escalar. Deberíamos escalar. Esos redes neuronales se vuelven mejores a medida que se hacen más grandes. No hay duda de que deberíamos escalar. Y los que tendrán algún nivel de sentido común serán grandes. No hay forma de evitar eso, creo. Así que escalar es bueno, es necesario, pero no suficiente. Ese es el punto que estoy haciendo. No es solo escalar. Ese es el primer punto.
El segundo punto, si la teoría viene primero y cosas así. Así que, creo que hay conceptos que vienen primero que, tienes que dar un paso atrás y decir, está bien, hemos construido esta escalera, pero queremos ir a la luna y no hay forma de que esta escalera nos vaya a llevar allí. Así que, básicamente, lo que estoy escribiendo aquí es que necesitamos construir cohetes. No puedo darte los detalles de cómo construimos cohetes, pero aquí están los principios básicos. Y no estoy escribiendo una teoría para ello ni nada, pero va a ser un cohete, ¿vale? O un ascensor espacial o lo que sea. Es posible que no tengamos todos los detalles de toda la tecnología. Estamos tratando de hacer que algunas de esas cosas funcionen, como he estado trabajando en JEPA. El embebido conjunto funciona muy bien para el reconocimiento de imágenes, pero usarlo para entrenar un modelo de mundo tiene dificultades. Estamos trabajando en ello, esperamos que pronto funcione, pero podríamos encontrarnos con algunos obstáculos que no podemos superar, posiblemente.
Luego hay una idea clave en el artículo sobre el razonamiento, donde si queremos que los sistemas sean capaces de planificar, que se puede pensar como una forma simple de razonamiento, necesitan tener variables latentes. En otras palabras, cosas que no son calculadas por ninguna red neuronal sino cosas cuyo valor se infiere para minimizar alguna función objetivo, alguna función de coste. Y luego puedes usar esta función de coste para impulsar el comportamiento del sistema. Y esto no es una idea nueva en absoluto, ¿verdad? Esto es un control óptimo muy clásico, donde la base de esto se remonta a finales de los años 50, principios de los 60. Así que no reclamo ninguna novedad aquí. Pero lo que estoy diciendo es que este tipo de inferencia tiene que ser parte de un sistema inteligente capaz de planificar, y cuyo comportamiento pueda ser especificado o controlado no por un comportamiento rígido, no por aprendizaje por imitación, sino por una función objetivo que impulse el comportamiento, no necesariamente el aprendizaje, pero sí el comportamiento. Sabes, lo tenemos en nuestro cerebro, y cada animal tiene costos intrínsecos o motivaciones intrínsecas para las cosas. Eso impulsa a los bebés de nueve meses a querer ponerse de pie. El costo de estar feliz cuando te pones de pie, ese término en la función de coste es rígido. Pero cómo te pones de pie no lo es, eso es aprendizaje.
“Escalar es bueno, es necesario, pero no suficiente”, dice LeCun sobre los modelos de lenguaje gigantes como los programas basados en Transformadores de la variedad GPT-3. Los devotos de los Transformadores creen que “tokenizamos todo y entrenamos modelos gigantescos para hacer predicciones discretas, y de alguna manera la IA surgirá de esto… pero creo que faltan piezas esenciales”.
ENBLE: Solo para completar ese punto, gran parte de la comunidad de aprendizaje profundo parece estar bien con seguir adelante con algo que no tiene sentido común. Parece que estás argumentando claramente aquí que en algún momento se convierte en un callejón sin salida. Algunas personas dicen: No necesitamos un coche autónomo con sentido común porque la escala lo hará. Parece que estás diciendo que no está bien seguir por ese camino, ¿verdad?
YL: Sabes, creo que es totalmente posible que tengamos coches autónomos de nivel cinco sin sentido común. Pero el problema con este enfoque es que va a ser temporal, porque tendrás que ingeniarlo mucho. Entonces, ya sabes, mapear todo el mundo, cablear toda clase de comportamientos específicos en situaciones límite, recopilar suficientes datos para tener todas las situaciones extrañas que puedes encontrar en las carreteras, y así sucesivamente. Y mi suposición es que con suficiente inversión y tiempo, puedes ingeniarlo muy bien. Pero en última instancia, habrá una solución más satisfactoria y posiblemente mejor que involucre sistemas que hagan un mejor trabajo entendiendo cómo funciona el mundo, y que tengan, ya sabes, algún nivel de lo que llamamos sentido común. No necesita ser un sentido común a nivel humano, pero algún tipo de conocimiento que el sistema pueda adquirir al observar, pero no observando a alguien conduciendo, solo observando cosas en movimiento y comprendiendo mucho sobre el mundo, construyendo una base de conocimiento de fondo sobre cómo funciona el mundo, sobre la cual puedes aprender a conducir.
Déjame tomar un ejemplo histórico de esto. La visión por computadora clásica se basaba en muchos módulos de ingeniería difíciles, sobre los cuales tendrías una capa delgada de aprendizaje. Entonces, las cosas que fueron superadas por AlexNet en 2012, básicamente tenían una primera etapa de extracción de características hechas a mano, como SIFT [Transformación de características invariante a la escala (SIFT), una técnica clásica de visión para identificar objetos destacados en una imagen] y HOG [Histograma de gradientes orientados, otra técnica clásica] y varias otras cosas. Y luego la segunda capa de características de nivel medio basadas en núcleos de características y lo que sea, y algún tipo de método no supervisado. Y luego, en la parte superior de esto, se coloca una máquina de vectores de soporte, o un clasificador relativamente simple. Y eso era, en cierto modo, el flujo de trabajo estándar desde mediados de la década de 2000 hasta 2012. Y eso fue reemplazado por redes convolucionales de extremo a extremo, donde no se cablea nada de esto, solo tienes muchos datos y entrenas la cosa de principio a fin, que es el enfoque que he estado defendiendo durante mucho tiempo, pero, ya sabes, hasta entonces, no era práctico para problemas grandes.
Ha habido una historia similar en el reconocimiento de voz, donde nuevamente hubo una gran cantidad de ingeniería detallada sobre cómo preprocesar los datos, extraer el cepstrum a gran escala [una inversa de la Transformada de Fourier rápida para el procesamiento de señales], y luego tienes modelos ocultos de Markov, con una arquitectura predefinida, y así sucesivamente, con una mezcla de gausianas. Y así, es un poco la misma arquitectura que la visión, donde tienes un frente de trabajo hecho a mano y luego una capa intermedia entrenada no supervisada, y luego una capa supervisada en la parte superior. Y ahora eso ha sido básicamente eliminado por redes neuronales de extremo a extremo. Así que estoy viendo algo similar allí, tratando de aprenderlo todo, pero tienes que tener la prioridad correcta, la arquitectura correcta, la estructura correcta.
La multitud de coches autónomos, startups como Waymo y Wayve, han sido “un poco demasiado optimistas”, dice, al pensar que pueden “arrojar datos, y puedes aprender prácticamente cualquier cosa”. Los coches autónomos en el nivel 5 de ADAS son posibles, “Pero tendrás que ingeniarlo mucho” y el resultado será “frágil” como los primeros modelos de visión por computadora.
ENBLE: Lo que estás diciendo es que algunas personas intentarán ingeniar lo que actualmente no funciona con el aprendizaje profundo para su aplicabilidad, digamos, en la industria, y comenzarán a crear algo que es lo que se volvió obsoleto en la visión por computadora, ¿verdad?
YL: Exacto. Y es en parte por eso que las personas que trabajan en la conducción autónoma han sido un poco demasiado optimistas en los últimos años, porque, ya sabes, tienes estas cosas genéricas como redes convolucionales y Transformers, a las que puedes arrojar datos y pueden aprender prácticamente cualquier cosa. Entonces, dices: Ok, tengo la solución para ese problema. Lo primero que haces es construir una demostración donde el coche se conduce solo durante unos minutos sin lastimar a nadie. Y luego te das cuenta de que hay muchos casos especiales, y tratas de trazar la curva de cuánto mejor estoy obteniendo a medida que duplico el conjunto de entrenamiento, y te das cuenta de que nunca llegarás allí porque hay todo tipo de casos especiales. Y necesitas tener un coche que cause un accidente fatal menos de cada 200 millones de kilómetros, ¿verdad? Entonces, ¿qué haces? Bueno, caminas en dos direcciones.
La primera dirección es, ¿cómo puedo reducir la cantidad de datos necesarios para que mi sistema aprenda? Y ahí es donde entra en juego el aprendizaje auto-supervisado. Por lo tanto, muchas empresas de automóviles autónomos están muy interesadas en el aprendizaje auto-supervisado porque es una forma de seguir utilizando cantidades gigantescas de datos de supervisión para el aprendizaje por imitación, pero obteniendo un mejor rendimiento mediante el preentrenamiento, básicamente. Y aún no ha dado resultados, pero lo hará. Y luego está la otra opción, que la mayoría de las empresas más avanzadas en este momento han adoptado, que es, está bien, podemos hacer el entrenamiento de extremo a extremo, pero hay muchos casos especiales que no podemos manejar, así que vamos a diseñar sistemas que se encarguen de esos casos especiales y, básicamente, tratarlos como casos particulares y cablear el control y luego cablear mucho comportamiento básico para manejar situaciones especiales. Y si tienes un equipo lo suficientemente grande de ingenieros, podrías lograrlo. Pero llevará mucho tiempo y, al final, seguirá siendo un poco frágil, tal vez lo suficientemente confiable como para implementarlo, pero con cierto nivel de fragilidad, que, con un enfoque más basado en el aprendizaje que podría aparecer en el futuro, los autos no tendrán porque podría tener cierto nivel de sentido común y comprensión sobre cómo funciona el mundo.
A corto plazo, el enfoque más ingenierizado ganará, ya está ganando. Eso es lo que hacen Waymo y Cruise y Wayve, y lo que sea. Luego está el enfoque de aprendizaje auto-supervisado, que probablemente ayudará al enfoque ingenierizado a progresar. Pero luego, a largo plazo, que puede ser demasiado largo para que esas empresas esperen, probablemente sería un sistema de conducción autónoma más integrado e inteligente.
ENBLE: Decimos más allá del horizonte de inversión de la mayoría de los inversores.
YL: Así es. Entonces, la pregunta es, ¿las personas perderán la paciencia o se quedarán sin dinero antes de que el rendimiento alcance el nivel deseado?
ENBLE: ¿Hay algo interesante que decir sobre por qué elegiste algunos de los elementos que elegiste en el modelo? Porque citas a Kenneth Craik [1943, La naturaleza de la explicación], y citas a Bryson y Ho [1969, Control óptimo aplicado], y me pregunto por qué empezaste con estas influencias, si creías especialmente que estas personas lo habían logrado. ¿Por qué empezaste allí?
YL: Bueno, no creo que, ciertamente, tuvieran todos los detalles resueltos. Entonces, Bryson y Ho, este es un libro que leí en 1987 cuando era un postdoc con Geoffrey Hinton en Toronto. Pero ya conocía esta línea de trabajo antes cuando estaba escribiendo mi doctorado, y hice la conexión entre el control óptimo y la retropropagación, básicamente. Si realmente quisieras ser, ya sabes, otro Schmidhuber, dirías que los verdaderos inventores de la retropropagación fueron en realidad los teóricos del control óptimo Henry J. Kelley, Arthur Bryson y tal vez incluso Lev Pontryagin, que es un teórico ruso del control óptimo a finales de los años 50.
Así que lo descubrieron, y de hecho, puedes ver que la raíz de esto, las matemáticas subyacentes, es la mecánica lagrangiana. Entonces, puedes retroceder a Euler y Lagrange, de hecho, y encontrar un rastro de esto en su definición de la mecánica clásica lagrangiana, realmente. Entonces, en el contexto del control óptimo, a estos tipos les interesaba básicamente calcular trayectorias de cohetes. Ya sabes, esta era la era espacial temprana. Y si tienes un modelo del cohete, te dice aquí está el estado del cohete en el tiempo t, y aquí está la acción que voy a tomar, así que el empuje y los actuadores de varios tipos, aquí está el estado del cohete en el tiempo t+1.
ENBLE: Un modelo estado-acción, un modelo de valor.
YL: Así es, la base del control. Entonces, ahora puedes simular el lanzamiento de tu cohete imaginando una secuencia de comandos, y luego tienes alguna función de costo, que es la distancia del cohete a su objetivo, una estación espacial o lo que sea. Y luego, mediante algún tipo de descenso de gradiente, puedes descubrir cómo puedo actualizar mi secuencia de acciones para que mi cohete realmente se acerque lo más posible al objetivo. Y eso tiene que venir mediante la propagación de señales hacia atrás en el tiempo. Y eso es retropropagación, retropropagación de gradientes. Esas señales, se llaman variables conjugadas en la mecánica lagrangiana, pero de hecho, son gradientes. Entonces, inventaron la retropropagación, pero no se dieron cuenta de que este principio se podía usar para entrenar un sistema multietapa que puede hacer reconocimiento de patrones o algo así. Esto no se comprendió realmente hasta quizás finales de los años 70, principios de los años 80, y luego no se implementó y se hizo funcionar hasta mediados de los años 80. Ok, entonces, aquí es donde la retropropagación realmente despegó porque la gente mostró aquí hay unas pocas líneas de código con las que puedes entrenar una red neuronal, de extremo a extremo, multicapa. Y eso levanta las limitaciones del Perceptron. Y sí, hay conexiones con el control óptimo, pero está bien.
ENBLE: Entonces, eso es una manera larga de decir que estas influencias con las que empezaste se remontan a backprop, ¿y eso fue importante como punto de partida para ti?
YL: Sí, pero creo que lo que la gente olvidó un poco fue que hubo bastante trabajo en esto, sabes, en los años 90, o incluso en los años 80, incluyendo por personas como Michael Jordan [MIT Dept. of Brain and Cognitive Sciences] y personas así que ya no están haciendo redes neuronales, pero la idea de que puedes usar redes neuronales para el control, y puedes usar ideas clásicas de control óptimo. Entonces, cosas como lo que se llama control predictivo basado en modelo, lo que ahora se llama control predictivo basado en modelo, esta idea de que puedes simular o imaginar el resultado de una secuencia de acciones si tienes un buen modelo del sistema que estás tratando de controlar y del entorno en el que está. Y luego, mediante descenso de gradiente, esencialmente —esto no es aprendizaje, esto es inferencia— puedes averiguar cuál es la mejor secuencia de acciones que minimizará mi objetivo. Entonces, el uso de una función de costo con una variable latente para la inferencia es, creo, algo que las actuales generaciones de redes neuronales a gran escala han olvidado. Pero fue un componente muy clásico del aprendizaje automático durante mucho tiempo. Entonces, cada red bayesiana o modelo gráfico o modelo gráfico probabilístico utilizaba este tipo de inferencia. Tienes un modelo que captura las dependencias entre un montón de variables, te dicen el valor de algunas de las variables, y luego tienes que inferir el valor más probable del resto de las variables. Ese es el principio básico de la inferencia en modelos gráficos y redes bayesianas, y cosas así. Y creo que eso es básicamente de lo que debería tratarse el razonamiento, el razonamiento y la planificación.
ENBLE: Eres un bayesiano en el armario.
YL: Soy un bayesiano no probabilístico. Hice esa broma antes. En realidad, estuve en NeurIPS hace unos años, creo que fue en 2018 o 2019, y fui grabado en video por un bayesiano que me preguntó si era un bayesiano, y dije, Sí, soy un bayesiano, pero soy un bayesiano no probabilístico, algo así como un bayesiano basado en energía, si quieres.
ENBLE: Lo cual definitivamente suena como algo de Star Trek. Mencionaste al final de este artículo que llevará años de trabajo duro realizar lo que imaginas. Cuéntame sobre en qué consiste parte de ese trabajo en este momento.
YL: Entonces, explico cómo entrenar y construir el JEPA en el artículo. Y el criterio por el que abogo es tener alguna forma de maximizar el contenido de información que las representaciones extraídas tienen sobre la entrada. Y luego, el segundo es minimizar el error de predicción. Y si tienes una variable latente en el predictor que permite que el predictor sea no determinista, también tienes que regularizar esta variable latente minimizando su contenido de información. Entonces, ahora tienes dos problemas, que son cómo maximizar el contenido de información de la salida de alguna red neuronal, y el otro es cómo minimizar el contenido de información de alguna variable latente. Y si no haces esas dos cosas, el sistema colapsará. No aprenderá nada interesante. Dará energía cero a todo, algo así, que no es un buen modelo de dependencia. Es el problema de prevención de colapso que menciono.
Y estoy diciendo que, de todas las cosas que la gente ha hecho, solo hay dos categorías de métodos para evitar el colapso. Uno son los métodos contrastivos, y el otro son los métodos regularizados. Entonces, esta idea de maximizar el contenido de información de las representaciones de las dos entradas y minimizar el contenido de información de la variable latente, eso pertenece a los métodos regularizados. Pero mucho del trabajo en esas arquitecturas de incrustación conjunta está utilizando métodos contrastivos. De hecho, probablemente son los más populares en este momento. Entonces, la pregunta es exactamente cómo se mide el contenido de información de una manera que se pueda optimizar o minimizar. Y ahí es donde las cosas se complican porque en realidad no sabemos cómo medir el contenido de información. Podemos aproximar, podemos establecer límites superiores, podemos hacer cosas así. Pero en realidad no medimos el contenido de información, que en cierto sentido ni siquiera está bien definido.
ENBLE: ¿No es la Ley de Shannon? ¿No es la teoría de la información? Tienes una cierta cantidad de entropía, buena entropía y mala entropía, y la buena entropía es un sistema de símbolos que funciona, la mala entropía es ruido. ¿No está todo resuelto por Shannon?
YL: Tienes razón, pero hay un gran problema detrás de eso. Tienes razón en el sentido de que si tienes datos que te llegan y puedes de alguna manera cuantificar los datos en símbolos discretos, y luego mides la probabilidad de cada uno de esos símbolos, entonces la cantidad máxima de información llevada por esos símbolos es la suma de los símbolos posibles de Pi log Pi, ¿verdad? Donde Pi es la probabilidad del símbolo i, eso es la entropía de Shannon. [La Ley de Shannon se formula comúnmente como H = – ∑ pi log pi.]
Aquí está el problema, sin embargo: ¿Qué es Pi? Es fácil cuando el número de símbolos es pequeño y los símbolos se eligen de forma independiente. Cuando hay muchos símbolos y dependencias, es muy difícil. Entonces, si tienes una secuencia de bits y asumes que los bits son independientes entre sí y que las probabilidades son iguales entre uno y cero o lo que sea, entonces puedes medir fácilmente la entropía, sin problema. Pero si las cosas que te llegan son vectores de alta dimensión, como, ya sabes, cuadros de video, o algo así, ¿qué es Pi? ¿Cuál es la distribución? Primero tienes que cuantificar ese espacio, que es un espacio continuo de alta dimensión. No tienes idea de cómo cuantificar esto correctamente. Puedes usar k-means, etc. Esto es lo que hacen las personas cuando hacen compresión de video y compresión de imágenes. Pero solo es una aproximación. Y luego tienes que hacer suposiciones de independencia. Entonces, está claro que en un video, los cuadros sucesivos no son independientes. Hay dependencias, y ese cuadro puede depender de otro cuadro que viste hace una hora, que era una imagen de lo mismo. Entonces, ya sabes, no puedes medir Pi. Para medir Pi, tienes que tener un sistema de aprendizaje automático que aprenda a predecir. Y así vuelves al problema anterior. Entonces, solo puedes aproximar la medida de la información, en esencia.
“La pregunta es exactamente cómo mides el contenido de información de una manera que puedas optimizar o minimizar?” dice LeCun. “Y ahí es donde las cosas se complican porque en realidad no sabemos cómo medir el contenido de información”. Lo mejor que se puede hacer hasta ahora es encontrar un sustituto que sea “lo suficientemente bueno para la tarea que queremos”.
Déjame poner un ejemplo más concreto. Uno de los algoritmos con los que hemos estado experimentando, y del que he hablado en el artículo, es esta cosa llamada VICReg, regularización de varianza-invarianza-covarianza. Está en un artículo separado que se publicó en ICLR, y se subió a arXiv aproximadamente un año antes, en 2021. Y la idea allí es maximizar la información. Y la idea en realidad surgió de un artículo anterior de mi grupo llamado Barlow Twins. Maximizas el contenido de información de un vector que sale de una red neuronal al asumir, básicamente, que la única dependencia entre las variables es la correlación, la dependencia lineal. Entonces, si asumes que la única dependencia posible entre pares de variables, o entre variables en tu sistema, es la correlación entre pares de valores, que es la aproximación extremadamente aproximada, entonces puedes maximizar el contenido de información que sale de tu sistema asegurándote de que todas las variables tengan una varianza distinta de cero, digamos, una varianza de uno, no importa cuál sea, y luego retrocorrelarlas, el mismo proceso que se llama blanqueamiento, tampoco es nuevo. El problema con esto es que muy bien puede haber dependencias extremadamente complejas entre grupos de variables o incluso solo pares de variables que no son dependencias lineales, y no se muestran en las correlaciones. Entonces, por ejemplo, si tienes dos variables, y todos los puntos de esas dos variables se alinean en una especie de espiral, hay una dependencia muy fuerte entre esas dos variables, ¿verdad? Pero de hecho, si calculas la correlación entre esas dos variables, no están correlacionadas. Entonces, aquí tienes un ejemplo donde el contenido de información de estas dos variables es en realidad muy pequeño, solo es una cantidad porque es tu posición en la espiral. Están descorrelacionadas, así que piensas que tienes mucha información proveniente de esas dos variables cuando en realidad no la tienes, solo puedes predecir una de las variables a partir de la otra, en esencia. Entonces, eso muestra que solo tenemos formas muy aproximadas de medir el contenido de información.
ENBLE: Entonces, ¿eso es una de las cosas en las que debes estar trabajando ahora con esto? ¿Esta es la pregunta más grande de cómo sabemos cuándo estamos maximizando y minimizando el contenido de información?
YL: O si el sustituto que estamos usando para esto es lo suficientemente bueno para la tarea que queremos. De hecho, hacemos esto todo el tiempo en el aprendizaje automático. Las funciones de costo que minimizamos nunca son las que realmente queremos minimizar. Entonces, por ejemplo, quieres hacer clasificación, ¿de acuerdo? La función de costo que quieres minimizar cuando entrenas un clasificador es el número de errores que comete el clasificador. Pero esa es una función de costo no diferenciable y horrible que no puedes minimizar porque, ya sabes, vas a cambiar los pesos de tu red neuronal, nada va a cambiar hasta que una de esas muestras cambie de decisión, y luego un salto en el error, positivo o negativo.
ENBLE: Entonces tienes un proxy que es una función objetivo que definitivamente puedes decir, podemos fluir gradientes de esta cosa.
YL: Así es. Entonces la gente usa esta pérdida de entropía cruzada, o SOFTMAX, tienes varios nombres para ello, pero es lo mismo. Y básicamente es una aproximación suave del número de errores que el sistema comete, donde el suavizado se realiza teniendo en cuenta la puntuación que el sistema otorga a cada una de las categorías.
ENBLE: ¿Hay algo que no hayamos cubierto que te gustaría cubrir?
YL: Probablemente enfatizar los puntos principales. Creo que los sistemas de IA deben ser capaces de razonar, y el proceso que estoy defendiendo para ello es minimizar algún objetivo con respecto a alguna variable latente. Eso permite a los sistemas planificar y razonar. Creo que deberíamos abandonar el marco probabilístico porque es intratable cuando queremos hacer cosas como capturar dependencias entre variables continuas de alta dimensión. Y abogo por abandonar los modelos generativos porque el sistema tendrá que dedicar demasiados recursos a predecir cosas que son demasiado difíciles de predecir y que tal vez consuman demasiados recursos. Y eso es prácticamente todo. Esos son los mensajes principales, si quieres. Y luego la arquitectura general. Luego están esas especulaciones sobre la naturaleza de la conciencia y el papel del configurador, pero esto es realmente especulación.
ENBLE: Lo abordaremos la próxima vez. Iba a preguntarte, ¿cómo se evalúa esta cosa? Pero supongo que estás un poco alejado de la evaluación en este momento, ¿verdad?
YL: No necesariamente tan lejos en versiones simplificadas. Puedes hacer lo que todos hacen en el control o el aprendizaje por refuerzo, que es entrenar la cosa para jugar juegos de Atari o algo así, o algún otro juego que tenga alguna incertidumbre.
ENBLE: Gracias por tu tiempo, Yann.