Meta acaba de lanzar una versión de codificación de Llama 2

Meta lanza una versión de codificación de Llama 2

Cuando Meta lanzó Llama 2, un potente modelo de inteligencia artificial similar al que está detrás de ChatGPT, el mes pasado, permitió a los desarrolladores, startups e investigadores jugar con el tipo de IA que ha cautivado al mundo durante casi un año.

Hoy, Meta sigue con el lanzamiento de Code Llama, una versión del modelo que ha sido ajustada para tareas de programación. El lanzamiento podría significar que más desarrolladores prueben la programación asistida por IA. También podría inspirar nuevas formas de incorporar la IA en el software. Y podría ayudar a establecer aún más a Meta como el proveedor principal de herramientas de IA “abiertas”.

“Es emocionante que estén liberando los pesos a la comunidad”, dice Deepak Kumar, un investigador postdoctoral en Stanford que ha estudiado la programación de IA, refiriéndose a los parámetros de la red neuronal en el núcleo del modelo.

Kumar dice que el lanzamiento del modelo de lenguaje regular Llama 2 de Meta llevó a la formación de comunidades dedicadas a discutir cómo se comporta y cómo se puede modificar. “Nos da un poco más de flexibilidad para jugar con lo que está sucediendo exactamente bajo el capó, en comparación con estos modelos de código cerrado de Google o OpenAI.”

Kumar dice que es probable que los desarrolladores construyan nuevos tipos de aplicaciones utilizando Code Llama. Por ejemplo, podría ser posible crear un asistente de programación que realice varias verificaciones adicionales de seguridad antes de recomendar un fragmento de código, dice Kumar, cuya propia investigación ha explorado cómo la asistencia de IA a veces puede llevar a un código menos seguro. Kumar agrega que el lanzamiento podría inspirar la creación de asistentes especializados para tipos particulares de programación. “Puedes construir todo tipo de herramientas sobre el modelo”, dice.

Talia Ringer, profesora asistente en la Universidad de Illinois Urbana-Champaign que investiga la programación, dice que Code Llama será valioso para la investigación académica. “Ya tengo estudiantes que usan modelos de Llama para la investigación, y puedo ver a esos estudiantes emocionarse aún más con un modelo de código dado la naturaleza de nuestro trabajo”, dice. Pero Ringer agrega que, idealmente, también se debería liberar los datos utilizados para el entrenamiento. “Esa suele ser la pieza que falta para dar sentido a la investigación en LLMs”, dice.

La programación es un área en la que los avances recientes en IA ya han tenido un impacto considerable.

En mayo de 2021, GitHub, una subsidiaria de Microsoft, lanzó Copilot, un complemento para programas de codificación que autocompleta secciones de código basándose en la primera línea o un comentario escrito por el usuario. Copilot utiliza una versión de GPT de Open AI, el gran modelo de lenguaje detrás de ChatGPT. Ese modelo se entrena aún más utilizando el código que GitHub almacena para los desarrolladores, así como, según se informa, por contratistas que se les paga para anotar su propio código.

GitHub enfrenta una demanda por usar parte del código de código abierto en sus datos de entrenamiento, y Masad dice que es probable que Meta haya limitado los datos de entrenamiento para evitar tales complicaciones. Copilot cuesta $10 al mes para individuos y $19 al mes, por usuario, para empresas.

Copilot aparentemente ha sido un éxito entre los desarrolladores. Según las cifras publicadas por GitHub en junio, es utilizado por más de un millón de desarrolladores y más de 200,000 empresas. Los propios estudios de la compañía también sugieren que Copilot acelera la velocidad a la que los programadores pueden realizar tareas, lo que lleva a un aumento del 30 por ciento en la productividad.

Meta está lanzando dos versiones de Code Llama, una orientada a producir código Python y otra optimizada para convertir comandos de lenguaje natural en código. También está poniendo a disposición tres tamaños de modelos. El más pequeño puede ejecutarse en una sola GPU.

Meta dice que Code Llama se entrena con código que está en el dominio público. En dos pruebas de codificación comunes, HumanEval y Mostly Basic Python Problems, funciona mucho mejor que los modelos de código abierto existentes y está “a la par con ChatGPT”, dice la compañía.

Amjad Masad, CEO de Replit, una plataforma de codificación en línea que ofrece varias herramientas de IA generativa, no espera que Code Llama reemplace a Copilot porque sus datos de entrenamiento más limitados probablemente lo hagan más limitado. Pero dice que el lanzamiento podría permitir a los desarrolladores experimentar con agentes que realizan tareas útiles, como navegar por la web en busca de información o usar una API para reservar un vuelo o hacer un pedido de comida. “Creo que esa es un área realmente emocionante”, dice Masad. “Interacciones en las que puedes escribir instrucciones en lenguaje natural, y el modelo puede procesar datos y hacer cosas interesantes en el mundo”.

El lanzamiento de Code Llama también puede brindar beneficios a Meta. La compañía puede que no tenga ChatGPT o un motor de búsqueda impulsado por IA, pero establecerse como el proveedor de IA gratuito para muchos desarrolladores, empresas e investigadores podría darle una posición en la carrera por aprovechar la IA generativa. Meta decidió adoptar un enfoque abierto después de ver cómo alguien filtraba una versión temprana de Llama en la web en mayo.

Ni Llama 2 ni Code Llama están liberados bajo licencias regulares de software de código abierto que permitan el uso comercial sin restricciones. Bajo la licencia de Meta, por ejemplo, se restringe a los usuarios de utilizar los modelos en aplicaciones o servicios con más de 700 millones de usuarios mensuales.

Un documento de investigación publicado en línea este mes señala que la liberación de herramientas de IA puede tener beneficios indirectos significativos para las empresas que están detrás de ellas al retener a los investigadores en sus herramientas, por ejemplo, y proporcionarles nuevas ideas que pueden utilizar a gran escala.