Las gafas Ray-Ban de Meta añadieron IA que puede ver lo que estás viendo

Las gafas Ray-Ban de Meta incorporaron inteligencia artificial que puede ver lo que estás viendo

“Oye, Meta. Echa un vistazo a esto y dime cuál de estos tés no contiene cafeína.”

Estas palabras las di mientras llevaba puestos unos lentes Meta Ray-Ban en la sede de la gigante tecnológica en Nueva York, mientras miraba una mesa con cuatro paquetes de té en los que las etiquetas de cafeína estaban tachadas con un marcador mágico. Un pequeño sonido de clic en mis oídos fue seguido por la voz de la IA de Meta diciéndome que el té de manzanilla probablemente no tenía cafeína. Estaba leyendo las etiquetas y tomando decisiones utilizando la IA generativa.

Estaba demostrando una característica que se está implementando en las gafas Ray-Ban de segunda generación de Meta, que comienza hoy, una característica que el CEO de Meta, Mark Zuckerberg, ya había prometido en septiembre cuando se anunciaron las nuevas gafas. Las características de IA, que pueden acceder a las cámaras de las gafas de Meta para ver imágenes e interpretarlas con IA generativa, se suponía que se lanzarían en 2024. Meta ha decidido introducir estas funciones mucho más rápido de lo que esperaba, aunque el modo de acceso anticipado todavía está en beta. Además de agregar la búsqueda con Bing a las Ray-Bans como parte de una nueva actualización, que mejora las capacidades ya disponibles de control de voz de las gafas, las gafas de Meta están adquiriendo rápidamente varias nuevas habilidades.

Me quedé impresionado con la demostración porque nunca había visto nada igual. Google Lens y otras herramientas en el teléfono ya utilizan cámaras e IA juntas, y Google Glass, hace una década, tenía algunas herramientas de traducción. Dicho esto, la forma fácil de acceder a la IA en las gafas de Meta para identificar cosas en el mundo que me rodea se siente bastante avanzada. Estoy emocionado por probarlo mucho más.

Las gafas no tienen una pantalla y solo hablan las respuestas. Pero la aplicación para teléfono Meta View guarda las fotos y respuestas de IA para después.

Meta

IA multimodal: Cómo funciona ahora mismo

La característica tiene limitaciones en este momento. Solo puede reconocer lo que ves al tomar una foto, que luego analiza la IA. Puedes escuchar el sonido del obturador después de hacer una solicitud por voz, y hay una pausa de unos segundos antes de que llegue la respuesta. Las indicaciones de voz también son demasiado extensas: cada solicitud de voz en las gafas de Meta debe comenzar con “Oye, Meta”, y luego tienes que decir “Echa un vistazo a esto” para activar la toma de fotos, seguido inmediatamente de lo que quieras solicitarle a la IA que haga. “Oye, Meta, echa un vistazo a esto y dime una receta con estos ingredientes”. “Oye, Meta, echa un vistazo a esto y crea un subtítulo divertido”. “Oye, Meta, echa un vistazo a esto. ¿Qué planta es?”

Todas las respuestas de la IA, y la foto que analizó, se almacenan en la aplicación para teléfono Meta View que se conecta con las gafas. Me gusta esto porque es un registro visual/escrito para después, como notas que refrescan la memoria. Podría verme vagando por algún lugar y haciéndole preguntas, utilizando esto como una especie de búsqueda de Google llevada en la cabeza para los ojos, mientras compro o quién sabe qué.

Aún no probé las gafas de Meta mientras cocinaba.

Meta

También podría tener usos posibles con fines asistenciales. Usé una prueba de las gafas de Meta que no tenía mi prescripción, y le pregunté qué estaba mirando. Las respuestas pueden variar en detalle y precisión, pero puede dar una advertencia. Sabía que le mostraba mis gafas, que según él tenían lentes con tono azul (armação azul-negra, muy cerca).

A veces puede alucinar. Le pregunté a las gafas sobre la fruta en un tazón frente a mí, y dijo que había naranjas, plátanos, pitahayas, manzanas y granadas. Estaba en lo correcto, excepto por las granadas. (No había ninguna de esas). Me pidieron que le hiciera un subtítulo a un gran oso de peluche frente a una ventana. Hizo algunos lindos, pero uno decía algo sobre alguien que estaba solo y mirando su teléfono, lo cual no coincidía.

Miré un menú en español y le pedí a las gafas que me mostraran platos picantes. Me leyó algunos platos y tradujo algunos ingredientes clave para mí, pero cuando pregunté de nuevo sobre los platos con carne, leyó todo en español.

Las posibilidades aquí son increíbles y fascinantes, y posiblemente increíblemente útiles. Meta admite que este lanzamiento temprano servirá para descubrir errores y ayudar a evolucionar la forma en que funciona la IA en las gafas. Encontré que había demasiados momentos de “Oye, Meta, mira esto”. Pero ese proceso podría cambiar, quién sabe. Cuando se está involucrado en el análisis de imágenes inmediato, hacer preguntas de seguimiento directas puede funcionar sin decir “Mira esto” nuevamente, pero estoy seguro de que mi éxito variará.

¿Cuándo serán útiles los subtítulos y cuándo alucinarán?

Meta

El futuro de la IA portátil se está volviendo interesante

Esta IA, que Meta llama “IA multimodal” porque utiliza cámaras y chat de voz juntos, es un precursor de la IA futura que la compañía planea mezclar muchas formas de entradas, incluyendo más datos sensoriales. El chipset centrado en la IA de Qualcomm en las nuevas gafas de sol de Ray-Ban de Meta parece estar listo para asumir más. También es un proceso que Meta planea hacer más fluido con el tiempo.

El CTO de Meta, Andrew Bosworth, me dijo en septiembre que si bien las gafas ahora necesitan un comando de voz para activarse y “ver” para que no se agote la batería, eventualmente “tendrán sensores lo suficientemente eficientes como para detectar un evento que desencadene una conciencia que active la IA. Ese es realmente el sueño hacia el que estamos trabajando”. Meta también está investigando herramientas de IA que mezclan múltiples formas de datos sensoriales juntos, antes de los wearables futuros más avanzados.

Por ahora, ten en cuenta que es un acceso anticipado beta. Meta está utilizando datos de consultas anonimizados para ayudar a mejorar sus servicios de IA durante la fase de acceso anticipado, lo que puede preocupar a las personas que desean más privacidad. Aún no conozco los detalles específicos de la opción de inclusión, pero parece que habrá controles discretos sobre el intercambio de datos una vez que se lancen las funciones de IA finales, probablemente el próximo año.

Todo esto me recuerda exactamente a lo que Humane busca con su wearable AI Pin, un dispositivo que ni siquiera he visto personalmente. Mientras que el producto de Humane es costoso y debe llevarse en la ropa, las gafas de Meta cuestan 300 dólares y ya están en los estantes de las tiendas. A medida que los relojes, los visores de realidad virtual y las gafas inteligentes evolucionen en sus capacidades de IA, las cosas podrían ser muy diferentes para el futuro de la tecnología portátil y su nivel de conciencia asistida.

Está claro que una nueva frontera de productos de IA portátil ya está en marcha y las gafas de Meta son las primeras en llegar aquí.

Nota del editor: ENBLE está utilizando un motor de IA para ayudar a crear algunas historias. Para obtener más información, consulta esta publicación.