Google Gemini AI intenta superar a ChatGPT utilizando fotos y videos
Google Gemini AI busca superar a ChatGPT al aprovechar fotos y videos
Google ha comenzado a dotar a su chatbot Bard AI de una comprensión de video, audio y fotos con un nuevo modelo de IA llamado Gemini. Los propietarios del teléfono Google Pixel 8 serán los primeros en aprovechar sus nuevas capacidades de inteligencia artificial, pero Gemini llegará a Gmail y otras herramientas de Google Workspace a principios de 2024.
Las personas en docenas de países tuvieron acceso a Gemini con una actualización del chatbot Bard a principios de diciembre, aunque solo en inglés. Puede proporcionar capacidades de chat basadas en texto que Google dice que mejoran las habilidades de IA en tareas complejas como resumir documentos, razonar, planificar y escribir código de programación. El cambio más grande con las capacidades multimedia, por ejemplo, comprender los gestos de las manos en un video o descubrir el resultado de un rompecabezas de puntos a puntos de un niño, llegará “pronto”, según Google.
Mira esto:
La nueva versión destaca el avance vertiginoso en el campo de la IA generativa, donde los chatbots crean sus propias respuestas a las preguntas que escribimos en lenguaje claro en lugar de instrucciones de programación arcanas. El principal competidor de Google, OpenAI, tomó la delantera con el lanzamiento de ChatGPT hace un año, pero Gemini es la tercera revisión importante del modelo de IA de Google y espera ofrecer esa tecnología a través de productos que miles de millones de personas usamos, como búsqueda, Chrome, Google Docs y Gmail.
El miércoles, Google también llevó Gemini a los programadores, una comunidad clave de personas que pueden incorporar la tecnología en su propio software. Esto se realiza a través de la interfaz web básica de Google AI Studio o el más sofisticado Vertex AI. Y para el uso más allá de una tarifa baja gratuita, Google redujo los precios entre dos y cuatro veces. Eso podría ayudar a animar a los desarrolladores encantados con la interfaz de programación de OpenAI a al menos probar Gemini.
- Los Mejores Servicios de Streaming para Reality TV
- La IA ayuda a los fabricantes de chips a diseñar los mismísimos pro...
- Cómo Google Workspace acaba de hacer más fácil para que otros pronu...
Al cortejar a los desarrolladores, es más probable que Google extienda Gemini a las herramientas de software que esos programadores construyen para ti. Google también está integrando Gemini en sus propios servicios, especialmente con el asistente de IA Duet en Gmail, Google Docs, Meet y otras partes de Google Workspace.
“Duet AI para el espacio de trabajo se migrará a Gemini en las primeras etapas de 2024”, dijo Thomas Kurian, director ejecutivo de la división de Google Cloud. Eso podría ayudarte a convertir un dibujo a mano de un avión en una versión fotorrealista para una presentación de Google Slides, por ejemplo, o en Google Meet podría ayudarte a comprender mejor una videoconferencia que incluye diapositivas que no están en tu idioma nativo. “La comprensión multimodal de Gemini le permite hacer resúmenes mucho más ricos de las reuniones”, dijo.
Gemini es una partida dramática para la IA. El chat basado en texto es importante, pero los humanos debemos procesar información mucho más rica mientras habitamos nuestro mundo tridimensional y en constante cambio. Y respondemos con habilidades de comunicación complejas, como el habla y las imágenes, no solo con palabras escritas. Gemini es un intento de acercarse a nuestra propia comprensión más completa del mundo.
Gemini viene en tres versiones adaptadas a diferentes niveles de potencia informática, según Google:
- Gemini Nano se ejecuta en teléfonos móviles, con dos variedades disponibles construidas para diferentes niveles de memoria disponible. Alimentará nuevas funciones en los teléfonos Pixel 8 de Google, como resumir conversaciones en su aplicación Recorder o sugerir respuestas de mensajes en WhatsApp escritos con el Gboard de Google.
- Gemini Pro, ajustado para respuestas rápidas, se ejecuta en los centros de datos de Google y alimentará una nueva versión de Bard, a partir del miércoles.
- Gemini Ultra, limitado a un grupo de prueba por ahora, estará disponible en un nuevo chatbot Bard Advanced a principios de 2024. Google no reveló detalles de precios, pero espera pagar un precio premium por esta capacidad superior.
“Durante mucho tiempo hemos querido construir una nueva generación de modelos de IA inspirados en la forma en que las personas entienden e interactúan con el mundo, una IA que se sienta más como un colaborador útil y menos como un software inteligente”, dijo Eli Collins, vicepresidente de producto en la división DeepMind de Google. “Gemini nos acerca un paso más a esa visión”.
OpenAI también suministra la inteligencia detrás de la tecnología de IA Copilot de Microsoft, incluida la nueva versión GPT-4 Turbo AI que OpenAI lanzó en noviembre. Microsoft, al igual que Google, tiene productos importantes como Office y Windows a los que agrega funciones de IA.
La IA se vuelve más inteligente, pero no es perfecta
La multimedia probablemente será un gran cambio en comparación con el texto cuando llegue. Pero lo que no ha cambiado son los problemas fundamentales de los modelos de IA entrenados reconociendo patrones en grandes cantidades de datos del mundo real. Pueden convertir indicaciones cada vez más complejas en respuestas cada vez más sofisticadas, pero aún no puedes confiar en que no hayan proporcionado una respuesta que era plausible en lugar de ser realmente correcta. Como advierte el chatbot de Google cuando lo usas, “Bard puede mostrar información incorrecta, incluyendo sobre personas, así que verifica dos veces sus respuestas”.
Gemini es la próxima generación del modelo de lenguaje grande de Google, una secuela de PaLM y PaLM 2 que hasta ahora han sido la base de Bard. Pero al entrenar a Gemini simultáneamente en texto, código de programación, imágenes, audio y video, puede manejar de manera más eficiente las entradas multimedia que con modelos de IA separados pero interconectados para cada modo de entrada.
Los ejemplos de habilidades de Gemini, según un artículo de investigación de Google (PDF), son diversos.
Al observar una serie de formas que consisten en un triángulo, un cuadrado y un pentágono, puede adivinar correctamente que la siguiente forma en la serie es un hexágono. Al presentársele fotos de la luna y una mano sosteniendo una pelota de golf y se le pide encontrar la conexión, señala correctamente que los astronautas del Apolo golpearon dos pelotas de golf en la luna en 1971. Convirtió cuatro gráficos de barras que muestran las técnicas de eliminación de residuos país por país en una tabla etiquetada y detectó un punto de datos atípico, a saber, que Estados Unidos arroja mucha más plástico en el vertedero que otras regiones.
La compañía también mostró cómo Gemini procesaba un problema de física escrito a mano que involucraba un dibujo simple, descubriendo dónde estaba el error de un estudiante y explicando una corrección. Un video demostrativo más complejo mostró cómo Gemini reconocía un pato azul, títeres de mano, trucos de prestidigitación y otros videos. Sin embargo, ninguna de las demostraciones fue en tiempo real y no está claro con qué frecuencia Gemini falla en estos desafíos.
¿El video de Gemini de Google fue falso?
Google promocionó a Gemini en un video de demostración que supuestamente muestra cómo reconoce gestos de mano, sigue trucos de magia y ordena imágenes de planetas según qué tan lejos están del sol, todo a partir de datos visuales. Sin embargo, debes considerar eso como una dramatización de las verdaderas habilidades de Gemini.
No es raro que los videos promocionales hagan que los productos parezcan más cautivadores de lo que realmente son. En este caso, podrías pensar que Gemini estaba procesando datos visuales y órdenes habladas. Google incluyó algunos detalles: un descargo de responsabilidad en el video que indica que Gemini no responde tan rápido, y un enlace en la descripción del video a una discusión sobre cómo funciona realmente la demostración de Gemini de Google. Es posible que no hayas notado nada de eso. Google también hizo un seguimiento con una publicación en X (antes Twitter) que muestra qué tan rápido responde Gemini en realidad.
Aún así, el video no tergiversa fundamentalmente las habilidades de Gemini, aunque las personas externas generalmente no han podido ponerlo a prueba. Puede aceptar entrada hablada y visual.
Gemini Ultra llegará en 2024
Gemini Ultra espera más pruebas antes de su lanzamiento el próximo año.
La “evaluación interna”, en la que un fabricante de productos recluta personas para encontrar vulnerabilidades de seguridad y otros problemas, está en marcha para Gemini Ultra. Estas pruebas son más complicadas con datos de entrada multimedia. Por ejemplo, un mensaje de texto y una foto podrían ser inofensivos por separado, pero juntos podrían transmitir un significado dramáticamente diferente.
“Estamos abordando este trabajo de manera audaz y responsable”, dijo Sundar Pichai, CEO de Google, en una publicación de blog. Esto significa una combinación de investigación ambiciosa con grandes beneficios potenciales, pero también agregar salvaguardias y trabajar en colaboración con gobiernos y otros “para abordar los riesgos a medida que la IA se vuelve más capaz”.
Nota de los editores: ENBLE está utilizando un motor de IA para ayudar a crear algunas historias. Para obtener más información, consulta esta publicación.