Manos a la obra con la respuesta de Google Search a ChatGPT

Google Search's response to ChatGPT

El fin de semana pasado, recurrí a la búsqueda de Google para obtener ayuda para averiguar cuántos sellos necesitaba poner en una pieza de correo de 8 onzas. (Naturalmente, estaba enviando una copia del último número de WIRED!). Es el tipo de pregunta exacto que esperaba que la nueva función de IA generativa de búsqueda de Google, que he estado probando durante el último mes, resolviera mucho más rápido de lo que podría hacerlo yo mismo navegando.

La Experiencia Generativa de Búsqueda de Google, SGE por sus siglas en inglés, infunde su cuadro de búsqueda con funcionalidad conversacional similar a ChatGPT. Puedes registrarte en los Laboratorios de Búsqueda de Google. La compañía dice que quiere que los usuarios conversen con su chatbot de búsqueda, que se lanzó a los probadores en mayo, para profundizar en los temas y hacer preguntas más desafiantes e intuitivas de lo que escribirían en una antigua y aburrida caja de consulta. Y las respuestas generadas por IA están destinadas a organizar la información de manera más clara que una página de resultados de búsqueda tradicional, por ejemplo, al reunir información de múltiples sitios web. La mayoría de las búsquedas web del mundo pasan por Google, y ha estado desarrollando tecnologías de IA durante más tiempo que la mayoría de las empresas, por lo que es justo esperar una experiencia de primera categoría.

Así va la teoría. Resulta que en la práctica, la nueva función es hasta ahora más un estorbo que una ayuda. Es lenta, ineficaz, prolija y desordenada, más una interferencia artificial que una inteligencia.

Lo primero que noté sobre la visión de Google para el futuro de la búsqueda fue su lentitud.

Texto sin formato

Una vez que obtienes acceso a la prueba de Google, el cuadro de búsqueda parece sin cambios. Pero en respuesta a una consulta como “Cuántos sellos se necesitan para enviar una carta de 8 onzas”, una nueva sección ocupa una buena parte de la pantalla, empujando hacia abajo la lista convencional de enlaces. Dentro de esa área, los grandes modelos de lenguaje de Google generan un par de párrafos similares a lo que podrías encontrar en ChatGPT o en el chat de Bing de Microsoft. Los botones en la parte inferior conducen a una interfaz de chatbot donde puedes hacer preguntas de seguimiento.

Lo primero que noté sobre la visión de Google para el futuro de la búsqueda fue su lentitud. En pruebas donde controlaba una aplicación de cronómetro con una mano y enviaba una consulta con la otra, a veces tardaba casi seis segundos en que el generador de texto de Google diera su respuesta. Lo normal eran más de tres segundos, en comparación con no más de un segundo para que aparezcan los resultados convencionales de Google. Las cosas podrían haber sido peores: hice mis pruebas después de que Google lanzara una actualización que según afirma duplicó la velocidad del bot de búsqueda el mes pasado. Sin embargo, muchas veces me encuentro leyendo los resultados regulares para cuando la IA generativa termina, lo que significa que ignoro sus disertaciones enviadas con retraso. Cathy Edwards, vicepresidenta de Búsqueda de Google, me dice que las optimizaciones de velocidad del software de IA que respalda la herramienta están en curso.

Se podría disculpar la lentitud de esta nueva forma de búsqueda si los resultados fueran valiosos. Pero la precisión es irregular. La respuesta generada por IA de cinco frases de Google a mi pregunta sobre los sellos incluía errores aparentes tanto de multiplicación como de resta, precios de sellos desactualizados por dos años y preguntas de seguimiento sugeridas que ignoraban variables cruciales para los costos de envío, como la forma, el tamaño y el destino. El descargo de responsabilidad que Google muestra en la parte superior de cada respuesta generada por IA resuena con verdad: “La IA generativa es experimental. La calidad de la información puede variar”.

En la misma respuesta, la nueva función de búsqueda de Google sugirió que necesitaría $2.47 o $4 en sellos. Al ir al calculador en línea del Servicio Postal de EE. UU., obtuve la respuesta oficial: necesitaba $3.03, o cinco sellos de 66 centavos cada uno con un exceso de pago de 27 centavos. Edwards de Google dice que mi humilde consulta empujó los límites actuales de la tecnología. “Definitivamente está en la vanguardia”, dice ella.

Desafortunadamente, la simplificación tampoco terminó bien. Cuando se le pedía solo el precio de un sello, Google respondía con una cifra desactualizada. Solo especificar que quería el precio de este mes hizo que el sistema reflejara correctamente el aumento de costo de 3 centavos de este mes. Para ser justos, ChatGPT también suspendería esta consulta porque su conjunto de datos de entrenamiento se detiene en 2021, pero no se posiciona como un reemplazo de un motor de búsqueda.

La nueva experiencia de búsqueda de Google se siente lo suficientemente poco confiable como para que sea mejor hacer clic en los resultados estándar para realizar mi propia investigación. Una consulta sobre los videojuegos de Star Wars desarrollados por el fabricante de juegos Electronic Arts generó una lista precisa excepto por la inclusión de un título de Ubisoft, rival de EA. Irónicamente, la descripción generada por IA del juego en el resultado mencionaba que había sido hecho por Ubisoft, demostrando cómo los grandes modelos de lenguaje pueden contradecirse a sí mismos.

Cuando se le preguntó sobre los jugadores que los Padres de San Diego, que seguramente vencerán a los Phillies de Steven para obtener un lugar en los playoffs, pueden intentar adquirir a través de un intercambio con otro equipo de béisbol, la respuesta de la IA de Google comenzó con dos jugadores actualmente en los Padres, confundiendo fichas de cambio como objetivos de cambio.

Google ha implementado algunas medidas de protección. La nueva experiencia de búsqueda no se muestra para algunas consultas de salud o financieras, para las cuales Google ha establecido un umbral más alto de precisión. Y la experiencia casi siempre presenta de manera prominente enlaces a recursos relacionados en la web para ayudar a los usuarios a corroborar las salidas de la IA. Los resultados de consultas como “Escribe un poema” tienen el descargo de responsabilidad “Es posible que veas contenido creativo inexacto”. Y el sistema de IA generalmente no intenta sonar demasiado lindo o adoptar una personalidad. “No creemos que las personas realmente quieran hablar con Google”, dice Edwards, contrastando con Bing Chat, que se sabe que adopta el discurso en primera persona o agrega emojis.

En ocasiones, la nueva visión de Google para la búsqueda puede parecer más un paso atrás que un salto hacia el futuro. Las respuestas generadas pueden duplicar otras características en la página de resultados, como fragmentos destacados que ofrecen una respuesta clara y fácil de entender de un sitio web o cuadros de conocimiento que proporcionan una descripción general de un tema de la longitud de un párrafo de Wikipedia. Cuando interviene tardíamente en resultados como esos, la versión generativa de la IA tiende a ser la más prolija y la más difícil de entender.

Edwards mencionó al menos ocho veces en nuestra discusión de 30 minutos sobre mis experiencias con la nueva función que aún está en sus primeras etapas de desarrollo y que aún hay muchas cuestiones por resolver. “No creo que me escuches decir que hemos perfeccionado esto”, dice. “Estamos al comienzo de un arco de transformación de 10 años”. También dice que los comentarios hasta la fecha han sido “súper positivos”, pero quizás lo más importante es que dice que lo que Google eventualmente lanzará a todos los usuarios “podría ser bastante diferente a lo que tenemos hoy”.

Sería agradable tener una experiencia más rápida, menos abarrotada de contenido y capaz de enviar problemas de WIRED a los lectores sin correr el riesgo de que sean devueltos por franqueo insuficiente.

La búsqueda de Google para responder de manera concisa a las preguntas de los usuarios con respuestas directas comenzó hace años. En 2016, el entonces escritor de WIRED, Cade Metz, escribió sobre cómo Google reunió a unos 100 doctorados en lingüística que hablaban unas dos docenas de idiomas para condensar la escritura y anotar oraciones para ayudar a entrenar a los sistemas de IA para comprender cómo funciona el lenguaje humano. Google esperaba que el equipo y la tecnología crecieran en los próximos años.

Estos “algoritmos de compresión de oraciones” acaban de ser lanzados en la versión de escritorio del motor de búsqueda. Manejan una tarea que es bastante simple para los humanos pero que tradicionalmente ha sido muy difícil para las máquinas. Muestran cómo el aprendizaje profundo está avanzando en el arte de la comprensión del lenguaje natural, la capacidad de comprender y responder al lenguaje humano natural. “Necesitas usar redes neuronales, o al menos eso es lo único que hemos encontrado para hacerlo”, dice David Orr, gerente de productos de investigación de Google sobre el trabajo de compresión de oraciones de la compañía.

Google entrena estas redes neuronales utilizando datos hechos a mano por un enorme equipo de doctorados en lingüística que llama a Pygmalion. En efecto, las máquinas de Google aprenden cómo extraer respuestas relevantes de largas cadenas de texto al observar cómo lo hacen los humanos, una y otra vez. Estos esfuerzos minuciosos demuestran tanto el poder como las limitaciones del aprendizaje profundo. Para entrenar sistemas de inteligencia artificial como este, necesitas mucha, mucha información que haya sido filtrada por la inteligencia humana. Ese tipo de datos no es fácil ni barato de obtener. Y la necesidad de eso no desaparecerá pronto.

Pero solo un año después, los investigadores de Google idearon un nuevo enfoque para entrenar a la IA que hizo gran parte de esa preparación innecesaria y condujo a los grandes modelos de lenguaje que subyacen a servicios como ChatGPT y la nueva búsqueda de Google. Mirando hacia atrás, no me importarían los fragmentos de respuestas concisas de Google Search de años pasados.

Jennifer Phoenix, a través de Facebook, pregunta por qué los generadores de imágenes de IA siguen equivocándose en las manos y los dedos. “Leí que se debe a la complejidad”, dice, “pero pensaría que la solución es más entrenamiento en esas características”.

Estoy de acuerdo contigo, Jennifer. Después de leer tu pregunta, intenté generar imágenes de “mano con un tatuaje de anillo de sol poniente” en una versión de demostración de la herramienta de IA Stable Diffusion. El lote de cuatro resultados que recibí mostraba dedos y manos desarticulados y temblorosos, manos con dedos faltantes, muñecas antinaturalmente delgadas o nudillos gigantes. En contraste, la consulta “cara con un tatuaje de sol poniente en la mejilla” sí produjo algunas imágenes sorprendentes, pero al menos los rostros parecían realistas.

Imagen generada por IA.

Estable Difusión a través de Paresh Dave

Pranav Dixit realizó una investigación exhaustiva para BuzzFeed News (RIP) a principios de este año sobre la historia de las manos en el arte, y escribió que el hecho de que las manos de las personas a menudo estén ocupadas, por ejemplo, sosteniendo tazas, puede explicar por qué los sistemas de IA tienen dificultades para recrearlas de manera realista. Kyle Chayka de The New Yorker también abordó el problema, señalando que dar comandos más precisos a los generadores de imágenes de IA sobre lo que deberían estar haciendo las manos puede ayudar.

Como dices, Jennifer, proporcionar mejores o más diversos datos a los sistemas de IA a menudo resulta en resultados más precisos. Algunos usuarios notaron mejoras modestas en la generación de manos en la “v5” del generador de IA de Midjourney a principios de este año. Pero David Holz, CEO de Midjourney, me dice por correo electrónico que la compañía “no hizo nada específico para las manos. Nuestras cosas simplemente funcionan mejor en la v5”.

Por otro lado, el desarrollador de Stable Diffusion, Stability AI, trabajó específicamente en el problema de las manos mientras desarrollaba su versión más reciente, que se lanzó esta semana. Joe Penna, jefe de aprendizaje automático aplicado de Stability, dice que las manos mal generadas eran la principal queja de los usuarios. Cuando probé el nuevo modelo con mi consulta sobre tatuajes en la mano, dos imágenes salieron bien mientras que las otras dos carecían de algunos nudillos.

Imagen generada por IA.

Estable Difusión a través de Paresh Dave

El nuevo modelo tiene aproximadamente ocho veces la capacidad de su predecesor para aprender patrones visuales a reproducir, lo que significa esencialmente que puede recordar más sobre cómo deberían verse las manos, según Penna. La compañía también le proporcionó entrenamiento adicional en imágenes de personas y obras de arte, para reflejar lo que más interesa a los usuarios. Ahora, dice Penna, “recuerda cosas como las manos mucho más”.

Insertar millones de imágenes adicionales de manos en los datos de entrenamiento en realidad empeoró las imágenes generadas de las manos, haciéndolas demasiado grandes, según Penna, pero dice que la compañía está probando diferentes tácticas para lograr una mayor mejora.

Antes de hablar con Penna, yo había teorizado que los desarrolladores de IA podrían querer evitar lograr la perfección porque las manos imperfectas son una forma común de detectar deepfakes. Penna dice que ese no fue el caso, pero que Stability tomó otras medidas para asegurarse de que sea obvio cuando las imágenes hayan sido generadas con su tecnología. “No vamos a volver a construir manos peores, así que comencemos a tener mucho cuidado con las imágenes que vemos en internet”, dice.

Con los problemas de estructura ósea empezando a resolverse, tal vez las compañías puedan abordar el hecho de que las 12 imágenes que generé a partir de mis indicaciones de prueba mostraban manos de piel clara. Dejaré que Steven explique eso en un futuro Plaintext.

Puedes enviar preguntas a [email protected]. Escribe PREGUNTA A LEVY en la línea de asunto.

¿Pensabas que no podía ser peor que la soda Mountain Dew Flamin’ Hot? Prueba los caramelos Skittles con sabor a mostaza, un truco para el Día Nacional de la Mostaza en los Estados Unidos la próxima semana.

¡Futurama está de vuelta! Pero el primer episodio solo me hizo reír una vez (cuando un comediante robot llamó a un grupo de amigos demasiado políticamente correctos). El programa se trata de criticar nuestro mundo moderno centrado en la tecnología. Desafortunadamente, parece que se está centrando en objetivos fáciles.

La Unión Europea está preparando una enorme base de datos de todas las decisiones de moderación de contenido tomadas por las empresas de redes sociales y las razones detrás de ellas.

¿El nuevo feed de datos más caliente en tecnología? Datos de combate de Ucrania para entrenar software de IA militar.

Justicia por mano propia: una persona con discapacidad visual que fue estafada con un portátil se unió a un amigo para enfrentarse al estafador. Ahora la evidencia está en manos de la policía.