He comprobado los hechos con ChatGPT, Bard, Claude y Copilot, y este IA fue el más confiadamente incorrecto.

He verificado los hechos con ChatGPT, Bard, Claude y Copilot, y esta IA fue la más seguramente incorrecta.

Habitación abstracta de IA con luces coloridas en las paredes

La inteligencia artificial generativa (IA) es notoriamente propensa a errores de hecho. Entonces, ¿qué haces cuando le has pedido a ChatGPT que genere 150 hechos supuestos y no quieres pasar un fin de semana entero de verificación manual?

También: IA en 2023: Un año de avances que dejó imperturbable a ninguna cosa humana

Bueno, en mi caso, recurrí a otras IA. En este artículo, explicaré el proyecto, analizaré cómo se desempeñó cada IA en una competencia de verificación de hechos y ofreceré algunas reflexiones finales y precauciones si también quieres aventurarte por este laberinto de pasajes retorcidos, todos iguales.

El proyecto

La semana pasada, publicamos un proyecto muy divertido en el que DALL-E 3, funcionando dentro de ChatGPT, generó 50 imágenes pintorescas que suponía que representaban cada estado de EE. UU. También le pedí a ChatGPT que mencionara “los tres datos más interesantes que conoces sobre el estado”. Los resultados fueron, como mi editor mencionó en el título del artículo, “gloriosamente extraños”.

ChatGPT ubicó el Puente Golden Gate en algún lugar de Canadá. La herramienta colocó a la Estatua de la Libertad tanto en el medio-oeste de EE. UU. como en algún lugar de la isla de Manhattan. Y generó dos Edificios Empire State. En resumen, ChatGPT desató su estilo de expresionismo abstracto, pero los resultados fueron bastante interesantes.

También: Le pedí a DALL-E 3 que creara un retrato de cada estado de EE. UU., y los resultados fueron gloriosamente extraños.

En cuanto a los datos individuales, en su mayoría estaban en lo correcto. Conozco bastante bien la geografía e historia de EE. UU., y considero que pocos de los hechos generados por ChatGPT destacaron como incorrectos de manera desproporcionada. Pero no realicé ninguna verificación independiente de hechos. Simplemente leí los resultados y los consideré suficientemente buenos.

Pero, ¿qué pasaría si realmente queremos conocer la precisión de esos 150 datos? Ese tipo de pregunta parece ser un proyecto ideal para una IA.

Metodología

Aquí está la cosa. Si GPT-4, el modelo de lenguaje enorme (LLM) de OpenAI utilizado por ChatGPT Plus, generó las declaraciones de hecho, no estaba del todo convencido de que debería estar verificándolas. Sería como pedirle a los estudiantes de secundaria que escriban un trabajo de historia sin usar referencias y luego corrijan su propio trabajo. Ya están comenzando con información sospechosa, ¿y ahora les permitirías corregirse a sí mismos? No, eso no me parece correcto.

También: Dos avances hicieron que el 2023 sea el año más innovador en tecnología en más de una década

Pero, ¿qué pasaría si alimentáramos esos datos a otros LLM dentro de otras IA? Tanto Bard de Google como Claude de Anthropic tienen sus propios LLM. Bing utiliza GPT-4, pero pensé que probaría sus respuestas solo para ser completo.

Como verás, recibí los mejores comentarios de Bard, así que alimenté sus respuestas de nuevo en ChatGPT en una perversión en ronda de la orden natural del universo. Fue un proyecto genial.

Anthropic Claude

Claude utiliza el LLM Claude 2, que también se utiliza en la implementación de IA de Notion. Claude me permitió alimentarlo con un PDF que contiene el conjunto completo de hechos (sin las imágenes). Esto es lo que obtuve a cambio:

En general, Claude encontró que la lista de hechos era en su mayoría precisa, pero tenía algunas aclaraciones para tres elementos. Limité cuánto podían ser los hechos de ChatGPT, y ese límite limitó la sutileza en las descripciones de los hechos. La verificación de hechos de Claude tuvo problemas con esa falta de sutileza.

En general, fue una respuesta alentadora.

¿Copilot o nopilot?

Luego llegamos a Copilot de Microsoft, anteriormente conocido como Bing Chat AI. Copilot no permite cargar archivos PDF, así que intenté pegar el texto de los 50 hechos estatales. Este enfoque falló de inmediato porque Copilot solo acepta indicaciones de hasta 2,000 caracteres:

Le pregunté a Copilot lo siguiente:

El siguiente texto contiene nombres de estados seguidos de tres hechos para cada estado. Por favor, examina los hechos e identifica los que están incorrectos para cada estado.

Esto es lo que obtuve a cambio:

Básicamente repitió los datos de hecho que le pedí que verificara. Así que intenté guiarlo con una indicación más enérgica:

Una vez más, me devolvió los datos que le pedí verificar. Encontré esta salida muy extraña porque Copilot utiliza el mismo LLM que ChatGPT. Claramente, Microsoft lo ha ajustado de manera diferente a ChatGPT.

Me rendí y pasé a Bard.

Bard

Google acaba de anunciar su nuevo LLM Gemini. Aún no tengo acceso a Gemini, así que realicé estas pruebas en el modelo Google’s PaLM 2.

También: ¿Qué es Gemini? Todo lo que debes saber sobre el nuevo modelo de IA de Google

En comparación con Claude y Copilot, Bard lo hizo excelente, o, para ser más shakespeariano, “se alza como un coloso sobre el mundo estrecho”.

Echa un vistazo a los resultados a continuación:

Es importante tener en cuenta que muchos hechos estatales ni siquiera son acordados por los estados o tienen matices. Como mostraré en la siguiente sección, alimenté esta lista de nuevo a ChatGPT y encontró dos discrepancias en las respuestas de Alaska y Ohio.

Pero también hay otros errores aquí. De alguna manera, Bard sobrecompensó para la tarea. Por ejemplo, Bard afirmó correctamente que otros estados además de Maine producen langostas. Pero Maine se concentra completamente en la producción de langostas. Nunca he estado en otro estado que tenga mini trampas para langostas como uno de los souvenirs más populares.

También: Pasé un fin de semana con los cursos gratuitos de IA de Amazon, y te los recomiendo

O tomemos Nevada y el Área 51. ChatGPT dijo: “Base militar ultrasecreta, rumores de avistamientos de OVNIs”. Bard trató de corregir diciendo: “El Área 51 no solo es un rumor de avistamientos de OVNIs. Es una instalación militar ultrasecreta real, cuyo propósito es desconocido”. Están diciendo prácticamente lo mismo. Bard simplemente no captó el matiz que se obtiene al tener un límite de palabras ajustado.

Otro lugar donde Bard critica a ChatGPT sin entender el contexto fue Minnesota. Sí, Wisconsin también tiene muchos lagos. Pero Bard no afirmó que Minnesota tenía la mayor cantidad de lagos. Solo describió a Minnesota como la “Tierra de los 10,000 lagos”, que es uno de los lemas más comunes de Minnesota.

Bard también se quedó atascado con Kansas. ChatGPT dijo que Kansas es “el hogar del centro geográfico de los Estados Unidos contiguos.” Bard afirmó que era Dakota del Sur. Y eso sería cierto si tomamos en cuenta a Alaska y Hawái. Pero ChatGPT dijo “contiguos” y ese honor le corresponde a un punto cercano a Lebanon, Kansas.

También: Estos son los trabajos más propensos a ser reemplazados por IA

Podría seguir, y lo haré en la siguiente sección, pero ya captaste la idea. La verificación de datos de Bard parece impresionante, pero a menudo pasa por alto el punto y se equivoca tanto como cualquier otra IA.

Antes de pasar a la verificación limitada de ChatGPT sobre la verificación de hechos de Bard, permíteme señalar que la mayoría de las entradas de Bard estaban incorrectas o confusas. Y sin embargo, Google muestra sus respuestas de IA antes que la mayoría de los resultados de búsqueda. ¿Eso te preocupa? A mí desde luego que sí.

Hay que guardar silencio sobre tal maravilla, señores y señoras.

ChatGPT

Desde el principio, pude darme cuenta de que Bard había cometido un error en uno de sus hechos: Alaska es mucho más grande que Texas. Así que pensé, veamos si ChatGPT puede verificar los hechos de Bard. Por un momento, pensé que esta persecución de IA podría desplazar la Luna de la órbita de la Tierra, pero luego decidí arriesgar toda la estructura de nuestro universo porque sabía que querrías saber qué sucedió:

Esto fue lo que le di a ChatGPT:

Y esto fue lo que ChatGPT dijo (y, para mayor claridad, la Luna siguió en órbita):

Como puedes ver, ChatGPT cuestionó la afirmación errónea de Bard de que Texas es el estado más grande. También tuvo un pequeño problema con Ohio y Kansas en cuanto al origen de la aviación, que es más controversial de lo que la mayoría de las escuelas enseñan.

También: 7 formas de asegurarte de que tus datos estén listos para la IA generativa

Es ampliamente aceptado que Wilbur y Orville Wright fueron los primeros en volar una aeronave (en realidad fue en Kitty Hawk, Carolina del Norte), aunque construyeron su Wright Flyer en Dayton, Ohio. Dicho esto, Sir George Cayley (1804), Henri Giffard (1852), Félix du Temple (1874), Clément Ader (1890), Otto Lilienthal (1891), Samuel Langley (1896), Gustave Whitehead (1901) y Richard Pearse (1902), de Nueva Zelanda, el Reino Unido, Francia, Alemania y otras partes de los Estados Unidos, todos tienen reclamos más o menos legítimos de ser los primeros en volar.

Pero le daremos el punto a ChatGPT, porque solo tiene 10 palabras para hacer una afirmación, y Ohio fue donde los hermanos Wright tenían su tienda de bicicletas.

Conclusiones y advertencias

Aclaremos algo desde el principio: si estás entregando un trabajo o un documento donde necesitas que tus hechos sean correctos, verifica tú mismo los datos. De lo contrario, tus ambiciones del tamaño de Texas podrían ser sepultadas bajo un problema del tamaño de Alaska.

Como vimos en nuestras pruebas, los resultados (al igual que con Bard) pueden parecer impresionantes, pero estar completamente o parcialmente equivocados. En general, fue interesante pedirle a las diferentes IA que se verificaran mutuamente, y este es un proceso que probablemente exploraré aún más, pero los resultados solo fueron concluyentes en lo inconclusos que eran.

Copilot se rindió por completo y simplemente pidió volver a dormir. Claude tuvo problemas con la sutileza de algunas respuestas. Bard se batió en duelo con varias respuestas, pero al parecer, el error no solo es humano, también es IA.

También: Estos 5 avances tecnológicos principales de 2023 fueron los que más cambiaron el juego

En conclusión, debo citar al verdadero Bard y decir: “¡La confusión ahora ha hecho su obra maestra!”

¿Qué piensas? ¿Qué tipo de errores flagrantes has visto de tu IA favorita? ¿Confías en las IAs para obtener información o ahora realizarás tus propios procesos de verificación de hechos? Haznos saber en los comentarios a continuación.


Puedes seguir las actualizaciones diarias de mi proyecto en las redes sociales. Asegúrate de suscribirte a mi boletín semanal de actualización en Substack, y sígueme en Twitter en @DavidGewirtz, en Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz, y en YouTube en YouTube.com/DavidGewirtzTV.