Esta empresa de IA lanza deepfakes al mundo. ¿Puede controlarlos?

Empresa de IA lanza deepfakes. ¿Controlable?

Erica está en YouTube, detallando cuánto cuesta contratar a un abogado de divorcio en el estado de Massachusetts. El Dr. Dass vende seguros médicos privados en el Reino Unido. Pero Jason ha estado en Facebook difundiendo desinformación sobre la relación de Francia con su ex colonia, Mali. Y Gary ha sido atrapado haciendo suplantación de identidad de un CEO como parte de un elaborado fraude de criptomonedas.

Estas personas no son reales. O al menos, no realmente. Son deepfakes, liberados en la naturaleza por Victor Riparbelli, CEO de Synthesia. La compañía de IA generativa con sede en Londres tiene alrededor de 150 de estos humanos digitales disponibles para contratar. Todo lo que los clientes de Synthesia tienen que hacer para que este elenco brillante lea sus guiones es escribir el texto que desean dar vida y presionar “generar”.

La visión de Riparbelli para estos avatares es que funcionen como una alternativa glamorosa a Microsoft PowerPoint, llevando a cabo entrenamientos corporativos y dando a los manuales de la empresa un poco de estilo. Pero los deepfakes de Synthesia han encontrado un atractivo más allá del mundo corporativo; han captado la atención de usuarios más controvertidos, que han estado utilizando los avatares para difundir desinformación o estafas de criptomonedas en varios continentes.

“Estamos haciendo mucho. No afirmaremos que somos perfectos”, dice Riparbelli. “Es un trabajo que está en constante evolución”.

Los desafíos que enfrenta Riparbelli son un precursor de lo que está por venir. A medida que las empresas comercializan los medios sintéticos, convirtiendo la IA generativa de un producto de nicho en una herramienta lista para usar, los actores maliciosos aprovecharán la situación. Las empresas líderes en la industria deben decidir hasta dónde llegarán para evitar que eso suceda y si están dispuestas a asumir la responsabilidad de la IA que crean, o si la delegarán en las plataformas que la distribuyen.

Software de Synthesia.

Synthesia no siempre ha sido considerada en la vanguardia de la industria de la IA generativa. Durante seis años, Riparbelli y sus cofundadores trabajaron fuera del foco de atención en busca de su misión de inventar una forma de hacer videos sin utilizar equipos de cámara. En 2017, no había muchos inversionistas que consideraran eso muy interesante, dice Riparbelli, quien ahora tiene 31 años. Pero luego llegó ChatGPT. Y el CEO danés fue catapultado a la élite de la IA emergente de Londres junto con los fundadores de empresas como DeepMind, propiedad de Alphabet desde 2014, que actualmente está trabajando en un competidor de ChatGPT, y Stability AI, la startup detrás del generador de imágenes Stable Diffusion.

En junio, Synthesia anunció una ronda de financiamiento que la valoró en $1 mil millones. No es exactamente la etiqueta de precio de $29 mil millones que recibió OpenAI en mayo, pero sigue siendo un aumento gigante de $700 millones en comparación con hace dos años, la última vez que los inversionistas examinaron el negocio de Synthesia.

Me encuentro con Riparbelli a través de Zoom. Se une a la llamada desde la casa de vacaciones de su familia en una isla danesa, con su antigua cama litera de la infancia en el fondo. Criado en Copenhague, Riparbelli se interesó por las computadoras a través de los videojuegos y la música electrónica. Mirando hacia atrás, cree que poder hacer música techno solo con su computadora portátil, desde Dinamarca, un lugar no conocido por sus clubes o industria musical, fue una gran influencia para lo que hace ahora. “Se trataba mucho más de quién puede hacer buena música y subirla a SoundCloud o YouTube que de quién vive en Hollywood y tiene un padre que trabaja en la industria musical”, dice. Para llegar al mismo punto, cree que el video tiene un largo camino por recorrer porque todavía requiere mucho equipo. “Es inherentemente restrictivo porque es muy caro de hacer”.

Después de graduarse, Riparbelli se adentró en la escena de startups danesas, construyendo lo que describe como tecnologías “vanilla”, como software de contabilidad. Insatisfecho, se mudó a Londres en busca de algo más de ciencia ficción. Después de probar con proyectos de criptomonedas y realidad virtual, comenzó a leer sobre los deepfakes y se encontró cautivado por su potencial. En 2017, se unió al danés Steffen Tjerrild y a dos profesores de visión por computadora, Lourdes Agapito y Matthias Niessner, y juntos lanzaron Synthesia.

En los últimos seis años, la compañía ha construido una impresionante biblioteca de avatares. Están disponibles en diferentes géneros, tonos de piel y uniformes. Hay hipsters y trabajadores de centros de llamadas. Santa Claus está disponible en múltiples etnias. Dentro de la plataforma de Synthesia, los clientes pueden personalizar el idioma en el que hablan sus avatares, sus acentos, incluso en qué punto del guion levantan las cejas. Riparbelli dice que su favorito es Alex, un avatar clásicamente bonito pero poco llamativo, que aparenta tener unos veintitantos años y tiene el pelo castaño de longitud media. Existe una versión humana real de Alex que está por ahí deambulando por las calles. Synthesia entrena sus algoritmos con imágenes de actores filmados en sus propios estudios de producción.

Tener esos datos es un gran atractivo para los inversores. “Básicamente, todo lo que necesitan sus algoritmos son datos en 3D, porque se trata de entender cómo se mueven los humanos, cómo hablan”, dice Philippe Botteri, socio de la firma de capital de riesgo Accel, que lideró la última ronda de financiación de Synthesia. “Y para eso, necesitas un conjunto de datos muy específico que no está disponible”.

Hoy en día, Riparbelli es el raro tipo de fundador que puede hablar sobre su visión de una tecnología revolucionaria mientras realiza el trabajo duro de atraer a los clientes actuales. “La utilidad sobre la novedad” es el lema interno de la empresa Synthesia, explica. “Es muy importante para nosotros construir tecnología para mercados reales que tengan un valor comercial real, no solo para producir demos tecnológicas geniales”. En este momento, la empresa afirma tener 50,000 clientes. Pero Riparbelli también quiere desarrollar tecnología que permita a cualquier persona usar texto para describir una escena de video y ver cómo la inteligencia artificial la genera. “Imagina que tienes un set de película con personas frente a ti, y tienes que decirles qué hacer”, dice Riparbelli. “Así es como imagino que funcionará la tecnología”.

Pero la tecnología de Synthesia todavía tiene un largo camino por recorrer. En este momento, el equipo de I+D se centra en lo que Ripbarbelli llama la “tecnología fundamental de IA”. Los avatares de la empresa están atrapados en camisas de fuerza invisibles, sin poder mover los brazos. Y, como era de esperar, dejar a humanos falsos sueltos en la naturaleza no ha estado exento de problemas. Durante varios años, los avatares de Synthesia, especialmente un deepfake con aspecto de autoridad al que la empresa llama Jason, han estado haciendo pasar por presentadores de noticias en las redes sociales, leyendo guiones que han sido escritos para difundir desinformación.

En diciembre de 2021, Jason apareció en una página de Facebook asociada con la política en Mali, haciendo acusaciones que los verificadores de hechos llamaron falsas sobre la implicación de Francia en la política local. Luego, a fines de 2022, allí estaba nuevamente, condenando la falta de acción de Estados Unidos contra la violencia armada, y la firma de análisis de redes sociales Graphika vinculó el video a una red de bots pro-China. En enero de este año, las personas notaron que los avatares de Synthesia expresaban su apoyo a un golpe militar en Burkina Faso. Y en marzo, los verificadores de hechos comenzaron a alarmarse por otro video vinculado a Synthesia que circulaba en Venezuela, esta vez era el avatar Darren argumentando que las afirmaciones de pobreza generalizada en el país rico en petróleo habían sido exageradas. El video fue promovido por cuentas que apoyaban al presidente Nicolás Maduro. En abril, el regulador financiero de California descubrió que el avatar Gary estaba siendo utilizado en una estafa de criptomonedas, fingiendo ser un CEO legítimo.

Campaña de desinformación del CEO de Maxpread Technologies.

Captura de pantalla: California DFPI

Hasta ahora, Synthesia ha asumido la responsabilidad de estos videos, y Riparbelli insiste en que la empresa ha realizado cambios desde que salieron a la luz. “Una de las decisiones que hemos tomado recientemente es que el contenido de noticias solo está permitido en una cuenta empresarial”, dice, explicando que la identidad de las personas que operan las cuentas empresariales debe ser verificada por su equipo. El número de moderadores de contenido que emplea Synthesia se ha cuadruplicado este año, pasando de solo cuatro en febrero a “alrededor” del 10 por ciento de los 230 empleados de la empresa, según Riparbelli. Pero él cree que la IA está obligando a la industria a una mayor reflexión sobre la forma reactiva en que tradicionalmente ha funcionado la moderación de contenido.

“La moderación de contenido tradicionalmente se ha realizado en el punto de distribución. Microsoft Office nunca te ha impedido crear una presentación de PowerPoint sobre cosas horribles o escribir manifiestos terribles en Microsoft Word”, dice. “Pero debido a que estas tecnologías son tan poderosas, lo que estamos viendo ahora es que la moderación se está moviendo cada vez más al punto de creación, que es lo que también estamos haciendo nosotros”.

Synthesia bloquea a los usuarios de crear contenido que viole sus términos de servicio, dice. Los actores malintencionados podrían escribir un guion malicioso, pero él afirma que una combinación de sistemas de moderación humanos y algorítmicos evitará que los deepfakes lo lean. Esos términos de servicio dicen que los avatares no pueden ser utilizados para hablar sobre política, religión, raza o sexualidad. “Como activista de derechos humanos, son más restrictivos de lo que me gustaría”, dice Gregory de Witness. Pero Synthesia no tiene las mismas responsabilidades de libertad de expresión que una plataforma de redes sociales, agrega, por lo que en ciertos aspectos, términos restrictivos podrían ser inteligentes. “Porque está diciendo que no somos capaces de moderar adecuadamente el contenido y no es nuestro negocio principal moderar el discurso político y social en un rango más amplio que podría usarse para la desinformación”.

Tener una moderación de contenido adecuada será clave para que Riparbelli pueda perseguir el tipo de avatares con los que sueña. Quiere que el video sintético refleje la evolución del texto, tal como ocurrió cuando este pasó de estar impreso a estar en línea. “El primer sitio web se parecía a un periódico en la pantalla porque eso era lo que la gente podía imaginar en ese momento”, dice. “Pero lo que sucedió con los sitios web es que la gente descubrió que en realidad podías poner enlaces, audio, video, y crear un suministro personalizado de noticias para cada persona … Creo que lo mismo va a suceder con el video”.

¿Qué significaría esa evolución para los deepfakes de Synthesia? “Cosas como la personalización serán obvias. Y creo que la interactividad también será una parte importante. Tal vez en lugar de ver un video, será más como estar en una llamada de Zoom con una IA”.