Búsqueda de sitios web

Dall•E 2 de OpenAI puede significar que nunca más necesitaremos fotografías de archivo


Escribir una oración sobre un escenario, como un usuario ansioso de Windows sentado en su escritorio viendo una advertencia de parche, podría brindarle la imagen que necesita para acompañar un artículo.

Dall•E 2 de OpenAI, que estuvo disponible para el público esta semana, puede crear imágenes en una variedad de géneros y estilos escribiendo una frase, en este caso, "Foto de una persona con gafas señalando a varias personas a la vez". mesa de conferencias en una sala de reuniones."

El ámbito de las cosas falsas continúa siendo refinado por la inteligencia artificial, y el texto falso se dominó hace un par de años con el programa de procesamiento de lenguaje natural GPT-3 de la startup OpenAI. 

Ahora las imágenes, que habían logrado una falsificación sustancial gracias a programas como StyleGAN de Nvidia, presentado por Tero Karras y sus colegas de Nvidia en 2019, recibieron un impulso este verano con el anuncio de OpenAI de un nuevo programa para falsificar imágenes, DALL•E 2. que se basa en el primer DALL•E, lanzado en enero de 2021. Puede tomar una frase que escribas y convertirla en una imagen, con muchas formas de darle forma a la imagen de salida.

Esta semana, OpenAI eliminó la lista de espera; Ahora cualquiera puede ir al sitio para probar DALL•E 2 siempre que esté dispuesto a crear una cuenta en el sitio web de OpenAI con una dirección de correo electrónico y un número de teléfono. 

El fuerte de DALL•E 2, al igual que su predecesor, es crear imágenes a partir de un texto que una persona escribe en un campo de la página web. Escriba la frase "un astronauta montando a caballo en un estilo fotorrealista" y aparecerá una imagen aproximadamente de esa forma: una representación realista de una figura de perfil con un uniforme de astronauta, montada sobre un caballo caminando contra lo que parece ser una imagen del cosmos. 

El trabajo se describe en un artículo de investigación de los científicos de OpenAI Aditya Ramesh y sus colegas, "Generación de imágenes condicionales de texto jerárquico con CLIP Latents", publicado en el servidor de preimpresión arXiv.  

DALL•E 2 es lo que se conoce como codificador-decodificador contrastivo. Se construye comprimiendo imágenes y sus leyendas en una especie de representación combinada abstracta y luego descomprimiéndolas. Esa formación desarrolla la capacidad del programa para asociar texto e imagen. 

El punto principal de Ramesh y sus colegas es que la forma en que ocurre la compresión/descompresión permite hacer más que simplemente traducir entre texto e imagen, permite usar frases para dar forma a aspectos de una imagen, como agregar el término "fotorrealista". lo que produce algo con cierto realismo ingenioso.

Si bien las imágenes aún son algo aproximadas, se puede ver que DALL•E 2 tiene el potencial de reemplazar muchas ilustraciones comerciales e incluso fotografías de archivo. Al escribir una frase y un estilo, como "foto", puede generar una variedad de imágenes que pueden ser adecuadas para ilustrar artículos.

Puedes comprobarlo por ti mismo probándolo. La mayoría de las cosas que me vienen a la mente de inmediato son combinaciones divertidas. Por ejemplo, "Una ballena azul y un gatito haciendo amigos en la playa, arte digital" produce el entrañable resultado estilo tarjeta de felicitación que aparece a continuación. 

"Una ballena azul y un gatito haciendo amigos en la playa, arte digital"

Se ofrecen cuatro versiones a la vez y puede descargar cada una de ellas en formato PNG.

"Una ballena azul y un gatito haciendo amigos en la playa, arte digital"

Pero también es posible obtener una serie de imágenes más banales que se ajusten a un contexto fotográfico de archivo. Escribir la frase "Un escritor colaborador de ZDNET que ve el futuro de la tecnología en sus propios artículos junto a una ladera de montaña flotando en el espacio" produce una especie de imagen de ciencia ficción cercana a lo que podría acompañar a un artículo.

"Un escritor colaborador de ZDNET ve el futuro de la tecnología en sus propios artículos junto a una ladera de montaña flotando en el espacio"

Se puede agregar la frase "imagen realista" y obtener algo un poco más ingenioso.

"Imagen realista de un escritor colaborador de ZDNET viendo el futuro de la tecnología en sus propios artículos junto a la ladera de una montaña flotando en el espacio".

El uso de la frase "Foto de un usuario de computadora muy ansioso mirando el monitor de su computadora y viendo una alerta de parche de Windows" produjo una deliciosa variedad de imágenes de usuarios de computadora típicamente temerosos. 

"Foto de un usuario de computadora muy ansioso mirando el monitor de su computadora y viendo una alerta de parche de Windows"

La frase se puede ampliar con palabras adicionales para obtener resultados más específicos, como "Foto de un usuario de computadora muy ansioso en su escritorio mirando el monitor de su computadora y viendo una alerta de parche de Windows".

"Foto de un usuario de computadora muy ansioso en su escritorio mirando el monitor de su computadora y viendo una alerta de parche de Windows".

Una vez que empieces a pensar en las fotografías de archivo, descubrirás que puedes idear muchos escenarios para convertirlos en una imagen. Por ejemplo, "Foto de una persona con gafas haciendo un comentario a varias personas en una mesa de conferencias en una sala de reuniones" ofrece una selección bastante buena de lo que a primera vista parecen escenas de oficina reales. 

"Foto de una persona con gafas haciendo un comentario a varias personas en una mesa de conferencias en una sala de reuniones"

Nuevamente, uno puede obtener atributos más específicos y cambiantes de la escena con unas pocas palabras, como "Foto de una persona con gafas parada junto a una pizarra en una sala de conferencias explicando algo a sus compañeros de trabajo".

"Foto de una persona con gafas parada junto a una pizarra en una sala de conferencias explicando algo a sus compañeros de trabajo"

Como puede ver, elementos como los rasgos faciales generalmente se degradan en la salida del DALL•E 2. 

Al aplicar términos de artistas, medios o estilos artísticos, uno puede trasladar la misma imagen del ámbito de la fotografía de archivo al ámbito de la ilustración, como en la frase "Francis Bacon pintando un grupo de personas en una sala de conferencias y una persona con gafas junto a una pizarra explicando algo."

"Pintura de Francis Bacon de un grupo de personas en una sala de conferencias y una persona con gafas parada junto a una pizarra explicando algo".

Una vez que creas una cuenta, OpenAI te otorga 50 "créditos", estas son solicitudes gratuitas al sistema, donde cada frase ingresada cuenta como una solicitud. Una vez que hayas agotado los 50, puedes esperar un mes y obtener los siguientes 15 créditos gratis, o puedes comprar créditos. Los créditos se venden en paquetes de 115 por $15 dólares, o 13 centavos por crédito. 

Es posible dejar perplejo el programa. Algunas solicitudes pueden ser una mezcla demasiado grande de lo real y lo imaginario como para representarlas de manera convincente. Por ejemplo, una solicitud de "ratas con pelaje azul tomando Times Square" produce un primer intento decente, pero el elemento de piel le da a la imagen una calidad descuidada y desigual que realmente no funciona. 

"Ratas con pelaje azul tomando Times Square"

Otras solicitudes pueden hacer tropezar a DALL•E 2 debido a la elección de una sola palabra. 

La solicitud "una bolsa de dinero sentada en una silla de jardín en un porche con vistas al atardecer" generó imágenes completamente extrañas y sin relación, como un primer plano de las uñas de los pies y una imagen ambigua que parecían ser unas flores metidas dentro de una alfombra. 

"una bolsa de dinero sentada en una silla de jardín en un porche con vista a la puesta de sol".

La sustitución de la palabra "sentado" por "colocado" permitió a DALL•E 2 producir un resultado satisfactorio en una de cada tres imágenes.

"una bolsa de dinero colocada en una silla de jardín en un porche con vista a la puesta de sol".

Puede ser que el programa no pueda encontrar una combinación adecuada de elementos para lo que parece ser un verbo activo, sentarse, cuando se combina con un objeto inanimado, un saco.

En general, el programa parece tener dificultades con aspectos del lugar, como "pararse frente a un caballete". 

Las frases que no son descripciones sino preguntas o interjecciones parecen iniciar el sistema en modo aleatorio. Por ejemplo, "¿DALL•E 2 conoce su propio nombre?" es una expresión que produce varias imágenes de flores. Podría ser una respuesta poética, pero se siente más como un rechazo al mensaje.

"¿DALL•E 2 conoce su propio nombre?"

OpenAI ha establecido algunas barreras de seguridad, detalladas en la política de contenido publicada, y se utilizarán para eliminar automáticamente cualquier intento prohibido. Por ejemplo, no se generará escribir "El cofundador de Microsoft, Bill Gates, fumando un cigarro en un apartamento destartalado con muebles rotos". En su lugar, aparece un mensaje de error que indica que la solicitud viola la política y lo dirige a la página de la política. Probablemente se trate de una violación de la regla "No crear imágenes de figuras públicas".

La misma solicitud, en sustitución de la figura pública bastante menos conocida Tiernan Ray, un escritor colaborador de ZDNET, generó una selección de imágenes divertidas de personas que no son Tiernan Ray.

"Tiernan Ray fumando un cigarro en un apartamento destartalado con muebles rotos"

Es más, el texto protegido por derechos de autor parece estar protegido contra una infracción total. La frase "un grupo de personas pasando el rato frente a McDonald's" produce una escena bastante adecuada, pero cada resultado ofrecido tiene una ligera modificación de "McDonald's" para que en realidad no sea esa palabra. 

"Un grupo de personas pasando el rato frente a McDonald's"

¿Adónde van las cosas ahora? El trabajo sobre el enfoque básico de conversión de texto a imagen avanza en numerosos frentes. Uno es agregar más complejidad léxica al programa. Por ejemplo, Chitwan Saharia y el equipo de Google Brain publicaron en mayo su trabajo en "Imagen", un programa que, según dicen, tiene un "grado de fotorrealismo sin precedentes". El truco consistía en utilizar un corpus mucho mayor de materiales lingüísticos para entrenar la red. 

Y se está trabajando para ampliar la complejidad de los tipos de cosas que un programa puede crear. Por ejemplo, los científicos de Google Wenhu Chen y sus colegas crearon este mes un programa que amplía Imagen de Sahari y su equipo, llamado "Re-imagen", que combina la idea básica de comprimir texto e imágenes junto con un tercer elemento, los resultados de búsqueda. 

Al agregar lo que llaman "recuperación", el programa está desarrollado no sólo para encontrar una combinación "semántica" de palabra e imagen, sino también para buscar en los resultados de búsqueda de Internet combinaciones que afinarán el resultado. Afirman que los resultados son muy superiores a los de Imagen y DALL•E 2 en el manejo de frases raras y oscuras como "Los picarones se sirven con vino", en referencia al postre de camote peruano. 

Artículos relacionados