Un sistema de detección para marcos de trabajo de síntesis de imagen pura como DALL-E 2

Estás leyendo la publicación: Un sistema de detección para marcos de trabajo de síntesis de imagen pura como DALL-E 2

Nuevo investigación de la Universidad de California en Berkeley ofrece un método para determinar si la salida de la nueva generación de marcos de síntesis de imágenes, como Open AI’s DALL-E 2y de Google Imagen y parte – puede detectarse como ‘no real’, mediante el estudio de la geometría, las sombras y los reflejos que aparecen en las imágenes sintetizadas.

Al estudiar las imágenes generadas por indicaciones de texto en DALL-E 2, los investigadores descubrieron que, a pesar del impresionante realismo del que es capaz la arquitectura, se producen algunas incoherencias persistentes relacionadas con la representación de la perspectiva global, la creación y disposición de las sombras y especialmente con respecto a la representación de objetos reflejados.

El documento dice:

‘[Geometric] las estructuras, las sombras proyectadas y los reflejos en las superficies espejadas no son totalmente consistentes con la geometría de perspectiva esperada de las escenas naturales. Las estructuras geométricas y las sombras son, en general, localmente consistentes, pero globalmente inconsistentes.

“Los reflejos, por otro lado, a menudo se representan de manera inverosímil, presumiblemente porque son menos comunes en el conjunto de datos de imágenes de entrenamiento”.

La falta de intersecciones consistentes entre el objeto renderizado y la representación de su reflejo es actualmente una forma confiable de detectar una imagen DALL-E 2, según el nuevo estudio.  Fuente: https://arxiv.org/pdf/2206.14617.pdf

La falta de intersecciones consistentes entre el objeto renderizado y la representación de su reflejo es actualmente una forma confiable de detectar una imagen DALL-E 2, según el nuevo estudio. Fuente: https://arxiv.org/pdf/2206.14617.pdf

El documento representa una incursión temprana en lo que eventualmente puede convertirse en un hilo notable en la comunidad de investigación de visión por computadora: la detección de síntesis de imagen.

Desde la llegada de los deepfakes en 2017, la detección de deepfakes (principalmente de la salida del codificador automático de paquetes como DeepFaceLab y Intercambio cara) se ha convertido en un activo y competitivo línea académica, con varios artículos y metodologías que se enfocan en la evolución de los ‘informes’ de rostros sintetizados en secuencias de video reales.

Sin embargo, hasta la aparición muy reciente de los sistemas de generación de imágenes entrenados a hiperescala, la salida de los sistemas de indicación de texto como CLIP no representaba una amenaza para el statu quo de la ‘fotorrealidad’. Los autores del nuevo artículo creen que esto está a punto de cambiar, y que incluso las inconsistencias que han descubierto en la salida de DALL-E 2 pueden no hacer mucha diferencia en el potencial de las imágenes de salida para engañar a los espectadores.

🔥 Recomendado:  Las 10 mejores herramientas de RPA (junio de 2023)

Los autores afirman*:

‘[Such] Es posible que las fallas no importen mucho al sistema visual humano, que se ha descubierto que es sorprendentemente inepto en ciertos juicios geométricos, incluidas las inconsistencias en Encendiendo, oscuridad, reflexiones, posición de visualizacióny distorsión de perspectiva.’

Credibilidad que se desvanece

El primer examen forense de los autores de la salida de DALL-E 2 se relaciona con la proyección en perspectiva, la forma en que la posición de los bordes rectos en objetos y texturas cercanos debe resolverse uniformemente en un “punto de fuga”.

A la izquierda, las líneas paralelas en el mismo plano se resuelven en un punto de fuga común;  a la derecha, múltiples puntos de fuga en el mismo plano y planos paralelos definen una línea de fuga (representada en rojo).

A la izquierda, las líneas paralelas en el mismo plano se resuelven en un punto de fuga común; a la derecha, múltiples puntos de fuga en el mismo plano y planos paralelos definen una línea de fuga (representada en rojo).

Para probar la consistencia de DALL-E 2 en este sentido, los autores utilizaron DALL-E 2 para generar 25 imágenes sintetizadas de cocinas, un espacio familiar que, incluso en viviendas bien equipadas, suele estar lo suficientemente confinado como para proporcionar múltiples puntos de fuga posibles para un variedad de objetos y texturas.

Examinar la salida del indicador ‘una foto de una cocina con piso de baldosas’los investigadores encontraron que a pesar de una representación generalmente convincente en cada caso (salvo algunos artefactos extraños y más pequeños que no están relacionados con la perspectiva), los objetos representados nunca parecen converger correctamente.

Los autores señalan que, si bien cada conjunto de líneas paralelas del patrón de baldosas son consistentes y se cruzan en un único punto de fuga (azul en la imagen a continuación), el punto de fuga de la encimera (cian) no está de acuerdo con las dos líneas de fuga (roja ) y el punto de fuga derivado de los mosaicos.

Los autores observan que incluso si la encimera no estuviera paralela a las baldosas, el punto de fuga cian debería resolverse en la línea de fuga (roja) definida por los puntos de fuga de las baldosas del suelo.

El documento dice:

“Si bien la perspectiva en estas imágenes es, de manera impresionante, consistente localmente, no es consistente globalmente. Este mismo patrón se encontró en cada una de las 25 imágenes de cocinas sintetizadas.’

Análisis forense de sombras

Como sabe cualquiera que haya trabajado alguna vez con el trazado de rayos, las sombras también tienen puntos de fuga potenciales, lo que indica una iluminación de fuente única o múltiple. Para las sombras exteriores a la luz del sol intensa, uno esperaría que las sombras en todas las facetas de una imagen se resuelvan consistentemente en la única fuente de luz (el sol).

🔥 Recomendado:  Microsoft lanza la aplicación Bing Wallpapers para Android

Al igual que con el experimento anterior, los investigadores crearon 25 imágenes DALL-E 2 con el mensaje ‘tres cubos en una acera fotografiados en un día soleado’así como otros 25 con el aviso ‘‘tres cubos en una acera fotografiados en un día nublado’.

En la fila superior, imágenes creadas a partir del mensaje de los investigadores 'tres cubos en una acera fotografiados en un día nublado';  en la fila inferior, imágenes creadas a partir del mensaje 'tres cubos en una acera fotografiados en un día soleado'.

En la fila superior, imágenes creadas a partir del mensaje de los investigadores ‘tres cubos en una acera fotografiados en un día nublado’; en la fila inferior, imágenes creadas a partir del mensaje ‘tres cubos en una acera fotografiados en un día soleado’.

Los investigadores señalan que cuando se representan condiciones nubladas, DALL-E 2 es capaz de representar las sombras asociadas más difusas de una manera convincente y plausible, quizás sobre todo porque es probable que este tipo de sombra prevalezca más en las imágenes del conjunto de datos en las que el marco fue entrenado.

Sin embargo, algunas de las fotos ‘soleadas’, encontraron los autores, no concordaban con una escena iluminada por una sola fuente de luz.

Para la imagen de arriba, las generaciones se han convertido a escala de grises para mayor claridad y muestran cada objeto con su propio “sol” dedicado.

Aunque es posible que el espectador promedio no detecte tales anomalías, algunas de las imágenes generadas tenían ejemplos más manifiestos de “fallo de sombra”:

Si bien algunas de las sombras simplemente están en el lugar equivocado, muchas de ellas, curiosamente, corresponden al tipo de discrepancia visual que se produce en el modelado CGI cuando la frecuencia de muestreo de una luz virtual es demasiado baja.

Reflexiones en DALL-E 2

Los resultados más condenatorios en términos de análisis forense se produjeron cuando los autores probaron la capacidad de DALL-E 2 para crear superficies altamente reflectantes, lo cual es un cálculo engorroso también en el trazado de rayos CGI y otros algoritmos de renderizado tradicionales.

🔥 Recomendado:  Cómo obtener más contenido generado por el usuario

Para este experimento, los autores produjeron 25 imágenes DALL-E 2 con el mensaje “una foto de un dinosaurio de juguete y su reflejo en un espejo de tocador”.

En todos los casos, informan los autores, la imagen especular del juguete renderizado estaba de alguna manera desconectada del aspecto y la disposición del dinosaurio de juguete ‘real’. Los autores afirman que el problema era resistente a las variaciones en el mensaje de texto y parece ser una debilidad fundamental en el sistema.

Parece haber una lógica en algunos de los errores: el primer y el tercer ejemplo en la fila superior parecen mostrar un dinosaurio que es duplicado muy bien, pero no reflejado.

Los autores comentan:

“A diferencia de las sombras proyectadas y las estructuras geométricas de las secciones anteriores, DALL·E-2 se esfuerza por sintetizar reflejos plausibles, presumiblemente porque tales reflejos son menos comunes en su conjunto de datos de imagen de entrenamiento”.

Fallas como estas pueden solucionarse en futuros modelos de texto a imagen que puedan revisar de manera más efectiva la lógica semántica general de su salida, y que podrán imponer reglas físicas abstractas en escenas que, hasta cierto punto, han sido ensamblado a partir de características pertinentes a la palabra en el espacio latente del sistema.

A la luz de una tendencia creciente hacia arquitecturas de síntesis cada vez más grandes, los autores concluyen:

‘[It] puede ser solo cuestión de tiempo antes de que los motores de síntesis de pintura por texto aprendan a representar imágenes con una perspectiva coherente en toda regla. Hasta ese momento, sin embargo, los análisis forenses geométricos pueden resultar útiles para analizar estas imágenes.’

* Mi conversión de las citas en línea de los autores a hipervínculos.

Publicado por primera vez el 30 de junio de 2022.

Tabla de Contenido