▷ Los modelos de aprendizaje profundo podrían tener dificultades para reconocer las imágenes generadas por IA

Estás leyendo la publicación: Los modelos de aprendizaje profundo podrían tener dificultades para reconocer las imágenes generadas por IA

Los hallazgos de un nuevo artículo indican que la IA de última generación es significativamente menos capaz de reconocer e interpretar imágenes sintetizadas por IA que las personas, lo que puede ser motivo de preocupación en un clima próximo en el que los modelos de aprendizaje automático se entrenan cada vez más en datos sintéticos. y donde no necesariamente se sabrá si los datos son ‘reales’ o no.

Aquí vemos el modelo de predicción resnext101_32x8d_wsl luchando en la categoría ‘bagel’. En las pruebas, se consideró que se había producido una falla de reconocimiento si la palabra objetivo principal (en este caso, ‘bagel’) no aparecía entre los cinco resultados principales previstos. Fuente: https://arxiv.org/pdf/2208.10760.pdf

La nueva investigación probó dos categorías de marco de reconocimiento basado en visión por computadora: reconocimiento de objetos y respuesta visual a preguntas (VQA).

$A la izquierda, inferencia de éxitos y fracasos a partir de un sistema de reconocimiento de objetos; a la derecha, tareas de VQA diseñadas para probar la comprensión de AI de escenas e imágenes de una manera más exploratoria y significativa. Fuentes: https://arxiv.org/pdf/2105.05312.pdf y https://arxiv.org/pdf/1505.00468.pdf$

A la izquierda, inferencia de éxitos y fracasos a partir de un sistema de reconocimiento de objetos; a la derecha, tareas de VQA diseñadas para probar la comprensión de AI de escenas e imágenes de una manera más exploratoria y significativa. Fuentes: https://arxiv.org/pdf/2105.05312.pdf y https://arxiv.org/pdf/1505.00468.pdf

De diez modelos de última generación probados en conjuntos de datos seleccionados generados por marcos de síntesis de imágenes DALL-E 2 y a mitad de caminoel modelo de mejor desempeño pudo lograr solo un 60 % y un 80 % de precisión entre los 5 primeros en los dos tipos de prueba, mientras que ImagenNet, entrenado en datos no sintéticos del mundo real, puede alcanzar respectivamente el 91 % y el 99 % en las mismas categorías, mientras que el rendimiento humano suele ser notablemente más alto.

Abordar problemas en torno turno de distribucion (también conocido como ‘Model Drift’, donde los modelos de predicción experimentan una capacidad predictiva disminuida cuando se mueven de datos de entrenamiento a datos ‘reales’), el documento afirma:

‘Los humanos pueden reconocer las imágenes generadas y responder preguntas sobre ellas fácilmente. Concluimos que a) los modelos profundos luchan por comprender el contenido generado y pueden mejorar después de un ajuste fino, yb) hay un gran cambio de distribución entre las imágenes generadas y las fotografías reales. El cambio de distribución parece depender de la categoría.

Dado el volumen de imágenes sintéticas que ya inundan Internet a raíz de la semana pasada código abierto sensacional de los poderosos Difusión estable modelo de síntesis de difusión latente, surge naturalmente la posibilidad de que, a medida que las imágenes ‘falsas’ inundan los conjuntos de datos estándar de la industria, como Rastreo comúnlas variaciones en la precisión a lo largo de los años podrían verse significativamente afectadas por imágenes ‘irreales’.

Aunque los datos sintéticos han sido anunciado como el salvador potencial del sector de investigación de visión artificial hambriento de datos, que a menudo carece de recursos y presupuestos para la curación a hiperescala, el nuevo torrente de imágenes de difusión estable (junto con el aumento general de imágenes sintéticas desde la llegada y comercialización de DALL-E 2) es poco probable que todos vengan con etiquetas prácticas, anotaciones y hashtags que los distingan como ‘falsos’ en el punto en que los sistemas de visión artificial codiciosos los extraigan de Internet.

La velocidad de desarrollo en los marcos de síntesis de imágenes de código abierto ha superado notablemente nuestra capacidad para categorizar imágenes de estos sistemas, lo que ha llevado a un creciente interés en los sistemas de detección de “imágenes falsas”, similares a los sistemas de detección de falsificaciones profundas, pero encargados de evaluar imágenes completas en lugar de secciones de caras.

El nuevo papel se titula ¿Qué tan buenos son los modelos profundos para comprender las imágenes generadas??, y proviene de Ali Borji de la startup de aprendizaje automático de San Francisco Quintic AI.

Datos

El estudio es anterior al lanzamiento de Stable Diffusion y los experimentos usan datos generados por DALL-E 2 y Midjourney en 17 categorías, que incluyen elefante, champiñón, pizza, galleta salada, tractor y conejo.

Ejemplos de las imágenes a partir de las cuales se desafió a los sistemas de reconocimiento y VQA probados para identificar el concepto clave más importante.

Las imágenes se obtuvieron a través de búsquedas en la web y a través de Twitter y, de acuerdo con las políticas de DALL-E 2 (al menos, En el momento), no incluía ninguna imagen con rostros humanos. Solo se eligieron imágenes de buena calidad, reconocibles por humanos.

Se seleccionaron dos conjuntos de imágenes, uno para las tareas de reconocimiento de objetos y VQA.

El número de imágenes presentes en cada categoría probada para el reconocimiento de objetos.

Prueba de reconocimiento de objetos

Para las pruebas de reconocimiento de objetos, se probaron diez modelos, todos entrenados en ImageNet: AlexNet, ResNet152, MobileNetV2, red densa, ResNext, Red de Google, ResNet101, Inicio_V3, deity ResNext_WSL.

Algunas de las clases en los sistemas probados eran más granulares que otras, lo que requería la aplicación de enfoques promediados. Por ejemplo, ImageNet contiene tres clases que retienen los ‘relojes’, y fue necesario definir algún tipo de métrica arbitraria, donde la inclusión de cualquier ‘reloj’ de cualquier tipo en las cinco etiquetas principales obtenidas para cualquier imagen se consideró un éxito. en esa instancia.

Rendimiento por modelo en 17 categorías.

El modelo con mejor desempeño en esta ronda fue resnext101_32x8d_ws, logrando cerca del 60 % para el top-1 (es decir, las veces en que su predicción preferida de cinco conjeturas fue el concepto correcto representado en la imagen) y el 80 % para el top-5 ( es decir, el concepto deseado figuraba al menos en alguna parte de las cinco conjeturas del modelo sobre la imagen).

El autor sugiere que el buen desempeño de este modelo se debe a que fue entrenado para la predicción débilmente supervisada de hashtags en plataformas de redes sociales. Sin embargo, estos resultados líderes, señala el autor, están notablemente por debajo de lo que ImageNet es capaz de lograr con datos reales, es decir, 91% y 99%. Sugiere que esto se debe a una gran disparidad entre la distribución de imágenes de ImageNet (que también se extraen de la web) y las imágenes generadas.

Las cinco categorías más difíciles para el sistema, en orden de dificultad, fueron cometa, tortuga, ardilla, Gafas de sol y casco. El documento señala que el cometa La clase a menudo se confunde con globo, paracaídas y paraguasaunque estas distinciones son trivialmente fáciles de individualizar para los observadores humanos.

Ciertas categorías, incluyendo cometa y tortugacausó fallas universales en todos los modelos, mientras que otros (en particular galleta salada y tractor) dio como resultado un éxito casi universal en todos los modelos probados.

Categorías de polarización: algunas de las categorías objetivo elegidas engañaron a todos los modelos o fueron bastante fáciles de identificar para todos los modelos.

Los autores postulan que estos hallazgos indican que todos los modelos de reconocimiento de objetos pueden compartir fortalezas y debilidades similares.

Prueba de respuesta visual a preguntas

A continuación, el autor probó modelos VQA en VQA abiertos y de forma libre, con preguntas binarias (es decir, preguntas cuya respuesta solo puede ser ‘sí’ o ‘no’). El documento señala que los modelos VQA de última generación son capaces de lograr una precisión del 95 % en el Conjunto de datos VQA-v2.

Para esta etapa de prueba, el autor seleccionó 50 imágenes y formuló 241 preguntas en torno a ellas, de las cuales 132 tuvieron respuestas positivas y 109 negativas. La longitud media de las preguntas fue de 5,12 palabras.

Esta ronda usó el modelo OFAun marco independiente de la tarea y de la modalidad para evaluar la exhaustividad de la tarea, y recientemente fue el líder en puntuación en el Conjunto estándar de prueba VQA-v2. OFA obtuvo una precisión del 77,27 % en las imágenes generadas, en comparación con su propia puntuación del 94,7 % en el conjunto estándar de prueba VQA-v2.

Preguntas de ejemplo y resultados de la sección VQA de las pruebas. ‘GT” es ‘Verdad fundamental’, es decir, la respuesta correcta.

El autor del artículo sugiere que parte de la razón puede ser que las imágenes generadas contienen conceptos semánticos ausentes en el conjunto de datos de VQA-v2, y que las preguntas escritas para las pruebas de VQA pueden ser más desafiantes que el estándar general de las preguntas de VQA-v2, aunque él cree que la primera razón es más probable.

LSD en el flujo de datos?

Opinión La nueva proliferación de imágenes sintetizadas por IA, que pueden presentar conjunciones instantáneas y abstracciones de conceptos básicos que no existen en la naturaleza, y cuya producción a través de métodos convencionales requeriría un tiempo prohibitivo, podría presentar un problema particular para los datos poco supervisados. sistemas de recopilación, que es posible que no puedan fallar con gracia, en gran parte porque no fueron diseñados para manejar un gran volumen de datos sintéticos sin etiquetar.

En tales casos, puede existir el riesgo de que estos sistemas agrupen un porcentaje de imágenes sintéticas “extrañas” en clases incorrectas simplemente porque las imágenes presentan objetos distintos que en realidad no pertenecen juntos.

‘Astronauta montando a caballo’ quizás se haya convertido en la imagen más emblemática de la nueva generación de sistemas de síntesis de imágenes, pero estas relaciones ‘irreales’ podrían entrar en los sistemas de detección reales a menos que se tenga cuidado. Fuente: https://twitter.com/openai/status/1511714545529614338?lang=en

A menos que esto pueda evitarse en la etapa de preprocesamiento antes del entrenamiento, dichas canalizaciones automatizadas podrían llevar a asociaciones improbables o incluso grotescas entrenadas en sistemas de aprendizaje automático, degradando su efectividad y arriesgándose a pasar asociaciones de alto nivel a subclases y sistemas posteriores. y categorías.

Alternativamente, las imágenes sintéticas inconexas podrían tener un “efecto paralizador” en la precisión de los sistemas posteriores, en la eventualidad de que surjan arquitecturas nuevas o modificadas que intenten dar cuenta de ad hoc imágenes sintéticas y lanzar una red demasiado amplia.

En cualquier caso, las imágenes sintéticas en la era posterior a la difusión estable podrían convertirse en un dolor de cabeza para el sector de investigación de visión por computadora cuyos esfuerzos hicieron posible estas extrañas creaciones y capacidades, sobre todo porque pone en peligro la esperanza del sector de que la recopilación y conservación de datos pueda eventualmente será mucho más automatizado de lo que es actualmente, y mucho menos costoso y lento.

Publicado por primera vez el 1 de septiembre de 2022.

Tabla de Contenido

Los modelos de aprendizaje profundo podrían tener dificultades para reconocer las imágenes generadas por IA

Datos

Prueba de reconocimiento de objetos

Prueba de respuesta visual a preguntas

LSD en el flujo de datos?

Otros temas interesantes: