Estás leyendo la publicación: Investigadores de la Universidad Ludwig-Maximilian proponen una síntesis guiada por texto de imágenes artísticas con modelos de difusión aumentada por recuperación
El desarrollo de modelos generativos para la síntesis de texto a imagen ha avanzado significativamente. Recientemente, estos modelos han tenido un gran éxito en la aplicación en el campo de AI-Art, ya que permite a los artistas y diseñadores crear imágenes a partir de texto descriptivo automáticamente con una excelente calidad visual.
Existen varios trabajos en la literatura que tratan sobre la generación de imágenes sintéticas. Aunque las redes generativas antagónicas (GAN) muestrean imágenes de alta resolución con una calidad de percepción aceptable, son difíciles de sintonizar y tienen problemas para capturar toda la distribución de datos. Por otro lado, el énfasis en las estimaciones de densidad precisas en los enfoques basados en la probabilidad hace que la optimización sea más controlada. Más precisamente, varios modelos en el campo de la síntesis de texto a imagen demostraron el potencial para ayudar a los artistas a producir nuevas obras de arte y han llevado a la expansión explosiva del sector del arte producido por IA. Debido a sus altos requisitos computacionales, estos modelos ahora solo pueden aplicarse a las tareas para las que fueron desarrollados inicialmente. Recientemente, autores de Alemania propusieron un nuevo enfoque para entrenar un modelo de difusión aumentada (RDM) de recuperación de arte visual accesible y controlable para crear nuevas imágenes en una forma de síntesis de texto a imagen.
El enfoque propuesto combina un modelo generativo relativamente pequeño con una amplia biblioteca de imágenes para minimizar drásticamente la complejidad informática necesaria durante el entrenamiento. Los autores también sugieren explotar el espacio de características de texto e imagen común de CLIP para proporcionar mensajes de texto para guiar el proceso de síntesis. Dado que CLIP proporciona un espacio de características de imagen/texto compartido, y los RDM aprenden a cubrir una vecindad de una imagen de consulta en el paso de entrenamiento, es posible tomar directamente un texto CLIP incrustado de un mensaje y una condición determinados. Siguiendo esta estrategia, obtienen un modelo de síntesis controlado que solo se entrena con datos de imágenes.
Después del paso de entrenamiento, el “conjunto de datos de entrenamiento” original de RDM, utilizado para entrenar el modelo, se intercambia por un “conjunto de datos de estilo” de bases de datos alternativas obtenido de conjuntos de datos de arte para producir una modificación del modelo post-hoc y, como resultado, cero- estilización de tomas. El conjunto de datos de estilo se utiliza para lograr un estilo visual específico en la imagen creada.
Para demostrar la eficiencia del enfoque propuesto, los autores propusieron utilizar dos modelos. El primer modelo RDM se entrena en un conjunto de datos de entrenamiento de OpenImages. Luego, en la etapa de inferencia, se usa un conjunto de datos de estilo de la base de datos de imágenes de WikiArt para lograr la estilización. El segundo modelo RDM, más grande que el primero, se entrena con 100 millones de ejemplos de LAION-2B-en. El conjunto de datos de estilo utilizado en el paso de inferencia se toma del conjunto de datos de ArtBench. Los resultados demuestran que RDM se puede utilizar para la estilización de grano fino sin formación previa. Además, se proporcionan algunos ejemplos de las imágenes creadas para mostrar las capacidades de estilización específicas del estilo del enfoque sugerido.
Este artículo presenta un método novedoso para desarrollar modelos controlables y accesibles de arte visual. Este enfoque es manejable porque permite la especificación de un estilo visual deseado a través del reemplazo post-hoc de la base de datos externa, que en las pruebas demuestra ser un potente sustituto de los métodos basados únicamente en texto.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Síntesis guiada por texto de imágenes artísticas con modelos de difusión aumentada por recuperación‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools