Estás leyendo la publicación: Salesforce AI desarrolló un nuevo algoritmo de edición llamado EDICT que realiza la generación de difusión de texto a imagen con un proceso invertible dado cualquier modelo de difusión existente
Con los recientes avances en tecnología y el campo de la Inteligencia Artificial, ha habido muchas innovaciones. Ya sea la generación de texto usando el modelo ChatGPT de súper tendencias o la generación de imágenes a partir de un texto, ahora todo es posible. Actualmente, existen varios modelos de texto a imagen que no solo producen una imagen nueva a partir de una descripción textual, sino que también editan una imagen existente. Generar una imagen suele ser más fácil que editar una imagen disponible, ya que es necesario mantener muchos detalles finos durante la edición. Para la edición precisa de imágenes basadas en texto, los investigadores han desarrollado un nuevo algoritmo, EDICT: inversión de difusión exacta a través de transformaciones acopladas. EDICT es un nuevo algoritmo capaz de realizar la edición de imágenes guiada por texto con la ayuda de modelos de difusión.
La generación de texto a imagen es una tarea en la que se entrena un modelo de aprendizaje automático para producir una imagen basada en una descripción de texto determinada. El modelo aprende a asociar descripciones de texto con imágenes y genera nuevas imágenes que coinciden con la descripción especificada. EDICT realiza la generación de difusión de texto a imagen utilizando cualquier modelo de difusión existente. En la generación de imágenes, los modelos de difusión son modelos generativos que utilizan un proceso de difusión para producir nuevas imágenes. El proceso de difusión comienza a partir de una imagen aleatoria y luego la filtra iterativamente aplicando una serie de transformaciones hasta llegar a una imagen final similar a la imagen de destino.
Los modelos de difusión están entrenados para generar una imagen sin ruido a partir de una imagen ruidosa con la ayuda de una descripción textual. Para editar una imagen, se agrega ruido a la imagen original, y esta generación parcial se usa para realizar una nueva generación usando el texto dado. EDICT trabaja con el concepto de obtener una imagen con ruido que produciría exactamente la imagen original cuando se le proporciona el texto original o el aviso. Es una especie de técnica de ruido inverso. De esta forma, si el texto original se modifica ligeramente, la imagen editada permanecerá casi sin cambios con solo las modificaciones requeridas.
El equipo detrás de EDICT comparte los resultados del algoritmo con la ayuda de un ejemplo. Al generar una imagen de un gato surfeando en el agua editando una imagen existente de un perro surfeando, se pierden muchos detalles e información minuciosa, como las olas, el color de la tabla, etc. Esto se debe a que, en este método , simplemente se agrega ruido a la imagen original para generar la nueva. En la técnica EDICT, la generación inversa se realiza encontrando una imagen ruidosa que generaría exactamente la imagen original. Esta imagen ruidosa genera la imagen real del perro surfista con la ayuda de la leyenda textual. El ruido de la imagen generada se copia para volver a consultar el modelo con la imagen sin ruido. Seguido de esto, el ajuste se realiza en el texto simplemente reemplazando la palabra perro con la palabra gato y, finalmente, se obtiene una imagen editada comparativamente detallada de un gato surfeando. EDICT funciona simplemente con la idea de hacer dos copias idénticas de una imagen y, alternativamente, mejorar cada una de ellas con detalles de la otra de manera reversible.
Sin duda, este nuevo enfoque parece prometedor, ya que los modelos actuales de generación de texto a imagen son inconsistentes y no hacen justicia a los detalles de la imagen original. Al invertir el proceso de generación, se puede conservar el contenido importante de la imagen. Teniendo en cuenta las crecientes innovaciones y la demanda de estos modelos de generación de imágenes, EDICT parece ser una gran competencia para todos los modelos existentes.