Estás leyendo la publicación: Conozca MagicMix: un modelo de IA que brinda la capacidad de mezcla semántica a los modelos de difusión de imágenes
Los modelos de generación de imágenes condicionadas por texto a gran escala han mostrado resultados impresionantes en los últimos años. Pueden generar imágenes de aspecto realista con un mensaje de texto. Estos modelos están entrenados con pares de subtítulos de imagen y texto extremadamente grandes.
Debido a la fuerte semántica previa aprendida de una gran colección de emparejamientos de imágenes y leyendas, estos modelos pueden incluso producir nuevos conceptos al combinar diferentes composiciones. Por ejemplo, puedes pedirles que generen “Pikachu como gladiador, montando a caballo en el espacio”, y producirán una imagen relativamente realista, a pesar de que el concepto es totalmente nuevo. Independientemente de la nueva combinación, se conoce cada instancia de objeto, dados los antecedentes aprendidos.
Además, también es posible transferir estilos. Puedes tomar Mona Lisa y pide transferir el estilo de la “Luz estrellada” de Van Gogh. Eso preservará la estructura de la Mona Lisa pero cambiará el estilo usando la imagen de Van Gogh. Al final, obtendrás una imagen de la Mona Lisa dibujada al estilo Van Gogh.
Sin embargo, ¿qué pasaría si quisieras mezclar dos objetos? A diferencia de la transferencia de estilo, donde conservas la forma del objeto, la mezcla semántica tiene como objetivo combinar dos objetos de manera significativa. ¿Qué pasa si estamos interesados en combinar semánticamente dos ideas separadas para sintetizar un concepto nuevo? Esto es lo que MagicMix está tratando de lograr.
La mezcla semántica es conceptualmente diferente de otras tareas de edición y generación de imágenes. Por ejemplo, en la transferencia de estilo, la imagen del contenido se conserva mientras se transfiere el estilo de otra. La generación compositiva mezcla múltiples componentes en una sola escena más compleja. Puede confundirse con la mezcla semántica, pero en la generación composicional ya se conoce cada componente individual. Por otro lado, en la mezcla semántica, esta es una información desconocida. Estamos tratando de fusionar dos conceptos para generar un nuevo objeto, y no sabes cómo debería verse una máquina de café parecida a un corgi.
Por supuesto, tal tarea es difícil ya que incluso un usuario humano puede no saber cómo deben verse los objetos mezclados al final. ¿Qué dibujarías si te pidieran combinar “un corgi y una cafetera?”.
MagicMix, un método novedoso basado en modelos generativos basados en la difusión de imágenes condicionadas por texto, se propone para resolver esto.
Puedes pensar en MagicMix como una extensión de un modelo de difusión. No requiere ningún ajuste fino ni máscaras proporcionadas por el usuario para funcionar. Utiliza directamente la estructura subyacente de los modelos de difusión para lograr una mezcla semántica.
Los modelos de difusión funcionan progresivamente, lo que significa que se generan diferentes propiedades de las imágenes de salida en diferentes capas. Por ejemplo, el diseño de la imagen suele aparecer alrededor de los primeros pasos de eliminación de ruido y el contenido semántico aparece hacia el final. Esta observación es la base de cómo funciona MagicMix.
La tarea de mezcla semántica se divide en dos etapas: Mezcla disposición (forma y color) semántica y mezcla contenido semántica. Imagina que estamos tratando de mezclar corgi y maquina de cafe. MagicMix primero obtiene un diseño aproximado de la imagen final, ya sea corrompiendo una foto real de un corgi o eliminando el ruido generado por el mensaje de texto “una foto real de un corgi”. Una vez que el diseño esté listo, inyectará el nuevo concepto (máquina de café) y continuará con el proceso de eliminación de ruido hasta que la imagen sintetizada final esté lista.
MagicMix tiene una capacidad sólida para generar conceptos novedosos. Puede admitir una amplia gama de aplicaciones, como la transferencia de estilo semántico, la síntesis de objetos novedosos (generando una taza que parece pan), la mezcla de razas (generando una nueva especie al mezclar un gato y una jirafa) y la eliminación de conceptos. A pesar de ser un enfoque simple, MagicMix permite una nueva dirección en los gráficos computacionales.
Tiene algunas limitaciones que pueden ser abordadas en trabajos futuros. Por ejemplo, tratar de mezclar dos conceptos sin similitud de forma, como un gato y un rollo de papel higiénico, dará como resultado una composición directa. Entonces obtendrás una imagen de un rollo de papel higiénico con una cara de gato.
Este fue un breve resumen de MagicMix, un método de mezcla semántica para modelos de difusión. Puede encontrar más información en los enlaces a continuación si está interesado en obtener más información.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘MagicMix: mezcla semántica con modelos de difusión‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, código y proyecto.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools