▷ Nvidia anunció eDiff-I: nueva IA generativa para síntesis de texto e imágenes con transferencia instantánea de estilos

Estás leyendo la publicación: Nvidia anunció eDiff-I: nueva IA generativa para síntesis de texto e imágenes con transferencia instantánea de estilos

eDiff-I es una nueva herramienta de creación de contenido de IA que proporciona Capacidades de síntesis de texto a imagen sin precedentes para vendedores y empresas, como anunció recientemente Nvidia. Con eDiff-I, las empresas pueden crear rápida y fácilmente imágenes atractivas y de alta calidad sin necesidad de equipos costosos o ayuda profesional. eDiff-I utiliza procesamiento de lenguaje natural (NLP) para interpretar la entrada del usuario y generar las imágenes correspondientes. Luego, la IA analiza las imágenes y elige la más adecuada según el contexto. El resultado es una imagen de alta calidad y aspecto profesional que se puede utilizar para una variedad de propósitos, como materiales de marketing, publicaciones en redes sociales, campañas de correo electrónico y más.

eDiff-I es un IA generativa de próxima generación herramienta de creación de contenido que proporciona una síntesis de texto a imagen sin precedentes, transferencia de estilo rápida y pintura intuitiva con palabras. Como modelo de difusión para crear imágenes a partir de texto, eDiff-I sugiere entrenar un conjunto de redes expertas en eliminación de ruido, cada una especializada en un intervalo de ruido particular, en respuesta al hallazgo empírico de que el comportamiento de los modelos de difusión varía en las diferentes fases del muestreo.

Nvidia anunció eDiff-I: nueva IA generativa para síntesis de texto e imágenes con transferencia instantánea de estilos

Las incrustaciones de texto T5, las incrustaciones de imágenes CLIP y las incrustaciones de texto CLIP proporcionan la base para el concepto eDiff-I. Esta metodología puede producir gráficos fotorrealistas en respuesta a cualquier consulta de texto.

Presenta dos capacidades adicionales además de la síntesis de texto a imagen: (1) transferencia de estilo, que nos permite controlar el estilo de la muestra generada utilizando una imagen de estilo de referencia, y (2) “Pintar con palabras”, una herramienta que permite a los usuarios crear imágenes pintando mapas de segmentación sobre lienzo.

La canalización consta de una cascada de tres modelos de difusión: un modelo base que puede crear muestras con una resolución de 64×64 y dos pilas de súper resolución que pueden aumentar gradualmente la muestra de las imágenes a resoluciones de 256×256 y 1024×1024, respectivamente. Los modelos calculan T5 XXL e incrustación de texto después de recibir una leyenda como entrada. Estas incrustaciones de imágenes se pueden utilizar como un vector de estilo. Luego, introduzca estas incrustaciones en nuestros modelos de difusión en cascada, que gradualmente producen imágenes con una resolución de 1024 x 1024.

El enfoque eDiff-I da como resultado consistentemente una mejor calidad de síntesis en comparación con los algoritmos de texto a imagen de código abierto (difusión estable) y (DALL-E2).

Cuando se emplean las incrustaciones de imágenes CLIP, el enfoque eDiff-I facilita la transferencia de estilo. eDiff-I primero extrae las incrustaciones de imágenes CLIP de una imagen de estilo de referencia, que se puede utilizar como vector de referencia de estilo. Se puede ver una referencia estilística en el panel izquierdo de la figura a continuación. Los resultados cuando se activa el acondicionamiento de estilo se muestran en el panel central. Los resultados cuando se desactiva el acondicionamiento de estilo se muestran en el panel de la derecha. Cuando se aplica el condicionamiento de estilo, el modelo eDiff-I crea resultados que también son fieles al estilo del título de entrada. Cuando se desactiva el acondicionamiento de estilo, se producen fotografías de aspecto natural.

Al elegir frases y garabatearlas en la imagen, los usuarios del método eDiff-I pueden cambiar la ubicación de las cosas que se enumeran en el mensaje de texto. Después de eso, el modelo usa el aviso y los mapas para crear imágenes que son compatibles tanto con el título como con el mapa de entrada.

Leer artículos relacionados:

Nvidia anunció eDiff-I: nueva IA generativa para síntesis de texto e imágenes con transferencia instantánea de estilos

Otros temas interesantes: