Investigadores de Stanford presentan ControlNet: una estructura de red neuronal para controlar modelos de gran difusión preentrenados para admitir condiciones de entrada adicionales

Estás leyendo la publicación: Investigadores de Stanford presentan ControlNet: una estructura de red neuronal para controlar modelos de gran difusión preentrenados para admitir condiciones de entrada adicionales

El desarrollo de modelos de lenguaje grande como ChatGPT y DALL-E ha sido un tema de interés en la comunidad de inteligencia artificial. Mediante el uso de técnicas avanzadas de aprendizaje profundo, estos modelos hacen de todo, desde generar texto hasta producir imágenes. DALL-E, desarrollado por OpenAI, es un modelo de generación de texto a imagen que produce imágenes de alta calidad basadas en la descripción textual ingresada. Entrenados en conjuntos de datos masivos de textos e imágenes, estos modelos de generación de texto a imagen desarrollan una representación visual del texto dado o del aviso. No solo esto, sino que actualmente existen varios modelos de texto a imagen que no solo producen una imagen nueva a partir de una descripción textual, sino que también generan una nueva imagen a partir de una imagen existente. Esto se hace usando el concepto de Difusión Estable. La estructura de red neuronal recientemente introducida, ControlNet, mejora significativamente el control sobre los modelos de difusión de texto a imagen.

Desarrollado por investigadores de la Universidad de Stanford llamados Lvmin Zhang y Maneesh Agrawala, ControlNet permite la generación de imágenes con un control preciso y detallado sobre el proceso de producción de la imagen con la ayuda de modelos de difusión. Un modelo de difusión es simplemente un modelo generativo que ayuda a generar una imagen a partir de un texto modificando y actualizando iterativamente las variables que representan la imagen. Con cada iteración, se agregan más detalles a la imagen y se elimina el ruido, desplazándose gradualmente hacia la imagen de destino. Estos modelos de difusión se implementan con la ayuda de Stable Diffusion, en el que se utiliza un proceso mejorado de difusión para entrenar los modelos de difusión. Ayuda a producir imágenes variadas con mucha más estabilidad y comodidad.

🔥 Recomendado:  Cómo iniciar un negocio de agricultura urbana

ControlNet funciona en combinación con los modelos de difusión previamente entrenados para permitir la generación de imágenes que cubren todos los aspectos de las descripciones textuales alimentadas como entrada. Esta estructura de red neuronal permite la producción de imágenes de alta calidad teniendo en cuenta las condiciones de entrada adicionales. ControlNet funciona haciendo una copia de cada bloque de difusión estable en dos variantes: una variante entrenable y una variante bloqueada. Durante la producción de la imagen de destino, la variante entrenable intenta memorizar nuevas condiciones para sintetizar las imágenes y agregar detalles minuciosamente con la ayuda de conjuntos de datos cortos. Por otro lado, la variante bloqueada ayuda a retener las capacidades y potencialidades del modelo de difusión justo antes de la generación de la imagen objetivo.

La mejor parte del desarrollo de ControlNet es su capacidad para saber qué partes de la imagen de entrada son importantes para generar la imagen objetiva y cuáles no. A diferencia de los métodos tradicionales que carecen de la capacidad de observar la imagen de entrada minuciosamente, ControlNet resuelve convenientemente el problema de la consistencia espacial al permitir que los modelos de difusión estable utilicen las condiciones de entrada complementarias para descifrar el modelo. Los investigadores detrás del desarrollo de ControlNet han compartido que ControlNet incluso permite el entrenamiento en una Unidad de procesamiento gráfico (GPU) con una memoria gráfica de ocho gigabytes.

ControlNet es definitivamente un gran avance ya que ha sido entrenado de manera que aprende condiciones que van desde mapas de borde y puntos clave hasta mapas de segmentación. Es una gran adición a las técnicas de generación de imágenes ya populares y, mediante el aumento de grandes conjuntos de datos y con la ayuda de Stable Diffusion, se puede utilizar en varias aplicaciones para un mejor control sobre la generación de imágenes.