Estás leyendo la publicación: Investigadores hacen que los modelos de difusión vuelvan a ser seguros
Los modelos de difusión han reemplazado a las GAN para convertirse en la forma de facto para la generación de imágenes durante el año pasado. Sin embargo, hubo algunos conceptos inadecuados profundamente arraigados, como la desnudez, la violencia y las obras de arte mal atribuidas que impidieron su uso generalizado:hasta ahora.
Los investigadores han encontrado una forma de eliminar estos conceptos de la “memoria” de los algoritmos de difusión. Usando el poder del propio modelo para modificar los pesos de la red neuronal, los investigadores pueden hacer que los modelos olviden conceptos, estilos artísticos o incluso objetos. Esta podría ser la ruptura que los modelos de difusión necesitan para irrumpir en la adopción generalizada.
¿Como funciona?
Titulado ‘Borrado de conceptos de modelos de difusión’, el documento describe un método de ajuste que puede editar los pesos del modelo para eliminar ciertos conceptos de la memoria. El método afirma hacer esto mientras tiene una interferencia mínima con otros conceptos en el espacio latente del modelo. Este enfoque puede ser útil en una variedad de formas, con el objetivo principal de hacer que los modelos de difusión sean más seguros, privados y adherentes a las leyes de derechos de autor.
En el documento, los investigadores mostraron una muestra de este método en el que pudieron eliminar el concepto de “desnudez” de los pesos de un modelo. Esto tiene el beneficio obvio de hacer que los modelos de difusión sean seguros para ciertos tipos de casos de uso, como la educación, sin tener que crear filtros estrictos y puntos finales de moderación después de que el modelo haya terminado de entrenar.
En lugar de gastar grandes cantidades de tiempo y computación para volver a entrenar un modelo de difusión enorme, borrar conceptos a través de ajustes finos puede crear un modelo seguro con una cantidad de computación muy baja. En un giro de ironía, los investigadores utilizaron el conocimiento enciclopédico de los propios modelos en su contra.
Al congelar los pesos del modelo previamente entrenado y usarlo para predecir el ruido, los investigadores pudieron guiar al modelo en la dirección opuesta a un aviso prohibido dado. Usando una guía sin clasificadores, los investigadores pudieron alejar el modelo del concepto dado. Cuando este proceso se lleva a cabo de forma iterativa, el modelo se aleja de la solicitud hasta que la salida no puede contener la solicitud.
Puesto en una analogía, este concepto es similar a ayudar a un niño a equilibrar una bicicleta. Cada vez que el modelo se mueve hacia el concepto prohibido, lo que se correlaciona con la caída en este ejemplo, la persona que guía el ciclo (investigadores) lo empuja de regreso a su punto central. A medida que el niño (el modelo) comienza lentamente a aprender a mantener el equilibrio, el concepto de perder el equilibrio (el mensaje prohibido) se borra lentamente.
Como con cualquier método, esto también tiene algunas limitaciones. En algunos casos en los que cierto concepto estaba presente en una gran parte del conjunto de datos, borrar dicho concepto daría como resultado una interferencia con conceptos no relacionados. Sin embargo, esto puede reducir los modelos de difusión a una forma más aceptable de IA generativa al abordar algunas limitaciones.
¿Puede arreglar la difusión?
En el pasado, los investigadores han explorado este concepto mediante la construcción de un modelo completamente diferente. Conocido como Safe Latent Diffusion, este modelo es una bifurcación de la versión 1.5 de Stable Diffusion y está capacitado para excluir imágenes que “puedan ser ofensivas, insultantes, amenazantes o que de otro modo puedan causar ansiedad”.
Si bien este método fue exitoso, el nuevo método promete ser más rápido y más práctico, ya que no requiere que se vuelva a entrenar todo el modo. Borrar selectivamente ciertos conceptos de la ‘memoria’ del algoritmo tiene muchas aplicaciones además de simplemente eliminar la desnudez.
Eliminar estos llamados conceptos prohibidos es un gran paso adelante para los modelos de difusión. Debido a la naturaleza de caja negra de las redes neuronales, antes no era posible eliminar dichos conceptos de los modelos de manera segura sin un extenso procesamiento previo de datos para eliminar los datos incorrectos. Con este método, los algoritmos de última generación que obtienen mucho valor de sus grandes conjuntos de datos se pueden modificar para eliminar los conceptos sin degradar su rendimiento o eficacia.
Este enfoque también puede abordar otro inconveniente común de los modelos de difusión:atribución. Uno de los mayores problemas que tienen los artistas con los modelos de difusión es que ‘roban’ el arte y lo ‘remezclan’ sin ninguna forma de determinar a quién se le debe dar el crédito. Con este nuevo concepto, es posible eliminar un artista o estilo artístico determinado de la memoria del modelo por completo.
Tome este diagrama, por ejemplo. Los investigadores pudieron eliminar los estilos artísticos de Vincent Van Gogh, Edward Munch, Johannes Vermeer y Hokusai de la memoria del modelo. Esto dio como resultado una salida que se parecía a la imagen original, aunque sin el estilo característico del artista que la hizo.
Esto aborda uno de los mayores problemas asociados con los modelos basados en difusión. Cuando se combina con otros proyectos como Stable Attribution, este enfoque podría allanar el camino para modelos de difusión que no roben obras de arte.