Este documento de IA propone un nuevo método para ajustar con precisión los pesos de los modelos para borrar conceptos de los modelos de difusión utilizando su propio conocimiento

Estás leyendo la publicación: Este documento de IA propone un nuevo método para ajustar con precisión los pesos de los modelos para borrar conceptos de los modelos de difusión utilizando su propio conocimiento

Los modelos generativos modernos de texto a imagen han atraído el interés debido a la calidad de imagen excepcional y el potencial de generación ilimitado de su salida. Estos modelos pueden imitar una variedad de nociones porque fueron entrenados en grandes conjuntos de datos de Internet. No obstante, intentan evitar incorporar pornografía y otras nociones que la modelo ha aprendido que son malas en su producción. Esta investigación realizada por investigadores de NEU y MIT proporciona un método para seleccionar y eliminar una sola idea de los pesos de un modelo condicional de texto previamente entrenado. Las estrategias anteriores se han concentrado en la guía de inferencia, la generación posterior y el filtrado de conjuntos de datos.

Aunque se eluden fácilmente, los enfoques basados ​​en la inferencia pueden filtrar o desviar con éxito el resultado de las nociones no deseadas. Su sistema no necesita reentrenamiento, lo cual es costoso para modelos grandes y difiere de las técnicas de filtrado de datos. Por el contrario, su método elimina inmediatamente la noción de las entradas del modelo, lo que permite la distribución de los pesos del modelo. El modelo de difusión de texto a imagen Stable Diffusion se ha lanzado como código abierto, lo que hace posible que una gran audiencia acceda a la tecnología de creación de imágenes. La versión inicial del software tenía un filtro NSFW básico para evitar la creación de fotos peligrosas, pero debido a que el código y los pesos de los modelos están abiertos al público, es fácil desactivar el filtro.

🔥 Recomendado:  Cómo agregar validación para el campo de contraseña personalizado en Magento 2

El modelo SD 2.0 subsiguiente se entrena en datos que se han filtrado para excluir fotos explícitas y detener la creación de contenido confidencial. Este experimento tomó 150 000 horas de GPU para completarse en el conjunto de datos LAION de 5 000 millones de imágenes. Es difícil establecer un nexo causal entre ciertos cambios en los datos y las capacidades que emergen debido al alto costo del proceso. Aún así, los usuarios han informado que eliminar imágenes explícitas y otros temas de los datos de entrenamiento puede haber dañado la calidad de salida. Los investigadores descubrieron que el popular modelo SD 1.4 produce 796 imágenes con partes del cuerpo expuestas identificadas por un detector de desnudez, mientras que el nuevo modelo SD 2.0 restringido al conjunto de entrenamiento solo produce 417. Esto muestra que, a pesar de sus esfuerzos, la salida del modelo aún contiene imágenes explícitas significativas contenido.

La capacidad de los algoritmos de texto a imagen para imitar información posiblemente protegida por derechos de autor también es una preocupación seria. La calidad del arte generado por IA es comparable a la del arte generado por humanos, y también puede imitar con precisión las preferencias estéticas de los artistas genuinos. Los usuarios de sistemas de síntesis de texto a imagen a gran escala como Stable Diffusion han descubierto que sugerencias como “arte a la manera de” pueden imitar los estilos de ciertos artistas, posiblemente socavando el trabajo original. Debido a las denuncias de varios artistas, los creadores de Stable Diffusion están siendo demandados por supuestamente robar sus ideas. La investigación actual trata de salvaguardar al artista agregando una perturbación contradictoria a la obra de arte antes de publicarla en línea para evitar que el modelo la copie.

🔥 Recomendado:  Cómo hacer la mejor bruschetta casera

Sin embargo, usar ese método dejará un modelo enseñado con un estilo artístico aprendido. Proporcionan una técnica para eliminar una noción de un modelo de texto a imagen en respuesta a preocupaciones de infracción de derechos de autor y seguridad. Utilizan solo descripciones de conceptos indeseables y ningún otro dato de entrenamiento para ajustar los parámetros del modelo utilizando su técnica de difusión estable borrada (ESD). Su metodología es rápida y solo necesita entrenar todo el sistema desde cero, a diferencia de los enfoques de censura de conjuntos de entrenamiento. Además, su política no requiere cambiar las fotos de entrada para usarlas con los modelos actuales. El borrado es más difícil de vencer que la simple lista negra o el filtrado posterior, incluso por parte de los usuarios con acceso a los parámetros.

Para investigar los efectos del borrado en las percepciones de los usuarios del estilo del artista eliminado en las fotos de salida y la interferencia con otros tipos artísticos y su impacto en la calidad de la imagen, los investigadores realizaron estudios de usuarios. Cuando comparan su enfoque con la difusión latente segura para eliminar imágenes objetables, descubren que tiene el mismo éxito. También examinan la capacidad del método para eliminar el estilo creativo del modelo. Por último, pero no menos importante, prueban su enfoque borrando clases de objetos completas. El artículo se basa en la preimpresión del artículo. Han abierto los pesos del modelo y el código del modelo.

Revisar la preimpresión Papel, Código y Proyecto. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 16k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

🔥 Recomendado:  ¡Ahora puede usar las tendencias de Pinterest para medir la oportunidad de Amazon!

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools