Estás leyendo la publicación: Investigadores de China construyen un nuevo marco de adaptación de GAN para la tarea de adaptación de GAN generalizada de una sola vez
La Red adversa generativa (GAN) es una arquitectura de red neuronal profunda que puede aprender de los datos de entrenamiento y producir nuevos datos que comparten las mismas propiedades que los datos de entrenamiento. Generalmente, la GAN, cuyo objetivo es transferir una GAN preentrenada a un dominio determinado con datos de entrenamiento limitados, se compone de dos redes neuronales complementarias, el generador y el discriminador. El generador aprende a generar datos falsos, mientras que el discriminador aprende a distinguir los datos falsos del generador de los ejemplos originales. Gracias a excelentes GAN preentrenadas como StyleGAN y BigGAN, la adaptación de GAN se ha convertido en un tema de investigación muy estudiado.
Los GAN preentrenados en grandes conjuntos de datos se utilizan para reducir el impacto de la falta de datos y acelerar el proceso de aprendizaje de un nuevo dominio. Se pueden distinguir tres casos: pocos disparos, un disparo y cero disparos.
Sin embargo, existen límites en las configuraciones de una sola toma existentes, ya que cada ejemplar proporciona información extensa más que el estilo de textura y el color general. Los trabajos anteriores tienden a transferir el estilo artístico mientras que las entidades son
descuidado. Además, la entidad (como las gafas), un componente de estilo crucial, debe transferirse simultáneamente con el estilo de color. Además, el impacto de las grandes entidades en el espacio de color simplifica la producción de artefactos en trabajos anteriores. Para lidiar con esos problemas, un equipo de investigación chino propuso dividir la adaptación del dominio de origen al dominio de destino en dos partes: 1) Transferir elementos de estilo global como textura y color. 2) Generación de nuevas entidades fuera del dominio de origen.
A diferencia de los trabajos anteriores centrados en la transferencia de estilo, el nuevo método propuesto aborda la tarea de adaptación generalizada de una sola vez para la transferencia de entidad y estilo. Para realizar esta operación se utiliza una imagen de referencia y su máscara de entidad binaria. El modelo StyleGAN entrenado previamente en FFHQ se usa como línea de base. Los autores introdujeron un generador objetivo Gt formado por un generador Gt’ heredado del generador fuente Gs y una red auxiliar (aux) entrenada desde cero. El aux está hecho para tratar con entidades, mientras que Gt’ apunta a concentrarse en estilizar caras claras para aprovechar el conocimiento previo almacenado en Gs.
El proceso de formación consta de tres partes principales:
1- Fijación de estilo y reconstrucción ejemplar para obtener aproximadamente el estilo del ejemplar.
2- Aprendizaje de distribución interna para minimizar la distancia de las distribuciones de parches internos entre síntesis y ejemplares para la transferencia de estilo y entidad.
3- Regularización múltiple para evitar distorsiones de contenidos durante la formación.
La función de costo general comprende cuatro funciones de pérdida: pérdida de reconstrucción, pérdida de estilo, pérdida de entidad y la regularización laplaciana variacional.
La evaluación del método introducido se realizó a través de un estudio experimental. Los autores emplean la red de alineación facial para extraer puntos de referencia faciales y calcular el error medio normalizado (NME) para evaluar objetivamente la correlación entre dominios. En comparación con los métodos más avanzados, el enfoque propuesto ofrece las mejores puntuaciones en términos de NME. Logra una estabilidad satisfactoria y obtiene un NME similar en diferentes campos. También se llevó a cabo un estudio de ablación para demostrar la contribución de cada una de las cuatro funciones de pérdida.
Este artículo presentó una nueva red de adaptación GAN propuesta para la tarea de adaptación GAN generalizada de una sola vez. A pesar del desempeño alentador obtenido, los autores confirman que existen algunas imitaciones porque el marco propuesto se basa en gran medida en el aprendizaje de la distribución interna. El más significativo es su incapacidad para gestionar adecuadamente la posición de la identidad, lo que puede resultar en fallas cuando la postura varía demasiado. Otra restricción es que la entidad no puede ser muy compleja, lo que dificulta la distribución de parches.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Adaptación generalizada de dominio de una sola vez de redes generativas antagónicas‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools