▷ Síntesis de texto a cara estructurada y con atributos múltiples: hacia la IA

Estás leyendo la publicación: Síntesis de texto a cara estructurada y con atributos múltiples: hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Información de tamaño de byte para masticar

Título: Síntesis de texto a cara estructurada y con atributos múltiples (2020)

Autores: Rohan Wadhawan, Tanuj Drall, Shubham Singh, Shampa Chakraverty

Enlace de publicación: https://ieeexplore.ieee.org/abstract/document/9557583

Enlace de preimpresión: https://arxiv.org/abs/2108.11100

Palabras clave: Redes adversarias generativas, síntesis de imágenes, síntesis de texto a cara, conjunto de datos MAST, aprendizaje multimodal, distancia de inicio de Fréchet

Resumen

El artículo está estructurado de la siguiente manera:

Análisis detallado de temas como Generative Adversarial Network (GAN) [1] y la síntesis de imágenes están más allá del alcance de este artículo. Pero he proporcionado enlaces a recursos relevantes, que serán útiles mientras lee el documento. Además, las visualizaciones compartidas aquí están tomadas del manuscrito original.

Planteamiento del problema

Desarrolle una técnica para generar caras de alta fidelidad y diversidad utilizando la descripción textual como entrada.

Contribución en papel

Propuso el uso de Generative Adversarial Network para sintetizar rostros a partir de descripciones textuales estructuradas.
Demostró que aumentar la cantidad de atributos faciales en las anotaciones textuales mejora la diversidad y la fidelidad de los rostros generados.
un consolidado Text-to-Face estructurado y con atributos múltiples (MAST)[2] conjunto de datos complementando Imágenes de 1993 face tomado de la sede de CelebA [3] conjunto de datos con anotaciones textuales.

Descripción general de la metodología

Cada anotación en el conjunto de datos MAST consta de 15 o más atributos faciales de los 30 atributos posibles. Entre ellos, los siguientes siete: forma de la cara, tamaño de las cejas, forma de las cejas, color de ojos, tamaño de los ojos, forma de los ojos, complexión de la piel, se obtuvieron a través del crowdsourcing de datos realizado por los autores. [4]. Además, se tomaron ocho o más atributos como vello facial, edad, sexo y accesorios de CelebA-HQ y la API de Microsoft. [5]de un total de 23 posibilidades.
Las descripciones textuales estructuradas consisten solo en atributos faciales y carecen de puntuaciones, preposiciones y verbos auxiliares. Los autores generan cinco descripciones por imagen mediante la concatenación aleatoria de estos atributos para simular texto de flujo libre procesado, como se muestra a continuación.

Descripción fluida –
Un anciano de pelo gris y ojos azules. El está sonriendo
Descripción procesada que se asemeja a la descripción en el conjunto de datos MAST –
anciano canas ojos azules sonriendo

AttnGan [6] se ha empleado para la generación condicional de rostros a partir de datos de texto estructurado. Los autores reemplazan el codificador de texto preentrenado utilizado en la técnica original con vectores GLoVe [7] en la capa de incrustación. Estos vectores cubren un extenso vocabulario y representan relaciones semánticas entre las palabras. La arquitectura GAN se muestra a continuación.

Las incrustaciones de GloVe también ayudan a muestrear valores de atributos no vistos del grupo de palabras en el espacio de incrustación. Por ejemplo, un modelo entrenado en valores de atributo de edad como “anciano” y “mayor” podrá comprender un nuevo valor similar como “maduro”, como se muestra a continuación.

Durante el entrenamiento GAN, suavizado de una etiqueta lateral [8] y se ha utilizado la actualización del peso de época alternativa del discriminador para abordar el problema de disminución del gradiente causado por el aprendizaje del discriminador más rápido que el generador.
Distancia de inicio de Fréchet (FID) [9] se ha utilizado para medir la calidad de las caras generadas, y la distancia semántica de caras (FSD) y la similitud semántica de caras (FSS). [10] se han utilizado para medir la similitud de los rostros generados con los reales.

Conclusiones

Los autores prueban e ilustran empíricamente que aumentar el número de atributos faciales en una descripción textual, 15 o más de los 30 atributos posibles, ayuda a mejorar la fidelidad y diversidad de rostros generados usando ese texto.

Demuestran que el cálculo de la métrica FID depende del tamaño del conjunto de datos y se recomienda utilizar un conjunto de prueba grande para informar valores precisos.

Limitaciones

La red GAN aprende a correlacionar atributos textuales con las imágenes de rostros en el conjunto de entrenamiento. Un conjunto de entrenamiento más pequeño puede ser una fuente de sesgo potencial y limitar la variedad de caras que puede generar el modelo.

Trabajo futuro

Nuevas arquitecturas GAN para la síntesis de texto a cara.
Una métrica para medir directamente la generación intermodal.
Un conjunto de datos más grande y diverso para mejorar aún más la generación de rostros.

Aplicaciones

Generación facial robusta y detallada de sospechosos a partir de relatos de testigos presenciales.
Mejorar la experiencia de lectura con señales visuales.

Referencias

I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville e Y. Bengio, “Redes generativas adversarias”, en Avances en los sistemas de procesamiento de información neuronal, 2014, págs. 2672–2680.
Conjunto de datos MAST
T. Karras, T. Aila, S. Laine y J. Lehtinen, “Crecimiento progresivo de gans para mejorar la calidad, la estabilidad y la variación”, preimpresión de arXiv arXiv:1710.10196, 2017.
Conjunto de datos MAST Sitio web de crowdsourcing
API facial de Microsoft Azure
T. Xu, P. Zhang, Q. Huang, H. Zhang, Z. Gan, X. Huang y X. He, “Attngan: generación de texto a imagen de granularidad fina con redes antagónicas generativas atencionales”, en Actas de la conferencia IEEE sobre visión artificial y reconocimiento de patrones, 2018, págs. 1316–1324.
GloVe: vectores globales para la representación de palabras
T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford y X. Chen, “Técnicas mejoradas para entrenar gans., “Avances en los sistemas de procesamiento de información neuronal, vol. 29, págs. 2234–2242, 2016.
M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler y S. Hochreiter, “Gans entrenados por una regla de actualización de dos escalas de tiempo convergen a un equilibrio de nash local”, en Avances en los sistemas de procesamiento de información neuronal, 2017, págs. 6626–6637.
X. Chen, L. Qing, X. He, X. Luo e Y. Xu, “Ftgan: una red adversaria generativa completamente entrenada para la generación de texto a cara”, preimpresión de arXiv arXiv:1904.05729, 2019.

Recursos adicionales

Sinopsis: Síntesis de texto a cara estructurada y con atributos múltiples se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Publicado a través de Hacia la IA

Tabla de Contenido

Síntesis de texto a cara estructurada y con atributos múltiples: hacia la IA