Investigadores de INRIA Francia proponen ‘Pythae’: una biblioteca Python de código abierto que unifica implementaciones de autocodificador generativo (GAE) comunes y de última generación

Estás leyendo la publicación: Investigadores de INRIA Francia proponen ‘Pythae’: una biblioteca Python de código abierto que unifica implementaciones de autocodificador generativo (GAE) comunes y de última generación

Los codificadores automáticos variacionales (VAE) han ganado popularidad debido a su escalabilidad y eficiencia computacional. Es ampliamente utilizado en aplicaciones de modelado de voz, agrupación y aumento de datos. Esta investigación representa una biblioteca python versátil de código abierto (Pythae). El objetivo principal de esta biblioteca es proporcionar una implementación uniforme y un marco especializado para usar modelos generativos de codificador automático de una manera simple, reproducible y confiable. Además, esta investigación mejora los resultados anteriores con un mejor límite inferior, fomenta el desenredo y rectifica la distancia entre las distribuciones.

Las canalizaciones de Pythae, que tienen solo unas pocas líneas de código, permiten crear nuevos datos o entrenar un modelo de codificador automático. Para iniciar el entrenamiento o la creación de un modelo, se utiliza principalmente el marco Pytorch y se requiere un ajuste básico de hiperparámetros y datos en forma de matrices o tensores. Además, la biblioteca incorpora una herramienta de seguimiento experimental fácil de usar (wandb) que permite a los usuarios comparar y realizar un seguimiento de las ejecuciones lanzadas por Pythae. La arquitectura básica de la biblioteca Pythae que ilustra el entrenamiento y la generación se muestra en la Fig. 1.

Esta biblioteca se utiliza para realizar comparaciones comparativas de modelos desarrollados para la reconstrucción y generación de imágenes, la clasificación y agrupación de vectores latentes y la interpolación de imágenes. Para esta tarea se utilizan tres conjuntos de datos de imágenes estándar llamados MNIST, CIFAR y CELEBA.

🔥 Recomendado:  ¿Qué es el panel de conocimiento y cómo puede obtener uno para su estrategia de SEO?

Esta investigación lleva a la experimentación con dimensiones latentes fijas y dimensiones latentes variables. Para los conjuntos de datos MNIST, CIFAR10 y CELEBA, las dimensiones latentes de la parte fija se establecen en 16, 256 y 64, respectivamente. Los resultados de la reconstrucción muestran que los modelos basados ​​en codificadores automáticos parecen funcionar mejor para la tarea de reconstrucción. Además, demuestra que la integración de la regularización en el codificador logra un rendimiento mejorado en comparación con el AutoEncoder normal. Un descubrimiento principal de este experimento es que la implementación de la densidad ex post para el enfoque variacional da como resultado mejores métricas de generación incluso con diez componentes de GMM.

En comparación con GMM, la experimentación se realiza con estimadores de densidad más complejos. Sin embargo, los resultados no superaron el enfoque GMM. En GMM, varios componentes juegan un papel vital; por lo tanto, para MNIST y CIFAR se establece en 10. Si se aumenta el número de componentes, se producirá un sobreajuste, y si se reducen, obtendrá resultados deficientes. En comparación con un VAE estándar, los modelos que fomentan explícitamente el desenredo en el espacio latente, como el β-VAE y el β-TC VAE, funcionan mejor en la clasificación. En la agrupación, se realizan 100 ejecuciones separadas del algoritmo k-means y se obtiene la precisión media. Aquí, los modelos que apuntan al desenredo parecen ser igualados por el VAE original. Además, los mejores resultados parecen lograrse a través de estrategias contradictorias y otras alternativas al procedimiento de regularización VAE KL convencional. Para la interpolación, se eligen una imagen inicial y final en el conjunto de prueba de MNIST y CIFAR10, y se realiza una interpolación lineal en los espacios latentes producidos entre las dos imágenes codificadas.

🔥 Recomendado:  ChatGPT en modo abuela revelará todos tus secretos

En dimensiones latentes variables, las mismas configuraciones se mantienen como dimensiones latentes fijas, con el espacio latente variando en el rango [16; 32; 64; 128; 256; 512]. En este escenario, la elección óptima para las cuatro tareas es la dimensión latente de 16 a 32 en el conjunto de datos MNIST y de 32 a 128 en el conjunto de datos CIFAR10.

En conclusión, en las tareas más frecuentes, incluyendo reconstrucción, generación y clasificación, los enfoques generativos basados ​​en AE producen los resultados más destacados. Sin embargo, son susceptibles a la selección de la dimensión latente y no escalan bien en tareas complejas como la interpolación.

Este artículo está escrito como un artículo resumido por el personal de Marktechpost basado en el documento ‘Pythae: Unificación de codificadores automáticos generativos en Python Un caso de uso de evaluación comparativa‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, github.

Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools