Investigadores de CMU proponen Deep Attentive VAE: el primer marco basado en la atención para la inferencia variacional en modelos probabilísticos profundos

Estás leyendo la publicación: Investigadores de CMU proponen Deep Attentive VAE: el primer marco basado en la atención para la inferencia variacional en modelos probabilísticos profundos

Este artículo está escrito como un resumen por el personal de Marktechpost basado en el documento de investigación ‘INFERENCIA VARIACIONAL ATENTIVA PROFUNDA‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, github y entrada en el blog.

Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático

Los datos son un elemento esencial en el aprendizaje automático y comprender cómo se distribuyen es crucial. Los enfoques no supervisados ​​permiten que los modelos generativos aprendan sobre cualquier distribución de datos. Pueden producir muestras de datos únicas como caras falsas, obras de arte gráficas y panoramas escénicos. Se utilizan junto con otros modelos para complementar el conjunto de datos observados con información no observada para definir mejor la técnica que crea los datos de interés.

A pesar de los desarrollos prometedores, el modelado generativo profundo es costoso. Los modelos recientes se centran en aumentar la profundidad arquitectónica para mejorar el rendimiento. Sin embargo, como muestra nuestro análisis, los beneficios predictivos disminuyen a medida que aumenta la profundidad. A medida que los investigadores se desplazan hacia la IA verde, la simple expansión de capas ya no es una estrategia factible.

Los métodos recientes dependen de una mayor profundidad para mejorar el rendimiento y producir resultados equivalentes a los modelos autorregresivos totalmente generativos, al tiempo que permiten un muestreo rápido a través de una evaluación de red única. Sin embargo, a medida que crece la profundidad, las mejoras predictivas disminuyen. Después de cierto punto, incluso duplican el número de capas, lo que resulta en un modesto aumento en la probabilidad marginal. La explicación de esto podría ser que la influencia de las variables latentes de niveles anteriores disminuye a medida que la característica de contexto cruza la jerarquía y se actualiza con la información más reciente de las siguientes capas. Muchas unidades tempranas colapsan a sus contrapartes anteriores y, por lo tanto, ya no son relevantes para la inferencia. La razón plausible es la conectividad local entre las capas de la jerarquía.

Los VAE profundos sufren rendimientos decrecientes

El problema con arquitecturas convolucionales tan profundas es manejar grandes tensores 3D. Para resolver este problema es mirar la secuencia larga de tensores como acoplamientos.

Hay dos tipos de acoplamientos:

  • Acoplamientos entre capas: atención en profundidad

La red adopta una técnica de atención profunda para descubrir relaciones entre capas. A los niveles de la jerarquía variacional, se agregan dos bloques de atención en profundidad para construir el contexto de las distribuciones anterior y posterior.

  • Acoplamientos intracapa: bloques no locales

El entrelazado de bloques no locales puede aprovechar las dependencias dentro de la capa con convoluciones en los bloques ResNet de la arquitectura.

VAE atentos a varios conjuntos de datos de referencia disponibles públicamente de imágenes binarias y naturales. La Tabla 2 muestra el rendimiento y el tiempo de entrenamiento de VAE profundos y de vanguardia en CIFAR-10. CIFAR-10 es una colección de 3232 fotografías naturales. En comparación con otros VAE profundos, los VAE atentos alcanzan posibilidades de última generación. Más importante aún, lo logran con muchas menos capas. Menos capas dan como resultado menos tiempo de entrenamiento y muestreo. La razón de este avance es que las conexiones de larga distancia impulsadas por la atención entre capas dan como resultado un uso más significativo del espacio latente.

Esta figura muestra claramente que con menos capas, VAE atento puede lograr mejores probabilidades de registro

Se puede mejorar la expresividad de los modelos probabilísticos profundos existentes. Se puede lograr seleccionando conexiones estadísticas significativas entre variables latentes potencialmente distantes. Al describir interacciones tanto adyacentes como distantes en el espacio latente, los procesos de atención pueden generar distribuciones variacionales más expresivas en modelos probabilísticos profundos. Al eliminar el requisito de jerarquías profundas, la inferencia atenta minimiza la huella informática.

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools

🔥 Recomendado:  Cómo ganar dinero en TikTok en 2023: las 15 mejores formas