Tendencias en IA — Junio ​​de 2022 – Hacia la IA

Estás leyendo la publicación: Tendencias en IA — Junio ​​de 2022 – Hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Tendencias en IA: junio de 2022

Aprendizaje por refuerzo multimodal y multitarea de Deepmind gatos predicciones AGI conmocionadas. DALLE·2 tiene nueva competencia de Imagen por Google Está razonando con los LLM a la vuelta de la esquina cuando les pedimos que “Pensemos paso a paso…”.? Más modelos de difusión para el aprendizaje por refuerzo, un enfoque novedoso para aplicar GNN para la visión, la comprensión del Grokking y mucho, mucho más…

A medida que avanzamos en junio, el mundo de la IA no se detiene y, una vez más, el ritmo de nuevas historias e investigaciones fue alto. El La conferencia ACL se celebró el mes pasado en Dublín, siendo una de las primeras conferencias importantes en volver en persona, lo que sin duda se siente como otro paso hacia la normalidad. Comencemos con algunos aspectos destacados del lanzamiento:

  • neutrono es una nueva comunidad de complementos de audio centrada en conectar la investigación y la creatividad. Permite a los investigadores publicar fácilmente complementos de procesamiento de audio basados ​​en aprendizaje automático y los creadores de audio pueden acceder a ellos cómodamente.
  • RNN todavía no se rendirá. BlikDL (un investigador independiente) construyó un RNN de alto rendimiento sin atención que compite con los modelos basados ​​en transformadores. El entrenamiento se puede paralelizar haciéndolo más eficiente, y la inferencia solo se basa en el estado oculto anterior
  • Un interesante discusión en el subreddit de Machine Learning sobre si puede confiar en los documentos de los laboratorios. El argumento central es que, en la actualidad, los laboratorios con ingenieros muy capacitados sabrán cómo exprimir cada porcentaje del rendimiento, de modo que los resultados en los documentos terminen siendo un reflejo de lo bien que la gente detrás está optimizando el proceso, pero no tanto como una medida. del valor intrínseco del método propuesto.

? Investigación

Cada mes analizamos la literatura de investigación más reciente y seleccionamos un conjunto variado de 10 artículos que debe conocer. Este mes cubriremos temas como la multimodalidad, el aprendizaje por refuerzo (RL), los modelos de difusión, la recuperación de información, las sugerencias y más.

1. Un agente generalista | Entrada en el blog

❓Por qué → Hemos estado destacando la multimodalidad como uno de los pilares clave para el futuro de la IA, ejemplificado por el reciente modelo de lenguaje visual generalista de Deepmind Flamingo⁴. Este trabajo, también de Deepmind, lleva la multimodalidad al siguiente nivel: un solo modelo entrenado en datos de visión, texto y control (por ejemplo, RL) de cientos de conjuntos de datos variados.

?Ideas clave → El Gato aplica la receta habitual de un Transformador solo decodificador (parámetros 1.2B) entrenado para predecir el próximo token de forma autorregresiva. Pero ahora, en lugar de tokens de solo idioma, serializan entradas genéricas en incrustaciones que pueden representar:

  • Texto tokenizado a través de SentencePiece con un tamaño de vocabulario de 32000 palabras.
  • Parches de imagen de tamaño 16×16. Estos se integran usando una única ResNet, en lugar de usar tokens de imagen diferenciados como DALL·E 1.
  • Los valores discretos, como las pulsaciones de botones de Atari, se tokenizan con valores entre 0 y 1023.
  • Los valores continuos de control (por ejemplo, la posición del joystick en un videojuego) también se discretizan en tokens con valores entre 0 y 1023.

Se toman muchas decisiones complejas para garantizar que todas las tareas se puedan representar en una secuencia de incrustaciones (por ejemplo, observación/acción/separadores para políticas de control), pero la esencia es relativamente simple. Además, a diferencia de los modelos de lenguaje de solo texto, Gato se entrena principalmente en un entorno supervisado donde se extraen muestras etiquetadas de cientos de conjuntos de datos y se alimentan al modelo paso a paso para predecir el próximo token. Esto significa que para problemas de control como juegos de robótica o Atari, Gato aprende a través de la clonación de comportamiento, en lugar de interactuar activamente con un entorno como se hace comúnmente en la configuración de RL.

Los resultados transmiten que este es un enfoque factible y exitoso, pero por ahora aún no es un fracaso de SOTA. El modelo resultante puede hacer cosas como subtitular imágenes, mantenerse al día con una conversación y jugar juegos de Atari, entre otros. Su análisis sobre la escala muestra que su modelo no está ni cerca del rendimiento máximo, por lo que esperamos enfoques similares que se amplíen aún más en los próximos meses.

2. Planificación con difusión para la síntesis de comportamiento flexible | página del proyecto | Código | Cuaderno colaborativo

❓Por qué → Los modelos de difusión, que han demostrado ser increíblemente útiles para la síntesis de imágenes, están encontrando nuevas vías para brillar, como la RL basada en modelos.

?Ideas clave → Los enfoques de RL basados ​​en modelos existentes a menudo aprenden la dinámica del entorno y luego utilizan un optimizador de trayectoria clásico sin gradiente para la toma de decisiones. Dado que la dinámica del entorno aprendida es solo una aproximación, el optimizador de trayectoria podría explotar las debilidades dinámicas aproximadas y generar trayectorias que no se traducen bien en el entorno original, lo que perjudica el rendimiento.

Este trabajo aprovecha los modelos de difusión para incluir la optimización de la trayectoria como parte del proceso de aprendizaje, mitigando las trampas de los optimizadores de trayectoria actuales y con el objetivo de lograr:

  • Escalabilidad a largo plazo: entrenamiento basado en la precisión de la trayectoria general en lugar de un error de un solo paso, evitando modos de falla miopes.
  • Composicionalidad de tareas: una forma sencilla de añadir funciones auxiliares de pérdida para condicionar el muestreo de planes en el proceso de difusión.
  • Composicionalidad temporal: lograr la consistencia de la trayectoria global al imponer la consistencia local en cada paso de difusión.
  • Planificación efectiva no codiciosa: la optimización conjunta del modelo y el planificador apunta a una interacción sinérgica entre los componentes en lugar de una interacción antagónica.
🔥 Recomendado:  Cómo esta "mamá bloguera" gana casi $ 2,000 por mes con su blog

A grandes rasgos, considere una trayectoria que es una secuencia causal de pares {estado, acción}. Se aplica un proceso de difusión a esta secuencia que gradualmente agrega ruido a cada par {estado, acción} y luego el modelo aprende a invertir este proceso: comenzando desde una trayectoria que es solo ruido, refinándola gradualmente hasta que sea una trayectoria.

En sus experimentos, el difusor propuesto se comporta de manera competitiva con los métodos existentes; pero quizás lo más interesante es que las trayectorias que presenta el modelo parecen satisfacer los 4 objetivos mencionados anteriormente: planificación del horizonte a largo plazo, composición temporal y de tareas y planificación no codiciosa. Puede consultar algunos ejemplos de vídeo en sus página del proyectocontrolar su códigoo incluso jugar con un cuaderno de colab.

Este método representa una desviación conceptual importante de los planificadores existentes y tiene el potencial de convertirse en un terreno fértil para nuevas investigaciones.

3. Modelos fotorrealistas de difusión de texto a imagen con comprensión profunda del lenguaje

❓Por qué → DALL·E 2 de OpenAI² fue posiblemente lo más destacado de abril, ya que superó los límites de cuán compleja y realista puede ser la generación de imágenes, lo que provocó un intenso debate sobre las capacidades y limitaciones de tales modelos. Ahora Google ha publicado un modelo que rivaliza con DALL·E 2: Imagen. Si bien nadie rivaliza con OpenAI marketing Genio, este es también un trabajo al que prestar atención.

?Ideas clave → Este enfoque llamado Imagen es similar a DALL·E 2 en que utiliza un modelo de difusión para la generación de imágenes, pero es diferente en cómo representa las indicaciones y cómo logra imágenes de alta resolución.

La representación de texto proviene de un modelo de lenguaje congelado de solo texto (T5), y la generación de imágenes se realiza mediante un modelo de difusión (como es habitual en este punto) con dos pasos de muestreo de superresolución, hasta 1024 × 2014. Utiliza técnicas de entrenamiento como la guía sin clasificador que le permite aprender tanto la generación condicional como la incondicional. Otra técnica introducida es el umbral dinámico, que evita que el proceso de difusión se sature en ciertas regiones de la imagen, fenómeno que perjudica la fidelidad de la imagen, especialmente cuando el peso de la generación condicional del texto es alto.

En cuanto a los resultados, logran lo último en el conjunto de datos COCO con una puntuación FID de disparo cero de 7,27, incluso mejor que DALL·E 2. Aún así, evaluar objetivamente la generación de imágenes es un desafío, así que tome estos números con una grano de sal. En términos generales, la generación parece estar a la par con la de DALL·E 2, pero necesitaríamos interactuar extensamente con ambos sistemas para tener una mejor idea de cómo se comparan, lo cual no es posible actualmente.

Uno de los hallazgos clave de este artículo es el hecho de que tales representaciones son sorprendentemente efectivas a pesar de no estar entrenadas de una manera multimodal como CLIP. [10]. Además, encuentran que aumentar el tamaño del modelo de lenguaje preentrenado mejora la generación de imágenes más que aumentar el tamaño del modelo de difusión que genera imágenes.

4. Los modelos de lenguaje grande son razonadores de tiro cero

❓Por qué → Un truco increíblemente efectivo y simple para generar modelos de lenguaje.

?Ideas clave → Este documento básicamente descubre que agregar la frase simple “Pensemos paso a paso” al indicador de GPT-3 y otros modelos similares mejora drásticamente el rendimiento del razonamiento. Este es un hallazgo que va en línea con las indicaciones de Chain of Thought (CoT)⁹, que mostró cómo el razonamiento y la precisión de los hechos se pueden mejorar en el aprendizaje de una sola vez al desempaquetar explícitamente el razonamiento como parte de la indicación del lenguaje natural. La siguiente figura ilustra sucintamente cómo todas estas técnicas se relacionan entre sí.

Tras tal descubrimiento, los autores proponen un CoT de tiro cero que es una plantilla para obtener un tipo de razonamiento de cadena de pensamiento en un entorno de tiro cero, sin requerir un mensaje de cadena de pensamiento artesanal como se hizo anteriormente. Por ejemplo, la plantilla puede agregar primero el sufijo de solicitud “Pensemos paso a paso”, usar el resultado del modelo como una cadena de pensamiento y luego realizar la extracción de respuestas agregando otro sufijo de solicitud como “por lo tanto, la respuesta en números arábigos”. es”, ejecutando el modelo para un último paso de inferencia.

Los resultados muestran cuán grande es la diferencia que hacen las elecciones simples de plantillas y avisos. Todavía es fascinante cómo después de 2 años del lanzamiento de GPT-3, todavía hay tanta fruta madura esperando ser recolectada en el espacio de las indicaciones.

5. Vision GNN: una imagen vale un gráfico de nodos

❓Por qué → A menudo asumimos que las imágenes deben representarse canónicamente como una cuadrícula de píxeles. ¿Y si los representáramos como gráficos?

?Ideas clave → Este artículo propone (ViG), una arquitectura para extraer características a nivel de gráficos para tareas visuales. La representación gráfica de una imagen se obtiene simplemente dividiendo una imagen en parches, incrustando esos parches y construyendo un gráfico donde los bordes representan los vecinos más cercanos en el espacio de incrustación. Luego, este gráfico se alimenta a un GNN que consiste en una combinación inteligente de convoluciones gráficas (GCNN), transformaciones lineales y funciones de activación que evitan las trampas comunes de los GCNN, como el suavizado excesivo.

De manera similar a las ResNet clásicas, los autores encuentran que la GNN se beneficia de una “estructura piramidal”, donde las características espaciales se agregan iterativamente en características más profundas que combinan información de un vecindario cada vez más grande de la imagen/gráfico.

🔥 Recomendado:  Pronostique el futuro con el análisis de series temporales: hacia la IA

Los resultados en Imagenet son SOTA o comparables a las arquitecturas existentes basadas en ResNets⁵, ViTs⁶ o MLP⁶. Una vez más, esto refuerza la creciente sospecha de que las arquitecturas específicas en Deep Learning importan menos de lo que solíamos creer, y que la escala y los datos son los principales impulsores del rendimiento.

6. Paradigmas unificadores del aprendizaje de idiomas

❓Por qué → El preentrenamiento basado en el modelado del lenguaje autosupervisado es ahora el pan de cada día de la PNL. Aún así, existen diferentes sabores de esta técnica, mostrando empíricamente fortalezas y debilidades complementarias. ¿No sería bueno obtener lo mejor de todos ellos?

?Ideas clave → Considere la siguiente taxonomía para los métodos de preentrenamiento de LM existentes:

  • Modelado de lenguaje vainilla o causal. “Predecir el próximo token” donde cada token solo puede atender a los tokens anteriores.
  • Modelado de lenguaje de prefijo: “Predecir el próximo token”, pero ahora todos los tokens de entrada pueden atenderse entre sí.
  • Corrupción de tramo, modelado de lenguaje enmascarado (MLM) o modelado de lenguaje bidireccional. “Rellene los huecos”, donde todos los tokens pueden atender a todos los tokens.

Mientras que los LM autorregresivos se destacan en la generación de texto y las indicaciones, MLM es mejor para extraer representaciones poderosas de lenguaje de propósito general. La unificación de las tareas previas al entrenamiento se puede entender desde la perspectiva de eliminar el ruido de una tarea de “entrada a objetivo”: un modelo aprende a reconstruir una entrada corrupta y predecir un objetivo. Al definir diferentes tipos cualitativos de eliminación de ruido que combinan tramos largos y cortos en el dominio de entrada y de destino, la función objetivo resultante combina las cualidades de los diferentes objetivos que describimos inicialmente.

En términos muy simplificados, R-denoiser imita el objetivo de aprendizaje T⁵⁸, S-denoiser es similar a GPT y X-denoiser es una combinación de ambos.

El resultado es un modelo que puede funcionar con éxito tanto en el paradigma de ajuste fino supervisado como en el de impulso único. Cuando se compara con los objetivos de aprendizaje anteriores de forma aislada, UL2 a menudo los supera, aunque no universalmente en todos los ámbitos. Esta es una dirección prometedora para los futuros modelos básicos como un servicio que se puede usar simultáneamente para (1) generar potentes incrustaciones de texto de propósito general y (2) resolver tareas de disparo cero a través de indicaciones y GPT de generación de texto.

7. UViM: un enfoque de modelado unificado para la visión con códigos de guía aprendidos

❓Por qué → Mientras que la PNL ha visto una unificación de técnicas a través de tareas con entrenamiento previo basado en modelado de lenguaje y Transformadores, Computer Vision (CV) aún permanece más fragmentado en términos de arquitecturas y métodos para diferentes tareas como segmentación de objetos, coloreado, pintado o mapeo de profundidad.

?Ideas clave → Un modelo base aprende una salida a nivel de píxel dada una imagen de entrada. Tradicionalmente, las dependencias a nivel de píxel son difíciles de modelar, por lo que a menudo se introducen sesgos inductivos específicos de la tarea en el proceso de aprendizaje.

En su lugar, este trabajo propone introducir un modelo auxiliar cuyo objetivo es guiar el entrenamiento del modelo base a través de una amplia gama de tareas CV a nivel de píxel. Esto toma la salida real del terreno (por ejemplo, un mapa de segmentación por píxel) y genera una secuencia corta de tokens discretos que contienen información útil sobre la tarea en cuestión. La intuición es que al optimizar conjuntamente el modelo base y el oráculo restringido, el oráculo encontrará formas de ayudar a las predicciones del modelo base, lo que le permitirá aprender tareas complejas de manera más eficiente sin requerir elecciones de diseño específicas de la tarea. Tenga en cuenta que durante el entrenamiento, el modelo no solo realiza una predicción porque la información de la etiqueta de verdad del terreno se filtra deliberadamente en el modelo a través del código guía.

Si bien los resultados no desafían el estado del arte, prueban que la orientación restringida de Oracle mejora el rendimiento del modelo base y es una dirección de investigación viable para métodos de visión más genéricos.

8. Aprendizaje automático mejorado con recuperación

❓Por qué → Confiar en aumentar el número de parámetros para mejorar el rendimiento del modelo ML parece exitoso, pero también es frágil, insostenible y opaco. Trabajos recientes que combinan IR y modelos de lenguaje muestran una eficiencia de parámetros mucho más prometedora a la vez que son más generalizables, escalables, interpretables y robustos.

?Ideas clave → Trabajos anteriores de este año, como Web-GPT (OpenAI), RETRO (Deepmind) o LaMDA (Google), ya mostraron cómo los modelos de lenguaje que interactuaban con un modelo de recuperación mostraban una mejor utilización y solidez de los parámetros; con el beneficio adicional de poder agregar información al sistema sin necesidad de volver a entrenar todo el modelo.

Este es un documento de posición muy útil que establece los fundamentos conceptuales de los modelos ML que interactúan con los sistemas de recuperación. Un modelo de aprendizaje automático mejorado con recuperación es simplemente un modelo predictivo de aprendizaje automático que interactúa explícitamente con un módulo de memoria que se puede consultar para obtener información a través de un modelo de recuperación (consulte la figura a continuación).

Los autores también brindan ejemplos de estudios de casos como vías potenciales donde se está investigando la recuperación mejorada de ML y muestra un futuro prometedor. Estos incluyen la base del conocimiento, el aprendizaje automático aumentado con memoria, la representación de entrada mejorada de recuperación y la generalización a través de la memorización.

9. Una moderna matriz de peso autorreferencial que aprende a modificarse a sí misma

❓Por qué → El metaaprendizaje (también conocido como aprender a aprender y aprender a aprender, etc.) ha sido durante mucho tiempo una de esas ideas en IA cuya importancia parece evidente en abstracto, pero ha resultado difícil de popularizar. Si bien este trabajo apareció por primera vez a principios de este año en febrero, recientemente fue aceptado en la conferencia ICML y generó más discusión.

🔥 Recomendado:  Los 13 mejores modelos de monetización de juegos para editores

?Ideas clave → Este es un trabajo que aplica técnicas modernas para desempolvar una idea de metaaprendizaje que data de 1991 del grupo de Schmidhuber. La motivación para esta línea de trabajo se puede entender mejor a través de Entrada de blog de Schmidhuber que cubre el contexto histórico del metaaprendizaje.

La idea es reconceptualizar gran parte de la atención multicabezal utilizada en Transformers como una combinación de NN rápidos y lentos (o matrices de peso), donde el propósito del NN lento es modificar un NN rápido, que se convierte en un formalismo más general para construir NN que puedan meta-aprender (es decir, que puedan “mejorarse a sí mismos” en un ciclo virtuoso).

Ellos prueban el enfoque en el aprendizaje supervisado (especialmente en pocos disparos) y el refuerzo de múltiples tareas, lo que demuestra que esta es una técnica viable, aunque no logra un rendimiento asombroso.

Para ser honesto, soy algo escéptico sobre cuán útil es revisar los métodos existentes bajo terminologías alternativas y abstracciones que se relacionan con métodos más antiguos: al final del día, podría decirse que esto no es tan diferente de la atención de múltiples cabezas. Puede parecer una ofuscación innecesaria de las contribuciones del artículo. Aún así, ver lo mismo bajo una nueva luz puede revelar valiosas ideas novedosas, por lo que, después de todo, es una lectura desafiante pero que vale la pena.

10. Hacia la comprensión de Grokking: una teoría eficaz del aprendizaje de la representación

❓Por qué → Usar la caja de herramientas de física con teorías efectivas y diagramas de fase para comprender un fenómeno desconcertante que exhiben las redes neuronales: grokking.

?Ideas clave → Grokking es un fenómeno desconcertante que los NN pueden exhibir donde generalizan drásticamente al conjunto de prueba mucho después de sobreajustar el conjunto de entrenamiento³. Esto se ha demostrado en conjuntos de datos algorítmicos, por ejemplo, aprender operaciones binarias entre números enteros, que mantienen ciertas combinaciones del conjunto de entrenamiento y las usan en el conjunto de prueba para determinar la generalización.

A menudo utilizada en física, una teoría efectiva es un modelo descriptivo de un determinado fenómeno que no pretende reflejar ninguna estructura causal subyacente de dichos fenómenos.

Para construir una teoría efectiva del aprendizaje de la representación, este artículo establece una definición de estructura basada en la geometría del espacio de incrustación. En base a esto, analiza qué tan grande se necesita un conjunto de entrenamiento para recuperar la estructura subyacente de un conjunto de datos algorítmicos de modo que el modelo se generalice al conjunto de prueba.

Las fases de aprendizaje de la representación se definen como 4 regímenes de representaciones aprendidas en NN:

  • Comprensión: tanto el entrenamiento como el rendimiento de las pruebas mejoran simultáneamente.
  • Grokking: el rendimiento del entrenamiento y de las pruebas es alto, pero la generalización ocurrió después de que el rendimiento del entrenamiento se estabilizó.
  • Memorización: el rendimiento del entrenamiento es alto pero el rendimiento de la prueba es bajo.
  • Confusión: tanto el entrenamiento como el rendimiento de las pruebas son deficientes.

Luego, los diagramas de fase se pueden dibujar para varios hiperparámetros de elección, como las tasas de aprendizaje del codificador/decodificador de representación, o la relación de división de entrenamiento/prueba, entre otros. Curiosamente, su teoría efectiva predice correctamente las condiciones límite para las transiciones de fase para parámetros como la división de datos de prueba/entrenamiento.

La mayoría de los resultados en el documento provienen de conjuntos de datos algorítmicos en configuraciones de juguetes, pero los autores conjeturan que el análisis en la dinámica de entrenamiento se mantendrá para casos más generales y brindará un ejemplo simple con un Transformador. Incluso si esa es una suposición esperanzadora, es útil aprender nuevas abstracciones fundamentadas que ayuden a conceptualizar intuitivamente fenómenos complejos, algo en lo que los físicos sobresalen.

Además, comprender los fenómenos emergentes complejos de las NN es muy útil para desarrollar de manera eficiente modelos cada vez más grandes, donde los barridos a través de las opciones de diseño y los hiperparámetros son computacionalmente inviables.


Tendencias en IA: junio de 2022 se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA