Estás leyendo la publicación: Tendencias en IA – febrero de 2023 – Hacia la IA
Publicado originalmente en Hacia la IA.
Tendencias en IA: febrero de 2023
Bing + ChatGPT, Bard, Claude y LAION de Google… ChatGPT sigue marcando el rumbo de las aplicaciones de Language Model. El audio generativo ve un progreso masivo (MusicLM, AudioLDM, SingSong…), un regreso de GAN para la síntesis de imágenes, generación de texto a video 3D, marcas de agua en la salida de LM y más.
Poco más de un mes después de 2023, ya nos estamos quedando sin calificadores para informar sobre cuán agitadas se han vuelto las cosas aquí en el mundo de la IA. ChatGPT ha seguido dominando e interrumpiendo el espacio tecnológico mucho más allá del nicho de la IA: Microsoft y Google compiten abierta y ferozmente por la próxima gran transición en la búsqueda web y la tecnología conversacional. Se está distribuyendo una explosión de funciones impulsadas por modelos lingüísticos a un ritmo sin precedentes. Audio + ML ha tenido su mes más activo en años, con varios trabajos que han logrado avances sustanciales en el problema. La generación de video con modelo de difusión sigue mejorando. Incitar sigue encontrando nuevos usos. La cantidad de frutas maduras que esperan es asombrosa, y los FOMO se arrastran en su punto más alto. ¡Así que vamos a sumergirnos!
?️ Noticias
Microsoft está ocupado aprovechando el impulso de ChatGPT, duplicando su asociación con OpenAI: incluye LM como parte de sus servicios de Azure, productos de Teams y ahora finalmente, como parte de su búsqueda web en Bing.
Google había estado sentado cómodamente sin oposición dominando los anuncios de búsqueda web y acumulando montones de IP de oro durante años, anunció recientemente Bard, su agente conversacional basado en Lambda. Además, Google también invirtió fuertemente en Anthropic ($400 millones), una startup emergente que competirá con OpenAI en servicios de Language Model con claudioun modelo de lenguaje conversacional inédito que ha generado cierto revuelo.
Las iniciativas de código abierto también están evolucionando rápidamente. Lo más destacado, el Asistente abierto LAION está en desarrollo, y ahora son datos de crowdsourcing para instruir y sintonizar (con Reinforcement Learning from Human Feedback, RLHF).
Finalmente, Runway, la compañía detrás de la serie de modelos Stable Diffusion, recientemente anunciado GEN-1su nuevo modelo de difusión de video para editar videos con indicaciones de texto.
? Investigación
Cada mes analizamos la literatura de investigación más reciente y seleccionamos un conjunto variado de 10 artículos que debe conocer. Este mes estamos cubriendo temas como modelos de lenguaje, modelos de difusión, generación de música, multimodalidad y más.
1. MusicLM: generación de música a partir de texto | Página del proyecto
Por Andrea Agostinelli, Timeo I. Denk, et al.
❓ Por qué → La música/audio generativo ha experimentado un auge total en las últimas semanas. Curiosamente, tanto los modelos de difusión como los discretos autorregresivos muestran un rendimiento impresionante. Aquí está la creciente lista de trabajos de IA de audio en el último mes por archinete.
? Ideas clave → A diferencia de otros trabajos de audio generativo recientes que utilizan modelos de difusión continua, MusicLM es un modelo de generación de música totalmente autorregresivo y totalmente discreto. Aprovecha hábilmente el trabajo existente (SoundStream [1] y w2v-BERT [2]) para impulsar el aprendizaje de la representación en diferentes escalas de tiempo y lograr la generación de música con una coherencia nunca antes vista durante largos períodos de tiempo, hasta varios minutos. Los autores llaman a esta técnica representación jerárquica porque el modelado autorregresivo ocurre en diferentes niveles de granularidad, lo cual es clave para lograr la coherencia a largo plazo.
Uno de los componentes clave de este proyecto son los datos, de una manera muy interesante. Para MuLan [3]toman el modelo congelado, y para SoundStream y w2v-BERT usan el archivo de música gratis. Pero luego, para entrenar los tokenizadores y el modelo autorregresivo (es decir, el modelo que en realidad escupe una generación de representaciones musicales), usan su propio conjunto de datos patentado con 5 millones de clips de audio que suman 280 000 horas de música a 24 kHz. Esto significa que entre las representaciones de bajo y alto nivel, el modelo se entrenó en alrededor de mil millones (alto nivel) y 50 mil millones (bajo nivel) tokens. Esto significa que, en términos de datos de entrenamiento, MusicLM es comparable a GPT-2, que se entrenó con aproximadamente 30 000 millones de tokens.
Puedes ir a ver la página de su proyecto para escuchar algunas muestras de su música. Si te interesa el tema de la generación de audio, aquí tienes la creciente lista de trabajos de IA de audio en el último mes por archinete (La mesa debajo).
2. Una marca de agua para modelos de lenguaje grande
Por John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein.
❓ Por qué → Con la creciente popularidad de chatGPT entre la corriente principal, también han aumentado las preocupaciones sobre las trampas y la atribución. ¿Dónde debería permitirse el uso de estos modelos? ¿Se puede detectar la salida de un modelo?
? Ideas clave → Este trabajo propone un método para marcar con agua las salidas de modelos de lenguaje propietario, como los de OpenAI. Uno de los principios rectores de esta marca de agua es que nunca debe dar lugar a falsos positivos (es decir, “acusaciones falsas” a una persona). Dicho esto, el método funciona de la siguiente manera:
- Dado un token, un algoritmo pseudoaleatorio determinista divide el vocabulario del modelo de lenguaje en tokens de lista blanca/negra que pueden aparecer inmediatamente después.
- El modelo genera resultados solo a partir del vocabulario incluido en la lista blanca en cada paso de inferencia.
- Para evitar la degradación de la generación, este proceso solo se aplica a los tokens de alta entropía (por ejemplo, solo interfieren con las listas blancas/negras cuando se pueden usar varias continuaciones, pero lo dejan solo cuando un token debe ir detrás de otro). El método es un poco más complejo y los autores brindan garantías teóricas desde una perspectiva teórica de la información, pero se entiende la esencia.
Ahora bien, esta técnica es resistente a algunos ataques, como simplemente intercambiar algunas palabras aquí y allá, como muestran los autores, pero no es a prueba de balas y se puede engañar con suficiente esfuerzo (por ejemplo, tener un modelo de lenguaje de terceros parafraseando la salida del primer modelo de lengua). Aún así, se rumorea que OpenAI planea un lanzamiento con una técnica de marca de agua similar, con la esperanza de reducir el uso fraudulento de la tecnología.
Se han desarrollado otras técnicas de disparo cero para detectar la salida de los LM, como DetectarGPT [4]tienen una mayor tasa de falsos positivos.
3. Demostrar-Buscar-Predecir: Componer modelos de lenguaje y recuperación para la PNL intensiva en conocimientos | Código
Por Omar Khattab, Keshav Santhanam, Xiang Lisa Li, David Hall, Percy Liang, Christopher Potts, Matei Zaharia.
❓ Por qué → Hemos hablado mucho sobre los LM aumentados por recuperación, aumentar un LM con una memoria explícita externa tiene el potencial de revolucionar la forma en que encontramos información. Este trabajo representa un paso más allá de aumentar los LM con recuperación.
? Ideas clave → La mayoría de los LM con recuperación aumentada funcionan de la manera de recuperar y luego leer: ante un aviso, se realiza una consulta al modelo de recuperación (RM) que luego se usa como contexto para la generación de LM. Pero a veces las necesidades de información complejas requieren una interacción más compleja entre el LM y el RM, que es lo que este artículo propone modelar.
El Demostrar-Buscar-Predecir (DSP) es un marco para el aprendizaje en contexto, donde un LM y un RM congelado interactúan intercambiando lenguaje natural y puntajes. Esto muestra un rendimiento mejorado en escenarios de preguntas y respuestas de múltiples saltos intensivos en conocimiento (es decir, cuando la respuesta no se puede encontrar de inmediato). Los autores proporcionan una implementación de Python para definir la interacción de LM y RM a través de los 3 pasos: demostración (ejemplos de pocas tomas extraídos automáticamente de muestras de entrenamiento), búsqueda (interacciones de RM y LM) y predicción (generación de una respuesta final).
Otros trabajos que puede encontrar interesantes en el espacio de los LM son REPLUG: modelos de lenguaje de caja negra aumentados por recuperación, Razonamiento fiel de cadena de pensamientoy Los modelos de lenguaje extenso pueden distraerse fácilmente por un contexto irrelevante (El último truco de aviso es agregar “ignorar información innecesaria”).
4. The Flan Collection: diseño de datos y métodos para un ajuste efectivo de la instrucción
Por Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V. Le, Barret Zoph, Jason Wei, Adam Roberts.
❓ Por qué → ¿Cuál es el mejor modelo de lenguaje completamente público y de código abierto que puede implementar y ejecutar usted mismo? Parece FLAN-T5.
? Ideas clave → Originalmente propuesto en FLAN [5]el ajuste de instrucciones (que no debe confundirse con InstructGPT) es el proceso de incluir datos etiquetados en forma de instrucciones de lenguaje natural en el entrenamiento de LM.
Este estudio compara modelos ajustados de instrucción preentrenados de código abierto existentes en varios entornos: tareas retenidas o retenidas (¿el modelo vio las tareas durante el entrenamiento?) y aprendizaje de cero o pocos disparos. Todos los modelos comparados pertenecen a la familia T5, y cuentan con 3 mil millones de parámetros, excepto el OPT-IML-Max [8] con 175 mil millones de parámetros.
Los puntos principales son (1) mezclar ejemplos de cero y pocos disparos durante el rendimiento de ayuda de entrenamiento en todos los entornos, (2) el ajuste de instrucciones demuestra nuevamente que permite que los modelos más pequeños alcancen el rendimiento de modelos que son un orden de magnitud más grande.
Estos resultados confirman la sabiduría popular existente de que Flan T5 es actualmente el modelo de escala media (3–10B) más útil para el aprendizaje de cero y pocos intentos.
5. Tracr: Transformadores compilados como laboratorio para la interpretabilidad | Código
Por David Lindner, János Kramár, Matthew Rahtz, Thomas McGrath, Vladimir Mikulik.
❓ Por qué → Ver a los Transformers como computadoras podría revelar una nueva comprensión de qué computación pueden realizar estos modelos.
? Ideas clave → El lenguaje de procesamiento de secuencias de acceso restringido (RASP [6] es un lenguaje de dominio específico para expresar los cálculos que puede realizar un transformador. Piense en un Transformador como una plataforma informática cuya entrada es una secuencia de variables categóricas y operadores que pueden (1) seleccionar, (2) realizar cálculos por elementos o (3) realizar un cálculo agregado de selección.
Tracr es un método que compila RASP directamente en valores de peso de Transformador. Por ejemplo, a continuación, hay un programa para ordenar una secuencia.
Por ahora, esto tiene aplicaciones prácticas muy limitadas, pero puede servir como una herramienta para comprender mejor el tipo de cálculos que realizan los transformadores. Además, podría servir como puente para implementar operaciones simbólicas dentro de las redes neuronales, o para reemplazar los componentes de la red neuronal con algoritmos más eficientes cuando se detectan ciertos patrones de peso que implementan ciertos algoritmos.
El documento también compara cómo los pesos compilados se comparan con los pesos aprendidos por gradiente descendente, lo que confirma empíricamente cómo estos dos métodos convergen en los mismos resultados.
6. Extracción de datos de entrenamiento de modelos de difusión
Por Nicholas Carlini, Jamie Hayes, Milad Nasr, Matthew Jagielski, Vikash Sehwag, Florian Tramèr, Borja Balle, Daphne Ippolito, Eric Wallace.
❓ Por qué → En el ascenso meteórico de la IA generativa, la propiedad, la atribución y la privacidad de los datos de entrenamiento se han convertido en un área de acalorado debate. Este trabajo destaca las deficiencias y los riesgos de los modelos de difusión cuando se trata de reproducir las imágenes exactas en las que se entrenó, lo cual es preocupante porque los datos de entrenamiento a menudo no se filtran por completo y terminan incluyendo información privada.
? Ideas clave → La esencia de lo que hacen en este documento es notablemente simple, generar imágenes con difusión estable con indicaciones que coinciden con las que se encuentran en el conjunto de entrenamiento, y ver con qué frecuencia el modelo escupe exactamente la misma imagen en la que fue entrenado.
Las principales conclusiones son:
- Cuanto más poderoso sea el modelo, más probable es que recupere imágenes de entrenamiento.
- Los modelos de generación de imágenes basados en GAN también pueden generar imágenes a partir del conjunto de datos de entrenamiento, pero son menos susceptibles a la memorización directa. Curiosamente, los GAN y los DM tienen una fuerte tendencia a memorizar las mismas imágenes, lo que sugiere que hay algo en común entre esos pares de imágenes/mensajes que los hace “memorables”.
Este trabajo no investiga los modelos de generación de imágenes autorregresivas, pero sin duda sería interesante ver cómo se comparan con los modelos de difusión dado que también están capacitados para replicar exactamente los datos de entrenamiento, a diferencia de las GAN.
7. Razonamiento de cadena de pensamiento multimodal en modelos de lenguaje
Por Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Smola.
❓ Por qué → cadena de pensamiento[9] demostró hace un año que se podía extraer mucho razonamiento de los modelos lingüísticos existentes. Ahora la técnica se aplica en un escenario multimodal (visión + lenguaje).
? Ideas clave → Este trabajo investiga la respuesta a preguntas, incluidas las imágenes, en modelos de tamaño de hasta mil millones de parámetros. Curiosamente, investigaciones anteriores encontraron que la cadena de pensamiento puede dañar el rendimiento del razonamiento en modelos pequeños, y los modelos conjuntos de visión + lenguaje generan muchas alucinaciones en el razonamiento. Los autores proponen resolver esto desacoplando la generación de fundamentos y la respuesta en dos etapas. Esto da como resultado un mayor rendimiento que, por ejemplo, supera el estado del arte anterior en el punto de referencia de ScienceQA (que, curiosamente, era un modelo de lenguaje solo de texto a texto, GPT-3.5 a través de las API de OpenAI).
Si bien este es un trabajo interesante para el razonamiento que incluye imágenes, nos interesaría mucho ver cómo funcionan los modelos más grandes con este enfoque, dado que hemos visto anteriormente que surge un razonamiento CoT mucho mejor a escalas más grandes.
8. StyleGAN-T: liberando el poder de las GAN para una síntesis rápida de texto a imagen a gran escala | Código
Por Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila.
❓ Por qué → Las GAN se niegan a morir en los albores de los modelos de difusión.
? Ideas clave → Aunque los modelos de difusión se han convertido en el pan de cada día de la generación de imágenes gracias a su impresionante versatilidad y robustez, las GAN aún presentan algunas ventajas sobre ellas. Lo más destacado es que son mucho más eficientes: un solo paso hacia adelante es suficiente para generar una imagen, mientras que los modelos de difusión requieren varios pasos para hacerlo.
Este trabajo propone la última iteración de GAN: StyleGAN-T, para abordar los requisitos modernos de la síntesis de texto a imagen a gran escala. Por ejemplo, alineación de texto fuerte, variación de salida controlable, estabilidad de entrenamiento en diversos datos, etc. En general, es un trabajo de ingeniería muy sólido que aplica redes neuronales modernas y prácticas de optimización a la generación de imágenes basadas en GAN.
Aún así, StyleGan-T comparte algunas similitudes con famosos modelos de difusión existentes como DALL·E 2, como la guía de generación condicional mediante incrustaciones CLIP. Los autores destacan que este modelo GAN da como resultado una mejor compensación de variación de alineación con el mensaje de texto (es decir, desea que la imagen resultante refleje el mensaje pero también tenga una variabilidad razonable cuando se genera varias veces).
En general, las GAN siguen siendo competitivas cuando se consideran limitaciones como la eficiencia, pero no esperamos que dejen obsoletos los modelos de difusión en el corto plazo, ya que siguen mejorando y encontrando nuevos usos.
9. Generación de escena dinámica de texto a 4D (MAV3D) | Página del proyecto
Por Uriel Singer, Shelly Sheynin, Adam Polyak, Oron Ashual, Iurii Makarov, Filippos Kokkinos, Naman Goyal, Andrea Vedaldi, Devi Parikh, Justin Johnson, Yaniv Taigman.
❓ Por qué → Agregando una dimensión más a la generación de imágenes: la generación de video 3D.
? Ideas clave → Una de las hazañas más impresionantes de este trabajo es que no hay muchos pares de datos de video y texto en 3D, a diferencia de las imágenes, por lo que es necesario solucionarlo. Para hacerlo, los autores confían en un modelo de texto a video preentrenado existente (Make-A-Video[7], también de Meta) como una “escena previa” para un modelo NeRF, que está optimizado para crear una representación 3D de la escena. En términos manuales, durante el proceso de optimización, el modelo NeRF crea una secuencia de vistas de una escena a partir de coordenadas de espacio-tiempo contiguas, y luego el modelo de difusión se usa para calificar el realismo de la imagen y la alineación con el mensaje de texto usando una técnica llamada Muestreo de destilación de puntuación.
El trabajo puede verse como una extensión de DreamFusion. [8], un modelo de imagen de texto a 3D, donde se agrega una dimensión de tiempo. Los videos resultantes de este modelo son cortos y no contienen ninguna narrativa, lo que sigue siendo un aspecto desafiante de la generación de videos de formato más largo.
10. PADL: control de caracteres basado en la física dirigido por el lenguaje | Página del proyecto | Código
Por Jordan Juravsky, Yunrong Guo, Sanja Fidler, Xue Bin Peng.
❓ Por qué → ¡Un divertido para terminar la selección! Aplicaciones de LM más allá del texto.
? Ideas clave → Este trabajo utiliza LM para mapear instrucciones de lenguaje natural en el control de caracteres. Piense en mover un personaje en un videojuego con instrucciones arbitrarias complejas de lenguaje de alto nivel. Esto tiene mucho potencial en el contexto de la accesibilidad (p. ej., diseñar animaciones mucho más rápido con entrada explícita reducida), nuevas experiencias de videojuegos o incluso nuevas interacciones generales entre humanos y computadoras con instrucciones cada vez más complejas.
El método implica aprender una incorporación de habilidades que alinea las instrucciones del lenguaje con los movimientos de los personajes, entrenar una política y, finalmente, se aprende una política de agregación para combinar habilidades y tareas (p. ej., involucrar objetos e interacciones complejas).
Referencias:
[1] “SoundStream: un códec de audio neuronal de extremo a extremo” por Neil Zeghidour, Alejandro Luebs, Ahmed Omran, Jan Skoglund, Marco Tagliasacchi, 2021.
[2] “W2v-BERT: combinación de aprendizaje contrastivo y modelado de lenguaje enmascarado para el entrenamiento previo del habla autosupervisado” por Yu-An Chung, Yu Zhang, Wei Han, Chung-Cheng Chiu, James Qin, Ruoming Pang, Yonghui Wu, 2021.
[3] “MuLan: una incorporación conjunta de audio musical y lenguaje natural” por Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li, Daniel PW Ellis, 2022.
[4] “DetectGPT: Detección de texto generado por máquina de tiro cero usando curvatura de probabilidad” por Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn, 2023.
[5] “Los modelos de lenguaje ajustados son aprendices de tiro cero” por Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le, 2021.
[6] “Pensando como Transformers” por Gail Weiss, Yoav Goldberg, Eran Yahav, 2021.
[7] “Make-A-Video: Generación de texto a video sin datos de texto y video” por Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman, 2022.
[8] “OPT: Modelos de lenguaje de transformadores preentrenados abiertos” por Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer, 2022.
[9] “La estimulación de la cadena de pensamientos provoca el razonamiento en modelos de lenguaje extenso” por Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, 2022.
Tendencias en IA: febrero de 2023 se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.
Publicado a través de Hacia la IA