Estás leyendo la publicación: Tendencias en IA Marzo 2023 – Hacia la IA
LLaMA de Meta, un modelo PALM-E incorporado de Google, modelos de consistencia y nuevos puntos finales de la API de OpenAI, además de un precio jugoso para ChatGPT: 0,002 $/1k tokens.
El desarrollo vertiginoso de los modelos de lenguaje grande sigue definiendo esta primera parte de 2023. Este mes hemos visto a OpenAI lanzar su API ChatGPT a 1/10 del precio de los puntos finales completos de DaVinci, y otras grandes tecnológicas, Meta y Google, lanzaron algunos de sus últimos modelos (Llama y UL2). Además, pudimos jugar con Claude de Anthropic usando la aplicación Poe y aunque todavía no se ha lanzado públicamente, nos sorprendieron gratamente sus capacidades y cómo está totalmente a la par con ChatGPT. La competencia feroz en el espacio de los chatbots nos dará opciones y los obligará a ser mejores y más baratos.
Las nuevas empresas de IA generativa están despegando y la prisa por invertir es más fuerte que nunca. Aquí está un mapa de mercado completo del espacio con empresas e inversores por Ollie Forsyth.
Dicho esto, ¡vamos a sumergirnos en la investigación! Cada mes analizamos la literatura de investigación más reciente y seleccionamos un conjunto variado de 10 artículos que debe conocer. Este mes cubriremos temas como modelos de lenguaje multimodal, modelos de difusión, traducción automática y más.
❓ Por qué → Un nuevo conjunto de puntos de control base para construir. Bueno, si trabajas en la academia!
Ideas clave → Estos nuevos modelos de lenguaje de Meta son bonitos para ser justos: los Transformers estándar con incrustaciones de posición rotatoria, entrenados en poco más de un billón de tokens. Puede ver las especificaciones de la arquitectura a continuación:
Estos modelos están entrenados en datos totalmente públicos y logran lograr un rendimiento sólido en una variedad de tareas de control de calidad y razonamiento de sentido común, tanto en cero como en pocos disparos.
Sin embargo, hemos jugado un poco con el modelo 7B y es difícil hacer que haga lo que quieres que haga. Estos modelos no están sintonizados con instrucciones ni RLHF, y se nota lo difícil que es interactuar con ellos.
Otro punto de controversia ha sido el hecho de que Meta ha lanzado este modelo únicamente con fines de investigación no comercial, lo que limita fuertemente su aplicabilidad. Aún así, los puntos de control están en el mundo para que la gente juegue y juegue con ellos. Si quieres saber más al respecto, puedes mira el video de Yannic al respecto.
Finalmente, uno de los puntos más interesantes es el hecho de que la estrategia de decodificación de estos modelos puede tener un gran impacto en su usabilidad, ya que @elshawwn señala en Twitter: ¡aumentar beam_search top_k, establecer la temperatura en 0.7 y la penalización de repetición en 0.85 produce resultados notablemente mejores!
❓ Por qué → Los modelos de difusión son costosos desde el punto de vista computacional porque necesitan decodificar la salida de forma iterativa muchas veces.
Ideas clave → Los modelos de difusión han sido notorios por no necesitar ser escandalosamente grandes en términos de parámetros para producir resultados de última generación. Esto se debe a que se aplican docenas de veces de manera iterativa, desplegando su gráfico computacional para que sea mucho más expresivo de lo que permitiría un solo paso hacia adelante. Pero eso los hace lentos, a diferencia de GAN, VAE o Normalizing Flows.
Este trabajo propone aprender un modelo que predice la salida de un proceso de difusión a un nivel de profundidad arbitrario (ver figura a continuación).
La idea clave para construir estos modelos es darse cuenta de que cualquier salto f(x, t) debe ser consistente con la composición de sus pasos; al pasar del ruido a los datos, diferentes saltos deben terminar en la misma imagen; es decir, deben ser de ahí el nombre.
Previamente, la destilación progresiva había mostrado un método para destilar modelos de difusión en modelos que requerían muchos menos pasos de decodificación (por ejemplo, solo 4), pero en este trabajo se propone un método para entrenar modelos de consistencia independientes. Los resultados en imágenes pequeñas no son asombrosos, pero sí prometedores para futuras investigaciones.
❓ Por qué → La última encarnación de robots x LM.
Ideas clave → Los robots físicos solo pueden aprender de unas pocas muestras porque su entrenamiento no es escalable (a menos que haga simulaciones, pero no son tan expresivos), y los LM codifican antecedentes expresivos poderosos y permiten un aprendizaje muy eficiente a través de indicaciones. ¿Por qué no usarlos juntos?
Este hilo fue iniciado por “Modelos de lenguaje como planificadores de tiro cero: extracción de conocimiento procesable para agentes incorporados”, y este trabajo lleva una idea similar al siguiente nivel. Conceptualmente, es simple: tokenice imágenes, estados y lenguaje en un vocabulario compartido, luego entrene un modelo conjunto para la predicción del siguiente token. Para codificar imágenes, utilizan el Transformador de visión (ViT) y codificar texto Palmeratanto de Google como de hasta 562 mil millones de parámetros combinados (22B + 540B respectivamente).
Si bien este trabajo se vende a sí mismo como una solución de extremo a extremo, la verdad es que el control de robots todavía se basa en gran medida en las técnicas tradicionales, y el modelo de lenguaje solo proporciona instrucciones de acción de alto nivel.
Esto da como resultado un fuerte rendimiento visual en la respuesta a preguntas y el razonamiento, pero quizás los resultados más relevantes son la transferencia positiva: el rendimiento de la modalidad conjunta supera con creces el rendimiento de los modelos entrenados en cada modalidad de forma independiente. Mientras que ninguna transferencia positiva fuerte fue exhibida por el similar gato (que era visión + lenguaje + acciones pero no en el mundo físico), PaLM-E muestra una vez más la relevancia de la escala cuando se trata del surgimiento de ciertos fenómenos.
❓ Por qué → ¡El ajuste de instrucciones también se puede hacer en el indicador!
Ideas clave → Ajuste de instrucciones es la técnica de incluir conjuntos de datos etiquetados en el corpus de entrenamiento en un formato de instrucción de lenguaje natural, que se ha demostrado que se generaliza más allá de las tareas de entrenamiento y en tareas nuevas y hace que los LM sean más útiles cuando los humanos dan instrucciones.
Este documento investiga qué sucede cuando haces esto en el indicador; en lugar de agregar ejemplos de la tarea en cuestión (es decir, aprendizaje de pocos disparos), le da ejemplos de una variedad de otras tareas de lenguaje y luego le pide que realice una tarea nueva.
TL; DR, ¡esto realmente funciona! El descargo de responsabilidad necesario es que debe tener cuidado con la forma en que lo hace, y no es tan simple como el truco de “pensemos paso a paso”… Pero aún así, esto es una vez más evidencia de que se puede introducir información muy compleja con in- aprendizaje contextual, y el espacio de indicaciones fijas antepuestas apenas ha comenzado. Estas son indicaciones que están ocultas para los usuarios y se han convertido en una herramienta esencial para crear productos con LM, como nos han demostrado ChatGPT y Sydney de Microsoft.
❓ Por qué → Una de las habilidades menos apreciadas de ChatGPT fue la traducción. Ahora esto se somete a una evaluación rigurosa.
Ideas clave → La esencia general de esto es que los modelos GPT funcionan cerca de SOTA y los modelos tradicionales de traducción automática (por supuesto, con muchas advertencias, pero tendrá que leer el documento para eso). Sin embargo, una de mis lecciones favoritas de este trabajo es que la traducción automática neuronal existente y la traducción basada en GPT muestran fortalezas complementarias.
Dado que no se entrenó en corpus paralelos, evita sus errores comunes, como problemas con la memorización de datos de muestras ruidosas o de baja calidad, o errores de cola larga como la traducción de unidades físicas o monedas que pueden aparecer muy escasamente en el corpus paralelos.
En general, sigue siendo impresionante y alucinante que tal rendimiento de traducción pueda surgir en gran medida de la pertinencia no supervisada, el ajuste de instrucciones y RLHF, que no estaba particularmente destinado a la traducción.
❓ Por qué → Una de las fortalezas fundamentales de Diffusion Models es su conveniencia cuando se trata de entrenar con datos de acondicionamiento, razón por la cual tienen tanto éxito en una generación guiada por texto. Este trabajo lleva la controlabilidad al siguiente nivel.
Ideas clave → Los autores desarrollan un método que permite controlar una amplia gama de atributos de la imagen durante la generación de la imagen: disposición espacial, paleta de colores, estilo, intensidad, etc.
La composicionalidad es la idea central detrás de este modelo, que descompone las imágenes en factores representativos y luego usa un modelo de difusión para recomponer la entrada cuando se condiciona con estos factores. Los elementos en los que se descomponen las imágenes son título (texto), semántica y estilo (a través de la incrustación de CLIP), color (a través de estadísticas de histograma), boceto (a través de un modelo de detección de bordes), instancias (es decir, segmentación de objetos), mapa de profundidad (a través de un modelo monocular preentrenado), intensidad (mediante imagen en escala de grises) y enmascaramiento. Por lo tanto, la generación de imágenes se puede condicionar a todos estos atributos y se puede refinar iterativamente con la salida anterior como una nueva entrada de acondicionamiento.
Este trabajo demuestra cómo se puede diseñar la tecnología de generación de imágenes para dar más control a la creatividad humana y elevar el proceso creativo en lugar de reemplazarlo.
❓ Por qué → ¿El regreso de los sistemas expertos..? Me gusta este documento porque se aleja de la revolución de la computación sin procesar de extremo a extremo. Eso no quiere decir que sea bajista la amarga lecciónpero sigue siendo refrescante.
Ideas clave → No del todo, pero este documento adopta un enfoque bastante estructurado para el modelado de lenguaje multimodal y presenta algunos beneficios convincentes:
- El documento adopta un enfoque estructurado para el modelado de lenguaje multimodal y logra un rendimiento comparable con uno o dos órdenes de magnitud menos de datos en comparación con otros modelos.
- Los “expertos” se refieren a modelos de visión por computadora congelados que generan información como mapas de profundidad o segmentaciones de objetos al procesar una imagen. Solo se entrenan los adaptadores, lo que permite que el diseño se conecte y funcione con otros modelos de visión de caja negra.
- El modelo Prismer más grande tiene 1.6B parámetros con solo 360M entrenables, lo que resulta en un menor rendimiento pero una mayor eficiencia que los modelos masivos.
- Prismer muestra una gran robustez para los expertos ruidosos y mejora con más expertos/expertos de mayor calidad, lo que sugiere su practicidad para el aprendizaje multimodal a escala.
En general, el documento presenta una técnica eficaz para incluir de forma segura a muchos expertos en modalidades sin degradar el rendimiento, lo que permite un enfoque práctico para reducir el aprendizaje multimodal. Para otro trabajo sobre modelos de lenguaje multimodal, ver “El lenguaje no es todo lo que necesita: alinear la percepción con los modelos de lenguaje” de Microsoft, que sintoniza un modelo de visión-lenguaje con el aprendizaje de instrucciones.
❓ Por qué → Hemos sido testigos de una explosión de enfoques propuestos para mejorar los modelos de lenguaje con memoria, razonamiento y herramientas. Este artículo es su ventanilla única para mantenerse actualizado sobre los últimos desarrollos en este espacio.
Ideas clave → Los LM son famosos por sus limitaciones cuando se trata de razonamiento sólido y precisión, razón por la cual existe un área activa de investigación para aumentarlos con dispositivos computacionales que mejoren sus capacidades. Por ejemplo, los LM que usan calculadoras, compilan y ejecutan código generado o llaman a API arbitrarias para recopilar datos. El espacio acaba de empezar.
La generación aumentada de recuperación (RAG) es uno de los casos más comunes (lo usamos en nuestra plataforma, y tanto Bing como Google están trabajando activamente en ello). Aquí, por ejemplo, 4 trabajos que analizan los LM aumentados de recuperación (RAG) y cómo se comparan:
Uno de los puntos interesantes de la encuesta es que aumentar los LM con herramientas y una estructura explícita los hace más interpretables, dado que su salida se puede atribuir explícitamente a sus módulos, lo que los hace más utilizables por humanos.
❓ Por qué → Adam ha sido rey durante demasiado tiempo. ¿Hay alguna manera de que nos deshagamos de él? Probablemente no, ¡pero esto aún podría ser útil!
Ideas clave → El método se llama Lion (momento de signo evolucionado) y la esencia del mismo es que puede aplicar la búsqueda simbólica de programas para aprender una función de entrenador que genera valores de peso actualizados dados pesos, gradientes y tasas de aprendizaje de una red.
Este trabajo contribuye al espacio de los optimizadores aprendidos con el giro de que el optimizador aprendido aquí no se aprende a través del descenso de gradiente sino a través del descubrimiento simbólico. Este método funciona muy bien en los experimentos que se muestran en el documento, logrando alrededor de 2 veces más aceleraciones de entrenamiento en comparación con los optimizadores de vainilla comunes como Adam.
Sin embargo, como es habitual en estos documentos, es muy difícil evaluar la característica más importante de los optimizadores: la comodidad. Adam no es el optimizador elegido porque siempre funciona mejor y de manera más eficiente, sino porque funciona lo suficientemente bien la mayor parte del tiempo y los cuellos de botella relevantes están en otros lugares. Dicho esto, me encantaría ver que los optimizadores aprendidos despeguen y se conviertan en los nuevos escenarios de aprendizaje inestables y desafiantes, como modelos de lenguaje a escala de 100 mil millones.
❓ Por qué → ¡Uno divertido! Uso de GPT-2 para generar mundos de Mario Bros.
Ideas clave → Eso es practicamente todo. Los autores hacen Generación de contenido por procedimientos (PCG, la idea de generar contenido para juegos algorítmicamente) al convertir elementos de Mario Bros en personajes y entrenar un modelo de lenguaje que luego se condiciona en indicaciones de texto.
Aumentan aún más la diversidad de niveles generados con computación evolutiva, integrando MarioGPT en un ciclo de búsqueda novedoso que muestra niveles existentes, los muta y aplica criterios de selección para mantenerlos o descartarlos.
Los niveles resultantes se pueden jugar el 88 % del tiempo y muestran una alta capacidad de control a través de mensajes de texto. ¡Este es solo un comienzo emocionante para experiencias de juego potencialmente más expresivas y personalizadas!