Estás leyendo la publicación: Tendencias en IA — Abril de 2023 // GPT-4, Nuevos trucos de apoyo… – Hacia la IA
Publicado originalmente en Hacia la IA.
Solo tres semanas después del anuncio de GPT-4, ya parece que ha estado con nosotros desde siempre. Mientras tanto, una carta abierta con signatarios de alto perfil que piden que se detengan los experimentos gigantes de IA se volvió viral y, posteriormente, el discurso AGI se desató y las teorías de riesgo existencial de la fatalidad inminente de la superinteligencia de Eliezer Yudkowsky llegaron a revista tiempos. Si tienes un caso de angustia existencial por una hipotética explosión de inteligencia, aquí tienes una toma basada fenomenal de Julian Togelius que puede calmar tu alma. Con eso fuera del camino, comencemos a ver lo que sucedió recientemente en el mundo de la IA.
????️ Noticias
- Complementos de ChatGPT: ChatGPT ahora puede interactuar con módulos externos a través del lenguaje natural y actuar como un modelo de lenguaje aumentado. Por ejemplo, utilizando WolframAlpha para obtener información sobre el mundo y computación de sonido, o Kayak para buscar vuelos, estadías o autos de alquiler.
- Italia ChatGPT prohibido temporalmente la semana pasada con el argumento de que viola el RGPD. Si bien OpenAI cumplió con la prohibición, esto ha dejado a la UE en un lugar extraño con crecientes incertidumbres sobre qué tecnologías de modelo de lenguaje se permitirán en el viejo continente.
- Centro de Stanford para la Investigación de Modelos de Cimientos (CRFM) alpaca descubierta, un modelo de seguimiento de instrucciones entrenado al destilar los modelos de OpenAI utilizando LLAMA de Meta como modelo base. Desde entonces, el último par de semanas ha visto una buena cantidad de destilaciones de código abierto similares de modelos GPT, como Vicuna (Correo, Manifestación, Repo) un modelo de seguimiento de instrucciones de hasta 13B entrenado a partir de conversaciones que las personas han compartido desde ChatGPT (a través de CompartirGPT).
- Stanford lanzó su informe anual Informe del índice de IA para 2023destacando, entre otros, cuánto ha pasado la investigación de IA de la academia a la industria y cuantificando el crecimiento que ha experimentado el campo en la última década.
- a mitad de camino (un laboratorio de investigación independiente) tiene al mundo asombrado con su nuevo modelo de generación de imágenes v5. Adobe está creando productos competitivos para su traje creativo, pero parece que están luchando por tener una calidad a la par, ya que son más cautelosos con los datos de entrenamiento para evitar el uso involuntario de datos protegidos por derechos de autor. Runway, la compañía detrás de Stable Diffusion, ha estado promocionando su nuevo producto de generación de video Gen 2.
- Nvidia anunció durante su última conferencia de desarrolladores sus esfuerzos para convertirse en la fundición líder para modelos de cimentaciones grandes. Los clientes podrán definir un modelo que quieran entrenar y Nvidia utilizará su infraestructura y experiencia para entrenar el modelo para ellos. Mientras tanto, Google destacó en más detallan sus últimos aceleradores TPU v4 en su último artículo.
- GitHub anunció Copilot Xuna gran actualización de Copilot que agrega funciones de chat e interfaz de voz, admite la finalización de solicitudes de incorporación de cambios, la respuesta a preguntas en la documentación y adopta GPT-4.
???? Investigación
Este mes, nuestra selección de investigación incluye GPT-4, aplicaciones de modelos de lenguaje, modelos de difusión, visión por computadora, generación de video, sistemas de recomendación y campos de radiación neuronal.
❓ Por qué → El ya famoso GPT-4 de OpenAI ha sido la estrella indiscutible este último mes. Pero su lanzamiento ha generado más preguntas de las que su informe técnico decidió responder. De ahí la adición aquí del documento de evaluación masivo que examina su comportamiento con más detalle. Por supuesto, la redacción de este mismo texto fue asistida por GPT-4.
???? Ideas clave → Este documento de evaluación está repleto de ejemplos y anécdotas de los experimentos con GPT-4. Si bien este enfoque selectivo está motivado y sesgado sin disculpas, resulta ser una herramienta esencial para comprender el comportamiento de este poderoso modelo. No es un reemplazo de las mesas grandes con números en negrita, sino un compañero necesario.
El ejemplo hilarante: cómo la capacidad de GPT-4 para dibujar un unicornio en TikZ (LaTeX) mejoró con el tiempo mientras el modelo aún estaba en desarrollo activo.
El informe de evaluación de 155 páginas cubre una amplia gama de temas, como capacidades multimodales, razonamiento matemático, codificación, interacción humana e influencias sociales. Los autores argumentan que GPT-4 muestra un comportamiento que podría etiquetarse como inteligencia general al tiempo que reconocen sus limitaciones y advertencias.
La falta de idea de los investigadores de Microsoft resalta el secreto involucrado en este proyecto: los autores del mismo gigante tecnológico que se asoció con OpenAI y proporcionó la infraestructura para entrenar GPT-4 no parecían tener detalles de GPT-4 más allá de tener acceso a un misterioso Punto final de la API.
❓ Por qué → El surgimiento del aprendizaje complejo en contexto en grandes modelos de lenguaje ha despertado el interés de todos. Este artículo profundiza en algunas capacidades emergentes de nicho pero fascinantes de modelos de lenguaje grandes que no están presentes en sus contrapartes más pequeñas.
???? Ideas clave → Los modelos más grandes poseen habilidades únicas que los modelos más pequeños simplemente no pueden replicar, sin importar cuántos datos y esfuerzo se pongan en ellos. Por ejemplo, los modelos grandes pueden aprender dentro del indicador a voltear etiquetas y aprender nuevas asignaciones, como invertir las etiquetas de sentimiento de las oraciones (p. ej., las oraciones positivas se etiquetan como negativas y viceversa).
El principal estudio de emergencia revela:
- Los modelos grandes aprenden a cambiar las etiquetas, mientras que los modelos más pequeños se apegan a su conocimiento preentrenado y continúan etiquetando lo positivo como positivo y lo negativo como negativo.
- Las etiquetas no relacionadas semánticamente (SUL) surgen con la escala, donde los modelos etiquetan las cosas con tokens que no son palabras.
- Los modelos adaptados a las instrucciones fortalecen tanto el uso de los antecedentes semánticos como la capacidad de aprender asignaciones de etiquetas de entrada. Sin embargo, ponen más énfasis en el primer aspecto.
❓ Por qué → ¡Las técnicas para incorporar LM en bucles de superación personal han estado de moda este último mes!
???? Ideas clave → La motivación antropomórfica para la reflexión es intuitiva: los humanos no siempre hacemos las cosas bien en nuestro primer intento. Para resolver problemas, a menudo confiamos en probar un camino de razonamiento y luego verificar qué tan bien se mantiene una vez que se desarrolla por completo. Si no es así, tratamos de corregirlo hasta que todo tenga sentido. Los LM autorregresivos Vanilla no tienen esa capacidad de fábrica.
Los investigadores han descubierto que equipar los LM con un mecanismo similar puede mejorar su rendimiento. Simplemente, solicite un LM, luego pídale que reflexione sobre su salida y corríjalo si es necesario. Esto se puede integrar en un entorno en el que el LM puede saber si una respuesta o acción es correcta o no, y luego intentar mejorarla hasta que sea correcta.
Otros papeles similares son Autorrefinamiento: Refinamiento iterativo con auto-retroalimentación (más centrado en el seguimiento de instrucciones que en la resolución de problemas), o Los modelos de lenguaje pueden resolver tareas informáticas (enfocado en hacer una planificación orientada a objetivos), que sigue un ciclo de retroalimentación similar de “producir-crítica-arreglar”, basado en gran medida en heurísticas y monólogos internos de lenguaje natural con plantillas. Esto sigue demostrando que los LM existentes pueden verse como una nueva plataforma sobre la que construir cosas, y solo hemos arañado la superficie de lo que es posible.
❓ Por qué → Los LM parecen ser un motor de cálculo de caja gris oscuro irrazonablemente útil. Por lo tanto, se pueden aplicar a todo tipo de cosas más allá del lenguaje, como la toma de decisiones. Aquí hay una instantánea completa y una taxonomía del campo.
???? Ideas clave → Los autores consideran el caso general de incrustar un modelo básico en un entorno en el que puede realizar acciones y observar recompensas. Identifican varios ángulos desde los cuales los FM pueden usarse en contextos de toma de decisiones: como modelos generativos, aprendices de representación, agentes o entornos.
Un desafío importante cuando se aplican modelos básicos a la toma de decisiones es lo que los autores llaman la “brecha del conjunto de datos”. Los amplios conjuntos de datos de los dominios de la visión y el lenguaje en los que se entrenan los FM a menudo difieren en la modalidad y la estructura en comparación con los conjuntos de datos interactivos específicos de la tarea que se utilizan en el aprendizaje por refuerzo (RL). Por ejemplo, los conjuntos de datos de video generalmente carecen de etiquetas de acción y recompensa explícitas, que son componentes esenciales de RL. Esto es relevante porque la mayoría de los FM para modelos de decisión se conceptualizan como entrenamiento de un Proceso de Decisión de Markov (MDP) a través de la Clonación de Comportamiento (como RL fuera de línea), lo que puede conducir a una cobertura deficiente de todo el espacio de acción-estado, que debería ser posible unir con Ajuste fino de RL, pero eso termina siendo difícil en la práctica. Este documento destaca la necesidad de cerrar esta brecha para mejorar la aplicabilidad de los LM en las tareas de toma de decisiones.
Para ver un caso de uso impresionante de un agente creado con GPT-4 junto con otros módulos de recuperación y mejora, consulte Agente autónomo basado en tareas que utiliza GPT-4, Pinecone y LangChain para diversas aplicaciones.
Si está buscando otra encuesta reciente que abarque todos los modelos de lenguaje, consulte Una encuesta de modelos de lenguaje grandeo Comportamiento del modelo de lenguaje: una encuesta exhaustiva.
❓ Por qué → Un papel un poco diferente aquí. A menudo escuchamos críticas sobre el impacto que la IA tendrá en el mercado laboral. Este trabajo trata de cuantificar esto para diversas profesiones.
???? Ideas clave → Permítanme presentar esto observando cuán notablemente malos han sido los futuristas de la corriente principal a lo largo de la historia al predecir qué cosas son difíciles de automatizar y qué cosas aprendería a hacer la IA primero. Ahora, con eso fuera del camino, este trabajo cuantifica las ganancias de productividad para diferentes tareas usando LM. ¿El remate?
El concepto clave que hace el trabajo pesado aquí es “Exposición”, que se define como la medida en que el acceso a un sistema LLM puede reducir el tiempo que tarda un ser humano en realizar una tarea específica en al menos un 50 por ciento. Sin embargo, las implicaciones de la exposición aún no están claras: ¿mayor productividad y mayores salarios? ¿Reducción de puestos de trabajo disponibles? Solo el tiempo lo dirá realmente, pero mientras tanto, aquí hay algunos datos sobre cuánto rendimiento se correlaciona con el uso de LM como ayuda en diferentes tareas.
❓ Por qué → Podría decirse que lo más emocionante de la IA generativa avanzada es cómo permitirá un paradigma completamente nuevo de interacción humano-computadora. Este artículo propone un método para tal interacción al editar imágenes con modelos de difusión.
???? Ideas clave → Los autores presentan una técnica llamada difusión estable borrada (ESD), que ajusta los parámetros de un modelo utilizando solo las descripciones de conceptos “no deseados” sin necesidad de datos de entrenamiento adicionales. Este enfoque ad-hoc se puede integrar fácilmente en cualquier modelo de difusión previamente entrenado. Por ejemplo, dada una imagen de un campo con un árbol, simplemente podría solicitar “borrar el árbol”, y la salida sería la “misma” imagen sin el árbol.
El objetivo principal de ESD es borrar conceptos de los modelos de difusión de texto a imagen utilizando el propio conocimiento del modelo y sin datos adicionales. El método emplea modelos de difusión latente (LDM), centrándose en el espacio latente en lugar del espacio de píxeles, y utiliza [Stable Diffusion] por todos sus experimentos. La técnica está optimizada para 3 tipos de eliminación: efecto artístico (p. ej., deshacer un filtro estilo Van Gogh), contenido explícito y objetos. ¡Vea algunos ejemplos en la siguiente figura!
❓ Por qué → Ya hemos visto algunos trabajos de texto a ‘video’ como Make-a-video de Meta (bueno, es más como GIF). Pero, ¿qué pasa con el texto a video que solo usa un modelo estándar de texto a imagen y no necesita más capacitación?
???? Ideas clave → Text2Video-Zero presenta un método para convertir un modelo de difusión existente para la síntesis de texto a imagen en un modelo de texto a video. Este enfoque permite la generación de video sin tomas utilizando indicaciones textuales o indicaciones combinadas con orientación de poses o bordes, e incluso edición de video guiada por instrucciones. ¿La mejor parte? Es completamente libre de entrenamiento y no requiere una potencia informática masiva o múltiples GPU, lo que hace que la generación de video sea accesible para todos.
El truco consiste en jugar con los “movimientos” en el espacio de representación latente que utiliza el modelo de difusión para alinear las imágenes con el texto. Si bien mover esa incrustación produciría movimientos no coherentes en el video resultante, este trabajo propone dos técnicas post-hoc novedosas para imponer una generación temporalmente consistente mediante la codificación de dinámicas de movimiento en códigos latentes y la reprogramación de la autoatención de cada cuadro utilizando la atención entre cuadros (ver la figura a continuación para más detalles). Los resultados son videos breves y coherentes creados sin ningún tipo de capacitación específica para videos.
Otros trabajos recientes sobre generación de video que te pueden interesar son Video-P2P: Edición de video con control de atención cruzaday Pix2Video: edición de video usando difusión de imágenes.
❓ Por qué → Combinación de NeRF con incrustaciones CLIP listas para usar para una segmentación semántica y una base lingüística superiores.
???? Ideas clave → LERF optimiza un campo de lenguaje 3D denso y de múltiples escalas aprovechando las incrustaciones de CLIP a lo largo de los rayos de entrenamiento y supervisándolos con características de CLIP de múltiples escalas en múltiples imágenes de entrenamiento. Esta optimización permite la extracción interactiva en tiempo real de mapas de relevancia 3D para consultas de idiomas. LERF admite consultas de cola larga y vocabulario abierto de forma jerárquica en todo el volumen sin depender de propuestas de región, máscaras o ajustes finos.
En comparación con las incrustaciones CLIP 2D, las 3D ofrecen solidez a los cambios de oclusión y de punto de vista, así como una apariencia más nítida que se adapta mejor a la estructura de la escena 3D. La supervisión multiescala y la regularización DINO mejoran los límites de los objetos y la calidad general.
Los autores también muestran cómo LERF puede integrarse a la perfección con ChatGPT, lo que permite a los usuarios interactuar con el mundo 3D utilizando un lenguaje natural. Un ejemplo demuestra cómo ChatGPT puede proporcionar consultas de idioma para limpiar un derrame de café (vea la figura a continuación, junto con un gif de mapa de calor en una escena NeRF). Esto pronto se integrará en el popular Base de código de investigación de Nerfstudio.
Los autores también muestran cómo LERF puede integrarse a la perfección con ChatGPT, lo que permite a los usuarios interactuar con el mundo 3D utilizando un lenguaje natural. Un ejemplo demuestra cómo ChatGPT puede proporcionar consultas de idioma para limpiar un derrame de café (ver la figura a continuación). Y esto pronto se integrará en el popular Base de código de investigación de Nerfstudio.
❓ Por qué → ¿Potencial oculto de RNN? La atención total de Transformer a la complejidad computacional significa que podría requerirse cierto nivel de recurrencia para lograr un modelo de dependencia verdaderamente de largo alcance. Aquí es donde se encuentran los RNN.
???? Ideas clave → Las redes neuronales recurrentes (RNN) han sido cruciales en el aprendizaje profundo para el modelado de datos secuenciales, pero se sabe que sufren problemas de gradiente que desaparecen y explotan, que los LSTM (más o menos) resolvieron en el pasado. Aún así, no están a la par con la autoatención explícita de Transformers. El recientemente introducido S4, un modelo de espacio de estado profundo (SSM)superó algunos de estos problemas y logró un rendimiento notable en tareas de razonamiento de muy largo alcance. Este documento demuestra que al realizar pequeños cambios en un RNN vainilla profundo, el modelo de Unidad Recurrente Lineal (LRU) puede igualar el rendimiento y la eficiencia de los SSM profundos en el punto de referencia Long Range Arena (LRA).
La Unidad Recurrente Lineal (LRU) es la contribución arquitectónica central de este artículo. Las modificaciones de Vanilla RNN incluyen la linealización (eliminación de las no linealidades en las conexiones recurrentes), la diagonalización (que permite la paralelización y un entrenamiento más rápido), la parametrización exponencial estable y la normalización.
Una vez más, este documento muestra cuántos de los avances en redes neuronales se basan en optimizaciones inteligentes para hacer que el entrenamiento sea más rápido, estable y escalable; en lugar de decisiones arquitectónicas inteligentes. Si bien esto no reemplazará a Transformers en el corto plazo, la recurrencia de largo alcance seguirá siendo útil cuando se requiera complejidad de inferencia lineal.
❓ Por qué → ¿Recuerdas el índice de búsqueda diferenciable (DSI)? Ahora para recomendaciones.
???? Ideas clave → El índice de búsqueda diferenciable usó un transformador para memorizar ID de documentos y generarlos de forma autorregresiva en función de una consulta, eliminando la necesidad de un índice convencional. Sobre la base de esta idea, los investigadores han propuesto TIGER, un modelo de recomendación basado en la recuperación generativa. TIGER asigna identificaciones semánticas únicas a cada elemento, luego entrena un modelo de recuperación para predecir la identificación semántica del próximo elemento con el que un usuario interactuará con las identificaciones de elementos anteriores dadas. Básicamente, haciendo un modelo autorregresivo en estas ID.
A diferencia de los experimentos básicos de DSI, en este caso, los ID son semánticamente relevantes: usan el título y las descripciones de texto de los elementos para codificarlos con Sentence-T5, luego aplican la cuantificación residual para obtener una representación cuantificada para cada elemento.
TIGER supera el estado del arte anterior en términos de recuperación y NDCG en todo el Conjunto de datos de reseñas de productos de Amazon. A pesar de los inconvenientes asociados con el DSI (no es tan fácil agregar nuevos elementos a un modelo previamente entrenado), este nuevo paradigma de recuperación generativa ofrece ventajas como recomendar elementos poco frecuentes (mejorando los problemas de arranque en frío) y generar diversas recomendaciones ajustando la temperatura de la generacion
La selección de este mes está completa: si desea mantenerse a la vanguardia, ¡síganos en Twitter @zetavector y esté atento a las selecciones del próximo mes!
Publicado a través de Hacia la IA