Tendencias en IA — Resumen de 2023 – Hacia la IA

Estás leyendo la publicación: Tendencias en IA — Resumen de 2023 – Hacia la IA

Publicado originalmente en Hacia la IA.

Tendencias en IA: resumen de 2023

¿Qué sigue para Language Models, Reinforcement Learning, Computer Vision y las principales empresas de IA como OpenAI y Google?

Profecías del tercer invierno de IA a principios de 2022 —o AI golpeando una pared— envejecido rápido y mal con Anuncio de DALL·E 2 en abril de 2022seguido de muchas más aplicaciones de texto a imagen impulsadas en gran medida por Modelos de difusión, un área muy productiva para la investigación de Computer Vision y más allá. El año 2022 en IA estuvo definido por una fuerte tendencia alcista.

Además, los modelos de lenguaje grandes demostraron ser un área aún más fértil con varios artículos que ampliaron significativamente sus capacidades: Aumento de recuperación, Incitación a la cadena de pensamientos, Razonamiento matemático, Arranque de razonamiento. La investigación de Language Models está lejos de terminar. ¡Está en racha!

El blockbuster del año fue seguramente ChatGPT de OpenAI, redefiniendo una vez más lo que se puede esperar de los LLM y fortaleciendo la posición de OpenAI como líder mundial en LLM como servicio. Como veremos, esto podría tener un efecto dominó hasta 2023 en todo el espacio tecnológico, ya que Microsoft, que tiene una fuerte asociación con OpenAI, probablemente lo usará para renovar sus productos principales, incluidos Bing y Office.

Ahora echemos un vistazo a algunas áreas clave en IA: dónde se encuentran actualmente y dónde esperamos que se desarrollen en 2023. ¡Vamos a sumergirnos!

?️ Comunidad

Twitter ha sido durante mucho tiempo el mayor espacio en línea donde los investigadores de IA comparten y discuten su trabajo públicamente. Pero la infame adquisición de la compañía por parte de Elon Musk la ha enviado a terreno inestable. La creciente inestabilidad, los cambios de política impredecibles y las posturas políticas divisivas de Musk han producido un clamor por cambiarse a otros lugares como Mastodonte . Por ahora, la mayor parte de la acción aún permanece en el sitio de bluebird, y un éxodo completo de la noche a la mañana por motivos políticos sigue siendo poco probable, pero no podemos descartar por completo la posibilidad de algún tipo de colapso de la empresa durante el próximo año.

Otro frente de batalla para la comunidad de aprendizaje profundo ha sido el de los marcos. La adopcion de PyTorchha estado por encima de TensorFlow durante un par de años y es el marco más querido y utilizado para Autograd y Neural Networks. En 2023, se lanzará PyTorch v2.0 , con un compilador y aceleraciones como característica principal. Ni siquiera Google está apostando por el regreso de TensorFlow, y el ecosistema JAX/FLAX, que ya es uno de los favoritos en Google Brain y muchos otros investigadores, aún no está lo suficientemente maduro como para volverse popular.

Finalmente, la brecha entre la industria y la academia continúa creciendo a medida que (1) la gran tecnología tiene muchos más recursos informáticos disponibles y (2) gran parte de la investigación actual de gran éxito se basa en la estrecha colaboración de docenas de ingenieros de clase mundial, que no están disponibles para el estudiante de doctorado promedio. Esto significa que la investigación académica se está desplazando hacia un mejor examen, comprensión y ampliación de los modelos existentes, y la creación de nuevos puntos de referencia y avances teóricos.

🔥 Recomendado:  Las 3 mejores conferencias sobre ciencia de datos y análisis: hacia la IA

Modelos de lenguaje

Si los LLM ya eran los personajes principales en el panorama de la IA hace un año, la situación ahora es aún más cercana a un monólogo. La amarga lección de Sutton sigue envejeciendo como el buen vino. Con ChatGPT, los LLM se generalizaron, incluso mis amigos que no son de IA y no tecnológicos preguntaron al respecto, y esperamos que 2023 sea el año en que esta tecnología realmente llegue a las masas. microsoft—ya está considerando ampliar su participación hasta el 49% de OpenAI— y Google no querrá perderse esta oportunidad, por lo que será un choque de titanes.

  • Escala. Los modelos apenas han crecido en términos de parámetros en los últimos años, ¡al contrario de gran parte del discurso público de IA! Los mejores LLM densos disponibles existentes todavía están en el rango de parámetros 200B porque estaban suboptimizadosy tanto podía aún ser descubierto y mejorado en ese régimen. Sin embargo, esperamos que eso cambie este año con (1) Google haciendo uso público de su familia de modelos FLAN y (2) OpenAI y los contendientes aventurándose en el parámetro de escala de billones de dólares contando con el muy esperado GPT-4 si se superan todos los desafíos de optimización. . Es posible que estos no impulsen la mayor parte de los LLM como servicio debido a los costos, pero se convertirán en la próxima tecnología insignia en aparecer en los titulares.
  • Mejoramiento. La era del entrenamiento con datos de texto estáticos ha terminado. Los LLM actuales son solo modelos de lenguaje grande , su optimización incluye datos/texto seleccionados, interactivos y continuos y lenguajes formales como el código. Esperamos desarrollos en la forma en que se optimizan los LLM que aprovechan entornos de RL más complejos (por ejemplo, LLMLM como agentes), LLM capacitados dentro de un ciclo de entornos formales para aprender una mejor manipulación de símbolos (por ejemplo, Minervav2), LLMs para generar más y cada vez mejores datos para capacitarsey métodos para destilar más rendimiento en modelos que se ejecutan de forma económica en hardware modesto, porque cada FLOP cuenta en la economía de los LLM como servicio.
  • El progreso en los modelos de lenguaje continuará llegando a otros campos de la IA como la visión por computadora, la recuperación de información y el aprendizaje por refuerzo (como ya sucedió en 2022).
  • Código + LLM. GitHub Copilot existe desde hace más de un año y está cambiando lentamente la forma en que las personas escriben código. Google compartió a principios de 2022 que El 3% de su código ya fue escrito por LLMy esperamos que los LLM de finalización de código mejoren mucho, cambiando lentamente la forma en que las personas escriben código.

? Aprendizaje por refuerzo y robótica

Podría decirse que RL no ha avanzado sustancialmente desde una perspectiva fundamental en el último año. En cambio, el progreso lo constituyó la aplicación de agentes cada vez más complejos que combinan Visión por Computador, Texto, Modelos de Lenguaje, Curación de Datos… como CICERO, Video de preentrenamiento (VPT), MineDojoo gato . Impulsado en gran medida por el éxito con la ampliación del aprendizaje por imitación o RL fuera de línea, con solo una pizca del antiguo ciclo de recompensa-entorno-agente de RL en línea. Esperamos el desarrollo de más agentes complejos multimodales que realicen acciones con información incompleta, aprovechando componentes modulares basados ​​en grandes redes neuronales y grandes datos de preentrenamiento.

🔥 Recomendado:  Crowdtap Review 2023: ventajas, desventajas y expectativas de ganancias

En 2023, esperamos que la simbiosis entre LLM y RL crezca aún más: capacitar a LLM en un entorno de RL y usar LLM como parte de los agentes de RL (por ejemplo, como planificadores de una políticaanteriores fuertes).

Finalmente, cero pocos disparos y la eficiencia extrema serán clave para el progreso en los robots que interactúan en el mundo real, y esperamos la tendencia en la modularización de ML (la capacidad de simplemente conectar módulos preentrenados), habilidades de pocos disparos y representación causal. aprender a ayudar en ese sentido en 2023. Pero nos sorprendería si hay un gran avance en el espacio antes de que la eficiencia de muestra extrema sea in silico para RL tradicional.

?️ Visión por computadora

Los modelos de difusión y el texto a imagen fueron las estrellas del espectáculo cuando se trata de 2022 CV. Nuestra percepción de lo que se puede lograr generando imágenes es muy diferente a lo que pensábamos hace un año. Sin embargo, la comprensión de imágenes está lejos de resolverse. ¿Cuáles son las claves que nos acercarán?

  • Aprendizaje de representación causal (a menudo relacionado con el aprendizaje de representaciones centradas en objetos) es un campo de interés creciente que estudia el aprendizaje de las relaciones causales entre elementos más allá de sus correlaciones estadísticas. Un bloqueador clave para el progreso ha sido la falta de una evaluación comparativa estandarizada sólida, y esperamos que 2023 traiga un cambio en la cultura de evaluación comparativa de CV, cambiando el enfoque hacia la generalización fuera del dominio, la robustez y la eficiencia, y lejos de la clasificación de imágenes en el dominio. , seguimiento, segmentación…
  • Más modelos multimodales que combinan texto, audio y acciones con visión como hemos visto con Transformador de preentrenamiento de video MineDojo.
  • Los modelos de difusión se han hecho cargo de la IA generativa de texto a imagen y se están utilizando para otras aplicaciones, como acoplamiento de moléculas y diseño de drogas . El video generativo y las escenas 3D son y serán el siguiente paso natural para estas aplicaciones, pero esperamos que la generación de video largo y coherente tome más tiempo. Modelar datos de alta frecuencia (tokens/imágenes) es más difícil que recopilar datos de baja frecuencia a gran escala (por ejemplo, estructura narrativa a escala novedosa). No hay suficientes datos estáticospara resolver este problema por fuerza bruta, de ahí la necesidad de mejores técnicas de optimización para modelos grandes.

? Recuperación de información

Finalmente, el tema cercano a nuestros corazones. El mayor problema de Neural IR en los últimos dos años ha sido traducir el éxito en los puntos de referencia académicos, donde BM25 se supera de forma rutinaria, en entornos del mundo real y una adopción generalizada. Las claves para que esto suceda:

  • No necesita anotaciones de relevancia humana. Este ya ha sido uno de los aspectos donde más ha avanzado IR en 2022, con propuestas como InPars (utilizando LM para generar anotaciones), LaPraDor (aprendizaje contrastivo no supervisado) y otros.
  • Conveniencia. Los modelos actuales pueden funcionar bien en los puntos de referencia, pero no. Esperamos avances en conveniencia en todo el ciclo de vida de desarrollo de modelos IR neuronales que aumentarán la adopción.
  • IA conversacional. Los modelos de recuperación de lenguaje aumentado y modelos poderosos como ChatGPT han revivido recientemente el interés en el espacio, ya que muchos ahora ven la viabilidad real. Si bien la evaluación estandarizada sigue siendo un desafío, esperamos que crezca el interés en el espacio.
🔥 Recomendado:  Cómo iniciar un negocio de comercio electrónico de $ 750K / mes (2023)

Además de la investigación, 2023 podría ser un año de disrupción en el espacio de la búsqueda web para consumidores y solo un cambio de paradigma de lo que la gente espera de los motores de búsqueda. La colaboración de Microsoft con OpenAI y el reciente éxito estelar de ChatGPT tiene a muchos especulando sobre la posibilidad de un giro de 180° para Bing con la adopción de respuestas de preguntas verdaderamente complejas a escala web impulsadas por modelos de lenguaje que Google ahora ve desafiado su negocio principal y este podría ser el año de la disrupción en el que Google necesita intensificar su juego.

Para cerrar, nos gustaría destacar algunos temas de cierre menos relacionados con la investigación que aún son clave para la evolución de la IA en los próximos 12 meses:

  • En el frente del hardware, el monopolio de chips para IA de Nvidia permanece intacto y solo un milagro podría cambiar eso a corto plazo. Rumores de una adquisición de HuggingFace por parte de Google y la estrecha integración con su GCP y TPU para alojamiento podría aumentar el uso de hardware de TPU, pero eso todavía parece una posibilidad remota.
  • La Ley Europea de IA — el esfuerzo regulatorio más ambicioso y completo que se haya visto hasta ahora — continúa progresando y las estimaciones actuales indican que podría entrará en vigor a finales de 2023.Esperamos que otras grandes economías tomen nota y sigan el ejemplo como sucedió con el RGPD, para garantizar que se preserven los derechos individuales en lo que respecta al uso de la IA.
  • Cómo desaceleración actual de la gran tecnologíatendrá un impacto en la investigación de IA, especialmente en la financiación de la industria a corto plazo. Si bien esperamos que el fuerte progreso que hemos visto en los últimos 12 meses se traduzca en un optimismo general en el espacio, no se puede descartar una desaceleración.

¿Qué pasa contigo? ¿Cuáles cree que serán los mayores avances y sorpresas en el mundo de la IA en 2023? Síganos en Twitter @zetavectoro déjanos saber en los comentarios. ¡Hasta el próximo!


Tendencias en IA: resumen de 2023 se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA

Tabla de Contenido