Estás leyendo la publicación: Innovaciones de investigación de inteligencia artificial (IA) en 2022 de Google, NVIDIA, Salesforce, Meta, Apple, Amazon y AI2
En este artículo, profundizaremos en las últimas actualizaciones de investigación de 2022 de líderes clave de la industria en el campo del aprendizaje automático. Desde el procesamiento del lenguaje natural y la visión por computadora hasta los modelos generativos y el aprendizaje por refuerzo, hemos seleccionado una lista de investigaciones de vanguardia que le darán una idea del futuro de la IA.
Modelo de lenguaje Pathways (PaLM)
PaLM es un modelo de inteligencia artificial de vanguardia entrenado en varios pods de TPU v4 mediante el sistema Pathways. Cada módulo es capaz de entregar más de 1 exaflop/s de potencia informática. Esto le da a PaLM la capacidad de sobresalir incluso en tareas difíciles, como la comprensión y generación de lenguajes, el razonamiento y la generación de código. PaLM puede superar a otros modelos grandes en estas tareas, incluidos GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla y LaMDA.
Aprendizaje contrastivo guiado por segmentación (SegCLR)
SegCLR es una técnica para entrenar fácilmente representaciones genéricas y detalladas de la forma y la estructura interna de una célula utilizando datos de microscopía. Convierte estos datos en representaciones integradas compactas, lo que facilita el análisis y simplifica en gran medida los procesos posteriores en comparación con el trabajo con imágenes sin procesar y datos de segmentación. SegCLR brinda nuevas oportunidades para la investigación biológica y puede usarse como enlace a otros métodos para caracterizar células y sus subcomponentes en grandes dimensiones.
FindIt es un modelo de puesta a tierra visual capaz de responder a una amplia gama de consultas relacionadas con la búsqueda e identificación de objetos en imágenes. Es eficiente, fácil de usar, supera a otros modelos de última generación en la expresión de referencia y la localización basada en texto, y muestra un rendimiento competitivo en la detección.
Los modelos de lenguaje tienen capacidades limitadas en el área del razonamiento cuantitativo. Sin embargo, Google ha desarrollado un nuevo modelo llamado Minerva que puede razonar y resolver problemas matemáticos, científicos y de razonamiento utilizando varias técnicas, como sugerencias de pocos disparos, sugerencias de bloc de notas y votación por mayoría. Para mejorar sus habilidades en el razonamiento cuantitativo, Minerva se basó en Pathways Language Model (PaLM) y, además, se entrenó en un conjunto de datos de 118 GB de artículos científicos.
CALM es una técnica para mejorar la velocidad de generación de texto en modelos de lenguaje (LM) durante la inferencia. Se basa en la idea de que algunas predicciones sobre la siguiente palabra en una oración son más fáciles de hacer que otras. Mientras que los LM tradicionales utilizan la misma potencia informática para todas las predicciones, CALM ajusta la cantidad de recursos utilizados para cada predicción en función de la dificultad. Esto permite que CALM genere texto más rápidamente mientras mantiene una alta calidad de salida.
MLGO es un marco de aprendizaje automático que optimiza los compiladores para reducir el costo de ejecutar grandes aplicaciones de centros de datos. Utiliza aprendizaje de refuerzo para entrenar redes neuronales para tomar decisiones que se pueden usar en lugar de heurísticas en LLVM (una infraestructura de compilador de código abierto ampliamente utilizada para crear software de alto rendimiento). MLGO puede mejorar la eficiencia de los compiladores LLVM, que se usan comúnmente en aplicaciones críticas.
NVIDIA
NVIDIA Omniverse es una colección integral de servicios en la nube para desarrolladores, artistas y equipos empresariales para crear, publicar y experimentar aplicaciones de metaverso desde cualquier lugar. Acelera los flujos de trabajo 3D complejos y permite nuevas formas de visualizar, simular y programar nuevos conceptos e ideas.
NVIDIA ha presentado la plataforma informática de inteligencia artificial IGX edge para sistemas autónomos seguros. Esta plataforma todo en uno mejora la seguridad y la percepción de las aplicaciones de IA industriales y de atención de la salud. IGX combina hardware con funciones de seguridad programables, compatibilidad con sistemas operativos comerciales y software de IA, lo que permite a las organizaciones utilizar la IA de forma segura en colaboración con humanos.
Arquitectura de GPU NVIDIA Hopper
La programación dinámica es una técnica utilizada en varios algoritmos de optimización, procesamiento de datos y genómica y, a menudo, se ejecuta en CPU o FPGA. Sin embargo, el uso de instrucciones DPX en las GPU NVIDIA Hopper puede mejorar significativamente la velocidad. La arquitectura de la GPU NVIDIA Hopper mejorará drásticamente la velocidad de los algoritmos de programación dinámica hasta 40 veces con las nuevas instrucciones DPX.
Secuenciación de ADN ultrarrápida
Un grupo de investigadores de NVIDIA, Stanford, Oxford Nanopore Technologies, la Universidad de California Santa Cruz y Google ha creado un nuevo método de secuenciación de ADN que puede producir resultados en poco más de 7 horas. La técnica puede identificar rápidamente las causas genéticas de las enfermedades y emparejar a los pacientes con los tratamientos adecuados. Con el uso de Oxford Nanopore, NVIDIA Clara Parabricks y un contenedor de tubería UltraRapid Whole Genome Sequencing, pudieron simplificar el proceso y hacerlo más eficiente, lo que resultó en una reducción del 50 % en los costos computacionales.
Optimización de estela
Optimizar la configuración de los parques eólicos es importante para que empresas como Siemens Gamesa Renewable Energy saquen el máximo partido a su inversión y reduzcan los costes de consumo. Para minimizar los efectos de las turbinas entre sí, es necesario modelar con precisión la estela que crean utilizando simulaciones de alta calidad. La simulación Large Eddy es el estándar de oro para generar estos datos, pero puede llevar 40 días ejecutar una iteración para una sola turbina en una CPU de 100 núcleos. Utilizando NVIDIA Modulus y NVIDIA Omniverse, Siemens Gamesa ha reducido significativamente este tiempo a solo 15 minutos, una mejora de 4000X.
Se ha desarrollado un nuevo algoritmo autosupervisado, data2vec, para manejar el habla, la visión y el texto con un alto rendimiento. Cuando se probó en estas modalidades individuales, demostró resultados superiores en comparación con los algoritmos anteriores en visión y habla por computadora y es competitivo en tareas de procesamiento de lenguaje natural. Esta IA versátil tiene el potencial de superar las capacidades de los sistemas actuales y abrir nuevas posibilidades en el desempeño de tareas.
NLLB-200 es la primera herramienta que ofrece traducciones de alta calidad en 200 idiomas, incluidos los que antes no eran compatibles, como kamba y laosiano. También proporciona traducciones de alta calidad para 55 idiomas africanos, una mejora significativa en comparación con el bajo rendimiento de otras herramientas. Este modelo único puede traducir idiomas hablados por miles de millones de personas en todo el mundo.
La IA de Meta, CICERO, ha alcanzado un rendimiento a nivel humano en el juego de estrategia Diplomacy. Al jugar en webDiplomacy.net, CICERO obtuvo más del doble que el jugador humano promedio y se ubicó en el 10% superior de los jugadores con múltiples juegos. Tradicionalmente, la diplomacia ha sido difícil para la IA debido al requisito de comprender y predecir las motivaciones y perspectivas de otros jugadores, crear planes intrincados y utilizar el lenguaje natural para negociar y formar alianzas. La habilidad de CICERO en el uso del lenguaje natural en Diplomacia incluso ha provocado que otros jugadores prefieran trabajar con él antes que con otros participantes humanos.
Meta AI ha creado y puesto a disposición del público BlenderBot 3, el primer chatbot de este tipo con parámetros 175B. BlenderBot 3 tiene la capacidad de buscar en Internet y entablar conversaciones sobre una variedad de temas. Ha sido diseñado para aprender y mejorar sus capacidades y seguridad a través de conversaciones naturales y comentarios de usuarios reales.
SEER es un modelo de visión por computadora autosupervisado desarrollado por Meta AI Research que puede aprender de cualquier conjunto de imágenes en Internet sin datos etiquetados y generar una imagen incrustada. Produce modelos más potentes, justos y robustos que detectan información valiosa en imágenes. Los sistemas tradicionales de visión por computadora a menudo no funcionan bien para imágenes de regiones con diferentes características socioeconómicas debido a la capacitación en ejemplos principalmente de EE. UU. y Europa. SEER, sin embargo, funciona bien para imágenes de todas las áreas, incluidas aquellas con diversos niveles de ingresos.
Unidad audiovisual oculta BERT (AV-HuBERT)
AV-HuBERT es un sistema autosupervisado muy avanzado para comprender el habla que se aprende al observar a las personas que hablan. Es el primer sistema que modela tanto el habla como los movimientos de los labios a partir de datos de video sin transcribir. Con la misma cantidad de transcripciones, AV-HuBERT es un 75 % más preciso que los mejores sistemas de reconocimiento de voz audiovisual.
Meta AI ha desarrollado la primera base de datos que muestra las estructuras de millones de proteínas metagenómicas. Estas proteínas, que se encuentran en los microbios del suelo, las profundidades del océano e incluso dentro de nuestros cuerpos, superan ampliamente en número a las de la vida animal y vegetal, pero son las menos comprendidas en la Tierra. El análisis de estructuras metagenómicas puede ayudar a resolver misterios evolutivos e identificar proteínas que pueden mejorar la salud, el medio ambiente y la producción de energía.
Fuerza de ventas
BLIP es un marco de pre-entrenamiento para la comprensión y generación integral de lenguaje visual que ha logrado los mejores resultados en varias tareas de lenguaje visual como recuperación de texto de imagen, subtítulos de imagen, respuesta visual a preguntas, razonamiento visual, diálogo visual, texto de disparo cero. recuperación de video y respuesta de preguntas de video de tiro cero. BLIP puede mejorar la inteligencia de visión y lenguaje en aplicaciones posteriores como la recomendación y clasificación de productos en plataformas de comercio electrónico.
WarpDrive es un marco de aprendizaje de refuerzo (RL) de extremo a extremo liviano, flexible y fácil de usar que permite un entrenamiento mucho más rápido en una sola GPU. PyTorch Lightning permite a los usuarios modularizar el código experimental y crear rápidamente cargas de trabajo listas para la producción. Cuando se usan juntos, pueden acelerar significativamente la investigación y el desarrollo de RL multiagente.
CodeRL es un marco para sintetizar código mediante la combinación de modelos de lenguaje previamente entrenados y aprendizaje de refuerzo profundo. Utiliza retroalimentación de prueba unitaria en el entrenamiento e inferencia de modelos y se integra con un modelo CodeT5 mejorado para lograr resultados líderes en tareas de programación competitivas.
ETSformer es un transformador modificado para manejar datos de series temporales, que combina la fuerza de los métodos clásicos de suavizado exponencial con transformadores para lograr un rendimiento de vanguardia. Puede crear pronósticos descompuestos de tendencias estacionales interpretables y ha demostrado su eficacia en varias aplicaciones y conjuntos de datos de pronóstico de series temporales al lograr los mejores resultados.
LAVIS es una biblioteca de código abierto para la investigación y las aplicaciones de la visión del lenguaje. Ofrece soporte para una variedad de tareas, conjuntos de datos y modelos de última generación. Su interfaz unificada y su diseño modular lo hacen fácil de usar y fácil de usar. Sus características integrales y su marco integrado hacen que las capacidades de visión del lenguaje de IA sean accesibles para una amplia audiencia de investigadores y profesionales.
Amazonas
FedNLP1 es un marco para evaluar los métodos de aprendizaje federado en cuatro tareas comunes de NLP: clasificación de texto, etiquetado de secuencias, respuesta a preguntas y generación de secuencia a secuencia.
Earthformer es un transformador de espacio-tiempo diseñado para pronosticar sistemas terrestres. Utiliza un bloque de atención de espacio-tiempo genérico, eficiente y flexible llamado Cuboid Attention. Las pruebas en dos puntos de referencia del mundo real para el pronóstico inmediato de precipitaciones y el pronóstico de El Niño/Oscilación del Sur han demostrado que Earthformer se desempeña al nivel más avanzado.
RING-Net es una red de segmentación profunda de imágenes para la inferencia de carreteras utilizando trayectorias GPS. Es lo suficientemente flexible para usar múltiples fuentes de datos, como trayectorias GPS e imágenes de satélite. Puede convertir trayectorias GPS sin procesar en imágenes rasterizadas con funciones relacionadas con el viaje para inferir carreteras con precisión. Las pruebas con datos públicos mostraron que RING-Net podría mejorar la integridad de una red de carreteras.
MEMENTO es una metodología para estimar los efectos de tratamientos individuales en escenarios de tratamientos múltiples donde los tratamientos son discretos y finitos. Se ha demostrado que supera a otras técnicas para escenarios de tratamiento múltiple en casi un 10 % en algunos casos a través de experimentos en conjuntos de datos reales y semisintéticos.
DIVA es un método para calcular la derivada de una tarea de aprendizaje con respecto a un conjunto de datos. Se puede usar para tareas como la conservación de conjuntos de datos (p. ej., eliminar anotaciones incorrectas, agregar muestras relevantes o reequilibrar) y puede optimizar los parámetros del conjunto de datos y del modelo como parte del proceso de capacitación sin necesidad de un conjunto de datos de validación por separado, a diferencia de los métodos tradicionales de AutoML.
PAVE es un novedoso modelo de aprendizaje por refuerzo que utiliza el formalismo Lazy-MDP para mejorar el recuerdo bajo al combinar información de varios productos vecinos. Supera a los métodos de agregación simples, como el vecino más cercano, el voto mayoritario y los conjuntos de clasificadores binarios, e incluso supera a los modelos AE para atributos cerrados. PAVE es escalable, resistente a los vecinos de productos ruidosos y funciona bien en atributos invisibles.
PASHA es un método para ajustar de manera eficiente los modelos de aprendizaje automático entrenados en grandes conjuntos de datos con recursos computacionales limitados. Asigna dinámicamente los recursos para el proceso de ajuste en función de las necesidades. En comparación con las soluciones de ASHA, se ha demostrado que PASHA identifica de manera efectiva buenas configuraciones y arquitecturas de hiperparámetros mientras usa menos recursos computacionales.
AI2 (Instituto Allen para la IA)
MemPrompt es una plataforma que utiliza un modelo de lenguaje sofisticado y un sistema de retroalimentación interactivo para permitir a los usuarios aclarar tareas y mejorar la precisión del modelo. Cuando el modelo no comprende la intención de un usuario, el usuario puede proporcionar comentarios para ayudar al modelo a comprender y responder mejor a su entrada.
El sistema ACCoRD es un método para generar diversas descripciones de conceptos científicos mediante el análisis de múltiples documentos. Aprovecha las diversas formas en que se analiza un concepto en la literatura científica para crear ilustraciones de conceptos de destino en relación con diferentes tipos de conceptos de referencia.
Līla es un punto de referencia diseñado para evaluar las habilidades de razonamiento matemático de los sistemas de IA de manera integral. Comprende 140 000 preguntas en 23 tareas que cubren varias áreas, incluida la capacidad matemática, la complejidad del lenguaje, los requisitos de conocimientos externos y el formato de las preguntas.
Unified-IO es un modelo neuronal que puede realizar muchas tareas de IA diferentes:
- Tareas clásicas de visión artificial: detección de objetos, segmentación y estimación de profundidad
- Tareas de síntesis de imágenes: generación de imágenes e in-painting
- Tareas que combinan la visión y el lenguaje: respuesta visual a preguntas, subtítulos de imágenes y comprensión de expresiones de referencia
- Tareas de procesamiento del lenguaje natural: respuesta a preguntas y paráfrasis
Manzana
Modelado de la respuesta de la frecuencia cardíaca
Apple presenta un modelo de aprendizaje automático híbrido que fusiona un modelo fisiológico de frecuencia cardíaca y demanda durante el ejercicio con incrustaciones de redes neuronales para aprender parámetros de fitness personalizados. Este modelo se aplica a un gran conjunto de datos de entrenamiento recopilados con dispositivos portátiles y puede predecir con precisión la respuesta de la frecuencia cardíaca a la demanda de ejercicio en nuevos entrenamientos. Las incorporaciones aprendidas también se correlacionan con métricas establecidas que indican la aptitud cardiorrespiratoria.
DeSTSeg es un marco que combina una red de docentes previamente capacitados, un codificador-descodificador de estudiantes que elimina el ruido y una red de segmentación. Cuando se probó en el conjunto de datos de referencia de inspección industrial, este método logró resultados de vanguardia, que incluyen una precisión del 98,6 % en ROC a nivel de imagen, un 75,8 % en una precisión promedio a nivel de píxel y un 76,4 % en una precisión promedio a nivel de instancia.
MAEEG es un modelo de aprendizaje autosupervisado que utiliza una arquitectura de transformador para aprender representaciones de EEG mediante la reconstrucción de características de EEG enmascaradas. Se ha demostrado que este modelo mejora significativamente la precisión de la clasificación de las etapas del sueño hasta en un 5 % cuando solo se proporciona una pequeña cantidad de etiquetas.
Latent Temporal Flows es un método de aprendizaje automático que se destaca en el modelado de datos de series temporales dependientes de alta dimensión de sensores. Se puede usar en aplicaciones relacionadas con la atención médica, como la detección temprana de anomalías, el seguimiento de la fertilidad y la predicción de efectos adversos de medicamentos. Este método supera consistentemente el estado del arte en los puntos de referencia de pronóstico de varios pasos, logrando al menos una mejora del 10% en el rendimiento en varios conjuntos de datos del mundo real y, al mismo tiempo, es más eficiente computacionalmente.
MobileViT es un transformador de visión liviano y de uso general diseñado para dispositivos móviles. Ofrece un nuevo enfoque para el procesamiento de información global con transformadores al tratarlos como convoluciones. En varias tareas y conjuntos de datos, MobileViT supera constantemente a las redes basadas en CNN y ViT.
ARtonomous es una plataforma virtual rentable para programar robótica. Permite a los estudiantes utilizar el aprendizaje por refuerzo (RL) y el código para entrenar y personalizar robots autónomos virtuales. Un estudio de ARtonomous encontró que los estudiantes de secundaria adquirieron una comprensión de RL, estaban muy comprometidos y expresaron interés en seguir aprendiendo sobre el aprendizaje automático. La plataforma proporciona una alternativa a los kits de robótica tradicionales de solo programación.
GAUDI es un modelo generativo de vanguardia que puede generar escenas 3D complejas y realistas que se pueden renderizar desde una cámara en movimiento de forma inmersiva. Funciona excepcionalmente bien en múltiples conjuntos de datos en la configuración generativa incondicional y también puede generar escenas 3D basadas en variables condicionantes como imágenes dispersas o descripciones de texto.