Estás leyendo la publicación: Teseo de código abierto Meta AI: una biblioteca de Python para codificar el conocimiento del dominio en modelos de inteligencia artificial de extremo a extremo
Una nueva investigación de Meta AI desarrolla Theseus, una biblioteca para una técnica de optimización denominada mínimos cuadrados no lineales diferenciables (NLS). Los investigadores pueden incorporar rápidamente el conocimiento del dominio en los marcos de trabajo de IA utilizando Theus, una herramienta basada en PyTorch. Agrega información al diseño como una “capa de optimización” modular y caracteriza el conocimiento como un problema de optimización. Aparte de los datos de entrenamiento, esta experiencia en el dominio puede aumentar la precisión del modelo. Este método es útil para construir modelos para conjuntos de datos con funciones no lineales. Por ejemplo, con Theseus, los investigadores pueden incluir un modelo cinemático como una capa mientras entrenan un brazo robótico para que se mueva para garantizar los movimientos suaves de un robot.
Theseus es la primera biblioteca de optimización no lineal que es independiente de las aplicaciones. Comparado con C++ Ceres Solver de Google, es cuatro veces más rápido. Para acelerar el cálculo y la memoria, Theseus proporciona procesamiento por lotes, aceleración de GPU, solucionadores dispersos y diferenciación implícita.
Theseus combina los mejores elementos de dos conocidas estrategias de inyección de conocimiento de IA. Antes del aprendizaje profundo, los investigadores de robótica usaban técnicas de optimización de IA más sencillas, de modo que los sistemas robóticos ejecutan comandos prediciendo la menor cantidad de movimiento articular y consumo de energía. Esta estrategia fue exitosa pero rígida debido a las estrategias de optimización específicas de la aplicación. Si bien los métodos de aprendizaje profundo son más escalables, necesitan una gran cantidad de datos y pueden producir soluciones útiles pero inestables fuera del entorno de capacitación. Debido a que Theseus no es específico de una aplicación, la IA puede desarrollarse más rápidamente al crear modelos precisos para diferentes tareas y circunstancias.
Los investigadores utilizan una función de pérdida seleccionada apropiadamente para entrenar un modelo de aprendizaje profundo para una tarea en particular. Según los investigadores, cada capa debe ser diferenciable para que la retropropagación actualice los pesos del modelo y permita el flujo de información de error. Los investigadores se enfrentan a una compensación porque los algoritmos de optimización convencionales no son diferenciables de extremo a extremo. Renuncian a la optimización en favor de un aprendizaje profundo integral adaptado al problema en particular, perdiendo la efectividad y la generalidad de la optimización. El modelo también puede entrenarse fuera de línea y agregarse en el momento de la inferencia. El segundo método combina el aprendizaje profundo y el conocimiento previo, pero sus predicciones pueden ser inexactas porque el modelo de aprendizaje profundo se entrena sin la función de error específica de la tarea.
Para integrar estas estrategias, Theseus convierte los hallazgos de optimización en una capa que se puede agregar a cualquier arquitectura de red neuronal. Como parte de la arquitectura de aprendizaje profundo de un extremo a otro, esto permite a los investigadores ajustar la pérdida de la tarea final utilizando conocimientos específicos del dominio.
La desviación de la función no lineal de los datos proyectados se mide mediante NLS. Un valor pequeño sugiere el buen ajuste de la función. En robótica y visión, NLS se utiliza para mapear, estimar, planificar y controlar.
Al incorporar la optimización no lineal en las redes neuronales, Theseus hace que NLS sea diferenciable. Una función objetivo de suma de cuadrados ponderados se define mediante tensores de entrada, y los tensores de salida producen su mínimo en contraste con las capas neuronales que aplican una función de activación no lineal por elementos y traducen los tensores de entrada linealmente. El cálculo de gradiente de extremo a extremo se conserva mientras se diferencia a través del optimizador.
Como resultado, los modelos pueden codificar el conocimiento del dominio y aprender de la pérdida de tareas al incluir el optimizador y los anteriores conocidos en el ciclo de entrenamiento de aprendizaje profundo. Por ejemplo, los investigadores pueden emplear cinemáticas robóticas bien conocidas en el optimizador para garantizar movimientos fluidos del robot; el modelo de aprendizaje profundo extraerá el objetivo más amplio de la percepción o la instrucción del idioma durante el entrenamiento. Usando el conocido modelo cinemático, los investigadores pueden construir el modelo de predicción de objetivos de principio a fin. En última instancia, la biblioteca permite codificar información de dominio en modelos de IA de extremo a extremo. La economía de datos y la generalización mejoran cuando los datos previos conocidos se combinan con componentes neuronales.
Theseus admite solucionadores dispersos, vectorización automática, procesamiento por lotes, aceleración de GPU y cálculo de gradiente implícito. Theseus supera a los solucionadores como Ceres (que solo admiten la escasez) al permitir la diferenciación implícita, la escasez, la diferenciación automática y la aceleración de GPU. En una GPU común, Theseus se ejecuta más rápido y consume menos memoria. Al resolver un grupo de desafíos desafiantes, el pase de avance de Teseo es hasta cuatro veces más rápido que el de Ceres. Se producen mejores gradientes mediante la diferenciación implícita que mediante el desenrollado. En contraste con el desenrollado, la diferenciación implícita mantiene una huella de memoria y computación constante a medida que aumenta el número de rondas de optimización, lo que produce comparativamente mejores gradientes.
El equipo cree que su metodología respaldará una investigación adicional sobre la función y la evolución de la estructura en sistemas robóticos complejos, el aprendizaje de extremo a extremo en dichos sistemas y el aprendizaje continuo a lo largo de las interacciones con objetos del mundo real.
Este artículo está escrito como un artículo de resumen por el personal de Marktechpost basado en el trabajo de investigación ‘Theseus: una biblioteca para la optimización no lineal diferenciable‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, enlace github, proyecto y tutoriales.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools