Estás leyendo la publicación: Conozca MultiRay: la nueva plataforma de Meta AI para ejecutar de manera eficiente modelos de inteligencia artificial (IA) a gran escala
Los sistemas de IA de última generación para manejar texto, imágenes y otras modalidades logran un rendimiento óptimo entrenando primero un modelo masivo con una gran cantidad de datos y luego entrenando ese modelo para que se especialice en un solo trabajo (por ejemplo, identificar lenguaje dañino). El resultado es una herramienta especializada de alta calidad y precio elevado. El costo de mantener tantos modelos masivos rápidamente se sale de control si hay muchos problemas que resolver. Como resultado, rara vez se emplean en la producción grandes modelos de última generación y, en su lugar, se suelen utilizar modelos considerablemente más pequeños y sencillos.
Una nueva investigación de Meta AI ha creado MultiRay, una nueva plataforma para ejecutar modelos de IA de vanguardia a gran escala para hacer que los sistemas de IA sean más efectivos. Con MultiRay, numerosos modelos pueden compartir la misma entrada. Solo se utiliza una fracción del tiempo de procesamiento y los recursos para cada modelo, lo que minimiza el costo total de estas operaciones basadas en IA. Al centralizar los recursos informáticos de la empresa en un solo modelo, los aceleradores de IA pueden implementarse fácilmente e intercambiar estratégicamente entre recursos informáticos y almacenamiento de datos. Los modelos universales en MultiRay se han ajustado para sobresalir en una amplia variedad de aplicaciones.
Los equipos de Meta pueden desarrollar y perfeccionar modelos de aprendizaje automático (ML) para varios usos, como el etiquetado de temas de publicaciones y la detección de discursos de odio, con la ayuda de MultiRay. Este método es más eficiente en términos de tiempo y mano de obra que tener varios equipos que construyan modelos enormes de extremo a extremo de forma independiente.
MultiRay aumenta la accesibilidad a los modelos de gran núcleo de Meta al descargar los cálculos a hardware especializado como unidades de procesamiento de gráficos (GPU) y minimizar el tiempo y la energía gastados en el recálculo al mantener los datos de uso frecuente en la memoria (caché). MultiRay actualmente impulsa más de 125 casos de uso en Meta, y admite hasta 20 millones de consultas por segundo (QPS) y 800 mil millones de consultas diarias.
MultiRay emplea modelos básicos enormes para reflejar con precisión la entrada que proporciona un punto en un espacio vectorial de alta dimensión. Una incrustación representa la entrada que es más adecuada para el aprendizaje automático. Para simplificar el procesamiento de modelos específicos de tareas, MultiRay proporciona una incorporación de los datos de entrada (como texto e imágenes) que se pueden consumir en lugar de la entrada sin procesar. Los modelos centrales de MultiRay están capacitados para desempeñarse bien en varias tareas, incluidas la similitud y la clasificación. Debido a la necesidad de transmitir información adicional, nuestras incrustaciones son grandes (varios kilobytes de tamaño).
Los modelos masivos centralizados brindan las siguientes ventajas:
- Amortización de múltiples equipos
- Reducción de la complejidad en la producción y operación.
- Tiempos más cortos entre el descubrimiento y la comercialización: cambio de velocidad localizado
Se puede realizar una sola solicitud simultáneamente utilizando la API externa de MultiRay. Para manejar el alto volumen de solicitudes de varios clientes a la vez, MultiRay emplea un mecanismo de procesamiento por lotes de solicitudes cruzadas en su interior. La lógica solo debe escribirse una vez y puede ajustarse para producir lotes del tamaño óptimo para el modelo y el hardware. Incluso cuando se realizan mejoras significativas en el rendimiento, como usar un tamaño de lote más grande al migrar a la última generación de hardware acelerador de GPU, este lote es completamente transparente para los clientes que emiten las solicitudes.
Para minimizar el tiempo y la energía gastados en el recálculo, MultiRay utiliza un caché. Es un caché de varios niveles diseñado para ahorrar dinero y tiempo, con tasas de aciertos más altas a expensas de tiempos de acceso más lentos. Cada servidor MultiRay tiene su propio caché local rápido pero limitado basado en RAM. Esos cachés están rematados por un caché distribuido globalmente basado en memoria flash más lento pero más extenso.