Estás leyendo la publicación: Este marco de IA de inteligencia artificial llamado MPCFormer permite la inferencia privada con computación multipartita segura (MPC) para transformadores (Copilot, ChatGPT, OPT)
Los modelos de transformadores ya entrenados pueden ejecutar varias tareas posteriores con un rendimiento excelente antes de usarse como servicios de inferencia de modelos. Sin embargo, tales servicios de inferencia de modelos pueden plantear problemas de privacidad. Por ejemplo, GitHub Copilot, un motor de generación de código adaptado a partir de pesos GPT preentrenados, requiere que el usuario divulgue sus indicaciones de código al proveedor de servicios para la generación de códigos o que el proveedor de servicios haga los pesos entrenados de Copilot, que son propiedad de la empresa. disponible para los usuarios. Una posible solución es proporcionada por Secure Multi-Party Computation (MPC), que protege los datos del usuario y los pesos del modelo durante la inferencia. Sin embargo, el cálculo de inferencia del transformador estándar del MPC es demasiado lento. Por ejemplo, BERTBASE se ejecuta en alrededor de un segundo sin MPC pero en unos sesenta segundos con MPC.
Investigaciones anteriores sobre redes neuronales convolucionales (CNN) han demostrado que el proceso de inferencia en MPC puede acelerarse sustituyendo los enfoques computacionales por aproximaciones más rápidas (nos referimos a ellas como aproximaciones compatibles con MPC). Sin embargo, el uso de un método de reemplazo directo reduce significativamente la calidad del modelo. Comienzan abordando el problema de investigación en este documento: ¿Cómo se puede llevar a cabo la inferencia del modelo de Transformer que preserva la privacidad en MPC sin dejar de ser rápido y eficiente? Específicamente, ofrecen un método para emplear MPC para llevar a cabo la inferencia del modelo de transformador mientras se protege la privacidad. Su enfoque directo y eficiente permite varios pesos de transformadores y aproximaciones compatibles con MPC. Analizan una nueva técnica MPC de dos etapas para la inferencia rápida de transformadores. Al incorporar el conocimiento de las técnicas de inferencia privadas existentes para las CNN, muestran cómo el uso de aproximaciones compatibles con MPC puede ayudar a acelerar los modelos de Transformer. Ellos comparan el proceso de inferencia del transformador utilizando un sistema MPC y encuentran que las funciones GeLU y Softmax son los cuellos de botella clave. Se reemplazan por aproximaciones compatibles con MPC prefabricadas, que aceleran sustancialmente el proceso. La segunda etapa consiste en mejorar la eficiencia del Transformador de aproximación rápida. Demuestran que la arquitectura de aproximación rápida es necesaria más que solo entrenamiento, en contraste con las técnicas anteriores.
Hay dos razones probables: (1) Muchas aproximaciones amigables con MPC hacen que los modelos de entrenamiento sean más difíciles. Por ejemplo, mientras que las funciones cuadráticas son rápidas en MPC, las redes neuronales profundas luchan con el problema de explosión de gradiente que generan. (2) Los conjuntos de datos aguas abajo generalmente solo incluyen una pequeña cantidad de datos necesarios para entrenar un modelo adecuado utilizando la pérdida de entropía cruzada, por ejemplo, Zhang & Sabuncu; Hinton et al. Aplican el marco de destilación de conocimiento (KD) para abordar estos dos problemas. En primer lugar, KD puede simplificar el proceso de formación de modelos haciendo coincidir las representaciones intermedias entre los modelos de profesor y alumno. En particular, investigaciones anteriores han demostrado que la supervisión intermedia puede ayudar a resolver el problema de la explosión de gradiente. Se proporciona la destilación por capas, y el modelo de Transformador de entrada se formula como el maestro y el modelo de Transformador estimado como el estudiante en su caso de uso. Además, investigaciones anteriores han demostrado que KD es eficiente en datos. Demuestran empíricamente que esta característica permite que el modelo de Transformador aproximado funcione bien cuando se aprende de conjuntos de datos descendentes limitados. Su estrategia. Desarrollan MPCFORMER en este estudio, un marco simple para la inferencia de Transformer rápida, efectiva y privada. Muchos modelos de Transformer capacitados y aproximaciones compatibles con MPC son compatibles con MPCFORMER. Las funciones de cuello de botella en el modelo de transformador de entrada se reemplazan primero con las aproximaciones compatibles con MPC proporcionadas.
El modelo Transformador aproximado resultante tiene un tiempo de inferencia más rápido en el escenario MPC. El modelo de transformador estimado se somete luego a la destilación de conocimiento utilizando el modelo de transformador de rendimiento de entrada como maestro. El modelo de Transformador aproximado puede aprender de manera efectiva con conjuntos de datos posteriores gracias a la supervisión intermediaria y la propiedad de eficiencia de datos. Para lograr una velocidad de inferencia rápida y un alto rendimiento de ML al mismo tiempo, el proveedor de modelos puede emplear el Transformador aproximado destilado sobre un motor MPC, como Crypten, para el servicio de inferencia de modelos privados. La figura 1 muestra el proceso general del sistema MPCFORMER.
Proporcionan tres contribuciones distintas.
1. Sugieren MPCFORMER, un marco de dos etapas que permite insertar varias aproximaciones compatibles con MPC y modelos de Transformer entrenados, lo que permite una inferencia de modelo de Transformer privado rápida y efectiva con MPC.
2. Al integrar su marco con un sistema MPC, aproximaciones compatibles con MPC y modelos de Transformer entrenados, aumentan la velocidad de inferencia de Transformer. Crean una aproximación nueva, más rápida y compatible con MPC de la función Softmax en el proceso.
3. Evalúan minuciosamente el marco utilizando transformadores capacitados y aproximaciones conectadas en el entorno MPC. Logran un rendimiento de ML comparable al de BERTBASE con una aceleración de 5.3 en el punto de referencia de IMDb. Con una aceleración de 5.9, logran un rendimiento de ML similar al de BERTLARGE. Logran el 97 % del rendimiento de BERTBASE con una aceleración de 2,2 en el punto de referencia GLUE. Cuando se conecta a otros modelos de Transformer capacitados, como RoBERTaBASE, MPCFORMER también es efectivo.