Estás leyendo la publicación: ¿Cómo cuantificar los riesgos de privacidad de los modelos ML con ML Privacy Meter?
Las empresas recopilan grandes cantidades de datos personales para desarrollar productos basados en el aprendizaje automático. Los modelos de aprendizaje automático codifican información que se supone que refleja una amplia gama de patrones que subyacen a los datos demográficos. Para usar el modelo de aprendizaje automático de manera segura, es importante evaluar cuantitativamente sus preocupaciones sobre la privacidad y asegurarse de no divulgar información confidencial sobre sus datos de capacitación. En este artículo, utilizaremos el medidor de privacidad de ML para demostrar los ataques a la privacidad de los datos y analizar estos ataques. Los siguientes son los temas a tratar.
Tabla de contenido
- ¿Qué es un ataque a la privacidad?
- ¿Cuáles son los diferentes tipos de ataques?
- ¿Cómo mitigar estos ataques?
- Uso del medidor de privacidad de ML para ataques
Comencemos hablando de los ataques a la privacidad en los modelos de aprendizaje automático.
¿Qué es un ataque a la privacidad?
El ataque a los algoritmos de aprendizaje automático, ya sea para recopilar los datos utilizados con fines de capacitación y publicar información confidencial en la web de superficie o para conocer al propio alumno, de cualquier manera se considera un ataque a la privacidad de los alumnos. Por ejemplo, considere que se sometió a una cirugía cardíaca importante y que los médicos le implantaron un marcapasos cardíaco.
Estos datos se almacenan y utilizan para diferentes fines de análisis y capacitación. Ahora el atacante tiene su nombre y otras descripciones demográficas que se requieren para saber si se sometió a una cirugía. Después de que el ataque tiene éxito, el atacante tiene toda su información biológica y también podría monitorear el marcapasos de su corazón.
Para comprender y luchar contra las amenazas de aprendizaje automático desde el punto de vista de la privacidad, es útil establecer un modelo amplio del entorno, los muchos jugadores y los activos a proteger. Desde el punto de vista de un modelo de amenaza, los actores indicados en este modelo de peligro son:
- Los titulares de los datos, cuya información pueda ser sensible.
- Los propietarios de los modelos pueden o no ser propietarios de los datos, y pueden elegir o no compartir información sobre sus modelos.
- Los consumidores de modelos utilizan los servicios expuestos por el propietario del modelo, a menudo a través de alguna forma de programación o interfaz de usuario.
- Los adversarios también pueden tener acceso a las API del modelo de la misma manera que lo hace un consumidor típico. Pueden tener acceso al modelo en sí si el propietario del modelo lo permite.
Fuente de imagen
La figura anterior muestra los actores identificados como activos bajo el modelo de amenazas, así como el flujo de información y las posibles acciones. Este modelo de amenazas es lógico y no descarta la posibilidad de que algunos de estos activos puedan estar integrados o distribuidos en múltiples ubicaciones.
Las diferentes superficies de ataque contra los modelos de aprendizaje automático se pueden modelar en términos de conocimiento adversario. El rango de conocimiento varía desde limitado, por ejemplo, tener acceso a una API de aprendizaje automático, hasta conocer los parámetros completos del modelo y la configuración de entrenamiento. Entre estos dos extremos, existe una gama de posibilidades, como el conocimiento parcial de la arquitectura del modelo, sus hiperparámetros o la configuración del entrenamiento.
El conocimiento del adversario también se puede considerar desde el punto de vista de un conjunto de datos. En la mayoría de los artículos revisados, los autores asumen que los adversarios no conocen las muestras de datos de entrenamiento, pero pueden tener algún conocimiento de la distribución de datos subyacente. Con base en el conocimiento contradictorio hay dos clasificaciones.
- Caja negra Los ataques son aquellos en los que el atacante no conoce los parámetros del modelo, la arquitectura o los datos de entrenamiento.
- Caja blanca Los asaltos ocurren cuando el adversario obtiene acceso completo a los parámetros del modelo objetivo o gradientes de pérdida durante el entrenamiento. Aunque puede ser necesario algún tipo de preparación, la mayoría de los trabajos suponen un conocimiento completo de la entrada esperada.
Profundicemos en la privacidad y comprendamos los diferentes tipos de ataques a algoritmos de aprendizaje automático y conjuntos de datos.
¿Cuáles son los diferentes tipos de ataques?
El objetivo del oponente es adquirir conocimientos que no deben ser compartidos. Dicho conocimiento puede estar relacionado con datos de entrenamiento o información sobre el modelo, o puede estar relacionado con la extracción de información sobre las propiedades de los datos, como el sesgo codificado no intencional. Estos ataques se pueden dividir en cuatro categorías principales.
Ataques de inferencia de membresía (MIA)
La inferencia de pertenencia se refiere al problema de determinar si un punto de datos, dado este, está incluido en el conjunto de entrenamiento.
MIA puede infringir directamente la privacidad si su presencia en un conjunto de entrenamiento es sensible en sí misma debido a la naturaleza del trabajo en cuestión. Por ejemplo, si se utilizan fotografías de una base de datos criminal para entrenar un modelo que predice la probabilidad de reincidencia, la inferencia de membresía efectiva revela el pasado criminal de ese individuo.
Cuando un oponente tiene un conocimiento completo de un registro, comprender que se utilizó para entrenar un determinado modelo es un indicador de que la información se filtra a través del modelo. En general, MIA se considera con frecuencia como una señal, un tipo de criterio, de que el acceso a un modelo conduce a violaciones de privacidad potencialmente importantes.
Por otro lado, la MIA también puede ser utilizada por las agencias reguladoras para respaldar sospechas de que los modelos han sido entrenados con datos personales sin fundamentos legales adecuados o para fines que son incompatibles con la recopilación de datos. Por ejemplo, recientemente se descubrió que DeepMind estaba utilizando registros médicos personales proporcionados por el Servicio Nacional de Salud del Reino Unido para fines distintos a la atención directa del paciente. Evidencia para la cual se recopilaron los datos.
Inversión del modelo
Dado algún acceso (ya sea caja negra o caja blanca) a un modelo, los enfoques de inversión de modelo intentan deducir características de clase y/o generar representaciones de clase.
En estas técnicas, las funciones derivadas caracterizan a toda la clase, excepto en el caso de sobreajuste patológico donde la muestra de entrenamiento representa a todos los miembros de la clase, incluso si los datos de entrenamiento no están particularmente caracterizados. Puede describirse como una violación de su privacidad.
Un atacante, por ejemplo, puede depender de las salidas del clasificador para deducir información confidencial utilizada como entradas para el propio modelo. Un atacante podría adivinar las características confidenciales del paciente según el modelo y cierta información demográfica sobre un paciente cuyos registros se utilizan para la capacitación. Luego, utilizando “escalada” en las probabilidades de salida de un clasificador de visión por computadora, descubren caras individuales de los datos de entrenamiento.
Inferencia de propiedad
La capacidad de extraer atributos del conjunto de datos que no se codificaron explícitamente como características o que no estaban relacionados con el objetivo de aprendizaje. Estas características también se pueden utilizar para obtener más información sobre los datos de entrenamiento, lo que puede llevar a que los adversarios exploten este conocimiento para desarrollar modelos similares o tener consecuencias de seguridad cuando el atributo aprendido se puede usar para descubrir las debilidades del sistema. Incluso los modelos bien generalizados pueden aprender rasgos relevantes para toda la distribución de datos de entrada, lo que a veces es inevitable o incluso necesario para el proceso de aprendizaje.
Un ejemplo de inferencia de propiedad es extraer la información de la relación hombre/mujer en el registro de un paciente si no es un atributo codificado o una etiqueta de registro. O una red neuronal que puede realizar una clasificación de género e inferir si las personas en el conjunto de datos de entrenamiento usan anteojos. En algunos entornos, este tipo de filtraciones pueden afectar su privacidad.
Desde un punto de vista contradictorio, lo que es más, intrigantes son las cualidades que se pueden deducir de un pequeño subconjunto de datos de entrenamiento o, eventualmente, de un individuo específico.
La extracción de modelos es un tipo de ataque de caja negra en el que el adversario intenta extraer información y tal vez reconstruir completamente un modelo construyendo un modelo que actúa de manera extremadamente similar al modelo bajo ataque. Para modelos alternativos, hay dos áreas principales de concentración.
- Para construir modelos que coincidan con la precisión del modelo objetivo en un conjunto de prueba tomado de la distribución de datos de entrada y relevante para la tarea de aprendizaje.
- Desarrollar un modelo de reemplazo que se ajuste al modelo bajo ataque en una colección de puntos de entrada que no están necesariamente vinculados a la meta de aprendizaje.
El conocimiento de la arquitectura del modelo de destino es un requisito previo para algunos ataques, pero no es necesario si el atacante elige un modelo alternativo que es tan complejo o más complejo que el modelo atacado.
Además de crear modelos sustitutos, nos enfocamos en extraer información del modelo de destino, como hiperparámetros de la función de destino e información sobre varias propiedades de la arquitectura de la red neuronal, como el tipo de activación, el algoritmo de optimización, la cantidad de capas, etc. También hay un enfoque.
¿Cómo mitigar estos ataques?
La criptografía, o más específicamente el cifrado, se puede utilizar para proteger la confidencialidad de sus datos. En el contexto de ML y análisis/procesamiento general de datos, están involucradas dos primitivas clave.
- SMC permite que dos o más partes calculen conjuntamente una función sobre sus entradas mientras mantienen esas entradas ocultas entre sí. Los protocolos SMC a menudo se basan en tecnologías como circuitos ilegibles, intercambio de secretos y transmisión inconsciente.
- El cifrado totalmente homomórfico (FHE) es un sistema de cifrado que permite el procesamiento de los datos de texto sin cifrar subyacentes mientras aún están cifrados y sin revelar la clave secreta. Para decirlo de otra manera, FHE permite el cálculo (casi) arbitrario de datos cifrados.
La privacidad diferencial (DP) aborda la contradicción de no aprender nada sobre una persona mientras se obtiene información relevante sobre una población. En general, brinda garantías estadísticas rigurosas contra lo que un oponente puede deducir al comprender el resultado de un proceso aleatorio. La privacidad de los sujetos de datos individuales a menudo se protege mediante la introducción de ruido aleatorio mientras se compilan estadísticas utilizando procedimientos privados diferenciales. En otras palabras, DP garantiza que un individuo enfrenta el mismo riesgo de privacidad, ya sea que sus datos estén sujetos o no a un análisis de privacidad diferencial.
Uso de ML Privacy Meter para ataques
Para evaluar la privacidad de los algoritmos de aprendizaje automático, necesitamos instalar el repositorio GitHub de ML Privacy Meter.
Una vez que el medidor de privacidad de ML esté configurado, cargue el conjunto de datos y capacite a su alumno, podría ser cualquier alumno discriminativo o generativo. Ahora está todo listo para evaluar el riesgo de privacidad del modelo. Antes de que necesite inicializar el controlador de datos que manejará los datos para los ataques que deben realizarse en el aprendizaje automático. Puede usar tanto el ataque de caja como el ataque de caja negra usando el atributo “ataque” de ml_privacy_meter.
Puede atacar al alumno en diferentes etapas y niveles dependiendo del alumno que se haya utilizado. La diferencia entre los ataques de caja negra y caja blanca se ha explicado anteriormente. Ese último informe podría generarse con la ayuda de “test_attack” y, a continuación, se encuentran los gráficos que se pueden generar.
(Fuente)
La figura de la izquierda muestra un histograma de probabilidad de membresía para datos de miembros del conjunto de entrenamiento y datos de no miembros de la población. Una mayor probabilidad de pertenencia indica que el modelo anticipó que los datos son parte de los datos de entrenamiento. La curva de la característica operativa del receptor (ROC) para el ataque de inferencia de membresía se muestra a la derecha. También muestra el valor AUC de la gráfica.
Pensamientos finales
A medida que el aprendizaje automático se generaliza, aumenta el interés de la comunidad científica. Desde la perspectiva de la seguridad, la privacidad, la equidad y la responsabilidad, tiene sus beneficios y efectos secundarios. Para cumplir con los requisitos de protección de datos, debemos analizar estos riesgos e implementar los pasos de mitigación necesarios. Con este artículo, podríamos entender los ataques a la privacidad en el aprendizaje automático.