Estás leyendo la publicación: Este documento de IA presenta un nuevo ataque al aprendizaje automático en el que un adversario envenena un conjunto de entrenamiento para dañar la privacidad de otros usuarios…
Los modelos de aprendizaje automático se utilizan en diversas aplicaciones, como reconocimiento de imagen y voz, procesamiento de lenguaje natural y modelado predictivo. Sin embargo, la seguridad y la privacidad de los datos de entrenamiento son una preocupación crítica, ya que un adversario que manipula el conjunto de datos de entrenamiento puede hacer que el modelo filtre información confidencial sobre los puntos de entrenamiento. Los adversarios pueden explotar su capacidad de modificar datos o sistemas para atacar la privacidad. Esta vulnerabilidad también existe en el aprendizaje automático, donde un adversario que manipula el conjunto de datos de entrenamiento puede inferir detalles privados sobre los puntos de entrenamiento que pertenecen a otras partes. Para prevenir o mitigar este tipo de ataques, los profesionales del aprendizaje automático deben proteger la integridad y privacidad de los datos de entrenamiento.
En general, para proteger la integridad y la privacidad de los datos de entrenamiento en el aprendizaje automático, los profesionales pueden usar técnicas como la privacidad diferencial, la computación multipartita segura, el aprendizaje federado y los marcos de entrenamiento seguros. Un estudio reciente introdujo una nueva clase de ataques en modelos de aprendizaje automático llamados “ataques de inferencia activa”. Estos ataques involucran a un adversario que manipula un conjunto de datos de entrenamiento para hacer que un modelo entrenado en ese conjunto de datos filtre información confidencial sobre los puntos de entrenamiento. Los autores muestran que los ataques de envenenamiento de datos pueden ser efectivos incluso cuando se envenena una pequeña fracción del conjunto de datos de entrenamiento. Además, demuestran que un adversario que controla una parte significativa de los datos de entrenamiento puede lanzar ataques no dirigidos que permiten una inferencia más precisa sobre los puntos de datos privados de otros usuarios.
La idea principal de este enfoque es utilizar estrategias “hechas a mano” para aumentar la influencia de una muestra en un modelo de red neuronal profunda para atacar la privacidad del modelo. Estas estrategias se basan en la observación de que los datos atípicos, o ejemplos inusuales en comparación con el resto de los datos, son vulnerables a los ataques a la privacidad porque influyen en gran medida en el modelo. Los autores proponen envenenar el conjunto de datos de entrenamiento para transformar el ejemplo objetivo x en un valor atípico, por ejemplo, engañando al modelo haciéndole creer que el punto objetivo x está mal etiquetado. Esta estrategia puede aumentar la influencia del objetivo correctamente etiquetado (x, y) en el conjunto de entrenamiento sobre la decisión del modelo, permitiendo que el adversario ataque la privacidad del modelo.
El experimento mostró que el ataque de envenenamiento dirigido aumentó efectivamente la tasa de éxito de inferencia de membresía, incluso con una pequeña cantidad de venenos. El ataque fue particularmente efectivo para aumentar la tasa de verdaderos positivos (TPR) y reducir la tasa de falsos positivos (FPR), mejorando significativamente la precisión de la inferencia de membresía. Otro experimento demostró que el ataque afectó de manera dispar a algunos puntos de datos, y el rendimiento del ataque varió en los puntos de datos que inicialmente eran más fáciles o más difíciles de inferir para la membresía. Cuando el ataque se ejecutó en el 5 % de las muestras donde la tasa de éxito del ataque fue la más baja y la más alta, el ataque podría aumentar significativamente la tasa de éxito de la inferencia de membresía. Estos resultados tienen importantes implicaciones de privacidad, ya que muestran que incluso los inliers son vulnerables a los ataques que manipulan los datos de entrenamiento.
En este documento, se introdujo un nuevo tipo de ataque al aprendizaje automático llamado “ataques de inferencia activa”, donde un adversario manipula el conjunto de datos de entrenamiento para hacer que el modelo filtre información confidencial sobre los puntos de entrenamiento. Los autores demostraron que estos ataques son efectivos incluso cuando una pequeña fracción del conjunto de datos de entrenamiento está envenenada y que un adversario que controla una parte significativa de los datos de entrenamiento puede lanzar ataques no dirigidos que permiten una inferencia más precisa sobre los puntos de datos privados de otros usuarios. Los autores también demostraron que el ataque impacta de manera desproporcionada en ciertos puntos de datos, lo que hace que incluso los inliers sean vulnerables a los ataques que manipulan los datos de entrenamiento. Estos resultados tienen implicaciones para las expectativas de privacidad de los usuarios y diseñadores de protocolos en entornos de aprendizaje colaborativo, ya que muestran que la privacidad y la integridad de los datos están interconectadas y que es importante defenderse de los ataques de envenenamiento para proteger la privacidad de los datos de entrenamiento.