Investigadores de Amazon proponen ‘AdaMix’, un algoritmo privado diferencial adaptativo para entrenar clasificadores de redes neuronales profundas utilizando datos de imágenes públicas y privadas

Estás leyendo la publicación: Investigadores de Amazon proponen ‘AdaMix’, un algoritmo privado diferencial adaptativo para entrenar clasificadores de redes neuronales profundas utilizando datos de imágenes públicas y privadas

Es crucial preservar la privacidad al restringir la cantidad de datos que se pueden recopilar sobre cada muestra de entrenamiento cuando se entrena una red neuronal profunda para la clasificación visual. La privacidad diferencial (DP) es un marco teórico que tiene como objetivo brindar garantías sólidas con respecto a la mayor cantidad de datos que un atacante puede obtener sobre una muestra de entrenamiento específica. Un parámetro de privacidad, que a menudo depende del contexto de la aplicación, es una forma en que DP permite específicamente a los usuarios elegir el compromiso deseado entre privacidad y precisión.

Es difícil entrenar grandes modelos de aprendizaje automático y garantizar que cada muestra tenga un alto nivel de privacidad. En realidad, sin embargo, con frecuencia se tiene acceso a un conjunto de datos para los que no hay problemas de privacidad. Esto podría ser un conjunto de datos falso o un conjunto de datos creado pensando en el uso público. Estos datos públicos están separados de los datos privados, cuya privacidad se busca fuertemente. El desarrollo de modelos de lenguaje que logran DP en la tarea objetivo mientras mantienen un rendimiento cercano al estado del arte ha sido posible recientemente, en particular, mediante el uso de grandes volúmenes de datos públicos generales para el entrenamiento previo. .

Evitar por completo el uso de datos privados es un enfoque definitivo para proteger la privacidad, y las investigaciones recientes han ofrecido numerosas estrategias para hacerlo. Por ejemplo, al emplear el aprendizaje de disparo cero, se puede entrenar un modelo visual con datos públicos de una modalidad diferente (como texto) sin siquiera ver los datos privados. Para entrenar utilizando el aprendizaje de pocos disparos, generalmente se pueden obtener o crear algunas muestras de datos públicos etiquetados a partir de la distribución de tareas, mientras se evita el uso de datos privados.

🔥 Recomendado:  Las 7 mejores opciones de complementos de preparación de WordPress para realizar copias de seguridad y amp; Proteja su sitio web

Ignorar esto último no es una técnica deseable para proteger la privacidad porque puede haber un ligero cambio de dominio entre los datos públicos y privados. Por lo tanto, el problema es cómo emplear datos privados y bits modestos de datos públicos para superar el compromiso entre precisión y privacidad.

Para hacer esto, los investigadores de Amazon modificaron recientemente el entorno de un estudio de la mayoría del trabajo en DP para etiquetar las fuentes de datos públicos con las mismas etiquetas que la tarea objetivo. Esta configuración se conoce como MixDP o privacidad diferencial mixta. Los investigadores sugirieron usar los datos públicos para crear un clasificador para el aprendizaje de pocas o ninguna oportunidad en las tareas de destino, antes del ajuste privado, para superar MixDP.

En comparación con la capacitación solo con datos privados o públicos, incluso con una cantidad modesta de estos últimos, los investigadores demostraron que era posible obtener ganancias considerables en el entorno MixDP. Para lograrlo, ajustaron los algoritmos de entrenamiento de DP ya existentes al entorno mixto, lo que dio como resultado la creación de AdaMix, un método para MixDP que utiliza datos públicos para ajustar y adaptar todas las fases importantes del entrenamiento privado, en particular la inicialización del modelo y el recorte de gradiente. , y proyección en un subespacio de dimensiones inferiores.

Las largas colas de los datos son cruciales para un buen rendimiento de clasificación en las tareas de clasificación visual. Los valores atípicos o colas largas tienen un impacto significativo en DP porque es un marco de peor caso. MixDP resuelve el problema al permitir la recopilación de datos abiertos para garantizar que cada subpoblación esté adecuadamente cubierta. Los investigadores demostraron la convergencia del algoritmo junto con una restricción nueva y más fuerte para la situación fuertemente convexa. El equipo pudo comparar la utilidad del algoritmo con la de su equivalente no privado, gracias a esto también.

🔥 Recomendado:  Pruebas divididas de SEO: cómo usar las pruebas para clasificar mejor

Conclusiones.

Diferencialmente Para parámetros de privacidad realistas, los modelos privados en visión por computadora con frecuencia funcionan peor que los modelos no privados. Los investigadores de Amazon demostraron, utilizando AdaMix en el entorno de aprendizaje MixDP, que se pueden crear redes precisas que logran mejores precisiones que la capacitación totalmente privada sin comprometer la privacidad de los datos, asumiendo la existencia de una cantidad modesta de datos públicos. El equipo tiene la esperanza de que un mayor estudio en esta área contribuya a la adopción de modelos privados en más aplicaciones de visión artificial.

Este artículo está escrito como un artículo resumido por el personal de Marktechpost basado en el documento ‘Privacidad diferencial mixta en visión por computadora. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel.

Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools