Devaluando las acciones con retweets creados adversariamente

Estás leyendo la publicación: Devaluando las acciones con retweets creados adversariamente

Una colaboración de investigación conjunta entre universidades de EE. UU. e IBM ha formulado un ataque adversario de prueba de concepto que teóricamente es capaz de causar pérdidas en el mercado de valores, simplemente cambiando una palabra en un retweet de una publicación de Twitter.

En un experimento, los investigadores pudieron entorpecer el modelo de predicción de Stocknet con dos métodos: un ataque de manipulación y un ataque de concatenación.  Fuente: https://arxiv.org/pdf/2205.01094.pdf

En un experimento, los investigadores pudieron entorpecer el modelo de predicción de Stocknet con dos métodos: un ataque de manipulación y un ataque de concatenación. Fuente: https://arxiv.org/pdf/2205.01094.pdf

La superficie de ataque para un ataque adversario en los sistemas de predicción de acciones automatizados y de aprendizaje automático es que un número creciente de ellos confían en las redes sociales orgánicas como predictores de rendimiento; y que la manipulación de estos datos ‘en estado salvaje’ es un proceso que puede, potencialmente, formularse de forma fiable.

Además de Twitter, los sistemas de esta naturaleza ingieren datos de Reddit, StockTwits y Yahoo News, entre otros. La diferencia entre Twitter y las otras fuentes es que los retweets son editables, incluso si los tweets originales no lo son. Por otro lado, solo es posible hacer publicaciones adicionales (es decir, comentarios o relacionadas) en Reddit, o comentar y calificar, acciones que las rutinas y prácticas de saneamiento de datos de acciones basadas en ML tratan correctamente como partidistas y egoístas. sistemas de predicción.

En un experimento, en el calcetín predicción modelolos investigadores pudieron causar caídas notables en la predicción del valor de las acciones mediante dos métodos, el más efectivo de los cuales, el ataque de manipulación (es decir, retweets editados), fue capaz de causar las caídas más severas.

Esto se logró, según los investigadores, mediante la simulación de una sola sustitución en un retweet de una fuente financiera ‘respetada’ de Twitter:

Las palabras importan.  Aquí, la diferencia entre 'llenado' y 'ejercido' (no es una palabra abiertamente maliciosa o engañosa, sino casi categorizada como un sinónimo) teóricamente le ha costado a un inversionista miles de dólares en devaluación de acciones.

Las palabras importan. Aquí, la diferencia entre ‘llenado’ y ‘ejercido’ (no es una palabra abiertamente maliciosa o engañosa, sino casi categorizada como un sinónimo) teóricamente le ha costado a un inversionista miles de dólares en devaluación de acciones.

El documento dice:

“Nuestros resultados muestran que el método de ataque propuesto puede lograr tasas de éxito consistentes y causar pérdidas monetarias significativas en la simulación comercial simplemente concatenando un tweet perturbado pero semánticamente similar”.

Los investigadores concluyen:

🔥 Recomendado:  Por qué la subcontratación de escritores podría ser mejor para su negocio

‘Este trabajo demuestra que nuestro método de ataque contradictorio engaña constantemente a varios modelos de pronóstico financiero, incluso con restricciones físicas que impiden modificar el tuit sin procesar. Al agregar un retweet con solo una palabra reemplazada, el ataque puede causar una pérdida adicional del 32% en nuestra cartera de inversiones simulada.

“A través del estudio de la vulnerabilidad del modelo financiero, nuestro objetivo es aumentar la conciencia de la comunidad financiera sobre los riesgos del modelo de IA, para que en el futuro podamos desarrollar una arquitectura de IA humana en el circuito más robusta”.

El papel se titula Una palabra vale más que mil dólares: ataque contradictorio a tuits que engañan a la predicción de accionesy proviene de seis investigadores, provenientes de diversas formas de la Universidad de Illinois Urbana-Champaign, la Universidad Estatal de Nueva York en Buffalo y la Universidad Estatal de Michigan, con tres de los investigadores afiliados a IBM.

Palabras desafortunadas

El documento examina si el campo bien estudiado de los ataques adversarios en los modelos de aprendizaje profundo basados ​​en texto es aplicable a los modelos de predicción del mercado de valores, cuya destreza de pronóstico depende de algunos factores muy “humanos” que solo pueden inferirse aproximadamente de las fuentes de las redes sociales.

Como señalan los investigadores, el potencial de la manipulación de las redes sociales para afectar los precios de las acciones ha sido bien demostrado, aunque todavía no por los métodos propuestos en el trabajo; en 2013 un tweet malicioso reclamado por Siria en la cuenta de Twitter pirateada de Associated Press borró $ 136 mil millones de dólares del valor del mercado de acciones en unos tres minutos.

El método propuesto en el nuevo trabajo implementa un ataque de concatenación, que deja intacto el tweet original, pero lo cita incorrectamente:

Del material complementario del artículo, ejemplos de retuits que contienen sinónimos sustituidos que cambian la intención y el significado del mensaje original, sin distorsionarlo de tal manera que los humanos o los filtros simples puedan captarlo, pero que pueden explotar los algoritmos en Sistemas de predicción del mercado de valores.

Del material complementario del artículo, ejemplos de retuits que contienen sinónimos sustituidos que cambian la intención y el significado del mensaje original, sin distorsionarlo de tal manera que los humanos o los filtros simples puedan captarlo, pero que pueden explotar los algoritmos en Sistemas de predicción del mercado de valores.

Los investigadores han abordado la creación de retweets contradictorios como optimización combinatoria problema: la elaboración de ejemplos adversarios capaces de engañar a un modelo de víctima, incluso con un vocabulario muy limitado.

🔥 Recomendado:  Dreyer's English: ¿Prohibir ciertas palabras podría mejorar mi copia?

Sustitución de palabras usando sememas: la 'unidad semántica mínima de los lenguajes humanos'.  Fuente: https://aclanthology.org/2020.acl-main.540.pdf

Sustitución de palabras usando sememas – la ‘unidad semántica mínima de los lenguajes humanos’. Fuente: https://aclanthology.org/2020.acl-main.540.pdf

El documento observa:

“En el caso de Twitter, los adversarios pueden publicar tweets maliciosos que están diseñados para manipular modelos posteriores que los toman como entrada.

“Proponemos atacar mediante la publicación de tweets contradictorios semánticamente similares a los retweets en Twitter, para que puedan identificarse como información relevante y recopilarse como entrada modelo”.

Para cada tuit en un grupo especialmente seleccionado, los investigadores resolvieron el problema de selección de palabras bajo las limitaciones de los presupuestos de palabras y tuits, que imponen severas restricciones en términos de divergencia semántica de la palabra original y la sustitución de una palabra “maliciosa/benigna”. .

Los tweets contradictorios se formulan en función de los tweets pertinentes que probablemente se permitan en los sistemas de predicción de acciones posteriores. El tuit también debe pasar sin obstáculos por el sistema de moderación de contenido de Twitter y no debe parecer contrafactual para el observador humano casual.

Siguiente trabajo prioritario (de la Universidad Estatal de Michigan, junto con CSAIL, MIT y MIT-IBM Watson AI Lab), las palabras seleccionadas en el tweet de destino se reemplazan con sinónimos de un grupo limitado de posibilidades de sinónimos, todos los cuales deben ser semánticamente muy cercanos al original palabra, manteniendo su ‘influencia corruptora’, basada en el comportamiento inferido de los sistemas de predicción del mercado de valores.

Los algoritmos utilizados en los experimentos posteriores fueron el solucionador de optimización conjunta (JO) y el solucionador de optimización codiciosa alterna (AGO).

Conjuntos de datos y experimentos

Este enfoque se probó en un conjunto de datos de predicción de acciones que comprende 10 824 ejemplos de tweets pertinentes e información sobre el desempeño del mercado en 88 acciones entre 2014-2016.

🔥 Recomendado:  Que no cunda el pánico, pero los precios de las GPU están empezando a subir de nuevo

Se eligieron tres modelos de ‘víctima’: calcetín; FinGRU (un derivado de GRU); y FinLSTM (un derivado de LSTM).

Las métricas de evaluación consistieron en la Tasa de Éxito de Ataque (ASR) y una caída en el modelo de víctima Puntuación F1 después del ataque adversario. Los investigadores simularon un Compra-Retención-Venta de solo largo plazo estrategia para las pruebas. Las ganancias y pérdidas (PnL) también se calcularon en las simulaciones.

Resultados de los experimentos.  También vea el primer gráfico en la parte superior de este artículo.

Resultados de los experimentos. También vea el primer gráfico en la parte superior de este artículo.

Bajo JO y AGO, ASR aumenta en un 10 % y la puntuación F1 del modelo cae en un 0,1 en promedio, en comparación con un ataque aleatorio. Los investigadores señalan:

‘Semejante [a] La caída del rendimiento se considera significativa en el contexto de la predicción de acciones, dado que la precisión de la predicción de última generación del rendimiento interdiario es de solo alrededor del 60 %.

En el tramo de pérdidas y ganancias del ataque (virtual) a Stocknet, los resultados de los retweets adversarios también fueron dignos de mención:

‘Para cada simulación, el inversionista tiene $10K (100%) para invertir; los resultados muestran que el método de ataque propuesto con un retweet con solo un reemplazo de palabra puede causarle al inversor una pérdida adicional de $ 3.2K (75% -43%) en su cartera después de aproximadamente 2 años.’

Publicado por primera vez el 4 de mayo de 2022.