Estás leyendo la publicación: Expertos advierten contra ‘inserciones maliciosas’ en conjuntos de datos de IA en ChatGPT
La tecnología ChatGPT se está volviendo cada vez más popular, pero recientemente investigación sugiere que esta tecnología puede ser vulnerable debido a los datos de entrenamiento que utiliza. A medida que los modelos se vuelven más complejos y los conjuntos de datos se vuelven más grandes y complejos, los actores malintencionados podrían aprovechar esta vulnerabilidad para manipular los conjuntos de datos y hacer que los modelos de aprendizaje automático produzcan resultados inexactos.
La principal preocupación es que las bases de datos de chatbots a menudo son conjuntos de datos “verificados condicionalmente”, lo que significa que hay un cierto nivel de confianza en los datos sin una verificación exhaustiva. En otras palabras, estos conjuntos de datos a menudo pueden tener problemas subyacentes que no se han considerado. Aunque la validación de conjuntos de datos a menudo no se realiza debido a su gran tamaño, existe la posibilidad de que actores maliciosos manipulen estos datos.
De hecho, los investigadores han sugerido que para 2022, los atacantes podrían gastar aproximadamente $60 para envenenar el 0,01 % de los conjuntos de datos LAION-400 o COYO-700. Aunque esto no parece mucho, los actores maliciosos podrían usar estos datos envenenados para su propio beneficio si no se controlan. Los datos maliciosos pueden eventualmente filtrarse en conjuntos de datos más grandes, corromper la calidad de los datos y generar modelos de aprendizaje automático poco confiables.
Es necesario tomar medidas para salvaguardar las bases de datos contra datos maliciosos. Agregar varias fuentes de datos debería convertirse en el estándar para los conjuntos de datos de entrenamiento de chatbots para garantizar que los datos sean confiables y precisos. Además, las empresas deben experimentar con conjuntos de datos para asegurarse de que no sean vulnerables a actores malintencionados.
Los chatbots de IA con código malicioso pueden ser vulnerables a la piratería
La amenaza del código malicioso en los chatbots puede ser bastante grave; El código malicioso se puede usar para robar datos de usuarios, habilitar el acceso malicioso a los servidores y permitir actividades maliciosas como el lavado de dinero o la exfiltración de datos. Si un chatbot de IA se entrena con datos con inserciones maliciosas, podría, sin saberlo, inyectar el código malicioso en sus respuestas y, sin saberlo, ser utilizado como una herramienta para obtener ganancias maliciosas.
Es posible que los actores malintencionados se aprovechen de esta vulnerabilidad introduciendo código malicioso de forma deliberada o inadvertida en los datos de entrenamiento. Además, dado que los chatbots de IA aprenden de los datos que se les presentan, esto también podría llevarlos a aprender respuestas incorrectas o incluso comportamientos maliciosos.
Otro peligro que pueden enfrentar los chatbots de IA es el “sobreajuste”. Esto es cuando los modelos de predicción se entrenan demasiado cerca de los datos que se les proporcionaron, lo que lleva a predicciones deficientes cuando se les presentan nuevos datos. Esto puede ser un problema particular, ya que los chatbots de IA entrenados en código malicioso podrían volverse más efectivos para inyectar código malicioso en sus respuestas a medida que se familiaricen con los datos.
Es esencial ser consciente de los riesgos y tomar precauciones para garantizar que los datos de entrenamiento utilizados para enseñar ChatGPT sean seguros y confiables para evitar estas posibles debilidades. Los datos iniciales utilizados para el entrenamiento también deben mantenerse separados y únicos; la promoción de “inserciones maliciosas” no debe entrar en conflicto con otras fuentes ni superponerse con ellas. Debe examinarse y compararse con otros dominios si es factible “capturar” múltiples dominios confirmados para validar los datos.
La tecnología Chatbot promete transformar la forma en que las personas llevan a cabo discusiones humanas. Pero antes de que pueda desarrollar todo su potencial, debe mejorarse y salvaguardarse. Los conjuntos de datos para chatbots deben verificarse bien y prepararse para defenderse de los actores malintencionados. Al hacer esto, podemos asegurarnos de utilizar completamente el potencial de la tecnología y seguir superando los límites de la inteligencia artificial.
Lea más sobre la IA: