Evaluación de datos sintéticos mediante el aprendizaje automático: hacia la IA

Estás leyendo la publicación: Evaluación de datos sintéticos mediante el aprendizaje automático: hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Evaluación de datos sintéticos mediante el aprendizaje automático

“Puntuación de precisión deficiente” es una frase que puede causar pesadillas a muchos profesionales de la ciencia de datos al crear modelos de aprendizaje automático para problemas de clasificación. Sin embargo, un puntaje de precisión bajo puede ser una bendición en escenarios raros, especialmente cuando se realiza validación contradictoria.

La validación contradictoria se lleva a cabo para evaluar si dos conjuntos de datos provienen de la misma distribución o no. Generalmente, se usa para medir cambios de datos en conjuntos de entrenamiento y prueba utilizados en un problema de aprendizaje automático. De manera similar, la validación contradictoria se puede utilizar para evaluar la calidad de los datos sintéticos.

Datos sintéticos: una descripción general

En términos simples, los datos sintéticos son datos generados artificialmente que matemática y estadísticamente representan datos del mundo real. Los datos sintéticos se crean mediante algoritmos (p. ej., SMOTE, ADASYN, codificadores automáticos variacionales, GAN, etc.) y se pueden utilizar como sustituto de los datos del mundo real al realizar análisis de datos y crear modelos de aprendizaje automático.

Los datos sintéticos permiten la privacidad de los datos, ya que enmascaran información confidencial y, por lo tanto, los datos sintéticos son invaluables en los sectores financiero y médico. Los datos sintéticos también ahorran el costo y el trabajo humano necesarios para recopilar, procesar y etiquetar conjuntos de datos masivos, ya que algunos datos bien etiquetados se pueden usar para generar montones de datos sintéticos.

Dado que hay muchas formas de generar datos sintéticos, debe haber un método de evaluación adecuado para medir la calidad de los datos sintéticos en relación con los datos del mundo real. Para tal evaluación, este artículo se centra en la validación contradictoria.

🔥 Recomendado:  Una inmersión profunda en MeanIoU: una métrica de evaluación para la detección de objetos

Puede obtener más información sobre datos sintéticos y sobre cómo generar datos sintéticos utilizando implementaciones GAN potentes y de código abierto consultando este artículo:

GAN para generación de datos sintéticos

Introducción a la validación acusatoria

El aprendizaje automático tiene muchas aplicaciones emocionantes e innovadoras: desde detectar gatos y perros hasta resaltar con precisión tumores en imágenes de resonancia magnética. En este artículo, veremos cómo se puede usar el aprendizaje automático para determinar las similitudes entre dos conjuntos de datos, es decir, la validación contradictoria.

La teoría detrás de la validación contradictoria es bastante simple: se entrena un modelo de clasificación para distinguir entre dos conjuntos de datos, es decir, el tren y los conjuntos de prueba. Se crean etiquetas para cada dato, indicando si los datos son del conjunto de trenes o no, y las nuevas etiquetas se usan como objetivos para entrenar el modelo.

En un problema de clasificación general, una alta precisión indica que el modelo funciona bien. Pero para la validación contradictoria, una puntuación de precisión más baja indica un mejor rendimiento. Una puntuación de precisión más baja significa que el modelo tiene problemas para distinguir entre las dos clases de datos (del conjunto de entrenamiento o no). Muestra que la distribución del conjunto de trenes y el conjunto de prueba son similares entre sí. Si se obtiene una alta precisión, el modelo no tiene problemas para distinguir entre el tren y el conjunto de prueba, por lo que se puede concluir que tanto el tren como el conjunto de prueba tienen distribuciones diferentes.

Evaluación de datos sintéticos con validación contradictoria

La validación contradictoria también se puede utilizar para determinar la calidad de los datos sintéticos. En lugar de usar un conjunto de entrenamiento y prueba, los datos reales y los datos sintéticos se usan para entrenar un modelo de aprendizaje automático. Si el modelo funciona mal, indica que los datos sintéticos y los datos reales tienen propiedades similares, y si el modelo funciona excepcionalmente bien, muestra que los datos reales y los datos sintéticos son completamente diferentes entre sí.

🔥 Recomendado:  15 maneras fáciles de ganar $ 30 rápido que realmente funcionan

Para este experimento, se utiliza el popular algoritmo que se utiliza para generar datos sintéticos, SMOTE (técnica de sobremuestreo de minorías sintéticas), y los datos generados, junto con los datos reales, se utilizarían para entrenar el modelo.

El Objetos terrestres más cercanos El conjunto de datos se utiliza para entrenar el modelo. Un conjunto de datos relativamente simple que comprende detalles del diámetro, la distancia desde la Tierra, la distancia perdida, etc., de los asteroides que son verificados por la NASA. Cada asteroide está etiquetado si es peligroso para la Tierra, y solo los asteroides peligrosos se consideran para este experimento.

Inicialmente, los datos se cargan y los campos innecesarios de los datos se eliminan.

Como todas las características de los datos son numéricas, escalador robusto se utiliza para escalar los datos.

Los datos preprocesados ​​se utilizan para generar datos sintéticos. Los datos minoritarios (es decir, los asteroides peligrosos) se utilizan para generar datos sintéticos utilizando SMOTE. Después de generar datos sintéticos, se eliminan los asteroides no peligrosos.

Ahora se elimina la etiqueta peligrosa y se crea un marco de datos separado, que consta solo de los datos sintéticos.

Se crea una nueva etiqueta (is_synth) para los datos reales, que consisten solo en asteroides peligrosos y los datos sintéticos. Esta etiqueta indica si una fila particular de datos es sintética o no. Luego, tanto los datos sintéticos como los reales se fusionan para crear los datos de entrenamiento finales.

Después de crear los datos finales, los datos se dividen para entrenar y probar conjuntos, se escalan y luego se entrena un clasificador en el conjunto de entrenamiento. LuzGBM model, una poderosa biblioteca de modelos de Gradient Boost, se selecciona como modelo de clasificación. Una vez que se entrena el modelo, el conjunto de prueba se utiliza para evaluar el rendimiento del modelo.

El modelo está funcionando con una precisión del 68,67 %. Esto indica que el modelo tiene problemas para clasificar qué datos son sintéticos o reales. Por lo tanto, se puede concluir que el algoritmo SMOTE está funcionando bien para datos de asteroides peligrosos al generar ejemplos sintéticos.

🔥 Recomendado:  12 formas legítimas de ganar dinero viendo videos

El repositorio de los trabajos de este artículo se puede encontrar aquí.

Ultimas palabras

En el desarrollo actual de IA centrado en datos, los datos sintéticos son de suma importancia. Hay muchas herramientas y bibliotecas disponibles para generar datos sintéticos. Sin embargo, evaluar la calidad de los datos generados puede ser problemático y esto se puede resolver realizando una validación contradictoria.

La validación contradictoria generalmente se realiza para evaluar el cambio de datos entre los datos de entrenamiento y los datos en la inferencia. Este artículo proporciona una implementación práctica del uso de la validación contradictoria para determinar la calidad de los datos sintéticos con respecto a los datos reales.

Construimos un modelo de clasificación de aprendizaje automático utilizando datos sintéticos y datos reales. Se crean nuevas etiquetas para los datos, indicando si un dato en particular es sintético o no. Durante la evaluación, si el modelo funciona bien (con una puntuación alta), significa que el modelo puede separar claramente los datos reales de los sintéticos. Por lo tanto, los datos sintéticos son diferentes en comparación con los datos reales, y si el modelo tiene una puntuación baja, se puede concluir que los datos sintéticos y los datos reales son similares.

Espero que haya aprendido un método relativamente simple para evaluar datos sintéticos. Espero que hayan disfrutado el artículo, y me encantaría escuchar sus comentarios sobre este artículo, ya que me ayudarían a mejorar. ¡Salud!


La evaluación de datos sintéticos mediante el aprendizaje automático se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA