Estás leyendo la publicación: Un nuevo método para evaluar el rendimiento de modelos entrenados con datos sintéticos cuando se aplican a datos del mundo real
Los modelos de calificación crediticia son cruciales para evaluar y administrar el riesgo crediticio dentro de las instituciones financieras. Sin embargo, es limitado debido a los desafíos en la obtención de datos de las instituciones financieras para proteger la información privada de los prestatarios. Los modelos generativos para la generación de datos sintéticos pueden proporcionar una solución mediante la creación de datos sintéticos que se asemejan a los datos del mundo real, lo que permite la investigación sin comprometer la privacidad. Los datos sintéticos también pueden mejorar la precisión de los modelos de calificación crediticia al aumentar los datos limitados del mundo real.
El uso de datos sintéticos en la calificación crediticia se ha limitado principalmente a abordar datos desequilibrados en problemas de clasificación utilizando técnicas como SMOTE, codificadores automáticos variacionales y redes antagónicas generativas. Estos métodos se han propuesto y utilizado en estudios recientes para generar datos sintéticos que se pueden utilizar para equilibrar la clase minoritaria y mejorar la precisión de los modelos de calificación crediticia. Recientemente, un nuevo documento presentó un marco novedoso para entrenar modelos de calificación crediticia en datos sintéticos y aplicarlos a datos del mundo real al mismo tiempo que analiza la capacidad del modelo para manejar la deriva de datos. Los principales hallazgos sugieren que es posible entrenar un modelo con datos sintéticos que funcione bien pero con un costo de rendimiento por trabajar en un entorno de preservación de la privacidad, lo que resulta en una pérdida de poder predictivo.
En el trabajo propuesto, se utiliza un conjunto de datos proporcionado por una institución financiera, que incluye información financiera del prestatario y funciones de interacción social durante dos períodos, enero de 2018 y enero de 2019, cada uno con 500 000 personas. Los prestatarios se etiquetan en función de su comportamiento de pago en el siguiente período de observación de 12 meses. Para generar datos sintéticos que imiten el comportamiento del mundo real y mantengan la privacidad, se comparan dos generadores de datos sintéticos de última generación, CTGAN y TVAE, utilizando diferentes configuraciones, y se selecciona la mejor. Luego, se entrena un nuevo sintetizador con la mejor configuración y el conjunto de funciones se amplía con funciones de interacción social. Finalmente, se propone un marco para estimar la solvencia de los prestatarios, utilizando la selección de características y un esquema de validación cruzada de K-fold. El rendimiento se evalúa utilizando varias métricas, como AUC, KS y F1-score.
Los autores implementaron la metodología utilizando las bibliotecas Networkx y Synthetic Data Vault de Python. El rendimiento de los dos generadores de datos sintéticos, CTGAN y TVAE, se comparó utilizando dos arquitecturas diferentes y diferentes conjuntos de funciones. Los resultados muestran que TVAE tuvo tiempos de ejecución más rápidos y un mejor rendimiento en la síntesis de características tanto continuas como categóricas. Además, se entrenó un modelo de regresión logística para distinguir entre datos reales y sintéticos, y los resultados indican que TVAE logró el mejor desempeño. Aún así, este rendimiento disminuyó a medida que se incluyeron más funciones en el sintetizador. Los autores compararon el rendimiento de los modelos de evaluación de la solvencia capacitados con datos sintéticos y datos del mundo real. Capacitaron a los clasificadores con datos del mundo real y probaron su rendimiento con conjuntos de datos de reserva. Los resultados muestran que el algoritmo de aumento de gradiente logró un mejor rendimiento en comparación con la regresión logística. También entrenaron a clasificadores utilizando datos sintéticos y los aplicaron a datos del mundo real. Los resultados indican que el rendimiento del modelo fue similar cuando se entrenó con datos sintéticos, excepto en un caso. La comparación de rendimiento entre modelos entrenados con datos sintéticos y datos del mundo real muestra un costo por usar datos sintéticos, que corresponde a una pérdida de poder predictivo de aproximadamente 3 % y 6 % cuando se mide en AUC y KS, respectivamente.
En este artículo, presentamos un estudio que utiliza la generación de datos sintéticos para investigar la calificación crediticia y proteger la privacidad de los prestatarios. El marco propuesto entrena modelos en datos sintéticos y los aplica a datos del mundo real mientras analiza su capacidad para manejar la deriva de datos. Los resultados muestran que los modelos entrenados en datos sintéticos pueden funcionar bien pero con una pérdida de poder predictivo. El estudio también encontró que TVAE tenía un mejor rendimiento que CTGAN, y que existe un costo en términos de pérdida de poder predictivo cuando se usan datos sintéticos.