Estás leyendo la publicación: Este documento explica el impacto de la reducción de la dimensionalidad en la detección de valores atípicos
La reducción de dimensionalidad combinada con la detección de valores atípicos es una técnica que se utiliza para reducir la complejidad de los datos de alta dimensión mientras se identifican valores anómalos o extremos en los datos. El objetivo es identificar patrones y relaciones dentro de los datos mientras se minimiza el impacto del ruido y los valores atípicos.
Las técnicas de reducción de dimensionalidad como el análisis de componentes principales (PCA) y t-SNE pueden transformar datos de alta dimensión en un espacio de menor dimensión mientras se conserva la información más importante. Luego se pueden aplicar algoritmos de detección de valores atípicos a los datos de dimensiones reducidas para identificar valores extremos que pueden indicar errores, anomalías o patrones interesantes.
La reducción de dimensionalidad combinada con la detección de valores atípicos tiene aplicaciones en finanzas, medicina, procesamiento de imágenes y procesamiento de lenguaje natural. Se puede usar para identificar transacciones fraudulentas en finanzas, detectar anomalías en datos de pacientes en medicina, identificar patrones inusuales en imágenes en el procesamiento de imágenes e identificar patrones inusuales en datos de texto, como correos electrónicos no deseados y análisis de sentimientos en el procesamiento del lenguaje natural.
Recientemente, un equipo de investigación de EE. UU. publicó un artículo que investiga la eficacia de las técnicas de detección de valores atípicos en dimensiones más bajas y la precisión de las técnicas de reducción de dimensiones para identificar valores atípicos. El objetivo es comprender cuántos datos se pueden visualizar mientras se conservan las características de los valores atípicos.
La idea principal del artículo es investigar el impacto de la reducción de dimensiones en la precisión de las técnicas de detección de valores atípicos. Los autores tienen como objetivo explorar hasta qué punto los valores atípicos aún pueden identificarse con precisión a medida que se reduce la dimensionalidad de los datos. Emplean varias técnicas de reducción de dimensionalidad de uso común y métodos de detección de valores atípicos para probar su hipótesis en varios conjuntos de datos reales. La contribución del artículo radica en proporcionar evidencia empírica sobre la efectividad de las técnicas de detección de valores atípicos en dimensiones más bajas y el papel de la reducción de dimensiones en la preservación de las características intrínsecas de los valores atípicos.
En este estudio experimental, los autores exploraron varias técnicas de reducción de dimensionalidad y su capacidad para detectar valores atípicos en conjuntos de datos de alta dimensión. Los autores realizaron experimentos en 18 conjuntos de datos diferentes y compararon los resultados de la detección de valores atípicos utilizando varios métodos, incluidos Isolation Forest, PCA, UMAP y Angle Based Outlier Detection (ABOD). El estudio encontró que Isolation Forest y PCA eran los mejores métodos para la detección de valores atípicos, con Isolation Forest cometiendo menos errores al usar PCA para la reducción de dimensionalidad. El estudio también investigó el impacto de agregar una dimensión adicional de distancias euclidianas al conjunto de datos, lo que aumentó la cantidad de valores atípicos verdaderos detectados. LOF fue el mejor método para detectar verdaderos valores atípicos en comparación con ABOD y Isolation Forest. Sin embargo, el estudio concluyó que el método no indujo la calidad sino que aumentó la cantidad de valores atípicos verdaderos detectados correctamente en la mayoría de los casos. El estudio proporciona diagramas de dispersión y un gráfico de barras para ilustrar los resultados de los experimentos.
Este estudio examinó la relación entre la reducción de la dimensionalidad y la detección de valores atípicos mediante la evaluación de varias técnicas estándar de detección de valores atípicos en varios conjuntos de datos utilizando técnicas comunes de reducción de la dimensionalidad. Los resultados mostraron que, si bien la estabilidad de las técnicas de detección de valores atípicos puede disminuir en espacios de menor dimensión, su capacidad para encontrar valores atípicos verdaderos a menudo mejora. Sin embargo, el estudio se limitó a datos numéricos y fue únicamente empírico. En el futuro, los investigadores planean explorar este problema teóricamente y expandir su estudio para incluir datos categóricos y mixtos. También planean investigar el uso de técnicas de detección de valores atípicos de última generación para identificarlos y utilizar la reducción de dimensionalidad para visualizarlos y explicarlos.