Estás leyendo la publicación: ¿Cómo realizar un agrupamiento rápido y explicable usando CLASSIX?
Un clúster es un grupo de objetos homogéneos; en otras palabras, los objetos con propiedades similares se recopilan en un grupo, mientras que las cosas con propiedades diferentes se recopilan en otro. El agrupamiento es el proceso de clasificar objetos en una serie de grupos en los que los objetos de cada grupo son sustancialmente similares a los de otros grupos. Hasta ahora se han utilizado varios algoritmos de agrupamiento, como el agrupamiento de K-Means, el agrupamiento de cambio de media, etc. Pero en este artículo, analizaremos la caja de herramientas, llamada CLASSIX, para el agrupamiento que realiza el agrupamiento de manera más precisa y rápida, pero también explica cómo es transportado. A continuación se enumeran los puntos principales que se discutirán en esta publicación.
Tabla de contenido
- ¿Qué es la agrupación?
- ¿Cómo agrupa CLASSIX los datos?
- Implementando CLASSIX en Python
Primero analicemos el agrupamiento.
¿Qué es la agrupación?
La agrupación es el proceso de juntar elementos para que los miembros del mismo grupo (conglomerado) sean más comunes con sus pares que los miembros de otros grupos. La agrupación en clústeres analiza todos los datos de entrada y se usa comúnmente en los métodos de aprendizaje automático (ML).
Cuando los profesionales del aprendizaje automático crean un clúster, examinan todos los diferentes puntos de datos y los agrupan en función de las características que tienen en común con otros datos. El algoritmo determina la estrategia de agrupación.
Los procedimientos de agrupamiento pueden implicar calcular la distancia promedio entre puntos de datos en espacios dimensionales, contar el número de intervalos para cada conjunto de datos, predecir el número de grupos o basarlos en áreas de datos densas. La agrupación produce vínculos explícitos entre puntos de datos, así como explicaciones de por qué cada punto de datos pertenece a su grupo.
¿Cómo agrupa CLASSIX los datos?
Los algoritmos de agrupamiento basados en la distancia, como k-means, tienen en cuenta la distancia por pares entre los puntos al decidir si deben agruparse o no. DBSCAN y otros algoritmos de agrupamiento basados en densidad adoptan un enfoque más global, asumiendo que los datos ocurren en zonas continuas de alta densidad rodeadas por regiones de baja densidad.
Muchos métodos de agrupación en clústeres basados en la densidad tienen la ventaja de poder manejar clústeres de cualquier forma sin tener que definir el número de clústeres por adelantado. Ellos, en cambio, suelen necesitar un mayor ajuste de parámetros.
CLASSIX es un método que comparte características de los métodos basados en la distancia y la densidad. El enfoque se divide en dos etapas: agregación y fusión. Los puntos de datos se clasifican junto con su primer componente principal y luego se agrupan utilizando una técnica de agregación codiciosa durante la fase de agregación.
La clasificación es esencial para atravesar los datos con una complejidad casi lineal, siempre que el número de cálculos de distancia por pares sea modesto. Si bien la clasificación inicial requiere una complejidad de caso promedio, solo se realiza en valores escalares, independientemente de la dimensionalidad del punto de datos. Como resultado, el costo de esta clasificación inicial es casi insignificante en comparación con los cálculos de datos de dimensión completa.
Después del paso de agregación, los grupos superpuestos se fusionan en clústeres utilizando un criterio basado en la distancia o la densidad. Aunque el criterio de fusión basado en la densidad produce clústeres marginalmente mejores que el criterio basado en la distancia, este último es significativamente más rápido. CLASSIX está controlado por solo dos parámetros y su configuración es simple.
En resumen, el parámetro radius determina el tamaño de clúster mínimo permitido, mientras que el parámetro minPts especifica la tolerancia de agrupación en la fase de agregación. Esto es idéntico a la configuración utilizada en DBSCAN, sin embargo, CLASSIX no ejecuta búsquedas de rango espacial para cada punto de datos debido a la clasificación inicial de los puntos de datos.
Implementación de CLASSIX en Python
En esta sección, realizaremos la agrupación en clústeres en el conjunto de datos de IRIS eliminando la columna de destino y creando un problema completamente sin supervisión. Como se discutió anteriormente, vamos a usar el método CLASSIX para agrupar datos, aquí estoy configurando el radio en 0.35, el método de búsqueda a tientas a la densidad, los puntos mínimos en la agrupación en 3 puntos.
Ahora primero instalemos rápidamente, importemos las dependencias y preparemos el conjunto de datos.
# instalar biblioteca !pip instalar ClassixClustering # importar importar pandas como pd importar matplotlib.pyplot como plt desde classix importar CLASSIX # preparar datos datos = pd.read_csv(‘/content/IRIS.csv’) data.drop([‘species’]en el lugar=Verdadero, eje=1)
Ahora solo necesitamos llamar a la función configurando los parámetros como se mencionó anteriormente y ajustar los datos.
# inicializar el agrupamiento clx = CLASSIX(radius=0.35, minPts=3, group_merging=’density’) # ajustar los datos clx.fit(data)
Después de la instalación, este método le dará resultados de agrupación como se muestra a continuación.
Como hemos establecido minPts en 3, el algoritmo aglomerará el clúster que tenga puntos menores que los minPts a los clústeres más grandes. Ahora vamos a comprobar esto visualmente.
# visualizar los clústeres plt.figure(figsize=(5,5)) plt.scatter(data.values[:,0]datos.valores[:,2]c=clx.etiquetas_) plt.mostrar()
Aparte de esto, este algoritmo es tan capaz que puede dar una breve explicación de cómo ha agrupado los datos utilizando el método .explicar().
# explicando los clústeres clx.explain()
Ultimas palabras
A lo largo de este artículo, hemos discutido el agrupamiento. Más tarde, analizamos un enfoque de agrupamiento rápido basado en la clasificación de puntos de datos por su primera coordenada principal, que es CLASSIX. La agregación rápida de puntos de datos vecinos en grupos es una característica crucial de CLASSIX. Debido a la simplicidad de los procesos de agregación y fusión, los resultados de la agrupación pueden explicarse, como hemos mostrado. Se llevan a cabo más experimentos en este conjunto de datos que se menciona en el enlace del cuaderno en la referencia.