▷ Una descripción general de la clasificación extrema de etiquetas múltiples (XML/XMLC): hacia la IA

Estás leyendo la publicación: Una descripción general de la clasificación extrema de etiquetas múltiples (XML/XMLC): hacia la IA

Publicado originalmente en Hacia la IA.

¿Quién no ha estado en Stack Overflow para encontrar la respuesta a una pregunta? Predecir correctamente las etiquetas de las preguntas es un problema muy desafiante, ya que implica la predicción de una gran cantidad de etiquetas entre varios cientos de miles de etiquetas posibles.

Los métodos de clasificación tradicionales, como las máquinas de vectores de soporte o el árbol de decisión, no están diseñados para manejar una cantidad tan grande de etiquetas debido a tres desafíos principales:

un cuello de botella debido a limitaciones de memoria
la presencia de algunas etiquetas con muy pocos ejemplos (etiquetas de cola)
las etiquetas suelen estar correlacionadas, lo que puede dificultar la distinción entre las diferentes etiquetas

En este artículo, proporcionaré una breve descripción general de la clasificación multietiqueta extrema con algunas definiciones importantes. En la segunda parte, presentaré y explicaré las cuatro categorías principales de algoritmos XML junto con algunas de sus limitaciones.

Descripción general de XMLC

El objetivo de un modelo XMLC es predecir un conjunto de etiquetas para una entrada de prueba específica. Sin embargo, los algoritmos típicos no producen un resultado binario sino que proporcionan una puntuación de relevancia para qué etiquetas son las más apropiadas. Este punto es importante ya que cambia el problema de un problema de clasificación a un problema de clasificación. Por lo tanto, las métricas de evaluación para estos algoritmos deben reflejar el aspecto de clasificación en lugar de solo la clasificación. Las etiquetas se pueden seleccionar aplicando un umbral simple en la lista clasificada proporcionada por el modelo.

Como se mencionó anteriormente, las muestras y las etiquetas no se distribuyen de manera uniforme en los problemas extremos de clasificación de etiquetas múltiples. Por ejemplo, en el conjunto de datos Wiki10–30K [1], solo el 1% de las etiquetas tienen más de 100 muestras de entrenamiento. Un modelo entrenado sin la especificidad de esta distribución de cola estará sesgado hacia las etiquetas más presentes.

Para tener en cuenta la distribución de la cola en la métrica, se debe usar métricas basadas en la propensión. Estas métricas son similares a las métricas de clasificación típicas, pero también tienen en cuenta qué tan bien se desempeña un modelo en las etiquetas de cola. Esto evita que un modelo logre una puntuación alta solo prediciendo etiquetas frecuentes. Por ejemplo, la versión basada en la propensión del [email protected] métrica es:

dónde p_l representa la propensión de una etiqueta. Por lo tanto, las etiquetas de cola tienen una puntuación inflada en la métrica.

Algoritmos XMLC de detección comprimida

La idea detrás de este tipo de algoritmo es comprimir el espacio de la etiqueta en un espacio de incrustación más pequeño. Debido a la escasez del espacio de etiquetas original, es posible recuperar las etiquetas originales de las predicciones en el espacio de etiquetas incrustado. Los algoritmos de detección comprimidos típicos se pueden descomponer en tres pasos:

: El espacio de la etiqueta está incrustado en un espacio más pequeño.
: Aprendiendo a predecir etiquetas comprimidas. Como el espacio incrustado es lo suficientemente pequeño, se pueden usar métodos típicos de clasificación de etiquetas, como la relevancia binaria, que predice cada elemento usando un clasificador binario.
: Convertir de nuevo el espacio incrustado al espacio original

Aunque este método permite el uso de algoritmos típicos de clasificación de etiquetas debido al pequeño espacio comprimido, resolver el paso de reconstrucción puede ser computacionalmente costoso. Por lo tanto, son necesarias técnicas eficientes de reducción de espacio. Una solución [2] es utilizar un enfoque SVD (Transformación de espacio de etiquetas lineal) para incrustar el espacio de etiquetas, ya que tendrá en cuenta las correlaciones de las etiquetas pero proporcionará un marco formal para comprimir y reconstruir el espacio de etiquetas original.

Se han desarrollado algoritmos de detección comprimida más avanzados teniendo en cuenta más y más correlaciones durante la compresión. Por ejemplo, es posible tener en cuenta no solo las correlaciones etiqueta-etiqueta, sino también las etiquetas y las correlaciones de características. Agregar dicha información adicional debería mejorar la clasificación en comparación con el método anterior (Transformación de espacio de etiqueta de principio).

Algoritmos XMLC basados en álgebra lineal

Los métodos basados en álgebra lineal son similares a los de detección comprimida, pero tienen como objetivo mejorar pequeñas mejoras sobre ellos. En esta sección, daré una visión general de los algoritmos basados en álgebra lineal más conocidos para realizar una clasificación extrema multietiqueta.

Selección de subconjunto: La selección de subconjuntos es el método más común utilizado para mantener manejable el problema XMLC. La idea es encontrar un buen subconjunto de etiquetas y luego aplicar un clasificador a este subconjunto para finalmente reducir las predicciones al conjunto de datos completo. Para seleccionar el subconjunto de etiquetas, se puede utilizar un procedimiento de muestreo en el que la probabilidad de una etiqueta es proporcional a la puntuación de la etiqueta en el mejor subconjunto posible.

Descomposición de rango bajo: Este método asume una descomposición de rango bajo de la matriz de etiquetas y luego utiliza un marco de método de minimización de riesgos para resolverlo. Una advertencia para la suposición de rango bajo es que, debido a la presencia de valores atípicos, esta suposición no siempre se verifica, ya que es posible que los valores atípicos no se cubran en el espacio de incrustación.

Empotramientos que preservan la distancia: El nombre de este método es sencillo. El espacio de incrustación se genera conservando las distancias entre las etiquetas. Luego, la predicción se realiza utilizando un método de k-vecino más cercano dentro del espacio de incrustación.

Suplemento de aglomeración de funciones: Este método es original ya que tiene como objetivo reducir la dimensionalidad del espacio de características directamente. En el caso de una característica escasa, este método proporciona una alta velocidad con una pérdida mínima de precisión. La reducción del espacio de características se realiza mediante la agregación de grupos de características de tamaño equilibrado. Este agrupamiento generalmente se realiza mediante el agrupamiento jerárquico.

Algoritmos basados en árboles

Los métodos basados en árboles tienen como objetivo dividir repetidamente el espacio de la etiqueta para reducir el espacio de búsqueda durante la predicción. La idea es clasificar las etiquetas en grupos para crear un espacio. Luego, cada una de las etiquetas metálicas se vincula a un clasificador de etiquetas múltiples para determinar la etiqueta metálica a la que pertenece una etiqueta. Dentro de una meta-etiqueta, debido al menor número de etiquetas, es posible utilizar un clasificador clásico para predecir la etiqueta.

Estos métodos suelen ser mucho más rápidos que el método de incrustación, ya que la estructura de árbol reduce el tiempo de formación y búsqueda. Por lo general, no funcionan mejor que los métodos de referencia, pero lo hacen mucho más rápido. Además, estos algoritmos son muy escalables ya que las meta-etiquetas permiten un coste de clasificación constante (metal-etiquetas equilibradas).

Métodos de aprendizaje profundo

Como en la mayoría de los problemas de aprendizaje automático, los métodos de aprendizaje profundo han comenzado a usarse en la clasificación extrema de etiquetas. Sin embargo, el uso de tales métodos solo ha sido reciente debido al hecho de que la gran cola de las etiquetas implica una pequeña cantidad de datos de entrenamiento disponibles para tales etiquetas. Esto contrasta con lo que requieren los métodos de aprendizaje profundo. El espacio es grande, y el modelo tiene que ser grande también.

Sin embargo, el aprendizaje profundo es extremadamente eficiente en la extracción de contenido y brinda incrustaciones muy representativas. Inicialmente, se utilizaron redes neuronales convolucionales para extraer las incrustaciones, pero este enfoque se eliminó porque se demostró que no es el más eficiente para las incrustaciones de texto. El marco general para los métodos de aprendizaje profundo aplicados a XML se denomina XML profundo y ha sido definido por [3].

Este marco tiene cuatro módulos:

El primer módulo tiene como objetivo obtener una incrustación intermedia de las funciones que se utilizarán más adelante. Esto podría significar una agrupación de etiquetas o una proyección de etiquetas para mantener el problema manejable.
El segundo módulo utiliza lo que se llama muestreo negativo. El muestreo negativo selecciona las etiquetas más confusas de una muestra que se supone que se predice positivamente. Esto tiene el efecto de reducir el tiempo de entrenamiento por etiqueta, ya que solo entrenaremos en muestras duras.
El tercer módulo da la representación de las características finales haciendo uso del aprendizaje por transferencia.
Finalmente, el módulo final corresponde al clasificador. Debido al muestreo negativo, la cantidad de capacitación es limitada y es tratable mediante un método de aprendizaje profundo.

Los métodos de aprendizaje profundo han superado a todos los demás métodos XML, como los basados en árboles. Sin embargo, esto tiene un costo de tiempo de entrenamiento y espacio de memoria.

Desde el etiquetado de documentos hasta la recomendación y publicidad de productos, XML ha utilizado un conjunto muy diverso de problemas. Recientemente se ha trabajado [4] en la clasificación multietiqueta extrema multimodal. Este amplio uso de métodos XML en productos de todos los días es lo que requiere una mayor exploración de métodos XML, como los de aprendizaje profundo.

Referencias

[1] Bhatia, K. y Dahiya, K. y Jain, H. y Kar, P. y Mittal, A. y Prabhu, Y. y Varma, M., 2016.

[2] Farbound Tai y Hsuan-Tien Lin. 2012

[3] Kunal Dahiya, Deepak Saini, Anshul Mittal, Ankush Shaw, Kushal Dave, Akshay Soni, Himanshu Jain, Sumeet Agarwal y Manik Varma. 2021

[4] Dasgupta, A., Katyan, S., Das, S. y Kumar, P. 2023

Publicado a través de Hacia la IA

Tabla de Contenido

Una descripción general de la clasificación extrema de etiquetas múltiples (XML/XMLC): hacia la IA

Descripción general de XMLC

Algoritmos XMLC de detección comprimida

Algoritmos XMLC basados ​​en álgebra lineal

Algoritmos basados ​​en árboles

Métodos de aprendizaje profundo

Referencias

Otros temas interesantes:

Algoritmos XMLC basados en álgebra lineal

Algoritmos basados en árboles