Estás leyendo la publicación: ¿Cómo evaluar los sistemas de recomendación de manera justa con RexMex?
En nuestra vida diaria, todos usamos o damos recomendaciones. En el aprendizaje automático, se desarrolla el mismo sistema que filtra la información no deseada y proporciona varios resultados basados en diferentes parámetros que cambian de un usuario a otro. Estos sistemas de recomendación pueden ser sesgados o injustos a veces mientras recomiendan; el sesgo puede ser de cualquier tipo, como un sesgo de modelo o un sesgo de datos. Hay varios algoritmos para determinar la equidad del sistema de recomendación. En este artículo, utilizaremos RexMex para evaluar la equidad del sistema. Los siguientes son los temas a tratar.
Tabla de contenido
- Acerca del sistema de recomendación
- Taxonomía de la equidad
- Evaluación del sistema de recomendación con RexMex
Comencemos hablando sobre el sistema de recomendación y los diversos tipos de métodos de filtrado que utiliza el sistema.
Acerca del sistema de recomendación
Los algoritmos de aprendizaje automático se utilizan para determinar qué artículos se deben recomendar a un usuario o cliente específico a través de un motor de recomendación. Basado en el principio de que se pueden encontrar patrones en los datos de comportamiento del consumidor, puede recopilar información implícita o explícita. Los tipos de filtros utilizados para estos sistemas se pueden dividir en tres grupos según la información que se necesita filtrar.
Filtración colaborativa
El filtrado colaborativo se ocupa de recopilar y analizar datos sobre el comportamiento, las actividades y las preferencias del usuario para predecir lo que le gustará a una persona en función de sus similitudes con otros usuarios. Emplea una fórmula de estilo matricial para trazar y calcular estas similitudes. Una ventaja del filtrado colaborativo es que no requiere análisis o comprensión del contenido (productos, películas, libros). Simplemente elige qué elementos recomendar en función de lo que sabe sobre el usuario.
Filtrado basado en contenido
El filtrado basado en el contenido se basa en la suposición de que si le gusta un artículo, también disfrutará de este. Los algoritmos emplean coseno y distancias euclidianas para calcular la similitud de los objetos en función de un perfil de los intereses del cliente y una descripción del artículo (género, categoría de producto, color, longitud de palabra). La desventaja del filtrado basado en el contenido es que solo puede proponer artículos o contenido que sea comparable con lo que el usuario ya está comprando o usando. No puede hacer recomendaciones para otros tipos de elementos o contenido. No podría, por ejemplo, proponer otra cosa que artículos para el hogar si el usuario solo hubiera traído artículos para el hogar.
modelo híbrido
Un motor de recomendación híbrido tiene en cuenta los datos meta (colaborativos) y transaccionales (basados en el contenido). Como resultado, supera a ambos. Se pueden crear etiquetas de procesamiento de lenguaje natural para cada producto o artículo (película, música) en un motor de recomendación híbrido, y se pueden utilizar ecuaciones vectoriales para calcular la similitud del producto. Luego, en función de los comportamientos, actividades e intereses de los usuarios, se puede utilizar una matriz de filtrado colaborativo para proponerles productos.
Un ejemplo de este modelo, Netflix es el epítome de un motor de recomendación híbrido. Considera tanto los intereses del usuario (colaborativo) como las descripciones o características de la película o programa (basado en el contenido).
Fuente de imagen
¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.
Taxonomía de la equidad
Equidad individual y grupal
Un enfoque basado en la distancia es una técnica para formular la equidad individual. Suponga que la distancia entre dos cosas se indica con ‘d’ y la distancia entre las salidas de un algoritmo se denota con ‘D’. Cuando dos entidades son similares, la salida del método debe ser menor. La distancia D entre las distribuciones de probabilidad asignada por el clasificador no debe ser mayor que la distancia real d entre los elementos en las estadísticas.
Para comprender el concepto de equidad grupal, considere dos grupos: el grupo protegido y el grupo privilegiado. El recomendador puede examinar las posibilidades de que los elementos de cada grupo aparezcan en posiciones de clasificación incomparablemente favorables, así como las posibilidades de que se sugieran. Cuando las probabilidades son iguales, los individuos de cada grupo tienen la misma probabilidad de obtener un resultado favorable. Esto solo ocurrirá si los miembros del grupo no privilegiado están calificados. Como resultado, si no está calificado, no será sugerido.
Equidad de usuarios y artículos
La imparcialidad de los artículos se centra en los artículos que se evalúan o recomiendan. En este caso, clasifique o recomiende también artículos o grupos de artículos similares. B. Se mostrará en la misma posición en el ranking. Este es el principal tipo de equidad descrito hasta ahora. Por ejemplo, si un partido político considera que un artículo es un atributo protegido, puede solicitar que el valor de ese atributo no afecte la clasificación de los artículos en los resultados de búsqueda o en las noticias.
La equidad del lado del usuario se refiere a los usuarios que obtienen o consumen elementos de datos en una clasificación, como un resultado de búsqueda o una sugerencia. En general, queremos que individuos o grupos de personas comparables reciban clasificaciones o recomendaciones similares. Por ejemplo, si el género de un usuario es una característica protegida y el usuario recibe sugerencias de trabajo, podemos solicitar que el género del usuario no afecte las recomendaciones de trabajo que recibe.
Equidad estática y dinámica
La equidad estática no tiene en cuenta los cambios en el entorno de recomendación, como los cambios en la utilidad o los atributos del artículo; por lo tanto, recientemente se ha estudiado la equidad dinámica, que tiene en cuenta los factores dinámicos del entorno y aprende una estrategia que se adapta a esa dinámica.
Evaluando la equidad con RexMex
RexMex está diseñado con la suposición de que los usuarios finales podrían querer usar las métricas de evaluación y las funciones de utilidad sin usar los conjuntos de métricas y los cuadros de mando. Debido a esto, las métricas de evaluación y las funciones de utilidad (por ejemplo, binarización y normalización) se pueden usar independientemente de la biblioteca RexMex.
Comencemos instalando RexMex.
! pip instalar rexmex
Leer conjuntos de datos e importar bibliotecas.
from rexmex import ClassificationMetricSet, DatasetReader, ScoreCard reader = DatasetReader() puntuaciones = reader.read_dataset()
Generación de informe de evaluación.
metric_set = ClassificationMetricSet() score_card = ScoreCard(metric_set) report = score_card.generate_report(puntuaciones, agrupación=[“source_group”])
Comparación de puntajes de evaluación entre especificidad, sensibilidad y precisión para diferentes grupos de fuentes (0, 1, 2, 3, 4).
Como se observó, la puntuación de precisión para el grupo 4 es la más alta entre los cinco grupos fuente.
Ultimas palabras
Los algoritmos están desempeñando papeles cada vez más importantes en la toma de decisiones en una amplia gama de aplicaciones sociales, corporativas e individuales. A medida que las decisiones algorítmicas se vuelven más frecuentes en las principales áreas de impacto social, se vuelve fundamental garantizar que brinden cierto nivel de equidad y confianza, especialmente cuando los individuos y grupos que representan minorías o clases protegidas en términos de género, raza, etc. sujetas a las consecuencias negativas de las decisiones algorítmicas. Con una implementación práctica de este concepto en este artículo, podríamos entender cómo verificar la imparcialidad de la predicción.