¿Qué es la similitud del coseno y cómo se usa en el aprendizaje automático?

Estás leyendo la publicación: ¿Qué es la similitud del coseno y cómo se usa en el aprendizaje automático?

La similitud del coseno es una medida de la similitud entre dos puntos de datos en un plano. La similitud del coseno se usa como métrica en diferentes algoritmos de aprendizaje automático como el KNN para determinar la distancia entre los vecinos, en los sistemas de recomendación, se usa para recomendar películas con las mismas similitudes y para datos textuales, se usa para encontrar la similitud de textos en el documento. Entonces, en este artículo, comprendamos por qué la similitud del coseno es una métrica popular para la evaluación en varias aplicaciones.

Tabla de contenido

  1. Acerca de la similitud del coseno
  2. ¿Por qué la similitud del coseno es una métrica popular?
  3. Uso de la similitud del coseno en el aprendizaje automático
  4. Uso de similitud de coseno en sistemas de recomendación.
  5. Uso de similitud de coseno con datos textuales
  6. Resumen

Acerca de la similitud del coseno

La similitud del coseno es el coseno del ángulo entre dos vectores y se usa como una métrica de evaluación de la distancia entre dos puntos en el plano. La medida de similitud del coseno opera completamente sobre los principios del coseno donde, con el aumento de la distancia, se reduce la similitud de los puntos de datos.

La similitud de coseno encuentra su uso principal para los tipos de datos de caracteres en los que, con respecto al aprendizaje automático, la similitud de coseno se puede usar para varios datos de clasificación y nos ayuda a determinar los vecinos más cercanos cuando se usa como una métrica de evaluación en el algoritmo KNN. La similitud de coseno en el sistema de recomendación se utiliza con el mismo principio de los ángulos de coseno, donde incluso si la similitud del contenido es menos similar, se consideraría como el contenido menos recomendado, y para una mayor similitud de contenidos, las recomendaciones generadas serían en la parte superior. La similitud del coseno también se usa en datos textuales para encontrar la similitud entre los textos vectorizados del documento de texto original.

¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.

Hay varias medidas de distancia que se utilizan como métrica para la evaluación de puntos de datos. Algunos de ellos son los siguientes.

  • distancia euclidiana
  • distancia entre manhattan
  • distancia minkowski
  • Hamming distancia y muchos más.
🔥 Recomendado:  API de agrupamiento de peso de Tensorflow: un conjunto de herramientas de optimización para modelos pesados

Entre todas estas métricas populares para el cálculo de la distancia y cuando se considera para clasificación o datos de texto en lugar de similitud de coseno, la distancia de Hamming se puede usar como una métrica para KNN, sistemas de recomendación y datos textuales. Pero la distancia de hamming considera solo el tipo de carácter de los datos de la misma longitud, pero la similitud del coseno tiene la capacidad de manejar datos de longitud variable. Al considerar datos textuales, la distancia de Hamming no consideraría las palabras que aparecen con frecuencia en el documento y sería responsable de producir un índice de similitud más bajo del documento de texto, mientras que la similitud del coseno considera las palabras que aparecen con frecuencia en el documento de texto y ayudará a generar una mayor similitud. puntuaciones para los datos de texto.

Uso de la similitud del coseno en el aprendizaje automático

La similitud del coseno en el aprendizaje automático se puede usar para tareas de clasificación en las que se puede usar como una métrica en los algoritmos de clasificación KNN para encontrar el número óptimo de vecinos y también el modelo KNN que se ajusta se puede evaluar contra diferentes algoritmos de clasificación de aprendizaje automático y el El clasificador KNN solo que está equipado con similitud de coseno como métrica se puede usar para evaluar varios parámetros de rendimiento como la puntuación de precisión, la puntuación AUC y el informe de clasificación también se puede obtener para evaluar otros parámetros como precisión y recuperación.

Veamos cómo usar la similitud del coseno como una métrica en el aprendizaje automático

knn_model=KNeighborsClassifier(métrico=’coseno’)

El modelo anterior se puede ajustar con los datos divididos y se puede usar para obtener valores de predicción que se pueden usar para varios otros parámetros.

Por lo tanto, la similitud del coseno en el aprendizaje automático se puede usar como una métrica para decidir la cantidad óptima de vecinos donde los puntos de datos con mayor similitud se considerarán como los vecinos más cercanos y los puntos de datos con menor similitud no se considerarán. Así es como se usa la similitud del coseno en el aprendizaje automático.

🔥 Recomendado:  Cómo pedir prestado dinero de la aplicación Cash si no aparece

Uso de similitud de coseno en sistemas de recomendación.

Los sistemas de recomendación en aprendizaje automático son uno de esos algoritmos que funcionan en base a la similitud de contenidos. Hay varias formas de medir la similitud entre los dos contenidos y los sistemas de recomendación básicamente utilizan la matriz de similitud para recomendar el contenido similar al usuario en función de sus características de acceso.

Por lo tanto, se puede adquirir cualquier dato de recomendación y las características requeridas que serían útiles para recomendar los contenidos se pueden extraer de los datos. Una vez que los datos textuales requeridos están disponibles, los datos textuales deben ser vectorizados utilizando CountVectorizer para obtener la matriz de similitud. Entonces, una vez que se obtiene la matriz de similitud, las métricas de similitud de coseno de scikit learn se pueden usar para recomendar al usuario.

de sklearn.feature_extraction.text import CountVectorizer de sklearn.metrics.pairwise import cosine_similarity count_vec=CountVectorizer() sim_matrix=count_vec.fit_transform(df[‘text_data’]) print(‘Matriz de Similitud’,sim_matrix.toarray()) cos_sim = coseno_similaridad(sim_matrix)

Por lo tanto, la similitud del coseno generaría una matriz de similitud para los datos textuales seleccionados para la recomendación y el contenido con puntajes de similitud más altos se puede ordenar mediante listas. Aquí, la similitud del coseno consideraría los términos que aparecen con frecuencia en los datos textuales y que los términos se vectorizarían con frecuencias más altas y que el contenido se recomendaría con porcentajes de recomendación más altos. Así es como se usa la similitud del coseno en los sistemas de recomendación.

Uso de similitud de coseno con datos textuales

La similitud de coseno en datos textuales se utiliza para comparar la similitud entre dos documentos de texto o textos tokenizados. Entonces, para usar la similitud de coseno en los datos de texto, los datos de texto sin procesar deben tokenizarse en la etapa inicial y, a partir de los datos de texto tokenizados, se debe generar una matriz de similitud que se puede pasar a las métricas de similitud de coseno para evaluar el similitud entre el documento de texto.

🔥 Recomendado:  Pruebe estas 5 nuevas funciones locas en Adobe Firefly

from sklearn.feature_extraction.text import CountVectorizer count_vectorizer = CountVectorizer() sim_matrix = count_vectorizer.fit_transform(tokenized_data) sim_matrix from sklearn.metrics.pairwise import cosine_similarity cos_sim_matrix = cosine_similarity(sim_matrix) create_dataframe(cos_sim_matrix,tokenized_data[1:3]) ## utilizando los dos primeros datos tokenizados

Entonces, el código anterior se puede usar para medir la similitud entre el documento tokenizado y aquí los dos primeros documentos tokenizados del corpus se usan para evaluar la similitud entre ellos y el resultado generado será como se muestra a continuación.

Ahora intentemos interpretar el resultado de muestra que producirán las métricas de similitud del coseno. Entonces, aquí la similitud del coseno consideraría las palabras que ocurren con frecuencia entre los dos tokens y ha arrojado una similitud del 50% entre el primero y el segundo token en el corpus. Así es como se usa la similitud del coseno en los datos textuales.

Resumen

Entre las diversas métricas, la similitud del coseno se usa principalmente en diversas tareas de aprendizaje automático y en el manejo de datos textuales debido a su capacidad dinámica para adaptarse a diversas características de los datos. La similitud del coseno opera completamente en las propiedades del ángulo del coseno y se usa mucho en los sistemas de recomendación, ya que nos ayudará a recomendar contenido al usuario de acuerdo con su contenido y características más vistos y también se usa principalmente para encontrar la similitud entre los documentos de texto, ya que considera los términos que aparecen con más frecuencia. Esto hizo que la similitud del coseno fuera una métrica popular para la evaluación en varias aplicaciones.