Preprocesamiento de datos en R Markdown: hacia la IA

Estás leyendo la publicación: Preprocesamiento de datos en R Markdown: hacia la IA

Publicado originalmente en Hacia la IA.

para el aprendizaje automático

El preprocesamiento de datos consiste en la limpieza, el muestreo, el análisis, la transformación y la codificación de datos para que puedan interpretarse fácilmente para proporcionar información o se puedan incorporar a un modelo de aprendizaje automático.

En este artículo, analizaré la implementación de los métodos de preprocesamiento de datos en R. Usaré el conjunto de datos de análisis y predicción de ataques cardíacos proporcionado por Kaggle.

Pasos en el preprocesamiento de datos

  1. Importe el archivo de datos designado y Explore
  2. Manejar valores faltantes, eliminar duplicados y observaciones irrelevantes
  3. Corregir errores estructurales
  4. Filtrar valores atípicos no deseados
  5. Medidas de tendencia central (calcular media, mediana, moda y frecuencias)
  6. Medidas de dispersión (calcular varianza, desviación estándar, rango, rango intercuartílico, coeficiente de varianza)
  7. Calcule el coeficiente de correlación y la gráfica de correlación
  8. Verifique la distribución de características utilizando histogramas y un gráfico de probabilidad normal
  9. División de datos
  10. Importe el archivo de datos designado y Explore

Puede encontrar más detalles sobre el conjunto de datos aquí: https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset/

A diferencia de muchos otros lenguajes de programación, los conjuntos de datos en forma de archivos CSV y TXT se pueden importar directamente sin ninguna biblioteca en R.

2. Manejar valores faltantes, eliminar duplicados y observaciones irrelevantes

En R, los valores faltantes están representados por NA (no disponible).

Como no hay valores perdidos, no se utilizan técnicas de valores perdidos. En caso de que se encuentren valores faltantes, se eliminan o se reemplazan por medias o aproximaciones.

Los datos duplicados pueden contaminar la interpretabilidad del conjunto de datos y también pueden hacer que los modelos de aprendizaje automático aprendan patrones que no existen en la realidad.

🔥 Recomendado:  Estrategia de Twitter para impulsar el tráfico masivo del sitio web que necesita saber

El índice de la única fila duplicada se encuentra y se elimina del conjunto de datos.

3. Corregir errores estructurales

Como ahora se eliminan los valores faltantes y los duplicados, verifiquemos si la distribución de la salida wrt del conjunto de datos está equilibrada o no. El conjunto de datos está etiquetado como 0 y 1.

  • 0 = No ocurre ataque al corazón
  • 1 = Ocurre ataque al corazón

Como hay un número similar de observaciones de ambas clases, el conjunto de datos está lo suficientemente equilibrado.

4. Filtre valores atípicos no deseados

Los valores atípicos son puntos de datos extremos que no coinciden con las tendencias generales observadas en otros puntos del conjunto de datos. Puede tener un impacto crucial en las interpretaciones y los resultados proporcionados por los modelos ML. Es importante tener en cuenta que la mera aparición de valores atípicos no significa que deban eliminarse. Solo se deben eliminar aquellos valores atípicos que sean irrelevantes para el análisis de datos.

Los puntos de datos atípicos en un conjunto de datos se pueden detectar con la ayuda de la distancia de Cook, que es una métrica para medir la influencia de cada punto de datos sobre el modelo (aquí, se muestra la regresión lineal) en el que se alimenta el conjunto de datos. Las distancias de Cook se pueden calcular fácilmente en R usando la biblioteca olsrr que se puede instalar desde Herramientas -> Instalar paquetes.

Tenga en cuenta que las condiciones para tratar los puntos de datos como valores atípicos son subjetivas. Aquí, he tratado puntos de datos cuyas distancias de Cook son más de cinco veces la distancia media de Cook como valores atípicos. Hay 9 de esos puntos, y se filtraron del conjunto de datos.

🔥 Recomendado:  El impacto de la respuesta 500 en la recuperación de datos del archivo Robots.txt en los resultados enriquecidos

5. Medidas de tendencia central (media, mediana, moda y frecuencias)

La media, la mediana, la moda, el mínimo, el máximo y los cuartiles de cada marco de datos en el conjunto de datos se pueden extraer del resumen del conjunto de datos.

6. Medidas de dispersión (varianza, desviación estándar, rango, rango intercuartílico, coeficiente de varianza)

He usado la función sapply(), que toma una lista, un vector o un marco de datos como entrada y da salida como un vector o matriz para obtener los valores de las medidas de dispersión.

7. Calcule el coeficiente de correlación y la gráfica de correlación

Un coeficiente de correlación es un número entre -1 y 1 que indica la fuerza (junto con la dirección) entre las características del conjunto de datos. Es útil para detectar la multicolinealidad, que acaba con la independencia entre las características del conjunto de datos y puede dar lugar a estimaciones de parámetros imprecisas por parte de los modelos de aprendizaje automático.

Un gráfico de correlación ayuda a visualizar los coeficientes de correlación entre las características del conjunto de datos. Se traza en R utilizando la biblioteca corrplot, que se puede instalar desde Herramientas -> Instalar paquetes.

Observe que la intensidad del color azul muestra la fuerza de la colinealidad positiva, mientras que la intensidad del color rojo muestra la fuerza de la colinealidad negativa.

8. Verifique la distribución de características utilizando Histogramas y Gráfica de probabilidad normal

Los histogramas muestran cómo se distribuyen los valores de cada característica, lo que puede brindar información interesante sobre el conjunto de datos. Una gráfica de probabilidad normal nos dice qué tan cerca está la distribución de características de la distribución normal. Usé las bibliotecas ggplot2 y qqplotr para trazar NPP.

🔥 Recomendado:  Estadísticas de uso de redes sociales 2023: datos demográficos y tendencias

9. División de datos

He usado la biblioteca caTools para dividir el conjunto de datos en conjuntos de entrenamiento y prueba con una proporción de 80:20.

Todas estas técnicas lo ayudarán a tener una mejor comprensión de los datos y también a preparar su conjunto de datos para alimentarlo en un modelo de aprendizaje automático. Si conoces otras técnicas, ¡compártelas en los comentarios para todos!

Gracias por leer, sígueme para más


El preprocesamiento de datos en R Markdown se publicó originalmente en Towards AI en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Publicado a través de Hacia la IA