Medidas de tendencia central y… – Hacia la IA

Estás leyendo la publicación: Medidas de tendencia central y… – Hacia la IA

Bienvenidos a este tutorial sobre medidas de tendencia central y propagación con Python. En este tutorial, exploraremos las diferentes medidas de tendencia central, incluidas la media, la mediana y la moda, y cómo calcularlas con Python. También discutiremos las medidas de dispersión, como el rango, la varianza y la desviación estándar, y cómo calcularlas usando Python. A lo largo del tutorial, utilizaremos ejemplos prácticos y conjuntos de datos ficticios y del mundo real para ilustrar los conceptos y las técnicas. Al final de este tutorial, comprenderá bien cómo usar Python para calcular medidas de tendencia central y dispersión. También aprenderá dónde es apropiado usar cada medida y cómo interpretar estas medidas para obtener información sobre sus datos.

Tabla de contenido

· Tipos de datos
· Medidas de tendencia central
Significar
Mediana
Modo
· Calcule y visualice la media, la mediana y la moda en Python
· Medidas de dispersión
Rango
Diferencia
Desviación Estándar
· Referencias

Tipos de datos

La elección de la medida de tendencia central depende del tipo de datos que se analizan. Los tipos de datos se refieren a la clasificación de los datos según la naturaleza de los valores que representan. Hay varios tipos de datos, incluidos datos nominales, ordinales, de intervalo y de razón (Mishra et al., 2018).

· Los datos nominales se refieren a datos categóricos en los que cada valor representa una categoría separada sin orden o clasificación intrínseca, como género, nacionalidad o religión (Figura 1).

· Los datos ordinales representan categorías con una clasificación u orden inherente, como el nivel educativo o el nivel de ingresos.

· Los datos de intervalo representan datos numéricos con intervalos iguales entre valores (los valores no se pueden expresar ni presentar en forma de decimal), pero sin un verdadero punto cero, como la temperatura medida en Celsius o Fahrenheit.

· Y, por último, los datos de Razón representan datos numéricos con intervalos iguales entre valores y un verdadero punto cero, como el peso o la altura.

El tipo de datos que se analizan determina la medida adecuada de tendencia central a utilizar. Profundicemos en las tres medidas de tendencia central, media, mediana y moda (Publishing, 2020).

Medidas de tendencia central

Significar

Para los datos de intervalo y razón, la media suele ser la mejor medida de tendencia central, ya que tiene en cuenta todos los valores del conjunto de datos. La media es la medida de tendencia central más utilizada (Jankowski & Flannelly, 2015). La fórmula para calcular la media es simple y es fácil entender lo que representa la media en un conjunto de datos determinado. Se calcula sumando todos los valores del conjunto de datos y dividiéndolos por el número total de valores (Figura 2). La media es una medida de tendencia central de uso común porque es fácil de calcular y proporciona un resumen útil de los datos. La principal ventaja de usar la media es que es una buena representación del valor central de un conjunto de datos cuando los datos se distribuyen normalmente o simétricamente alrededor del centro. En tales casos, la media proporciona una imagen precisa del valor típico del conjunto de datos y se puede utilizar para hacer predicciones y estimar probabilidades. Sin embargo, también existen algunas desventajas en el uso de la media como medida de tendencia central. Una desventaja importante es que la media es sensible a los valores atípicos (valores extremos) en el conjunto de datos (para obtener más información sobre los valores atípicos, visite este correo ). Otra desventaja de usar la media es que es posible que no refleje con precisión el valor central de un conjunto de datos que no se distribuye normalmente o simétricamente. En tales casos, otras medidas de tendencia central, como la moda o la mediana, pueden ser más apropiadas.

🔥 Recomendado:  Hoja de trucos de HTML 5, incluida la descarga gratuita en PDF

Mediana

La mediana es una medida de tendencia central que representa el valor medio de un conjunto de datos cuando se ordena en orden ascendente o descendente. A menudo se usa como una alternativa a la media cuando los datos están sesgados o contienen valores atípicos (Figura 2). Una de las principales ventajas de utilizar la mediana es su robustez. La mediana se ve menos afectada por los valores atípicos que la media, lo que la convierte en una medida de tendencia central más robusta. Además, la mediana es fácil de calcular e interpretar, especialmente para conjuntos de datos con una gran cantidad de observaciones. Además, la mediana se puede utilizar con cualquier tipo de datos, incluidos datos nominales, ordinales, de intervalo y de razón. Sin embargo, una de las principales desventajas es que es menos preciso que la media, especialmente para conjuntos de datos con un número pequeño de observaciones.

Modo

La moda es una medida de tendencia central que representa el valor o categoría que ocurre con mayor frecuencia en un conjunto de datos (Figura 2). Es una medida simple y fácil de calcular que brinda información sobre el valor o la categoría más típicos en el conjunto de datos. Una de las ventajas de usar la moda es su aplicabilidad a cualquier tipo de datos, incluidos datos nominales, ordinales, de intervalo y de razón. Además, el modelo es fácil de calcular e interpretar, especialmente para conjuntos de datos con una gran cantidad de observaciones. Sin embargo, el modo también tiene algunas desventajas (Twycross & Shields, 2004b). Una de las principales desventajas es que la moda puede no existir o no ser única si se presentan varios valores o categorías con la misma frecuencia. La moda es especialmente útil para datos categóricos, como colores, nombres o tipos, que no se pueden analizar mediante la media o la mediana. También se puede utilizar como complemento de la media o la mediana para conjuntos de datos asimétricos o con valores extremos. Además, el modelo puede ayudar a identificar valores o categorías inusuales que ocurren con menos frecuencia en el conjunto de datos.

Calcule y visualice la media, la mediana y la moda en Python.

El siguiente código es un script de Python que muestra el cálculo de medidas de tendencia central (media, mediana y moda) para un conjunto de datos normalmente distribuido y un conjunto de datos sesgado (no simétrico alrededor de su media). El código utiliza las bibliotecas numpy, matplotlib, pandas y seaborn. Usamos histogramas para visualizar la media, la mediana y la moda en Python. En el histograma de la izquierda, la media, la mediana y la moda están próximas entre sí porque los datos se distribuyen simétricamente alrededor del centro. Sin embargo, en el histograma de la derecha, que representa un conjunto de datos sesgado, la media se ve significativamente influenciada por los valores extremos en las colas de la distribución, mientras que la mediana y la moda se ven menos afectadas.

# Importar bibliotecas importar numpy como np importar matplotlib.pyplot como plt importar pandas como pd importar seaborn como sns

🔥 Recomendado:  Cómo configurar y ejecutar operaciones de Cuda en PyTorch: hacia la IA

# Genere un conjunto de datos distribuido normalmente con media = 50 y desviación estándar = 10
datos = np.aleatorio.normal(50, 10, 50)

# Genere un conjunto de datos sesgados con media = 50 y desviación estándar = 10
datos_sesgados = np.aleatorio.normal(50, 10, 50)**5

# Calcular la media, la mediana y la moda del conjunto de datos
media = np.media(datos)
mediana = np.mediana (datos)
modo = np.redondo(np.media(datos))

# Calcule la media, la mediana y la moda del conjunto de datos sesgado
media_sesgada = np.media(datos_sesgada)
mediana_sesgada = np.mediana(datos_sesgada)
mode_skewed = np.round(np.mean(data_skewed))

# Imprime los resultados
print(“Para el conjunto de datos normalmente distribuido:”)
imprimir(“Media: “, media)
imprimir(“Mediana: “, mediana)
imprimir(“Modo: “, modo)
imprimir(“———————–“)
print(“Para el conjunto de datos sesgado:”)
imprimir(“Media: “, media_sesgada)
imprimir(“Mediana: “, mediana_sesgada)
imprimir (“Modo: “, modo_sesgado)

higo, ax= plt.subplots(1,2, tamaño de higo = (9,6))

# Trace un histograma del conjunto de datos utilizando la biblioteca seabron
sns.histplot(datos, ax=ax[0])
hacha[0].axvline(x=media, color=’r’, etiqueta=’Media’)
hacha[0].axvline(x=mediana, color=’g’, etiqueta=’Mediana’)
hacha[0].axvline(x=modo, color=’b’, etiqueta=’Modo’)
hacha[0].leyenda()
hacha[0].set_title(“Media, mediana y moda de datos normalmente distribuidos”, tamaño de fuente=10)

sns.histplot(data_skewed, ax=ax[1])
hacha[1].axvline(x=media_sesgada, color=’r’, etiqueta=’Media’)
hacha[1].axvline(x=mediana_sesgada, color=’g’, etiqueta=’Mediana’)
hacha[1].axvline(x=modo_sesgado, color=’b’, etiqueta=’Modo’)
hacha[1].set_title(“Media, mediana y modo de distribución sesgada”, tamaño de fuente=10)

hacha[1].leyenda()

plt.tight_layout()

producción:

Medidas de dispersión

Las medidas de dispersión son medidas estadísticas que describen cómo se dispersa o dispersa un conjunto de datos. Proporcionan información sobre la variabilidad o diversidad de los puntos de datos en un conjunto de datos. Las medidas de dispersión más comunes (Figura 5) son el rango, la varianza y la desviación estándar (Twycross & Shields, 2004a).

Rango

El rango es la medida de dispersión más simple, que calcula la diferencia entre los valores más grandes y más pequeños en un conjunto de datos. El rango es fácil de entender y calcular, requiriendo solo dos valores para ser determinados (Figura 6). El rango puede ser útil en situaciones en las que se necesita una estimación rápida y aproximada de la variabilidad, y puede proporcionar una idea de la dispersión de los datos. Sin embargo, la gama también tiene algunas desventajas. Una desventaja importante del rango es que es muy sensible a valores atípicos o extremos en el conjunto de datos. Dado que el rango solo se basa en los valores más grandes y más pequeños, los valores atípicos pueden tener un impacto significativo en el rango, lo que lleva a una representación imprecisa de la dispersión de los datos.

Para visualizar el rango de un conjunto de datos en Python, un enfoque es crear un gráfico de líneas simple con dos líneas horizontales que representen los valores mínimo y máximo del conjunto de datos.

# Calcular el rango range_min = np.min(datos) range_max = np.max(datos)

# Cree un diagrama de líneas con el rango representado por dos líneas horizontales
higo, hacha = plt.subplots()
ax.plot(datos)
ax.axhline(y=rango_min, color=’r’, etiqueta=’Rango’)
ax.axhline(y=rango_max, color=’r’)
hacha.leyenda()
ax.set_title (“Visualización de rango”)
ax.set_xlabel(“Índice de puntos de datos”)
ax.set_ylabel(“Valores de datos”)
plt.mostrar()
print(f”El valor mínimo es {range_min}”)
print(f”El valor máximo es {range_max}”)
print(f”El rango es {rango_max-rango_min}”)

Producción:

Diferencia

La varianza es una medida estadística que proporciona una medida cuantitativa de cuánta variación hay en un conjunto de datos. Es una medida ampliamente utilizada en análisis estadísticos y proporciona información importante para muchas pruebas y modelos estadísticos. La ventaja de usar la varianza es que ayuda a comprender la distribución de datos y a realizar comparaciones significativas entre diferentes conjuntos de datos. Además, la varianza se puede calcular fácilmente para grandes conjuntos de datos utilizando software estadístico, lo que la convierte en una medida conveniente para usar en muchas aplicaciones. Además, la varianza se puede utilizar para identificar valores atípicos o extremos en los datos, lo que puede ser importante para detectar errores o anomalías. Sin embargo, una desventaja de usar la varianza es que es sensible a valores atípicos o extremos y puede verse influenciada por ellos. Otra desventaja es que la varianza se expresa en unidades al cuadrado (Figura 7) de los datos originales, que pueden no ser fácilmente interpretables o significativos para algunas aplicaciones.

🔥 Recomendado:  Cómo escribir una carta de renuncia (paso a paso) con ejemplos

Desviación Estándar

La desviación estándar es la raíz cuadrada de la varianza, que representa la dispersión de los datos alrededor de la media. Al igual que la varianza, la desviación estándar se puede calcular fácilmente mediante software estadístico y se puede usar para identificar valores atípicos o extremos en los datos. Además, la desviación estándar tiene una interpretación clara en las mismas unidades que los datos originales, lo que puede hacerla más interpretable y significativa en ciertas aplicaciones. Sin embargo, una desventaja de usar la desviación estándar es que, al igual que la varianza, es sensible a valores atípicos o extremos y puede verse influenciada por ellos. Además, la desviación estándar supone que los datos se distribuyen normalmente, lo que puede no ser siempre el caso y, en tales casos, es posible que no proporcione una representación precisa de la dispersión de los datos.

Para la desviación estándar con Python, podemos usar histogramas. A continuación se muestra un fragmento de código de ejemplo para crear un histograma con los valores de desviación estándar que se muestran en el gráfico:

# Calcular la varianza y la desviación estándar de la varianza del conjunto de datos = np.var(datos) std_dev = np.std(datos)

# Crea un histograma
plt.hist(datos, contenedores=30, alfa=0.5)
plt.axvline(x=np.media(datos), color=’r’, estilo de línea=’–’, etiqueta=’Media’)
plt.axvline(x=np.median(data), color=’g’, linestyle=’–’, label=’Median’)
plt.axvline(x=np.mean(datos) + std_dev, color=’b’, linestyle=’–’, label=’1 Std Dev’)
plt.axvline(x=np.mean(datos) – std_dev, color=’b’, linestyle=’–’)
plt.leyenda()
plt.title(‘Histograma de datos normalmente distribuidos\nVarianza = {:.2f}, Desviación estándar = {:.2f}’.format(varianza, std_dev))
plt.xlabel(‘Valor’)
plt.ylabel(‘Frecuencia’)

Producción:

En conclusión, las medidas de tendencia central y dispersión son conceptos estadísticos esenciales utilizados para describir y analizar conjuntos de datos. Las medidas de tendencia central, como la media, la mediana y la moda, nos ayudan a identificar el valor típico o representativo de un conjunto de datos, mientras que las medidas de dispersión, como el rango, la varianza y la desviación estándar, brindan información sobre la variabilidad o dispersión del conjunto de datos. puntos de datos. En este tutorial, aprendimos cómo calcular y graficar medidas de tendencia central y propagación usando Python. Al dominar estos conceptos y técnicas estadísticas, podemos obtener información valiosa sobre nuestros datos y tomar decisiones informadas en una amplia gama de campos, desde finanzas y economía hasta atención médica y ciencias sociales y biológicas.

He preparado una revisión del código para acompañar esta publicación de blog, que se puede ver en mi GitHub.

Referencias

Jankowski, KRB y Flannelly, KJ (2015). Medidas de tendencia central en capellanía, atención médica e investigaciones relacionadas. , (1), 39–49. https://doi.org/10.1080/08854726.2014.989799

Mishra, P., Pandey, C., Singh, U. y Gupta, A. (2018). Escalas de Medida y Presentación de Datos Estadísticos. , (4), 419–422. https://doi.org/10.4103/aca.ACA_131_18

Editorial, IA (2020). . AI Publishing LLC.

Twycross, A. y Shields, L. (2004a). Las estadísticas se simplifican. Parte 2. Desviación estándar, varianza y rango. , (5), 24. https://doi.org/10.7748/paed2004.06.16.5.24.c922

Twycross, A. y Shields, L. (2004b). Las estadísticas se simplifican. Parte 1. Medias, medianas y modas. , (4), 32. https://doi.org/10.7748/paed2004.05.16.4.32.c916