¿Cómo se aplica el Teorema del Límite Central a la Ciencia de Datos?

Estás leyendo la publicación: ¿Cómo se aplica el Teorema del Límite Central a la Ciencia de Datos?

El Teorema del Límite Central (CTL) en estadística establece que, independientemente de la distribución de la variable en la población, la distribución muestral de la media se aproximará a una distribución normal con un tamaño de muestra suficientemente grande. Para sacar inferencias de cualquier gran evento, el teorema del límite central juega un papel crucial, ya que establece una base sólida para la suposición a realizar. Para comprender la aplicación de CLT en la ciencia de datos, en este artículo analizaremos la distribución normal de los datos y la fórmula detrás de la declaración. Los siguientes puntos enumerados serán cubiertos en esta publicación.

Tabla de contenidos

  1. ¿Qué es una distribución normal?
  2. Acerca del teorema del límite central
  3. Teorema del límite central en python

Comencemos con la comprensión de la distribución normal para una muestra.

¿Qué es una distribución normal?

Las distribuciones normales son distribuciones de probabilidad continuas que se distribuyen simétricamente alrededor de su media. La mayoría de las observaciones tienden a agruparse alrededor del pico central y las probabilidades de valores cercanos y lejanos de la media disminuyen por igual. Los valores extremos en cualquiera de las colas de la distribución son igualmente improbables. En general, la distribución normal es simétrica, pero no todas distribuciones simétricas son normales

  • Distribución simétrica es una distribución con dos imágenes especulares a cada lado de una línea divisoria, pero los datos reales pueden ser dos baches o una serie de colinas además de una curva de campana que indica una distribución normal.

En los informes estadísticos, una distribución normal suele tener la forma de una curva de campana. La forma de campana de la distribución depende de dos parámetros significar y Desviación Estándar como con cualquier distribución de probabilidad.

  • El significar es la tendencia central de la distribución normal. Define la ubicación del pico de la curva de campana. La media en una distribución normal debe ser cero (0). Si se desplaza la media, toda la curva se desplaza hacia la izquierda o hacia la derecha en el eje X, por lo que la asimetría cambia de cero a negativo o positivo.
  • El Desviación Estándar es una medida de diversidad que se utiliza para determinar qué tan separados tienden a estar los valores de la media. Muestra cómo las observaciones dispersas tienden a ser de la media. El cambio en la desviación estándar reduce o extiende el ancho de la distribución a lo largo del eje X. Las desviaciones estándar más grandes producen distribuciones más amplias. La desviación estándar para la distribución normal debe ser uno (1). A continuación se muestra la representación pictórica de la explicación anterior y esta representación se deriva de los enlaces mencionados en las referencias.
🔥 Recomendado:  Cómo subcontratar el trabajo de desarrollo como emprendedor individual

(Enlace de imágen)

¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos? echa un vistazo aquí.

Acerca del teorema del límite central

El Teorema del Límite Central (CLT) establece que al graficar una distribución muestral de medias, las medias de la muestra serán iguales a la media poblacional y la distribución muestral se aproximará a la distribución normal con varianza igual a Error estándar.

  • El Error estándar(SE) en estadística es la desviación estándar de la distribución muestral. Matemáticamente podría explicarse como que la desviación estándar de la muestra dividida por el tamaño de la muestra es el error estándar. Es una estimación de la desviación estándar.

Entonces, esto concluye que si la distribución de la muestra no es normal, significa que la distribución podría ser aproximadamente normal. Hay algunas suposiciones detrás del CLT.

  • Los datos de la muestra deben ser muestreados y seleccionados aleatoriamente de la población.
  • No debe haber ninguna multicolinealidad en los datos muestreados, ya que una muestra no debe influir en las otras muestras.
  • El tamaño de la muestra no debe ser mayor al 10% de la población. Generalmente, un tamaño de muestra superior a 30 (n>30) se considera bueno.

¿Qué inferencia estadística proporciona CLT?

Sin tomar una nueva muestra para comparar, este teorema se puede aplicar para cuantificar la probabilidad de que la muestra difiera de su población. No existe un requisito de las características de toda la población para comprender la probabilidad de la muestra, ya que la media de la muestra es aproximadamente igual a la media de la población.

🔥 Recomendado:  Cómo deshacerse de las chinches de cama rápidamente

Esto no significa que la muestra pueda proporcionar información sobre la precisión y confiabilidad de la estimación con respecto a la población más grande. Esta incertidumbre puede explicarse introduciendo la intervalo de confianza.

  • Un intervalo de confianza es una probabilidad de que un parámetro se encuentre entre un par de valores alrededor de la media. Por ejemplo, realiza una encuesta en un supermercado para ver cuántas latas de bebidas venden por hora. Prueba su estadística para obtener un intervalo de confianza de (200,300). Eso significa que crees que venden entre 200 y 300 latas por hora.

Hasta ahora hemos discutido todos los aspectos teóricos del CLT. Implementemos el CLT en datos en python.

CLT en Python

Al igual que en CLT, hay dos parámetros importantes que incluyen la media y la desviación estándar de la muestra y la población. Comencemos con el cálculo de la media y la desviación estándar.

Importar bibliotecas:

importar numpy como np importar pandas como pd importar seaborn como sns importar matplotlib.pyplot como plt importar aleatorio

Lectura de los datos:

df=pd.read_csv(“/content/drive/MyDrive/Datasets/Dummy Data HSS.csv”) df.head()

Los datos son datos de ventas ficticios de una tienda que vende televisión, radio y el número de ventas de personas influyentes en las redes sociales.

Cálculo de la media y la desviación estándar de la población:

print(“forma de los datos:”,df.forma) mean_pop = df[“Sales”].media() std_pop = df[“Sales”].std() print(“media de la población (μ) = {} y desviación estándar (σ) de la población = {}”.format(round(mean_pop,2),round(std_pop,2)))

Trace la distribución de las ventas:

fig, ax = plt.subplots(figsize=(15, 8)) sns.histplot(df[‘Sales’],kde=Verdadero,ax=ax) plt.mostrar()

Como podemos ver, la distribución de los datos de población no tiene una distribución normal. Así que ahora podemos tomar algunas muestras y trazar la distribución de las mismas.

🔥 Recomendado:  Exposure Ninja es ahora una agencia digital integrada con IA

Toma de muestras y trazado de la distribución:

def distribución_media(datos, conteo_de_muestras, conteo_de_puntos_de_datos): li_samp = list() data = np.array(data.values) for i in range(0, samples_count): samples = random.sample(range(0, data.shape[0]), data_points_count) li_samp.append(datos[samples].mean()) return np.array(li_samp) cuenta = 0 mean_list = list() fg, ax = plt.subplots(nrows=2, ncols=2, figsize=(10, 10)) lst = [(20,5),(100,50),(100,100),(200,50)]
para i en (0,1): para j en (0,1): ax[i,j].set_title(“muestra de ” + str(lst[count][0]) + ” con media ” + str(lst[count][1])) sns.distplot(mean_distribution(df[“Sales”]primero[count][0],lst[count][1]),hacha = hacha[i,j]) lista_media.append(distribucion_media(df[“Sales”]primero[count][0],lst[count][1])) contar +=1

La función se utiliza para tomar muestras aleatorias de la población con el tamaño de muestra dado.

En la primera subparcela con un tamaño de muestra de 20 y una media de 5, la distribución no es normal, a la derecha se crea otra joroba. De manera similar, las otras dos muestras con tamaños 100 y 80 tienen el mismo problema: la punta de la curva forma una curva pero las colas no están muy extendidas. Pero el tamaño de muestra de 150 forma aproximadamente una distribución normal.

Como se observa en las subparcelas anteriores, a medida que aumenta el tamaño de la muestra, la distribución de la muestra tiende a ser normal.

Veredicto

El teorema del límite central es un teorema estadístico poderoso e importante que ayuda en el supuesto de normalidad y la precisión de las estimaciones. Con una implementación práctica de este concepto en este artículo, podríamos entender cómo se puede usar CLT en la ciencia de datos.

Referencias

Tabla de Contenido