▷ Estadística 101- Parte 3- Estadísticas no paramétricas, sus tipos…

Estás leyendo la publicación: Estadística 101- Parte 3- Estadísticas no paramétricas, sus tipos… – Hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Introducción a la Estadística No Paramétrica, diferentes tipos de pruebas No Paramétricas y sus aplicaciones

Esta es la tercera parte de la serie Estadísticas 101, donde se explicarán en detalle conceptos de Estadística No Paramétrica. En el mundo real, es posible que no siempre obtengamos una distribución de datos bien definida, como una distribución normal. En tales casos, tenemos que implementar estadísticas no paramétricas.

En la primera parte de la serie Estadísticas 101, se mencionó que la prueba de hipótesis para datos de muestra que no se distribuyen normalmente implicaría un conjunto diferente de distribuciones, como las pruebas de la mediana de Mood, un ejemplo de pruebas no paramétricas.

Contenido

Definición
Tipos de pruebas no paramétricas
Aplicaciones
Modelos no paramétricos en Machine Learning

Definición

Cuando hablamos de distribución normal, hacemos algunas suposiciones sobre la población de la que se extrajeron las muestras. En contraste con estas suposiciones, las estadísticas no paramétricas no hacen tales suposiciones con respecto a la forma de las distribuciones de la población. Por lo tanto, también se conocen como estadísticas sin distribución. Además de la ventaja de no hacer ninguna suposición sobre la forma de la distribución, estas estadísticas no requieren tantos esfuerzos de cálculo como los requeridos por los métodos paramétricos.

Estos métodos también tienen sus propias desventajas. No capturan tanta información como la capturada por métodos paramétricos. Si estamos representando una lista de valores como 190.2, 202.45, 345.56 como 1, 2 y 3, es posible que nos hayamos perdido alguna información.

Tipos de pruebas no paramétricas

Detallamos estas pruebas:

prueba de signos

Se relaciona con la dirección de un par de observaciones en términos de positivos o negativos en lugar de sus valores. Por ejemplo, si tenemos un par de pesos antes y después de un programa de entrenamiento y calculamos el número de instancias de diferencia en los pesos antes y después del programa es positivo o negativo. Aquí, la hipótesis nula sería que no hay diferencia entre los pesos y la hipótesis alternativa sería que sí hay diferencia en los pesos. Tenga en cuenta la simplicidad en el cálculo de las diferencias y determinar si es un número positivo o negativo. La implementación de la prueba de signos se puede referir a aquí.

2. Prueba de suma de rangos

Para realizar un análisis de pruebas de varianza, asumimos que las poblaciones se distribuyen normalmente con varianzas iguales. Sin embargo, cuando no se cumplen estas condiciones, utilizamos la prueba de la suma de rangos. La prueba de Mann-Whitney se usa cuando hay dos poblaciones, y la prueba de Kruskal-Wallis se usa cuando hay más de dos poblaciones. Aquí, el término rango surge a medida que se clasifica cada punto de datos en las muestras y se calculan las estadísticas U.

A continuación se presentan las hipótesis para la prueba de Mann-Whitney:

La fórmula para las estadísticas U para un escenario basado en dos poblaciones se muestra a continuación:

donde n1= número de puntos de datos en la muestra 1, n2= número de puntos de datos en la muestra 2 y R1= suma de rangos de cada punto de datos en la muestra 1.

Para la prueba de Kruskal-Wallis, a continuación se presentan las hipótesis:

En este caso, se utiliza el estadístico K:

donde, n= suma del número de puntos de datos en todas las muestras, j=muestra j, y Rj= suma de rangos de todos los puntos de datos en la muestra j.

3. Una muestra ejecuta una prueba

La mayoría de las veces, suponemos que la muestra ha sido seleccionada al azar. Sin embargo, esto puede no ser siempre cierto. Supongamos un escenario en el que tenemos que sacar muestras de bolas rojas y verdes de una bolsa llena de muchas bolas. Se nos ocurrió la siguiente muestra (Green-G, Red-R):

RRR GGG RRR GGG RR GG

La muestra anterior puede no generarse aleatoriamente. Para probar la aleatoriedad de las muestras, hemos ejecutado la prueba.

Aquí, la hipótesis nula es que los artículos (es decir, las pelotas) se mezclan al azar y la hipótesis alternativa es que los artículos no se mezclan al azar.

Una ejecución es una secuencia de las mismas ocurrencias. En el ejemplo anterior, RRR es una carrera y GG también es una carrera.

4. Correlación de rango

La correlación de rango une la idea de correlación y rango, donde puede medir la correlación entre dos conjuntos de rangos en términos de similitud entre ellos.

Si tenemos una lista de seis países y sus rangos en términos de su PIB (Producto Interno Bruto) e IDH (Índice de Desarrollo Humano), la correlación de rango se calcula como:

donde d = diferencia entre rangos entre cada par de países, n = número de observaciones pareadas (aquí son seis). Un valor de 1 representa una asociación perfecta entre las dos variables. Aquí, la hipótesis nula establece que no existe correlación en los datos clasificados de la población y la hipótesis alternativa establece que existe una correlación en los datos clasificados.

5. La prueba de Kolmogorov-Smirnov (KS)

La prueba de Kolmogorov-Smirnov se utilizará en los casos en que queramos probar si existe una diferencia significativa entre dos muestras o si la distribución de frecuencia observada es la misma que la distribución teórica. Significa que esta prueba se puede utilizar para medir la bondad de ajuste, muy similar a la prueba Chi-Square. Utilizando la distribución acumulativa, decide la distribución específica de la población.

Además de los tipos anteriores, también hay muchas otras pruebas, como la prueba de Kuiper, la prueba de Tukey-Duckworth, la prueba de rango logarítmico y otras.

Aplicaciones

Estas pruebas se pueden aplicar a situaciones en las que un gerente comercial o cualquier otra persona tiene que tomar una decisión o probar alguna suposición. Las pruebas no paramétricas se usan ampliamente en los casos en que no se cumplen los supuestos asociados con los datos específicos de las pruebas paramétricas, el tamaño de la muestra es bastante pequeño y los datos son nominales u ordinales, como órdenes clasificados.

Notas adicionales: modelos no paramétricos en aprendizaje automático

De manera similar, los algoritmos no paramétricos no hacen suposiciones sobre la relación entre los datos de entrada y salida. Los algoritmos no paramétricos no tienen un número fijo de parámetros sino que dependen de la cantidad de datos de entrenamiento. La regresión lineal es un ejemplo de un algoritmo paramétrico, y los vecinos más cercanos K son un ejemplo de un algoritmo no paramétrico.

Sígueme (kumarkaushal.bit) para obtener más temas interesantes relacionados con la ciencia de datos y la estadística.

Referencias

Estadísticas 101 – Parte 3 – Estadísticas no paramétricas, sus tipos y aplicaciones se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA

Estadística 101- Parte 3- Estadísticas no paramétricas, sus tipos… – Hacia la IA

Introducción a la Estadística No Paramétrica, diferentes tipos de pruebas No Paramétricas y sus aplicaciones

Otros temas interesantes: