Estás leyendo la publicación: Principales distribuciones de datos que un científico de datos debe conocer
Las estadísticas constituyen la base de la ciencia de datos. Es absolutamente necesario que cualquier persona que intente construir una carrera en ciencia de datos tenga un buen dominio de los conceptos de estadística y comprenda cómo se pueden aplicar en entornos comerciales. Las diferentes distribuciones de datos y sus propiedades son una de esas áreas de las estadísticas en las que un científico de datos debe tener una claridad cristalina.
Echemos un vistazo a algunas de las distribuciones más comunes que encuentra un científico de datos en su carrera.
Distribución normal
En una distribución normal, los datos se organizan de manera que la mayoría de los valores forman un grupo en el medio y se reducen de forma simétrica hacia cualquiera de los extremos. También se le llama distribución gaussiana. Aparece como una curva de campana cuando se muestra gráficamente. En una distribución normal estándar, la media es cero y la desviación estándar toma el valor de 1 junto con un sesgo de cero. La media, la mediana y la moda son todas iguales en una distribución normal.
En una distribución normal, el punto medio tiene la frecuencia máxima. En las distribuciones normales, existe una proporción constante del área bajo la curva que se encuentra entre la media y cualquier distancia dada de la media cuando se miden en términos de unidades de desviación estándar.
Las distribuciones normales se representan en puntuaciones estándar o puntuaciones Z. Estos puntajes dan una idea de la distancia entre un puntaje real y la media en términos de desviaciones estándar.
Distribución de Bernoulli
En una distribución de Bernoulli, hay dos valores posibles para la variable aleatoria (una variable aleatoria es una variable cuyo valor depende del resultado de un experimento). Son de dos tipos: discretos y continuos.
Una distribución de Bernoulli es una distribución discreta. Tiene dos resultados posibles y un solo ensayo (llamado ensayo de Bernoulli). Un ensayo de Bernoulli es uno de los experimentos más simples realizados en estadística. Viene con dos posibles resultados de éxito y fracaso. Algunos ejemplos de pruebas de Bernoulli incluyen lanzamientos de monedas, lanzamientos de dados, etc. Los valores de probabilidad de eventos mutuamente excluyentes que conforman todos los resultados posibles deben sumar uno.
Los dos resultados posibles en la distribución de Bernoulli están indicados por n=0 y n=1. Aquí, n=1 indica que el éxito tiene una probabilidad p y n=0 indica que el fracaso tiene una probabilidad 1-p (0<=p<=1).
Distribución uniforme
La distribución uniforme es una de las distribuciones estadísticas más simples de entender. Es una distribución de probabilidad en la que todos los resultados posibles son igualmente posibles de ocurrir. Gráficamente, podemos pensar en ella como una línea recta horizontal. Las distribuciones uniformes son de dos tipos: discretas y continuas.
Una distribución uniforme discreta tendrá un número finito de resultados, mientras que una distribución uniforme continua tendrá un número infinito de resultados medibles que son igualmente probables.
distribución de veneno
Una distribución de Poisson es una distribución de probabilidad que muestra cuántas veces es probable que ocurra un evento durante un período fijo de tiempo y espacio. Lleva el nombre del matemático francés Siméon Denis Poisson. Es una distribución discreta donde las variables toman solo valores específicos. Es un proceso limitante de la distribución binomial.
Distribución T
Es un tipo de distribución normal que se utiliza principalmente para tamaños de muestra más pequeños y se desconoce la desviación estándar de la población. También se conoce como distribución t de Student; también tiene forma de campana y es simétrica con media cero. La forma sufre un cambio con el cambio en los grados de libertad. Tiene una mayor dispersión que la distribución normal estándar. A medida que aumentan los grados de libertad, más se acerca la distribución a una distribución normal estándar.
La distribución de estudiantes va desde –∞ a ∞ (infinito). Algunas aplicaciones importantes de la distribución T incluyen la Prueba de hipótesis de la media poblacional, la Prueba de hipótesis de la diferencia entre dos medias y la Prueba de hipótesis de la diferencia entre dos medias con muestras dependientes.
Distribución logarítmica normal
Una distribución logarítmica normal es una distribución de probabilidad de una variable aleatoria que tiene su logaritmo distribuido normalmente. Una variable aleatoria de distribución log-normal toma solo valores reales positivos. Una variable aleatoria con distribución logarítmica normal solo considerará valores reales positivos.