4 Distribuciones de Probabilidad Básicas a usar como Data Scientist
Es importante conocer los tipos de distribución, saber sus requisitos de aplicación, porque suelen ser el primer paso a seguir antes de elegir y ejecutar un modelo de regresión.
4 Distribuciones de Probabilidad Básicas a usar como Data Scientist
Por Lino Cruz
Adentrarse al mundo de la ciencia de datos requiere tener conocimientos avanzados de estadística y probabilidad. Uno de los conceptos introductorios son las distribuciones de probabilidad, que conjugan ambos campos. En este artículo te presento 4 tipos de distribuciones de probabilidad que te servirán para adentrarte al mundo de la ciencia de datos.
Variable aleatoria: Un ejemplo
Para conocer las distribuciones de probabilidad debemos introducirnos al concepto de variables aleatorias. Estas son el resultado de un experimento aleatorio. Por ejemplo, si selecciono a un conjunto aleatorio de personas y le mido la talla, cada una de las tallas registradas conformarán mi variable aleatoria.
Y aquí es donde ingresa el concepto de distribución de probabilidad, que es una función estadística que me indicará cómo se distribuyen los resultados que obtenga de mi experimento aleatorio. En el caso del ejemplo anterior, yo puedo formar mi distribución de las tallas para saber qué resultados son más probables que ocurran, cómo se concentran y conocer la probabilidad de tener valores diferentes a los parámetros esperados, en otras palabras, nos ayudarán a conocer el comportamiento de los datos ya sea para hacer predicciones o para responder a mi pregunta de investigación.
Un primer paso para observar la distribución de los datos es recurrir a la estadística básica, identificando la media, mediana, error estándar y varianza; esto nos ayudará a acercarnos a la forma de la distribución. En esta oportunidad presentaremos 4 distribuciones de probabilidad que todo aquel que quiera convertirse en un o una científico de datos debería conocer, estas son: la normal (o gaussiana), binomial, uniforme y de poisson [1].
Distribución Normal o Gaussiana
En la vida real, muchos fenómenos estudiados suelen tener observaciones que siguen una distribución normal, por lo tanto es una de las más usadas en ciencia de datos y es una característica demandada para ejecutar modelos estadísticos como la regresión lineal. Esta distribución tiene una forma de campana y separa las probabilidades en dos partes iguales teniendo en medio a la media de los datos.
La regla establece que el 68% de los datos normalmente distribuidos, estarán ubicados entre -σ y σ, mientras que el 95% estará entre -2σ y 2σ, y el 99% de los datos estará entre -3σ y 3σ [2].
Distribución Binomial
Este tipo de distribución es el resultado de ordenar la probabilidad de observaciones de varios ensayos independientes sobre un tipo de experimento binomial, es decir, donde las alternativas sean éxito o fracaso.
La forma que adopte la distribución binomial dependerá de la comparación de los resultados de la probabilidad de éxito y fracaso, si ambas probabilidades son iguales tendrá una forma organizada al centro o simétrica; mientras que si sucede lo contrario, las curvas se ubicarán a la derecha o izquierda dependiendo de la cantidad de observaciones y del p-value [4] [5].
Distribución Uniforme
Cuando las observaciones obtenidas de un experimento aleatorio, tienen probabilidades iguales o constantes, entonces estamos frente a una distribución uniforme. Pueden ser de dos tipos: la discreta o la continua, esta última nos mostrará un gráfico en forma de rectángulo.
Esta distribución nos puede servir para crear un generador de números aleatorios ideal al otorgar probabilidades iguales a cada número [7].
Distribución de Poisson
Supongamos que quieres analizar la cantidad de veces que un ave regresa a su nido durante una hora. Entonces, hablamos de una distribución de Poisson.
Esta debe cumplir con por lo menos tres condiciones: el conteo de los eventos son enteros no negativos, cada evento es independiente del otro y la media se mantiene durante el periodo estudiado. La distribución estará determinada por el parámetro lambda (λ) [9].
En la práctica, esta distribución se puede ver en el análisis de lluvias de meteoritos, el tráfico, y otras aplicaciones, en especial en el análisis de calidad [10].
Conclusiones
Existen muchos más tipos de distribuciones, pero las 4 señaladas en este artículo, son las que juzgo como principales que debe conocer todo aquel que desee introducirse al mundo de la ciencia de datos. Pequeñas variaciones dentro de las distribuciones presentadas conforman unas nuevas, como la distribución exponencial como caso de generalización de la distribución normal, o la distribución de Bernoulli que surge como variación de la distribución binomial.
Es importante conocer los tipos de distribución, saber sus requisitos de aplicación, porque suelen ser el primer paso a seguir antes de elegir y ejecutar un modelo de regresión.
Referencias
[1] S. A. Metwalli. "4 Probability Distributions Every Data Scientist Needs to Know". Built in Beta.
[2] “Characteristics of a Normal Distribution.” Boston University Medical Campus.
[3] “Is the maximum of a probability distribution function of a Binomial distribution always the expected value?”. StackExchange.
[4] “10.4 - Effect of n and p on Shape.” PennState Eberly College of Science
[5] “Binomial Distribution.” StatsDirect.
[6] “Distribución Uniforme (De V.Continua)”. Universitat de València.
[7] “Uniform Distribution”. Corporate Finance Institute.
[8] A. Giret, C. Carrascosa, V. Julian, M. Rebollo y V. Botti, "A Crowdsourcing Approach for Sustainable Last Mile Delivery", Sustainability, vol. 10, n.º 12, p. 4563, diciembre de 2018.
[9] "Distribución de Poisson - Minitab". Support | Minitab.
[10] W. Koehrsen. "The Poisson Distribution and Poisson Process Explained". Medium.