Análisis de datos ordinales en SAS utilizando binario, binomial y beta… – Hacia la IA

Estás leyendo la publicación: Análisis de datos ordinales en SAS utilizando binario, binomial y beta… – Hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Esta publicación se basará en publicaciones anteriores:una publicación introductoria sobre PROC GLIMMIX y una publicación que muestra como analizar datos ordinales utilizando la distribución ordinal y multinomial. Esta publicación ampliará esas publicaciones analizando el mismo conjunto de datos: puntajes de diarrea medidos en cerdos a lo largo del tiempo. Aquí, la diarrea se mide subjetivamente mediante un sistema de puntuación ordinal.

Entonces, pasemos a la distribución Binomial y su contraparte continua, la distribución Beta. Las distribuciones binaria y binomial tratan con proporciones discretas y las transforman en probabilidades/proporciones. A continuación puede ver un ejemplo procedente de un modelo ordinal utilizando la distribución de probabilidad acumulada de la cumlogit enlace.

Sin embargo, a veces simplemente no es posible estimar el efecto de un tratamiento de manera ordinal. Aquí, los puntajes 2 y 3 agregan menos del 15% a la escala total. Por lo tanto, tal vez sería prudente combinarlos y comparar puntajes, por ejemplo, agregando cuatro grupos en dos (0 y 1 frente a 2 y 3). Si lo hace, también debe especificar qué es exactamente la diarrea porque puede hacer 0 y 1 contra 2 y 3. O puede hacer 0 contra 1 y 2 y 3. Las estadísticas no lo ayudarán aquí para tomar esa decisión. tiene que venir del conocimiento del contenido.

Ahora, si desea analizar una división binaria, debe determinar si desea analizarla como un proporción o como un tasa:

  1. Proporción = razón de las mismas dos métricas → diarrea / heces totales
  2. Tasa = relación de dos métricas distintas → diarrea/días totales medidos
🔥 Recomendado:  ¿Cómo reconstruir la base de datos en PS4?

En términos de gestión de datos, los datos deben ser apropiados para el análisis mediante una distribución binaria o binomial. Dado que Binary / Binomial puede manejar el componente de tiempo (a diferencia de la distribución Ordinal o Multinomial), queremos crear un conjunto de datos que pueda acomodar este tipo de análisis. A continuación, puede ver el conjunto de datos final en el que tenemos, por pluma, el tratamiento, el bloque, el día y la puntuación fecal. Ya no se incluye una métrica de frecuencia.

Ahora, pasemos al modelado real. Como dije, usaré la distribución binaria y el enlace logit. Ese es el mismo enlace que usé para el modelo ordinal/multinomial. También significa que las comparaciones se realizarán utilizando el Odds Ratio.

El código de la distribución binaria no se ejecutó, lo que no es extraño, ya que a menudo no se ejecuta. Esto se debe a la forma en que el modelo necesita evaluar la variación en los datos, mirando entre filas. Si no hay suficiente varianza, o si no hay suficientes datos, el modelo simplemente no convergerá. No importa qué.

Entonces, probemos la distribución binaria en un conjunto de datos diferente. La mayoría de las veces, no hay mucho que pueda hacer desde la perspectiva del modelo si los datos no tienen la granularidad necesaria.

Ahora, aventurémonos de la distribución Binaria a la distribución Binomial. Son muy parecidos, excepto que en un Binario el N=1 mientras que para el Binomial el N=N — usted realiza múltiples ensayos independientes a partir de los cuales evalúa la probabilidad. La distribución binaria a menudo se denomina distribución de Bernoulli.

Para pasar de usar la distribución binaria (o de Bernoulli) a usar la distribución binomial, necesitamos cambiar el conjunto de datos para acomodar la necesidad de Y/N: la cantidad de victorias dada la cantidad de juegos. Por supuesto, Y/N ya es una proporción y, por lo tanto, una distribución de probabilidad en sí misma.

🔥 Recomendado:  Optimización de algoritmos genéticos: hacia la IA

A continuación, puede ver la transformación del conjunto de datos utilizado para la distribución binaria al conjunto de datos utilizado para la distribución binomial. Todavía estoy tratando de modelar a lo largo del tiempo, pero esta vez tuve que agregar los datos a nivel de semana. Esto hará que el modelo sea más estable.

En conclusión, no hay suficiente variación dentro de este conjunto de datos para obtener un modelo adecuado y detecté muchos valores límite. Además, los animales fueron desafiados con un alimento subóptimo, lo que significa que el desafío no fue lo suficientemente fuerte como para obtener resultados valiosos de diarrea. En otras palabras, el conjunto de datos no contiene el nivel de granularidad que necesito.

Así que vamos a probar un conjunto de datos diferente con el mismo tipo de modelado. A continuación puedes ver los resultados. Una vez más, no se concentre demasiado en los residuos. Incluso si se ven muy “normales” ahora, no debe esperar que lo sean. No estamos modelando datos utilizando una distribución normal.

Ahora, ¿cómo se vería si no modelara por semana el conjunto de datos anterior, sino que lo modelara en general: la proporción de diarrea dentro de las 42 semanas? Para hacerlo, necesito transformar los datos hasta que termine con el de la derecha.

Por lo tanto, analizar las puntuaciones de diarrea a través de una distribución binaria/binomial garantiza la decisión de especificar qué puntuaciones constituyen diarrea y cuáles no; tiene que ser binario. Los datos binarios son datos sí/no en su forma más cruda y son los más difíciles de analizar. Los datos binomiales son datos en forma de numerador/denominador y, a menudo, le brindan un modelo más estable. Analizar los datos de forma binaria/binomial garantiza la transformación de un conjunto de datos.

🔥 Recomendado:  Empresa unipersonal vs. LLC: ¿cuál debe elegir?

Veamos hasta dónde podemos llegar usando su contraparte continua: la distribución Beta.

Modelar la diarrea utilizando la distribución Beta significa que se está aventurando en el mundo de la proporción continua. A continuación, puede ver un ejemplo de la distribución Beta y sus dos parámetros: alfa y beta. Como puede ver de inmediato, el alfa y el beta se pueden insertar por separado, pero aún están entrelazados. Esto queda claro cuando miras las fórmulas para la media y la varianza.

Usemos nuevamente un conjunto de datos diferente para ver si tenemos más éxito al usar la Beta esta vez.

En resumen, la Distribución Beta modela proporciones, al igual que la distribución binaria y binomial. En comparación con la distribución binaria/binomial, la distribución beta modela proporciones en un espectro continuo. Para usar la distribución beta, debe tener proporciones en el conjunto de datos, y ninguna proporción puede ser 0 o 1. En comparación con las otras distribuciones, la distribución beta es la más fácil de modelar y comprender.

¡Espero que lo hayas disfrutado!


Análisis de datos ordinales en SAS utilizando la distribución binaria, binomial y beta. se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA