Análisis de datos ordinales en SAS utilizando la distribución multinomial. – Hacia la IA

Estás leyendo la publicación: Análisis de datos ordinales en SAS utilizando la distribución multinomial. – Hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Esta publicación es una extensión de una anterior publicación introductoria Hice usando modelos mixtos lineales generalizados en SAS.

A continuación, usaré un conjunto de datos que contiene las puntuaciones de diarrea de los cerdos para mostrar cómo analizar los datos ordinales. Antes de hacerlo, se debe considerar que la evaluación de las puntuaciones de diarrea se realiza de forma subjetiva, utilizando evaluadores, que califican la diarrea con una puntuación de 0 a 3 en pasos de 1 a 0,1,2,3. Un nueve es igual a la ausencia de heces a partir de las cuales evaluar la diarrea. No está claro de inmediato si eso realmente significa que no hay diarrea o simplemente ausencia. También puede tener un efecto en el análisis mismo.

Los datos ordinales se pueden analizar de múltiples maneras, de las cuales mostramos la forma ordinal y multinomial en esta publicación. El tipo de análisis que usará depende de sus suposiciones, la pregunta específica que le gustaría responder y lo que el modelo puede acomodar.

La diarrea es un resultado discreto y, como tal, debe tratarse como una proporción y no como una distribución continua con una media verdadera. Cambiar el nombre de los niveles de diarrea de {0, 1, 2, 3, 9} a {A, B, C, D, Z} resolvería la confusión. La diarrea se puede medir de múltiples maneras, cuya elección debe depender de:

  1. la pregunta específica que desea que se le responda
  2. disponibilidad de datos

Hagamos un análisis real y usemos un conjunto de datos que se vea así, para empezar.

El enfoque multinomial es quizás el más fácil, para empezar. Recuerde, los modelos ordinales y multinomiales no pueden manejar datos repetidos. Por lo tanto, solo se pueden utilizar períodos totales (fe 0–42, 0–14, etc.). Entonces, para usar modelos ordinales/multinomiales, se requiere una gestión de datos específica:

  1. por , & , es necesario calcular la frecuencia y ponerla en el modelo.
  2. En caso de consistencia fecal, se elimina la categoría ‘9’ (FC=9), ya que a menudo se consideran valores faltantes

A continuación, verá el comando PROC SQL para transformar los datos en un conjunto de datos que es necesario para el modelado multinomial y ordinal. El truco es obtener frecuencias por categoría por tratamiento por bloque.

🔥 Recomendado:  Famoso en Instagram: qué es + cómo volverse famoso en Instagram en 2023

A continuación, puede ver el código completo utilizado en el modelo multinomial. La distribución se establece en multinomial, pero este también es el caso si desea modelar usando el enfoque ordinal. Por lo tanto, la clave es la función de enlace, establecida aquí en glogit y se establecerá en clogit para el enfoque ordinal — glogit significa logit generalizado y significa que estimaremos las proporciones por separado. El tratamiento cuatro se establece como el tratamiento de referencia. Para las estimaciones, es necesario utilizar el bycat función para obtener estimaciones por categoría de la puntuación de consistencia fecal.

Graficar los resultados es a menudo una mejor manera de llegar a un acuerdo con su modelo. Este gráfico muestra las probabilidades de cada uno de los puntajes de diarrea en los tratamientos. Del gráfico se puede ver que:

  1. La puntuación 3 está casi ausente
  2. La puntuación 0 es la más presente
  3. La diferencia de tratamiento parece estar más presente en la puntuación 2

para entender el Razones de probabilidades de la tabla anterior, necesitas sentirte cómodo con las proporciones. Entonces, usemos otro ejemplo, pero para hacerlo, necesitamos transformar una vez más los datos para dejarPROC GLIMMIX procesalo.

Y debajo el mismo código que vimos antes.

Ahora, la gráfica anterior es bastante fácil de interpretar pero, por supuesto, necesita tener estimaciones numéricas reales para dar sentido al tamaño del efecto de las diferencias entre los tratamientos. En un modelo multinomial, la interpretación depende de las elecciones que haya hecho, incluso más que en cualquier otro tipo de modelo.

Entonces, como puede ver, la mesa es un poco diferente de lo normal, pero eso ya lo sabíamos. Las comparaciones se realizan por categoría de puntuación. Pero, si mira más de cerca, puede ver que falta la puntuación 0. Eso es porque es la puntuación de referencia. Si desea tener estimaciones específicas para la puntuación = 0, debe establecer una puntuación de referencia diferente.

Por lo demás, es bastante sencillo. Obtiene una estimación y una media por estimación, de las cuales la media es la probabilidad. Una vez que avancemos hacia las comparaciones directas y las diferencias de tratamiento, tendrá que lidiar nuevamente con las razones de probabilidad.

La influencia de la puntuación de referencia se realiza más fácilmente repitiendo el análisis, pero cambiando la puntuación de referencia. A continuación, puede ver las gráficas de probabilidad para la puntuación de referencia cero en dos. Ahora, mire de cerca y vea que la gráfica de probabilidad real NO cambia. Eso es porque no puede cambiar. Sin embargo, las estimaciones difieren, porque las puntuaciones se comparan con una puntuación de referencia DIFERENTE.

🔥 Recomendado:  Todo sobre las técnicas de conjunto: hacia la IA

A continuación puede ver lo que hace cambiar la puntuación de referencia para la interpretación. Es bastante algo, así que ten cuidado si miras estas parcelas. De hecho, me gustaría aconsejarle que solo mire estos gráficos junto con el gráfico de probabilidad general.

En resumen, cuando se analizan las puntuaciones de diarrea, el modelo multinomial es el más sencillo, ya que examina las puntuaciones si son mutuamente excluyentes y analiza el efecto del tratamiento por categoría de puntuación. Cuidado, la r La puntuación de referencia afecta los resultados, así que sigue pensando en en términos de probabilidades (los gráficos ayudan) y en términos de razones de probabilidades que no son intuitivas. Puede ejecutar el modelo varias veces, cambiando la puntuación de referencia y el tratamiento para obtener una imagen completa. Otra advertencia es que Ud. no puedo analice los datos en forma de medidas repetidas, solo adecuado para el período total.

Ahora, pasemos al enfoque ordinal.

El modelo ordinal se construye sobre la misma base que el modelo multinomial, sin embargo, aborda los datos de manera bastante diferente. De hecho, el modelo ordinal incorpora suposiciones para hacer que los análisis y las comparaciones sean más fáciles y directos. Veamos si realmente es así.

La mayoría de las variables multinivel son ordinales, lo que significa que las categorías tienen un orden específico aunque la “distancia” entre los niveles no está clara. Sin embargo, las categorías están hechas por el hombre y no hay una distribución teórica subyacente real. Sin embargo, al usar un modelo ordinal, usted asume que hay un latente variable continua debajo de sus categorías. También asumes la Suposición de probabilidades proporcionales que muchas veces no se cumple. Una forma de defender el uso de un modelo ordenado es decir que debajo de las puntuaciones observadas hay una variable latente, Y*. Esta variable latente tiene umbrales, y cruzar un umbral lo colocará en una categoría diferente. Esta es la razón por la cual un modelo ordinal a menudo se denomina “modelo de umbral”. Como resultado, un modelo ordinal generará una única ecuación para Y*. Esta es también directamente la diferencia con el modelo multinomial. que permite más de una ecuación ya que trata las categorías como separadas

En un modelo ordinal, el único parámetro que cambia es la intersección. Los efectos fijos siguen siendo los mismos para cada categoría. La intersección define los límites entre categorías cuando el predictor lineal es cero. ¡Los cambios en el predictor lineal mueven los límites para que la distancia entre ellos permanezca CONSTANTE! Esta es la definición de la Suposición de probabilidades proporcionales

🔥 Recomendado:  Cómo el análisis exploratorio de datos me ayudó a resolver millones de dólares… – Hacia la IA

Es la intercepción la que determina el umbral para la siguiente categoría. Por lo tanto, en una variable de resultado de cinco categorías, tenemos cuatro intersecciones, como puede ver en la ejemplo abajo.

La mejor manera de lidiar con matemáticas complejas es mirar este gráfico: el gráfico de probabilidad acumulada. Muestra la distribución acumulada de las frecuencias. Aquí, es claramente visible que el puntaje 0 es el más frecuente y que los puntajes 2 y 3 suman solo un poco. Por lo tanto, quizás sea mejor combinar las puntuaciones 1, 2 y 3 frente a la puntuación 0.

La suposición clave del modelo de probabilidades proporcionales es que la relación ENTRE categorías sigue siendo la MISMA. Por lo tanto, las probabilidades no son específicas de la categoría y los efectos del tratamiento mueven los límites entre las categorías como grupo. Como tal, las razones de probabilidad de un efecto de tratamiento para NO SEVERO frente a SEVERO son las mismas que para SEVERO frente a MUY SEVERO.

Recuerde, un modelo ordinal intenta encontrar un predictor lineal que prediga el cambio de una categoría a la siguiente, pero las probabilidades no son específicas de la categoría. Necesitamos probar esta suposición usandoPROC GLIMMIX

Si se cumplen los supuestos del modelo cumlogit ordenado, entonces todos los coeficientes correspondientes deberían ser iguales. Por lo tanto, los supuestos del modelo a veces se denominan supuestos de líneas paralelas o regresiones paralelas.

En resumen, asumir que los datos son ordinales significa que existe un cierto ordenamiento de los datos discretos. El orden específico está determinado por una distribución continua latente. Los datos para el enfoque ordinal necesitan la misma configuración que para el enfoque nominal. Los resultados muestran el efecto del tratamiento, independientemente de la puntuación específica. Por lo tanto, no hay ninguna referencia a tener en cuenta. Verificar si se mantuvo la suposición de probabilidades proporcionales es complicado.

¡Espero que les haya gustado esta publicación! ¡Más por venir!


Análisis de datos ordinales en SAS utilizando la distribución multinomial. se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA