Uso de PROC GLIMMIX en SAS — ejemplos – Hacia la IA

Estás leyendo la publicación: Uso de PROC GLIMMIX en SAS — ejemplos – Hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Análisis de datos no normales en SAS: datos de registro, mortalidad, camada y puntajes de preferencia.

Esta publicación es la última de una serie que muestra el potencial de PROC GLIMMIX, que es la herramienta de facto para usar modelos mixtos lineales generalizados. Después de un publicación introductoria y mostrando ejemplos usando el multinomial, Binario, Binomial, Beta, Poisson y Binomial Negativo ahora es el momento de profundizar en las situaciones que se encuentran a menudo al analizar datos en las ciencias animales. Para ser más precisos, mostraré ejemplos de conteos bacterianos, puntajes de camada, puntajes de mortalidad y puntajes de preferencia. ¡Disfrutar!

En primer lugar, los recuentos de bacterias y cómo analizar los datos en la escala logarítmica. Los datos que tienen una distribución tan amplia que necesitan ser analizados usando una escala logarítmica pueden ser sorprendentemente difíciles de modelar dentro de un modelo GLIMMIX, especialmente cuando usa la función de registro. Más adelante te mostraré a qué me refiero.

A continuación, verá datos de ingreso en dos puntos, cinco y quince, en sus bloques en un Diseño de bloques completos aleatorios.

A continuación puede ver los conjuntos de datos utilizados. Este fue un diseño anidado que tenía datos a través de departamentos, bloques y corrales.

Lo anterior parecía bastante sencillo. Se cantará una canción diferente cuando analice la tasa de E.coli/Entero. Dos gráficos sencillos a continuación indican fácilmente que se trata de una tasa que se mueve en el límite del espacio.

El problema en este ejemplo no es la distribución, sino los datos. La forma en que se configuran los datos produce una tasa extraña que no puede ser imitada por la mayoría de las distribuciones conocidas. Por supuesto, se podría usar una distribución mixta, pero ¿qué hay de cambiar la tasa?

Entonces, eso es lo que hice. Cambié la tasa usando los datos sin procesar, y no las escalas logarítmicas. Si traza esta tasa, se ve mucho más Normal. Como tal, el Binomial Negativo no tendrá problemas para modelarlo.

🔥 Recomendado:  Un blog para principiantes: hacia la IA

En resumen, mostré el análisis de cuatro variables diferentes, en la escala logarítmica, que luego combinamos en dos nuevas variables:

  1. una proporción de E.Coli y Enterobacteriaceae
  2. una tasa de Clostridium y Lactobacillus

La proporción de Lactobacillus/Clostridium se puede analizar como el FCR en PROC Mixto. La tasa de log(E.Coli) / log(Enterobacteriaceae) presenta problemas que son más difíciles de superar: la distribución es difícil de modelar. Lo mejor es usar E.Coli/Enterobacteriaceae como una variable cruda y aplicar el transformación de registro en el modelo utilizando el distribución binomial negativa

Pasemos al análisis de la vida y la muerte fetal. En un post anterior, ya te mostré cómo use el Beta-Binomio para simular un tamaño de muestra para estos resultados. Aquí, le mostraré la usabilidad de la distribución Binomial Negativa.

El conjunto de datos se ve así en el que tenemos columnas para el total de nacidos, nacidos vivos, mortinatos y momificados. Tenemos estos datos por cerda y por ciclo.

Analicemos los datos usando PROCESO MIXTO y PROC GLIMMIX.

El problema de usar una distribución continua en datos discretos es que los resultados se presentarán en un continuo, lo que da como resultado la estimación de partes de un lechón.

A continuación, puede ver las estimaciones proporcionadas a través de la distribución Normal y la distribución Binomial Negativa. Por supuesto, lo Normal no tiene sentido aquí.

Entonces, analizar el nacimiento total, quieto y en vida de manera correcta no es fácil, aunque parece muy fácil. El nacimiento total y el nacimiento vivo parecen seguir una distribución normal, pero no pueden analizarse como tales: ¿cómo interpretar una ganancia de tratamiento de 1/5 de un lechón?

Por lo tanto, para el nacimiento total y el nacimiento de la vida, un Binomial Negativo El modelo hará el truco para mantener los datos de una manera discreta (recuentos) mientras se ocupa de la asimetría de la varianza con respecto a la media. Los resultados serán proporciones pronosticadas que debe multiplicar por el total para obtener el número entero pronosticado. Usando el modelo Binomial Negativo se aumentar el error estándar de LSMEANS y LS-Differences usando el modelo correcto.

🔥 Recomendado:  Revisión definitiva de ZoomBucks

Vamos continuar con datos en los que la variación es extremadamente baja, como la mortalidad o las lesiones plantares. Los datos de mortalidad en las ciencias animales a menudo son difíciles de modelar porque operan en el límite inferior de la escala, afortunadamente.

Cuando se trata de proporciones, puede tener problemas cuando hay una separación completa o casi completa de valores. Un ejemplo es cuando tiene categorías extremas en las que el tratamiento 1 muestra un 99% ‘Sí’ y el tratamiento 2 un 99% ‘No’. Como resultado, el tratamiento separa completamente las puntuaciones.

Esto es relativamente común en datos binarios/binomiales:

  1. Cada valor de la variable de respuesta en un nivel dado del factor Trt es 0 → Probabilidad (Éxito | Trt) = 0%
  2. Cada valor de la variable de respuesta en un nivel dado del factor Trt es 1 → Probabilidad (Éxito | Trt) = 100%

El modelo no convergerá → si converge, no se puede confiar en las estimaciones y la inferencia no es válida. Además, la estimación de máxima verosimilitud irá al infinito.

A continuación se muestra una tabla de 2*2 que muestra dos resultados para dos grupos. La comparación de estos grupos se puede hacer a través de la razón de probabilidades, el riesgo relativo, el riesgo absoluto y la diferencia de riesgo.

Para analizar los datos de mortalidad usando una tabla 2*2, necesitaremos transformar los datos.

Veamos si podemos modelar los datos de mortalidad usando la distribución Beta usando otro conjunto de datos.

A ver si podemos analizar los datos de mortalidad por semana.

En resumen, los datos sobre mortalidad y lesiones de las almohadillas plantares son notorios por no tener suficiente variación para analizar. Esto se debe a que ningún animal murió y, como resultado, todos los animales de cada corral obtienen la misma puntuación. En algunos casos, por lo tanto, es mejor utilizar simplemente una tabla de contingencia para analizar los eventos. Además, la creación de clases binarias y analizarlas como proporciones puede ayudar a obtener un modelo a partir del cual se pueden hacer inferencias. Sin embargo, cuando realmente no hay suficiente variación, es mejor informar simplemente el número observado de eventos. ¡Sin estadísticas!

Por último, pero no menos importante, profundicemos en los estudios de preferencias. Los estudios de preferencias son bastante divertidos de analizar, ya que miden la cantidad de alimento consumido por un animal y dividen esa cantidad por tratamiento. Por lo tanto, tendrá, para cada animal, una cantidad que se come que se puede resumir en su conjunto sumando la cantidad de alimentos que pueden elegir. Más específicamente, si observa el conjunto de datos a continuación, puede ver que la cantidad total consumida es un número que se replica y que la proporción de ingesta por fila es el número real de interés. Sin embargo, dado que solo tenemos dos tratamientos, estamos ante un juego de suma cero. Si sabes cuánto se come del primer tratamiento, también sabes el otro.

🔥 Recomendado:  La mejor plantilla Acerca de mí para su sitio web: más 8 excelentes ejemplos

Como puede ver, por semana y por animal, se midió el consumo total de alimento de dos productos. El diseño de estos experimentos y la agregación de sus datos hace que los datos sean dependientes:

  1. totales = 842
  2. BI = 642
  3. entonces debe ser 200

La semana aleatoria significa que especifiqué una matriz de covarianza no estructurada separada para el grupo IB y SB. Dado que los datos son mutuamente excluyentes, esto tiene mucho sentido y le permite usar TODOS los datos.

En resumen, los datos de preferencia son, por definición, datos dependientes. Si sabe A-cantidad comió, también sabe B SI tiene dos tratamientos. Como tales, funcionan como variables ficticias. Esta dependencia debe incluirse en el modelo mixto para que se ejecute: la declaración realmente analizará los datos dos veces, por lo que debe comparar los resultados de los datos sin procesar con LSMEANS para asegurarse de que no cometió un error. Debido a la dependencia de los datos, es fácil cometer un error

Esta publicación marca el final de la serie PROC GLIMMIX. ¡A continuación puede encontrar la última tabla de recordatorios que muestra cómo necesita cada distribución específica!


Usando PROC GLIMMIX en SAS: los ejemplos se publicaron originalmente en Towards AI en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Publicado a través de Hacia la IA