Modelos Lineales Mixtos Generalizados en SAS — distribuciones, enlace… – Hacia la IA

Estás leyendo la publicación: Modelos Lineales Mixtos Generalizados en SAS — distribuciones, enlace… – Hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Estadísticas

Modelos mixtos lineales generalizados en SAS: distribuciones, funciones de enlace, escalas, sobredispersión y normalidad de residuos.

Todos los modelos estadísticos tienen una parte sistemática y otra aleatoria. En los modelos ANOVA y GLM, la parte sistemática es el efecto fijo y la parte aleatoria es el error/varianza no explicada. En modelos mixtos, tenemos al menos dos partes aleatorias:

  1. La variable destinada a describir y usar la varianza (p. ej., bloque)
  2. Error/varianza no explicada

Nuestra comprensión del mundo depende de los datos que recopilamos y observamos. Por eso es tan importante el diseño de nuestro experimento.. Con base en estas observaciones, construimos un modelo estadístico que incluye partes fijas y aleatorias. Construimos un modelo para describir/explicar el mundo. Aplicamos la teoría de la probabilidad al modelo para hacer inferencias:

  1. ¿Cuál es la probabilidad de que el modelo no describa el mundo con precisión?
  2. ¿Cuál es la probabilidad de que lo que hemos observado se deba al azar? (lo cual, por supuesto, nunca puede suceder ya que la casualidad por sí misma no juega un papel)

Modelos mixtos lineales (LMM) solo puede analizar datos normalmente distribuidos. En los Modelos mixtos lineales generalizados (GLMM), la función de respuesta (y) puede provenir de diferentes distribuciones. Mientras que en los LMM analizamos la respuesta directamente, en los GLMM necesitamos aplicar una función de enlace para transformar los datos EN el modelo.

Hay muchas opciones disponibles en SAS para hacerlo.

A continuación, se muestra un ejemplo de datos que deben transformarse en registros (ya sea sin procesar o dentro del modelo) para poder analizarlos.

En los datos que provienen de una distribución logarítmica normal, usar la distribución normal en los datos sin procesar es simplemente incorrecto.

Ahora, usemos una distribución diferente en su lugar. Dado que transformamos los datos usando una transformación logarítmica, podríamos optar por una distribución lognormal adentro el modelo. Esto tiene el beneficio adicional de que una transformación inversa se realiza automáticamente.

Los datos y la escala del modelo son los mismos en PROCESO MIXTO ya que solo usamos la distribución normal. No hay función de enlace en PROCESO MIXTO. En PROC GLIMMIX, uno determina la escala del modelo usando la función de enlace. La escala del modelo conducirá a estimaciones no observables y funciones no lineales de la variable de respuesta. Se utilizan para la inferencia. Entonces, uno puede volver a la escala de datos usando la función en PROC GLIMMIX. Las estimaciones se transforman en observables. Esto solo funciona para las medias y no para las diferencias, ya que la función es una función no lineal para la cual no existe una transformación inversa de fórmula cerrada.

🔥 Recomendado:  Una guía simple para Elastic… – Hacia la IA

Las funciones de enlace suelen ser no lineales y, por lo tanto, no se conserva una diferencia en una función no lineal. Por lo tanto, aplicar el vínculo inverso a una diferencia generalmente produce un resultado sin sentido. Para estimar las diferencias en la escala de datos, debe ser más inteligente. La distribución y el vínculo pueden cambiar cuando estima, el predictor lineal nunca cambia. Como usamos el vínculo de identidad (), los resultados fueron los mismos en la escala del modelo y en la escala de datos. El vínculo de identidad no realiza una transformación dentro del modelo.

Usemos un nuevo ejemplo en el que tomamos observaciones provenientes de una distribución binomial.

Entonces, usar y en lugar de y ha resultado en:

  1. Valores de p más pequeños.
  2. No poder obtener directamente la diferencia entre dos proporciones de tratamiento.
  3. Tener que recurrir a Razones de probabilidades para interpretar las diferencias de tratamiento.

Por lo tanto, los modelos mixtos lineales (LMM) solo pueden analizar datos distribuidos normalmente. Los modelos mixtos lineales generalizados (GLMM) pueden analizar todas las distribuciones. Para hacerlo, necesita transformar los datos en el modelo utilizando la función de enlace (modelo a escala). Para obtener resultados del modelo en la escala original (escala de datos) usamos el enlace inverso. El uso de un GLMM para datos con una distribución no normal le proporcionará la resultados correctos! Para los datos binomiales, ahora se tendrán que usar las razones de probabilidades para interpretar la diferencia de tratamiento

Hablemos más sobre probabilidad y distribuciones. En estadística, una distribución de probabilidad es una función matemática que proporciona la probabilidades de ocurrencia de los diferentes resultados posibles en un experimento.

La distribución de probabilidad es diferente para los resultados continuos y los resultados discretos. Puede ver algunos ejemplos en la siguiente tabla.

Y si vamos a hablar de distribuciones, absolutamente NECESITAMOS hablar sobre la relación media-varianza que, en gran medida, determina cómo se comportan las distribuciones y qué tan útiles serán para analizar diferentes tipos de datos.

La Distribución Normal es una distribución tan agradable porque podemos estimar la media y la varianza por separado! Por lo tanto, si un proceso subyacente es normal, ¡será muy fácil estimar las propiedades de la distribución normal teórica!

La dificultad de tratar con datos no normales se debe a que existe una dependencia entre el estimador de media y el estimador de varianza. Además, los datos son discretos y, por lo tanto, ya no son intuitivos. En ausencia de una media, ahora tenemos que hablar de proporciones y usamos distribuciones para modelar los datos tal como los vemos, extrapolarlos a la población y basar la inferencia (p -valores) en él. Para hacerlo, tenemos dos tipos principales de distribuciones: continuas y discretas.

🔥 Recomendado:  21 trabajos independientes de ubicación para nómadas y viajeros digitales

La distribución normal es continua, la más utilizada y la más fácil de interpretar, ya que tiene dos parámetros que se pueden estimar por separado: la media y la varianza. Para las distribuciones en las que la relación entre la media y la varianza está vinculada, a menudo se produce una sobredispersión: la varianza se subestima, lo que genera falsos positivos.

Y así llegamos al tema de la sobredispersión, que es donde la relación media-varianza se vuelve extremadamente interesante. A continuación, verá las características de cuatro distribuciones y cómo se especifican su media y varianza. La distribución de Poisson sobresale de inmediato.

La sobredispersión se mencionó brevemente en la parte anterior y es algo que destacaremos más adelante antes de pasar a los ejemplos más prácticos. La sobredispersión no es un problema en los modelos mixtos lineales, ya que los LMM solo tratan con datos provenientes de una distribución normal y, en una distribución normal, la varianza se estima por separado de la media. En los GLMM, sin embargo, prácticamente siempre está presente alguna forma de dispersión, lo que significa que la varianza está subestimada o sobreestimada.

Usemos un ejemplo para aclarar el problema.

Una forma simple y directa de evaluar si Poisson es una buena distribución para ajustarse es graficar la relación media-varianza entre grupos. Los puntos deben estar en la línea roja.

La sobredispersión a menudo ocurre porque el predictor lineal no está completo, lo que es el resultado de no haber incluido suficientes / las variables más importantes. Para detectar la sobredispersión, debe buscar si hay más variación en el modelo de lo esperado, dado el tamaño de la muestra, dividiendo la variación detectada por los grados de libertad. Para obtener esta métrica, debe cambiar el método de estimación en GLIMMIX, lo que abre algunas teorías estadísticas bastante complejas:

  1. Pseudo-probabilidad
  2. Laplace (método=laplace)
  3. Cuadratura (método=quad(qpuntos=5))

La opción dos o tres no se puede utilizar en PROC GLIMMIX si tiene una declaración aleatoria/residual incluida. Para comprobar numéricamente la sobredispersión, puede echar un vistazo dividiendo el Chi-Cuadrado de Pearson entre los Grados de Libertad. Si el valor está entre 0,5 y 1,5, está bien, pero no hay un límite oficial.

En este ejemplo, en realidad detectamos subdispersión. Cuando no hay dispersión, el valor de Chi-cuadrado/DF de Pearson debe ser 1, lo que significa que la varianza se estima correctamente en función de los grados de libertad presentes. Un valor fuera del rango [ 0.5; 1.5 ] constituiría demasiada dispersión. En casos extremos, verá un valor entre 5 y 10, lo que significa que subestimamos la varianza por un factor de 5 o 10

🔥 Recomendado:  Revolucionando el desarrollo de aplicaciones mientras… – Hacia la IA

Probemos todo esto usando un ejemplo:

En resumen, en la Distribución Normal, la media y la varianza se estiman por separado. En otras distribuciones, la varianza es una función de la media. Esto a menudo crea sobredispersión — una subestimación de la varianza que conduce a falsos positivos. Subdispersiónes menos común pero seguramente puede suceder. En ambos casos, el mejor enfoque es cambiar la distribución hacia una que le brinde más libertad para modelar.

En la mayoría de los modelos, se supone que los residuos de un modelo son iid — variables aleatorias independientes e idénticamente distribuidas. Cómo funciona esto, se puede ver en una simulación a continuación.

Ahora, simulemos una distribución de Poisson y veamos cómo se verán los residuos.

La distribución de Poisson basada en la media se ve diferente a una distribución basada en la varianza. En una distribución de Poisson, un λ mayor provocará una cola más larga. Veamos qué sucede si empezamos a modelar los datos.

El ejercicio anterior tiene lecciones valiosas:

  1. NO utilice los gráficos del modelo GLIMMIX para evaluar si un modelo es mejor que el otro.
  2. Respete los criterios de información descritos en el curso Modelo lineal mixto.
  3. Lo mejor es mirar el LSMEANS, los errores estándar y las métricas de dispersión excesiva o insuficiente.
  4. En Modelos Mixtos Lineales Generalizados, los errores no pueden provenir de una distribución normal

Por lo tanto, usar las gráficas residuales para evaluar el ajuste del modelo y comparar modelos es complicado y conducirá a resultados incorrectos, incluso si se ven como a los que está acostumbrado. Lo mejor es observar los LSMEANS, los errores estándar y las métricas para la dispersión excesiva o insuficiente.

¡Espero que hayas disfrutado esto! ¡Más por venir sobre tipos específicos de datos y cómo manejarlos!


Modelos mixtos lineales generalizados en SAS: distribuciones, funciones de enlace, escalas, sobredispersión y… se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA