▷ un cálculo paso a paso.

Estás leyendo la publicación: un cálculo paso a paso. – Hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Descomposición de sesgo-varianza 101: cálculo paso a paso.

¿Alguna vez has oído hablar de la “dilema sesgo-varianza” en ml? Estoy seguro de que tu respuesta es si estás aquí leyendo este artículo 🙂 y hay algo más de lo que estoy seguro: estás aquí porque esperas encontrar finalmente la receta definitiva para llegar a los tan famosos. mejor compensación.

Bueno, todavía no tengo esta varita mágica, pero lo que puedo ofrecerles hoy en este artículo es una forma de analizar el error de su algoritmo ML, dividirlo en tres partes y así obtener una enfoque sencillo para comprender y abordar concretamente el dilema de sesgo-varianza.

También realizaremos todas las derivaciones paso a paso de la manera más fácil posible porque

Tabla de contenidos

Introducción y notación
Cálculo paso a paso
Vista gráfica y el famoso Trade-Off
Aplicaciones de sobreajuste, ajuste inferior, conjunto y hormigón
Conclusión
Referencias

1. Introducción y notación

En este artículo, analizaremos el comportamiento de error de un algoritmo ML a medida que cambian los datos de entrenamiento, y entenderemos cómo el Los componentes de sesgo y varianza son los puntos clave en este escenario para elegir el modelo óptimo en nuestro espacio de hipótesis.

¿Qué le sucede a un modelo dado cuando cambiamos el conjunto de datos? ¿Cómo se comporta el error? Imagine tener y mantener la misma arquitectura modelo (por ejemplo, un MLP simple) y asuma algunos variación del conjunto de entrenamiento. Nuestro objetivo es identificar y analizar qué sucede con el modelo en términos de aprendizaje y complejidad.

Este enfoque proporciona una forma alternativa (en comparación con el enfoque de riesgo empírico común) para estimar el error de prueba.

Lo que vamos a hacer en este artículo.

Dada una variación del conjunto de entrenamiento, descomponer el error esperado en un cierto punto del conjunto de prueba en tres elementos:

Inclinaciónque cuantifica la discrepancia entre la función verdadera (desconocida) y nuestras hipótesis (modelo), promediadas sobre los datos. Corresponde a un error sistemático.
Diferenciacuantifica la variabilidad de la respuesta del modelo para diferentes realizaciones de los datos de entrenamiento (los cambios en el conjunto de entrenamiento conducen a soluciones muy diferentes).
Ruido porque las etiquetas incluyen un error aleatorio: para un punto dado hay más de uno posible (es decir, no está obteniendo el mismo objetivo incluso si muestrea el mismo punto en la entrada). ¡Significa que incluso la solución óptima podría estar equivocada!

NÓTESE BIEN NO CONFUNDA el término “sesgo” que se usa en este contexto con otros usos de la misma palabra para indicar conceptos totalmente diferentes en ML (p. ej., sesgo inductivo, sesgo de una unidad neuronal).

Antecedentes y escenario

estamos en un supervisado conjunto de aprendizaje, y en particular, asumimos un regresión escenario de tarea con objetivo y pérdida de error al cuadrado.

Suponemos que los puntos de datos se extraen (independientes e idénticos distribuidos) de una distribución de probabilidad subyacente única (y desconocida) .

Supongamos que tenemos ejemplos <X,> donde la función verdadera (desconocida) es

donde Ɛ es el ruido gaussiano con media cero y desviación estándar

En regresión lineal, dado un conjunto de ejemplos <x_i> (con ajustamos una hipótesis lineal como para minimizar el error de suma cuadrática sobre los datos de entrenamiento.

Para la función de error, también proporcionamos un fragmento de código de Python.

Vale la pena señalar dos observaciones útiles:

Debido a la clase de hipótesis que elegimos (lineal) para alguna función, tendremos un error de predicción sistemático (es decir, el sesgo).
Dependiendo de los conjuntos de datos que tengamos, los parámetros encontrados serán diferentes.

Ejemplo gráfico para una descripción completa de nuestro escenario:

En Figura 1 es fácil ver los 20 puntos (puntos) muestreados sobre la función verdadera (la curva) . Así que solo conocemos 20 puntos de la distribución original. Nuestra hipótesis es la lineal que trata de aproximar los datos.

En Figura 2 tenemos 50 ajustes realizados usando diferentes muestras de datos, cada uno en 20 puntos (es decir, variando el conjunto de entrenamiento). Se obtienen diferentes modelos (líneas) según los diferentes datos de entrenamiento. Diferentes conjuntos de datos conducen a diferentes hipótesis, es decir, diferentes modelos (lineales).

Nuestra puntería

Dado un nuevo punto de datos, ¿cuál es el error de predicción esperado? El objetivo de nuestro análisis es calcular, para un nuevo punto arbitrario,

donde se pretende la expectativa, conjuntos de entrenamiento general dibujados de acuerdo con .

Tenga en cuenta que hay un (y ) diferente para cada conjunto de entrenamiento “extraído” diferente.

2. Cálculo paso a paso

2.1 Recordar estadísticas básicas

Sea Z un variable aleatoria discreta con posibles valores , donde y distribución de probabilidad P(Z).

Valor esperado o significar de Z

Para mayor claridad, probaremos ahora esta última fórmula.

2.2 Prueba de varianza Lema

2.3 Descomposición de sesgo-varianza

NB es posible considerar la media del producto entre y como el producto de los medios porque son variables independientesya que, una vez fijado el punto en el conjunto de prueba, la hipótesis (modelo) que construimos no depende (ni) del objetivo (ni de sí mismo).

Dejar

denota el predicción media en la hipótesis en la que se entrena con datos extraídos de (es decir, la media de los modelos entrenados en todas las diferentes variaciones del conjunto de entrenamiento). Entonces es el valor esperado del resultado que podemos obtener de diferentes entrenamientos del modelo con diferentes datos de entrenamiento, estimado en . Ahora consideramos cada término de fórmula (5) por separado.

Usando el lema de la varianza (fórmula 4.1)tenemos:

Tenga en cuenta que, para fórmula (0)la expectativa sobre el valor objetivo es igual a la función objetivo evaluada en:

porque, por definición, el ruido Ɛ tiene media cero, y porque se supone que se conoce la verdadera función, entonces la expectativa sobre ella es simplemente ella misma. Por esta razón, podemos escribir:

En cuanto al (tercer) término restante, debido a, respectivamente, fórmulas (6) y (3). simplemente podemos reescribirlo como

Poniendo todo junto y reordenando términos, podemos escribir la ecuación inicial, es decir fórmula (2):

De forma compacta es:

Es fácil ver que los términos en rojo constituyen un cuadrado de un binomio. Reordenando nuevamente los términos para mayor sencillez, y reescribiendo de forma compacta el cuadrado del binomio:

Los términos del árbol de la fórmula (7) son exactamente los tres componentes que buscábamos:

El error de predicción esperado ahora finalmente se descompone en

y, como el ruido tiene media cero por definición —fórmula (0)—, podemos escribir fórmula (8): resultado de la descomposición sesgo-varianza.

error(x)

Tenga en cuenta que el ruido a menudo se llama error irreducible ya que depende de los datos y, por lo tanto, no es posible eliminarlo, independientemente del algoritmo que se use (no puede reducirse fundamentalmente por ningún modelo).

De lo contrario, sesgo y varianza son errores reducibles porque podemos intentar minimizarlos tanto como sea posible.

2.4 Significado de cada término

El término de varianza se define como la expectativa de la diferencia entre cada hipótesis singular (modelo) y la media sobre todas las diferentes hipótesis (diferentes modelos obtenidos de los diferentes conjuntos de entrenamiento).
El término de sesgo se define como la diferencia entre la media general de las hipótesis (es decir, la media de todos los modelos posibles obtenidos de diferentes conjuntos de entrenamiento) y el valor objetivo en el punto
El término de ruido se define como la expectativa de la diferencia entre el valor objetivo y la función objetivo calculada (es decir, este componente corresponde realmente a la varianza del ruido).

3. Vista gráfica y el famoso Trade-Off

Idealmente, desea ver una situación en la que haya baja varianza y bajo sesgocomo en Fig. 3 (el objetivo de cualquier algoritmo de aprendizaje automático supervisado). Sin embargo, a menudo existe una compensación entre el sesgo óptimo y la varianza óptima. La parametrización de los algoritmos de aprendizaje automático es a menudo una batalla para equilibrar los dos, ya que no se puede escapar de la relación entre el sesgo y la varianza: aumentar el sesgo disminuirá la varianza y viceversa.

Lidiar con el sesgo y la varianza se trata realmente de lidiar con el ajuste excesivo y el inadecuado.. El sesgo se reduce y la varianza aumenta en relación con la complejidad del modelo (ver Figura 4). A medida que se agregan más y más parámetros a un modelo, la complejidad del modelo aumenta y la varianza se convierte en nuestra principal preocupación, mientras que el sesgo disminuye constantemente. En otras palabras, el sesgo tiene una derivada de primer orden negativa en respuesta a la complejidad del modelo, mientras que la varianza tiene una pendiente positiva.

Comprender el sesgo y la varianza es fundamental para comprender el comportamiento de los modelos de predicción, pero en general lo que realmente te importa es un error general, no la descomposición específica. El punto óptimo para cualquier modelo es el nivel de complejidad en el que el aumento del sesgo es equivalente a la reducción de la varianza.

¡Por eso hablamos de compensaciones! Si uno aumenta, el otro disminuye, y viceversa. Esta es exactamente su relación, y nuestra derivación ha sido útil para llevarnos aquí. ¡Sin la expresión matemática, no es posible comprender la conexión entre estos componentes y, en consecuencia, tomar medidas para construir nuestro mejor modelo!

Introduzcamos como último paso una representación gráfica de los tres componentes del error.

Es fácil de identificar:

el inclinación como la discrepancia (flecha) entre nuestra solución obtenida (en rojo) y la verdadera solución promediada sobre los datos (en blanco).
el diferencia (círculo azul oscuro) en cuanto a cuánto cambiará la función objetivo si se usaron diferentes datos de entrenamiento, es decir, la sensibilidad a pequeñas variaciones en el conjunto de datos (cuánto cambiará una estimación para un punto de datos determinado si se usa un conjunto de datos diferente).

Como se dijo antes, si el sesgo aumenta, la varianza disminuye y viceversa.

Es fácil comprobar gráficamente lo que decíamos antes sobre el ruido: como depende de datos, no hay forma de modificarlo (por eso se le conoce como error irreducible).

Sin embargo, si es cierto que tanto el sesgo como la varianza contribuyen al error, recuerde que es el error de predicción (total) que desea minimizarno el sesgo o la varianza específicamente.

4. Aplicaciones de sobreacondicionamiento, desacoplamiento, conjunto y concreto

Dado que nuestro propósito final es construir el mejor modelo de ML posible, esta derivación sería casi inútil si no estuviera vinculada a estas implicaciones relevantes y temas relacionados:

Sesgo y Varianza en la complejidad y regularización del modelo. La interacción entre la varianza de sesgo y el término en ML + su impacto en el ajuste insuficiente y el ajuste excesivo.
Más sobre el famoso trade-off sesgo-varianza
Una implementación práctica para lidiar con el sesgo y la varianza: métodos de ensamble.

Ya cubrí estos temas en mis últimos artículos, así que si está interesado, consulte los enlaces a continuación⬇

5. Conclusión

Lo que hemos visto hoy es un enfoque puramente teórico: es muy interesante razonar al respecto para comprender completamente el significado de cada componente de error y tener una forma concreta de abordar la fase de selección del modelo de su algoritmo ML. Pero para ser computado, uno debe conocer la verdadera función y la distribución de probabilidad.

En realidad, no podemos calcular los términos de error de varianza y sesgo reales porque no conocemos la función objetivo subyacente real. Sin embargo, como marco, el sesgo y la varianza brindan las herramientas para comprender el comportamiento de los algoritmos de aprendizaje automático en la búsqueda del rendimiento predictivo.

Espero que este artículo y los vinculados lo hayan ayudado a comprender el dilema de sesgo-varianza y, en particular, a proporcionar una forma rápida y fácil de lidiar con la selección y optimización del modelo ML. Espero que ahora tenga herramientas adicionales para abordar y corregir la complejidad, flexibilidad y capacidad de generalización de su modelo a través de ingredientes de sesgo y varianza.

Si te gusta este artículo por favor apóyame dejando un ??. Gracias.

6. Referencias

Principal:

Otros:

German, Stuart; Bienenstock, Élie; Doursat, René (1992). “” (PDF). . 4: 1–58. doi:10.1162/neco.1992.4.1.1.
Vapnik, Vladimir (2000). . Nueva York: Springer-Verlag.
Shakhnarovich, Greg (2011). “”
James, Gareth; Witen, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). . Saltador.
en analyticsvidhya.com
en comunidad.alteryx.com
por Scott Fortmann-Roe
en machinelearningmastery.com
en Wikipedia

Más fuentes útiles

Cálculo de la descomposición de la varianza del sesgo con mlxtender Biblioteca de Python:

Se puede encontrar más información sobre la teoría de compensación sesgo-varianza en el lista Previamente mencionado.

Descomposición de sesgo-varianza 101: un cálculo paso a paso. se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA

un cálculo paso a paso. – Hacia la IA