Estás leyendo la publicación: Aprendizaje automático determinista frente a estocástico
En el aprendizaje automático, los métodos deterministas y estocásticos se utilizan en diferentes sectores en función de su utilidad. Un proceso determinista cree que las tasas promedio conocidas sin desviaciones aleatorias se aplican a grandes poblaciones. Un proceso estocástico, por otro lado, define una colección de variables aleatorias ordenadas en el tiempo que reflejan las posibles rutas de muestra. En este artículo, discutiremos las diferencias clave entre su funcionamiento y sus aplicaciones. Los puntos principales que se discutirán en este artículo se describen a continuación.
Tabla de contenido
- Modelado de procesos determinísticos y estocásticos
- ¿Cuándo podrían usarse ambos?
- ¿Cómo funcionan estos enfoques?
- Diferentes formas de algoritmos estocásticos y deterministas.
- Beneficios y desventajas de Determinista y Estocástico
- Aplicaciones de algoritmos deterministas y estocásticos
Comencemos con una descripción general de alto nivel de los procesos deterministas y estocásticos.
Modelado de procesos determinísticos y estocásticos
El modelado determinista produce resultados coherentes para un conjunto determinado de entradas, independientemente de cuántas veces se vuelva a calcular el modelo. Las características matemáticas son conocidas en este caso. Ninguno de ellos es aleatorio y cada problema tiene solo un conjunto de valores específicos, así como una respuesta o solución. Los componentes desconocidos en un modelo determinista son externos al modelo. Se ocupa de los resultados definitivos en lugar de resultados aleatorios y no permite errores.
Por el contrario, el modelado estocástico es intrínsecamente impredecible y los componentes desconocidos se integran en el modelo. El modelo genera una gran cantidad de respuestas, estimaciones y resultados, muy parecido a agregar variables a un problema matemático difícil para ver cómo afectan la solución. A continuación, se realiza el mismo procedimiento varias veces en diferentes entornos.
¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.
¿Cuándo podrían usarse ambos?
Se aplica un modelo determinista donde los resultados se determinan con precisión a través de una relación conocida entre estados y eventos donde no hay aleatoriedad ni incertidumbre.
Por ejemplo, si sabemos que consumir una cantidad fija de azúcar ‘y’ aumentará la grasa en el cuerpo en ‘2x’ veces. Entonces ‘y’ siempre se puede determinar exactamente cuando se conoce el valor de ‘x’.
De manera similar, cuando la relación entre las variables es desconocida o incierta, se podría usar el modelo estocástico porque se basa en la estimación verosímil de la probabilidad de los eventos.
Por ejemplo, el sector de los seguros depende principalmente de modelos estocásticos para pronosticar cómo aparecerán los balances de las empresas en el futuro.
¿Cómo funcionan estos enfoques?
Los modelos deterministas muestran la relación entre los resultados y los factores que afectan los resultados. Para este tipo de modelo, se debe conocer o determinar la relación entre las variables.
Consideremos construir un aprendizaje automático que pueda ayudar a un atleta en una carrera de 100 metros, el factor más importante en la carrera de 100 metros es el tiempo. El objetivo del modelo sería minimizar el tiempo del atleta. Los dos factores más importantes que afectan el tiempo son la velocidad y la distancia.
La distancia recorrida por cada atleta es la misma, es constante para todos, lo único que varía es la velocidad. Pero la velocidad variable podría controlarse ya que los factores que afectan la velocidad se conocen como la posición del cuerpo, el tiempo de vuelo, etc. Dado que sabemos que el tiempo depende de la velocidad y la distancia, esto hace que este problema sea determinista.
El aspecto estocástico de los algoritmos de aprendizaje automático es más evidente en los enfoques complicados y no lineales utilizados para resolver problemas de modelado predictivo de clasificación y regresión. Estos métodos emplean la aleatorización en el proceso de construcción de un modelo a partir de los datos de entrenamiento, lo que da como resultado un ajuste de modelo diferente cada vez que se ejecuta el mismo algoritmo en los mismos datos.
Como resultado, cuando se prueban en un conjunto de datos de prueba de reserva, los modelos ligeramente modificados funcionan de manera diferente. Debido a este comportamiento estocástico, el rendimiento del modelo debe describirse mediante estadísticas de resumen que indiquen el rendimiento medio o previsto del modelo en lugar del rendimiento del modelo de una sola sesión de entrenamiento.
Consideremos un problema de lanzamiento de dados. Estás tirando un dado en un casino. Si sacas un seis o un uno, ganas el premio en efectivo. Inicialmente, se generará un espacio de muestra que incluye todas las posibilidades para los resultados de la tirada de dados. Se calcula la probabilidad de que salga cualquier número, que es ‘0,17’. Pero solo nos interesan dos números, ‘6’ y ‘1’. Entonces la probabilidad final sería 0.33. Así es como funcionaría un modelo estocástico.
Echemos un vistazo a cómo un modelo de regresión lineal puede funcionar tanto como modelo determinista como estocástico en diferentes escenarios.
Los modelos deterministas definen un vínculo preciso entre variables. En el escenario determinista, la regresión lineal tiene tres componentes. La variable dependiente ‘y’, la variable independiente ‘x’ y el intercepto ‘c’. No hay lugar para errores al predecir y para una x dada. Aquí hay una ecuación como ejemplo para replicar la explicación anterior.
F=95C+32
Fuente de imagen
La ecuación anterior tendría un gráfico similar a este con todos los puntos de datos en línea recta.
Un modelo estocástico que tiene en cuenta el error aleatorio. Hay un componente determinista así como un componente de error aleatorio. En este paradigma se plantea la hipótesis de un vínculo probabilístico entre yyx. Aquí hay una ecuación como ejemplo para replicar la explicación anterior.
y= 1.5x+error
Fuente de imagen
En el gráfico anterior se pudo observar que debido al componente de error en la ecuación de regresión lineal existe aleatoriedad en los datos.
Diferentes formas de algoritmos estocásticos y deterministas.
Análisis de componentes principales (PCA)
PCA es un enfoque determinista ya que no hay parámetros para inicializar. PCA encuentra la línea a través del centroide con la suma más pequeña de distancias al cuadrado entre los puntos dado un conjunto de puntos en un espacio n-dimensional. Identificar la línea para la cual las proyecciones de los puntos sobre esa línea son tan grandes como sea posible es lo mismo (medido por la suma de las longitudes al cuadrado).
Luego, sujeto a la restricción de ser ortogonal a la primera línea, encuentra la línea a través del centroide con la menor suma de distancias al cuadrado a los puntos. El tercer componente principal, el cuarto, y así sucesivamente. Debido a que todos estos procedimientos son simplemente geométricos, los componentes principales son funciones de datos deterministas.
Vecinos más cercanos ponderados
Un método ponderado de vecinos más cercanos también podría llamarse KNN básico y es un método determinista. Esta técnica emplea una estadística conocida como la “función de pesaje”. El peso se determina tomando el inverso de la distancia. Debido a que la distancia entre cada punto de datos y el punto de consulta sería la misma en cada iteración, los pesos serían un término determinista.
Proceso de venenos
El método de Poisson es un proceso estocástico que muestra un número aleatorio de puntos u ocurrencias a lo largo del tiempo. El número de puntos en un proceso que cae entre cero y un período específico se caracteriza como una variable aleatoria de Poisson dependiente del tiempo. El conjunto de índices de este proceso se compone de números enteros no negativos, mientras que el espacio de estado se compone de números naturales. Este enfoque se conoce como el proceso de conteo de Poisson porque puede considerarse como una operación de conteo.
Proceso de Bernoulli
El proceso de Bernoulli es un conjunto de variables aleatorias distribuidas aleatoriamente, cada una con una probabilidad de uno o cero. Este procedimiento es análogo a tirar continuamente una moneda, con la probabilidad de ganar siendo p y el valor uno, y la probabilidad de obtener cruz siendo cero. Como el resultado es probabilístico, esa es la razón por la cual este método es un proceso estocástico.
Caminata aleatoria
El paseo aleatorio simple es un proceso estocástico de tiempo discreto que utiliza números enteros como el espacio de estado que se basa en un proceso de Bernoulli en el que cada variable de Bernoulli toma un valor positivo o negativo.
Beneficios y desventajas de Determinista y Estocástico
Echemos un vistazo a los beneficios y desventajas de ambos procesos.
Beneficios
- Los modelos deterministas tienen la ventaja de ser simples.
- El determinismo es más fácil de comprender y, por lo tanto, puede ser más adecuado para algunos casos.
- Los modelos estocásticos proporcionan una variedad de resultados posibles y la probabilidad relativa de cada uno.
- El modelo estocástico utiliza el enfoque más común para obtener los resultados.
inconvenientes
- En el enfoque determinista, no hay probabilidades acumulativas debido a que los casos de reservas bajas son demasiado optimistas.
- En el enfoque estocástico, el modelo es más complejo, también llamado enfoque de caja negra.
- Los sesgos pueden estar ocultos en el modelo estocástico y se centra en los extremos.
Aplicaciones de algoritmos deterministas y estocásticos
- Los modelos deterministas se utilizan en el análisis del riesgo de inundación.
- El modelo determinista utilizado en la máquina de Turing es una máquina (autómata) capaz de enumerar cualquier subconjunto arbitrario de cadenas alfabéticas aceptables; estas cadenas son parte de un conjunto recursivamente enumerable. Una máquina de Turing tiene una cinta infinitamente larga en la que ejecutar operaciones de lectura y escritura.
- Los modelos de inversión estocástica tienen como objetivo estimar los cambios de precios, los rendimientos de los activos (ROA) y las clases de activos (como bonos y acciones) a lo largo del tiempo. Utiliza la simulación de Monte Carlo, que puede simular cómo se comportaría una cartera en función de las distribuciones de probabilidad de los rendimientos de las acciones individuales.
- El modelado estocástico influye en el marketing y el movimiento cambiante de los gustos y preferencias de la audiencia, así como en la solicitud y el atractivo científico de los cameos cinematográficos específicos (es decir, los primeros fines de semana, el boca a boca, el conocimiento más importante entre los grupos encuestados, las estrellas). reconocimiento de nombre y otros elementos de divulgación y publicidad en las redes sociales).
Conclusión
Un enfoque determinista tiene una estructura simple y comprensible que podría aplicarse solo cuando se determina la relación entre las variables; por otro lado, un enfoque estocástico tiene una estructura compleja e incomprensible que trabaja sobre la verosimilitud de las probabilidades. Con este artículo, hemos entendido la diferencia entre los enfoques determinista y estocástico en el aprendizaje automático.