¿Cuál es la conexión entre un modelo mundial, el gato de Schrödinger… – Hacia la IA

Estás leyendo la publicación: ¿Cuál es la conexión entre un modelo mundial, el gato de Schrödinger… – Hacia la IA

Publicado originalmente en Hacia la IA.

¿Cuál es la conexión entre un modelo mundial, el gato de Schrödinger y las redes neuronales?

Uso de la red neuronal informada por la física (PINN) para resolver la famosa ecuación de Schrödinger

Durante siglos, mentes curiosas han intentado descifrar la estructura del mundo que nos rodea. La mayoría estaría de acuerdo en que cualquier rama de la ciencia persigue el mismo objetivo: tratar de asignar una función a las observaciones. Esta función, que de alguna manera explica el modelo mundial mediante una aproximación, puede ser continua o discreta y está destinada a encontrar una correspondencia entre los conjuntos de entrada y salida.

La búsqueda de una función que describa el modelo mundial puede ser complicada sin ningún conocimiento previo. Sin embargo, sabemos que el mundo que nos rodea es complejo y dinámico. Los modelos complejos se pueden representar por reglas simples, por lo que podría haber un recorrido. ? Sin embargo, como las cosas tienden a evolucionar en el tiempo y el espacio, el aspecto dinámico del mundo en constante cambio no puede simplemente ignorarse.

“Algo solo se puede explicar dando por sentado algo más”

ricardo feynmann

La dinámica se puede describir a través de una derivada que mide la sensibilidad de la salida de la función con respecto a los cambios en la entrada. Al mismo tiempo, la relación entre la función y su derivada se define en forma de ecuación diferencial. Por lo tanto, es una obviedad que muchos fenómenos en la física, ingeniería, ciencias económicas, biología, psicología, y otras cosas se pueden modelar con éxito mediante el uso de ecuaciones diferenciales de cualquier tipo. Las ecuaciones diferenciales se pueden usar para calcular el movimiento o flujo de electricidad o calor, el movimiento de un objeto o incluso para controlar el crecimiento de enfermedades. No hace falta decir que todo algoritmo de retropropagación puede verse como una ecuación diferencial, donde las derivadas parciales del error se calculan con respecto a los pesos, utilizando la regla de la cadena.

Por un lado, tenemos una función desconocida; por otro lado, su derivada representa la tasa de cambio. La ecuación diferencial define la relación entre los dos.

Aunque muchos de ustedes probablemente conocen a Erwin Schrödinger por su experimento mental, a menudo llamado “El gato de Schrödinger”, es conocido por ser uno de los padrinos en el campo de la teoría cuántica. Schrödinger postuló la ecuación (que ahora se llama Ecuación de Schrödinger) que rige la función de onda de un sistema mecánico-cuántico o describe dónde está la partícula cuántica.

Incluso se pueden montar casos bastante ridículos. Un gato está encerrado en una cámara de acero, junto con el siguiente dispositivo (que debe estar protegido contra la interferencia directa del gato): en un contador Geiger, hay una pequeña cantidad de sustancia radiactiva, tan pequeña, que tal vez en el curso de la hora uno de los átomos decae, pero también, con igual probabilidad, tal vez ninguno; si sucede, el tubo contador se descarga y, a través de un relé, suelta un martillo que rompe un pequeño frasco de ácido cianhídrico. Si uno ha dejado todo este sistema solo durante una hora, uno diría que el gato todavía vive si mientras tanto, ningún átomo se ha descompuesto. La primera desintegración atómica lo habría envenenado. La función psi de todo el sistema expresaría esto al tener en él al gato vivo y muerto (perdón por la expresión) mezclados o untados en partes iguales.

🔥 Recomendado:  Siéntase y hable como un experto en Neural… – Hacia la IA

Schrödinger, E. Die gegenwärtige Situation in der Quantenmechanik. Naturwissenschaften 23, 807–812 (1935).

La “ecuación de Schrödinger” es uno de los hitos fundamentales para comprender la física cuántica y construir una imagen más clara del modelo mundial. ¿Y adivina qué? Esta ecuación es una ecuación diferencial parcial lineal Como se muestra abajo:

Donde Ψ es una función de onda desconocida que queremos encontrar. Antes de comenzar, debo decirles que existe un número incontable de casos particulares de la ecuación de Schrödinger, aunque muchos de ellos son prohibitivamente complejos y, por lo tanto, no se pueden resolver analíticamente para la mayoría de los átomos. Por lo tanto, concentrémonos ahora en uno de los casos más simples, que es la solución de “La ecuación de Schrödinger” para “partícula en una caja”, que es una buena demostración de las diferencias entre los sistemas clásicos y cuánticos.

Imagínese, nuestra partícula está atrapada entre dos barreras potenciales infinitas (este caso a veces se denomina pozo de potencial infinito). Sin embargo, la partícula es libre de moverse entre las paredes. Dado que este es un caso muy restringido, de hecho, un ejemplo de juguete hipotético, hay formas de simplificar nuestra expresión inicial, lo que da como resultado una ecuación de Schrödinger independiente del tiempo para una sola partícula en la caja:

¿Como hacemos eso? Vea el increíble video a continuación que explica cómo derivar un caso particular para una partícula en una caja y resolverlo analíticamente:

Sin embargo, terminamos con una ecuación diferencial de segundo orden. La función Ψ describe el comportamiento de la partícula. La posición, el impulso y la energía pueden derivarse de Ψ. Si ya has visto el vídeo, ya sabes cómo solucionarlo. Sin embargo, si no lo ha hecho, puede parecer que la ecuación anterior no parece tan complicada. ¡¿Entonces, cuál es el problema?!

Si miramos más de cerca, todo lo que sabemos es que Ψ(0) = 0, Ψ(a) = 0, y la segunda derivada de Ψ más Ψ también es cero. Sin embargo, sabemos que Ψ no es cero en el intervalo (0, a).

🔥 Recomendado:  ¿Cuál es mejor para ti en 2023? [In-depth Comparison]

ಠ益ಠ

Ok, juntemos todo el conocimiento que tenemos, excepto la ecuación en sí:

  • Ψ es una función;
  • Ψ(0) = 0
  • Ψ(a) = 0

Dado que Ψ es una función y somos científicos de datos, podemos aprovechar la teorema de aproximación universalque más o menos dice lo siguiente:

Este teorema es válido tanto para redes neuronales de una sola capa como de múltiples capas ocultas, y básicamente para cualquiera de las funciones de activación modernas (ReLU, GeLU, Sigmoid, Tanh, etc.). ¡Parece exactamente lo que necesitamos!

No… Espera… ¡¿Qué pasa con los datos?!

Bueno, no tenemos ninguno. Sin embargo, hay una salida, llamada Redes neuronales basadas en la físicao PINN. Los PINN atrajeron especial atención recientemente, principalmente debido a su capacidad para modelar y pronosticar la dinámica de sistemas multifísicos y multiescala del mundo real. Otra propiedad interesante de los PINN es que si estamos ajustando datos que deberían obedecer alguna ley física, y somos conscientes de esta ley, podemos simplemente agregar esta dependencia a la función de pérdida, lo que hace que nuestro modelo de aprendizaje automático respete la ley física, es decir estar informado de la física.

En general, con respecto a los PINN, podemos definir tres formas en las que podríamos entrenar el modelo de manera eficiente:

  • muchos datos y nada de física (con lo que todos estamos familiarizados)
  • pocos datos y algo de fisica
  • sin datos y toda la física que tenemos

Nuestro caso es exactamente el tercero. Tenemos la ley física a seguir, pero no datos. Definamos las condiciones de contorno simplemente como la función que devuelve cero:

Y dado que la ecuación anterior no tiene residuos, es decir, todos los términos que contienen Ψ están en la parte izquierda, podemos definir una función para nuestra ecuación de Schrödinger. Simplemente, va a ser algo que tiende a ser cero.

Entonces, como se discutió anteriormente, una percepción multicapa con no linealidad no polinomial debería ser una buena opción para aproximar nuestra función de onda Ψ. Aquí usamos Unidad lineal de error gaussiano la no linealidad, ya que se descubrió empíricamente que funcionaba un poco mejor que Sigmoid y Tanh, mientras que ReLU mostró el peor rendimiento.

En consecuencia, tenemos que hacer que nuestro modelo respete la ecuación de Schrödinger, es decir, estar informado de la física. Esto se puede lograr definiendo la función de pérdida que incluye la discrepancia de toda la ecuación diferencial y la discrepancia en los límites:

Tenga en cuenta que podemos calcular los gradientes (o simplemente la derivada de la función Ψ psi_x) usando antorcha.autograd.grad(), una función de diferenciación automática que calcula y devuelve la suma de los gradientes de las salidas con respecto a las entradas. Para calcular la segunda derivada psi_xx, simplemente aplique la función grad() dos veces.

🔥 Recomendado:  ¿Cuál es el mejor complemento de WordPress para marketing por correo electrónico? 15 herramientas para elegir

Por lo tanto, podemos pasar límites en las paredes de la caja y puntos de datos dentro de la caja para calcular la pérdida total y luego propagar hacia atrás el error para actualizar los pesos.

Después de unos pocos miles de iteraciones, podemos echar un vistazo al resultado. Como se muestra a continuación, la salida de nuestra función se parece a la solución para el caso de partículas en una caja. Dado que sabemos que la solución para la ecuación de Schrödinger es, de hecho, una familia de soluciones, el resultado puede variar con la inicialización estocástica de los pesos y los parámetros de entrenamiento. El código completo se puede encontrar aquí.

Por supuesto, hay muchas implementaciones más sofisticadas que muestran cómo resolver la ecuación de Schrödinger usando redes neuronales profundas.[1, 2, 3]. Por otro lado, esta publicación de blog demuestra una introducción simple y comprensible al aprendizaje automático informado por la física y da una idea de cuándo y por qué nos gustaría “informar” nuestro modelo. La razón por la que elegí la ecuación de Schrödinger es simple, ya que la ecuación en sí y las condiciones de contorno son bastante restrictivas y no muy informativas (como recordarán, había ceros en todas partes). El algoritmo de descenso de gradiente fue capaz de encontrar una solución distinta de cero, aunque no fue penalizado.

Finalmente, podemos responder la pregunta planteada en el título de la publicación del blog: “¿Cuál es la conexión entre un modelo mundial, el gato de Schrödinger y una red neuronal?”. Como sabemos, muchos procesos dinámicos que describen el modelo mundial pueden modelarse usando ecuaciones diferenciales. Por otro lado, incluso las ecuaciones diferenciales muy complicadas se pueden resolver con redes neuronales informadas por la física.


¿Cuál es la conexión entre un modelo mundial, el gato de Schrödinger y una red neuronal? se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA