Conozca MinD-Vis: un modelo de IA que puede reconstruir lo que ve usando escáneres cerebrales

Estás leyendo la publicación: Conozca MinD-Vis: un modelo de IA que puede reconstruir lo que ve usando escáneres cerebrales

Los modelos de difusión se convirtieron en la niña de los ojos de la comunidad de aprendizaje automático en los últimos meses. Desde la generación de videos usando indicaciones de texto hasta la edición de imágenes, hemos visto varias aplicaciones exitosas de modelos de difusión en el último trimestre.

La idea detrás de los modelos de difusión es relativamente simple. Empiece con ruido puro y elimine gradualmente el ruido hasta que obtenga una imagen de aspecto realista. Podría preguntar, ¿qué hay de las indicaciones de texto que usamos? ¿Cómo afectan a la imagen de salida? Bueno, la respuesta es que se utilizan para acondicionar la red para que el proceso de reducción de ruido gradual vaya en una dirección determinada.

Entonces, sabemos que si comenzamos con una imagen de ruido puro, podemos generar una imagen de aspecto realista a partir de ella. Así es como funciona un modelo de difusión. ¿Alguna vez te has preguntado cómo recordamos o imaginamos los objetos que hemos visto antes? ¿Qué sucede en nuestro cerebro cuando vemos un pato en el parque y vamos a casa y tratamos de recordar cómo era? ¿Y por qué estoy hablando de esto en un artículo de modelo de difusión? Bueno porque MinD-Vis trata de lograr algo realmente interesante. Descifrar las resonancias magnéticas de cerebros humanos para reconstruir los objetos que vieron.

Sí, has leído bien. Hay un modelo de difusión para reconstruir los objetos que ves usando la resonancia magnética de tu cerebro cuando viste ese objeto por primera vez.

🔥 Recomendado:  Exclusión voluntaria de la difusión: este modelo de IA puede eliminar conceptos protegidos por derechos de autor de los modelos de difusión de texto a imagen

Damos forma a nuestras vidas en torno a lo que experimentamos y lo que vemos. Además de las cualidades de los estímulos externos, nuestras experiencias también dan forma a la compleja actividad cerebral que subyace a nuestra percepción del mundo. El objetivo principal de la neurociencia cognitiva es comprender estas funciones cerebrales y decodificar la información almacenada. Por lo tanto, decodificar la información visual de los escáneres cerebrales es una tarea importante.

Sin embargo, ¿cómo capturamos la información en el cerebro? La mayoría de nosotros probablemente haya visto un dispositivo de imágenes por resonancia magnética (IRM) en un hospital. Estos dispositivos pueden escanear las actividades cerebrales. La resonancia magnética funcional (fMRI), por otro lado, es un tipo de tecnología de imágenes médicas que utiliza un campo magnético y ondas de radio para producir imágenes detalladas del cerebro. A diferencia de la resonancia magnética tradicional, que produce imágenes estáticas del cerebro, la resonancia magnética funcional se puede utilizar para crear imágenes dinámicas que muestran cambios en la actividad del cerebro a lo largo del tiempo.

Algunos estudios se centraron en la recuperación de la correspondencia visual utilizando las exploraciones de fMRI originales y la guía de principios biológicos con un modelo de aprendizaje profundo. Sin embargo, dado que los modelos de aprendizaje profundo se alimentan con una enorme cantidad de datos, y dado que no hay un conjunto de datos de par de imágenes de IRMf a gran escala disponible, estos enfoques generalmente producen imágenes borrosas y semánticamente sin sentido.

Adquirir representaciones eficientes y biológicamente sólidas para fMRI es esencial para construir un vínculo claro y universal entre la actividad cerebral y los estímulos visuales con algunas anotaciones pareadas.

🔥 Recomendado:  Investigadores de China proponen un enfoque de aumento de datos CarveMix para la segmentación de lesiones cerebrales

Cuando se trata de brindar información de contexto al modelo de aprendizaje profundo, el aprendizaje autosupervisado con tareas de pretexto en grandes conjuntos de datos es un enfoque realmente poderoso. Posteriormente, se adopta una tarea específica de dominio para afinar aún más el modelo. Esto es especialmente útil cuando el tamaño del conjunto de datos es relativamente pequeño. Sin embargo, es importante seleccionar una tarea de pretexto adecuada para utilizar este enfoque correctamente. El modelado de señales enmascaradas (MSM) es uno de los mejores ejemplos aquí, ya que puede lograr muy buenos resultados en tareas de visión artificial.

Además, todos vimos lo buenos que son los modelos de difusión en lo que respecta a la generación. Proporcionan un rendimiento superior en generación y estabilidad de entrenamiento. Esto es útil para tener en la decodificación de estímulos visuales.

Por lo tanto, MinD-Vis combina estas dos herramientas para generar un modelo confiable de decodificación de estímulos. MinD-Vis es un modelo de cerebro enmascarado disperso con un modelo de difusión latente de doble condición para la decodificación de la visión humana. Aprovecha el aprendizaje de conjuntos de datos a gran escala e imita la escasa codificación de información en el cerebro. MinD-Vis puede producir imágenes significativas con detalles coincidentes utilizando grabaciones cerebrales con muy pocos pares de entrenamiento.