Esta investigación de Brain-AI recrea imágenes de la lectura de ondas cerebrales con difusión estable

Estás leyendo la publicación: Esta investigación de Brain-AI recrea imágenes de la lectura de ondas cerebrales con difusión estable

Construir sistemas artificiales que vean y reconozcan el mundo de manera similar a los sistemas visuales humanos es un objetivo clave de la visión artificial. Los avances recientes en la medición de la actividad cerebral de la población, junto con las mejoras en la implementación y el diseño de modelos de redes neuronales profundas, han hecho posible comparar directamente las características arquitectónicas de las redes artificiales con las de las representaciones latentes de los cerebros biológicos, revelando detalles cruciales sobre cómo estos funcionan los sistemas. La reconstrucción de imágenes visuales a partir de la actividad cerebral, como la detectada por resonancia magnética funcional (fMRI), es una de estas aplicaciones. Este es un problema fascinante pero difícil porque las representaciones cerebrales subyacentes son en gran parte desconocidas y el tamaño de la muestra que se usa típicamente para los datos cerebrales es pequeño.

Los académicos han utilizado recientemente modelos y técnicas de aprendizaje profundo, como las redes generativas antagónicas (GAN) y el aprendizaje autosupervisado, para abordar este desafío. Sin embargo, estas investigaciones requieren un ajuste fino hacia los estímulos particulares utilizados en el experimento de fMRI o entrenar nuevos modelos generativos con datos de fMRI desde cero. Estos intentos han demostrado un rendimiento excelente pero limitado en términos de fidelidad semántica y de píxeles, en parte debido a la pequeña cantidad de datos de neurociencia y en parte debido a las múltiples dificultades asociadas con la construcción de modelos generativos complicados.

Los modelos de difusión, en particular los modelos de difusión latente que requieren menos recursos computacionales, son un sustituto reciente de GAN. Sin embargo, dado que los LDM aún son relativamente nuevos, es difícil tener una comprensión completa de cómo funcionan internamente.

🔥 Recomendado:  Google AI Open-Sources Flan-T5: un modelo de lenguaje basado en transformadores que utiliza un enfoque de texto a texto para tareas de NLP

Mediante el uso de un LDM llamado Stable Diffusion para reconstruir imágenes visuales a partir de señales de fMRI, un equipo de investigación de la Universidad de Osaka y CiNet intentaron abordar los problemas mencionados anteriormente. Propusieron un marco sencillo que puede reconstruir imágenes de alta resolución con alta fidelidad semántica sin necesidad de entrenar o ajustar modelos complejos de aprendizaje profundo.

El conjunto de datos empleado por los autores para esta investigación es el Conjunto de datos de escenas naturales (NSD), que ofrece datos recopilados de un escáner fMRI en 30 a 40 sesiones durante las cuales cada sujeto vio tres repeticiones de 10,000 imágenes.

Para empezar, utilizaron un modelo de difusión latente para crear imágenes a partir de texto. En la figura anterior (arriba), z se define como la representación latente generada de z que ha sido modificada por el modelo con c, c se define como la representación latente de los textos (que describen las imágenes), y zc se define como la representación latente de la imagen original que ha sido comprimida por el codificador automático.

Para analizar el modelo de decodificación, los autores siguieron tres pasos (figura superior, centro). En primer lugar, predijeron una representación latente z de la imagen presentada X a partir de señales de fMRI dentro de la corteza visual temprana (azul). Luego, z fue procesado por un decodificador para producir una imagen decodificada gruesa Xz, que luego se codificó y pasó por el proceso de difusión. Finalmente, la imagen ruidosa se agregó a una representación c de texto latente decodificada a partir de señales fMRI dentro de la corteza visual superior (amarillo) y se eliminó el ruido para producir zc. A partir de zc, un módulo de decodificación produjo una imagen reconstruida final Xzc. Es importante subrayar que el único entrenamiento requerido para este proceso es mapear linealmente las señales de fMRI a los componentes LDM, zc, z y c.

🔥 Recomendado:  La sudadera con capucha tímida ante las cámaras con LED IR ocultará su rostro de las cámaras de seguridad

A partir de zc, z y c, los autores realizaron un análisis de codificación para interpretar las operaciones internas de las LDM asignándolas a la actividad cerebral (figura superior, inferior). Los resultados de la reconstrucción de imágenes a partir de representaciones se muestran a continuación.

Las imágenes que se recrearon usando simplemente z tenían una consistencia visual con las imágenes originales, pero se perdió su valor semántico. Por otro lado, las imágenes que solo se reconstruyeron parcialmente usando c produjeron imágenes que tenían una gran fidelidad semántica pero visuales inconsistentes. La validez de este método quedó demostrada por la capacidad de las imágenes recuperadas mediante zc para producir imágenes de alta resolución con gran fidelidad semántica.

El análisis final del cerebro revela nueva información sobre los modelos de DM. En la parte posterior del cerebro, la corteza visual, los tres componentes lograron un gran rendimiento de predicción. En particular, z proporcionó un fuerte rendimiento de predicción en la corteza visual temprana, que se encuentra en la parte posterior de la corteza visual. Además, demostró fuertes valores de predicción en la corteza visual superior, que es la parte anterior de la corteza visual, pero valores más pequeños en otras regiones. Por otro lado, en la corteza visual superior, c condujo al mejor rendimiento de predicción.

Revisar la Papel y Página del proyecto. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 16k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

🔥 Recomendado:  Obtener un préstamo con garantía hipotecaria rápido en 5 días, ¿es posible?

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools