Estás leyendo la publicación: Investigadores de Stanford AIMI encontraron una manera de generar radiografías de tórax sintéticas mediante el ajuste fino del modelo de base de difusión estable de fuente abierta
Existen muchos modelos básicos multimodales, que normalmente se entrenan en millones de imágenes naturales y sus leyendas de texto. Las imágenes médicas son solo una pequeña porción de todo el conjunto de datos distribuidos. Estos conjuntos de datos no son efectivos para tareas específicas de dominio, ya que los profesionales del campo médico usan diferentes terminologías y semánticas. Hay conjuntos de datos dedicados disponibles, pero tienen un precio muy alto en términos de potencia informática. Esto creó barreras para proceder con muchos temas de investigación.
Los académicos de Stanford AIMI idearon la creación de modelos generativos utilizando estos conjuntos de datos de código abierto para imágenes médicas que ayudarán a reducir la brecha en los datos de entrenamiento en los conjuntos de datos de atención médica. Por lo tanto, se les ocurrió la idea de mejorar el modelo de difusión estable para generar imágenes de dominio específico en imágenes médicas. Los científicos lograron encontrar un método para generar imágenes de rayos X ajustando el modelo de difusión estable.
La principal ventaja era que los radiólogos siempre hacían un informe detallado de las características de la radiografía o cualquier otra imagen médica. Si agregan el informe a los datos de entrenamiento del modelo de difusión estable, puede aprender a producir imágenes médicas sintéticas cuando se usan las palabras clave descritas por los radiólogos. Para los conjuntos de datos de entrenamiento y prueba, se utilizaron dos conjuntos de datos médicos populares, CheXpert, que contiene 224 316 radiografías de tórax, y MIMIC-CXR, que contiene 377 110 imágenes.
El equipo de investigación modificó los cinco componentes del modelo de difusión estable:
- Un codificador automático variacional, VAE, comprime las imágenes de origen y reconstruye las imágenes comprimidas generadas. También elimina los detalles de alta frecuencia que son innecesarios.
- Un codificador de texto que convierte el informe o las indicaciones escritas en vectores que el codificador automático puede entender.
- Proyección textual, en la que el codificador de texto CLIP se reemplaza por un codificador específico del dominio entrenado previamente en datos de radiología.
- Ajuste fino de incrustación de texto, en el que se agregan nuevos tokens para describir características a nivel del paciente, como el sexo, la edad, etc.
- El ajuste fino de U-Net que sirve como cerebro para el proceso de difusión, que crea imágenes en el espacio latente. En esto, todos los componentes, excepto U-Net, se mantuvieron congelados, lo que ayuda a crear imágenes específicas de dominio de mejor apariencia.
Después del experimento, los científicos idearon con éxito el modelo de mejor rendimiento, que tenía una precisión del 95 % en un modelo de aprendizaje profundo. El modelo se anunció el 23 de noviembre de 2022, que puede crear imágenes de rayos X de tórax con mayor fidelidad y diversidad y mayor resolución que favorece un control más detallado sobre la imagen a través de indicaciones de lenguaje natural. La precisión clínica fue un peldaño desafiante para este experimento porque necesitaba una evaluación cualitativa por parte de un radiólogo capacitado. También hubo cierto compromiso sobre la diversidad de imágenes ajustadas. Los términos simplificados utilizados en el mensaje de texto para capacitar aún más a U-Net para su caso de uso de radiología se construyeron específicamente para el estudio y no se tomaron precisamente de los informes reales de los radiólogos. Las partes completas o restringidas de los informes de radiología deben restringir los modelos futuros deben estar restringidas por partes completas o restringidas de los informes de radiología.
Este experimento seguramente mejoró la calidad de los datos de atención médica. Esto conquistó uno de los principales desafíos en el campo de la medicina. Seguramente hay más mejoras por hacer en esta línea del estudio. Los métodos para el entrenamiento de imágenes médicas con más eficiencia y cambios específicos de dominio aún no se han explorado. Hay mucho alcance en este campo de investigación que puede mejorar las instalaciones de atención médica en todo el mundo.