Investigadores de Harvard presentan una nueva arquitectura ViT llamada Transformador piramidal de imagen jerárquica (HIPT) que puede escalar transformadores de visión a imágenes de gigapíxeles a través de autosupervisión jerárquica…

Estás leyendo la publicación: Investigadores de Harvard presentan una nueva arquitectura ViT llamada Transformador piramidal de imagen jerárquica (HIPT) que puede escalar transformadores de visión a imágenes de gigapíxeles a través de autosupervisión jerárquica…

El fenotipado de tejidos es un desafío básico en patología computacional (CPATH), que intenta caracterizar aspectos histopatológicos objetivos dentro de imágenes de diapositivas completas (WSI) de gigapíxeles para el diagnóstico de cáncer, el pronóstico y la evaluación de la respuesta al tratamiento en pacientes.

Una imagen de gigapíxeles es una recreación digital con una resolución extremadamente alta creada al fusionar numerosas fotografías detalladas en un solo elemento. Contiene miles de millones de píxeles, superando con creces la capacidad de una cámara profesional típica.

A diferencia de las imágenes naturales, las imágenes de diapositivas completas son un dominio de visión artificial difícil con resoluciones de imagen de hasta 150000 x 150000 píxeles. Muchos métodos utilizan el marco supervisado débilmente de tres etapas basado en el aprendizaje de múltiples instancias (MIL), a saber, el parcheado de tejido en un solo objetivo de aumento (“zoom”), la extracción de características a nivel de parche para construir una secuencia de instancias de incrustación y la agrupación global. de instancias para construir un slide-lev

Aunque este procedimiento de tres etapas logra un rendimiento de grado clínico en muchas tareas de clasificación y clasificación de subtipos de cáncer, tiene algunas fallas de diseño. La aplicación de parches y la extracción de características generalmente se limitan a regiones de contexto de [256 x 256]. A pesar de su capacidad para detectar características morfológicas de grano fino, como la atipia nuclear o la presencia de tumores, [256 x 256] las ventanas tienen un contexto limitado para capturar características de grano más grueso, como la invasión tumoral, el tamaño del tumor, el infiltrado linfocítico y la organización espacial más amplia de estos fenotipos en el microambiente tisular, según el tipo de cáncer.

🔥 Recomendado:  Investigadores de Samsung desarrollan MegaPortraits: un modelo de IA para crear avatares de cabeza neural de megapíxeles de una sola toma

Debido a las largas longitudes de secuencia de los WSI, MIL solo requiere operadores de agrupación global, a diferencia de otros sistemas de modelado de secuencias basados ​​en imágenes como Vision Transformers (ViT). Como resultado, la atención de Transformer no se puede usar para aprender correlaciones de largo alcance entre fenotipos como la ubicación inmune a tumores, que es un rasgo pronóstico importante en la predicción de supervivencia.

En una publicación reciente, los investigadores de Harvard analizaron la dificultad de construir un transformador de visión para el aprendizaje de representación a nivel de diapositivas en WSI para abordar estos problemas. Los investigadores enfatizaron que al modelar los WSI, las fichas visuales siempre estarían en una escala fija para un objetivo de aumento particular, en contraste con las imágenes naturales que los ViT exploran activamente.

Los investigadores desarrollaron el Transformador piramidal de imágenes jerárquicas, una arquitectura basada en Transformadores para la agregación jerárquica de tokens visuales y el entrenamiento previo en imágenes patológicas de gigapíxeles (HIPT). Los investigadores utilizaron una arquitectura jerárquica de tres etapas que realiza una agregación ascendente desde [16 x 16] tokens visuales en sus ventanas correspondientes de 256 x 256 y 4096 x 4096 para construir finalmente la representación a nivel de diapositiva, similar a la duración de las representaciones de documentos que se aprenden en el modelado de lenguaje.

De dos maneras, el trabajo amplía los límites tanto de Vision Transformers como del aprendizaje autosupervisado. HIPT descompuso el problema de aprender una buena representación de un WSI en representaciones relacionadas, todas las cuales se pueden aprender a través del aprendizaje autosupervisado, y usó la destilación de conocimiento de estudiante-profesor (DINO) para entrenar previamente cada capa de agregación con aprendizaje autosupervisado en regiones. tan grande como 4096 x 4096.

🔥 Recomendado:  Cómo tener las mejores fotos de productos incluso siendo una pequeña empresa
Fuente: https://arxiv.org/pdf/2206.02647.pdf

La estrategia superó los procedimientos estándar de MIL, según los investigadores. La distinción es más notable en tareas conscientes del contexto como la predicción de supervivencia, donde se valora un contexto más amplio para describir aspectos de pronóstico más amplios en el microambiente tisular.

El equipo superó varias arquitecturas con supervisión débil en la clasificación de nivel de diapositiva utilizando K-Nearest Neighbors en las representaciones de 4096 x 4096 del modelo, un paso significativo hacia las representaciones de nivel de diapositiva autosupervisadas. Finalmente, los investigadores descubrieron que la autoatención de múltiples cabezas en ViTs autosupervisados ​​aprende ideas visuales en tejido histopatológico, similar a ViTs autosupervisados ​​en imágenes naturales que pueden ejecutar la segmentación semántica de la arquitectura de la escena.

Conclusión

El estudio es un paso significativo hacia el aprendizaje de representación de nivel de diapositiva autosupervisado, ya que muestra que las características HIPT pre-entrenadas y ajustadas superan las evaluaciones supervisadas débilmente y KNN, respectivamente. Aunque DINO se utilizó para el entrenamiento previo jerárquico con bloques ViT tradicionales, el equipo planea investigar otros métodos de entrenamiento previo, como la predicción de parches de máscara y diseños ViT eficientes en el futuro. El concepto de preentrenamiento de redes neuronales basado en relaciones jerárquicas en modalidades de datos masivos y heterogéneos para obtener una representación a nivel de paciente o población se puede aplicar a varios campos.

Este artículo está escrito como un artículo resumido por el personal de Marktechpost basado en el documento ‘Escalado de transformadores de visión a imágenes de gigapíxeles a través del aprendizaje jerárquico autosupervisado‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, github.

Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools