Estás leyendo la publicación: Investigadores de Intel Labs crean una nueva tubería de ciencia de datos que acelera el análisis de secuenciación de ARN de una sola célula
Este artículo está escrito como un resumen por el personal de Marktechpost basado en el artículo de investigación ‘Intel Labs acelera el análisis de secuenciación de ARN de una sola célula‘. Todo el crédito de esta investigación es para los investigadores de este proyecto.
Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático
Cerca de 40 billones de células componen el cuerpo humano. Como resultado, estas células se han estudiado tradicionalmente en cantidad, analizando millones de células simultáneamente. En el tema del análisis unicelular, los investigadores examinan la singularidad de cada célula. Encontrar nuevos tipos de células, desvelar los mecanismos que las diferencian y mostrar cómo responden las células a determinadas enfermedades o tratamientos está empezando a resolver el enigma de la diferenciación celular. La investigación del cáncer y la investigación relacionada con el Covid-19 son solo algunos ejemplos de la amplia gama de usos posibles para este campo, que aún es relativamente nuevo.
A medida que avanzan los métodos de medición de datos, el volumen de datos de una sola celda crece rápidamente. A un ritmo comparable, el número de conjuntos de datos individuales también está creciendo. Ejecutar una tubería de ciencia de datos es la forma más común de analizar estos datos. Si se van a actualizar muchos parámetros, puede ser útil tener una canalización interactiva que pueda ejecutarse casi en tiempo real.
Para comprender mejor cómo se diferencian las células, hay muchas investigaciones de células individuales disponibles. ScRNA-seq (ARN-seq de una sola célula) analiza los cambios de expresión génica entre células. Se utiliza una tecnología avanzada conocida como secuenciación de ARN de una sola célula para evaluar la expresión génica en células individuales.
Comenzando con los niveles de expresión de los genes en cada célula, el análisis de scRNA-seq generalmente comienza con una matriz. Cada celda en el conjunto de datos tiene su conjunto único de genes humanos, filtrados y estandarizados durante el preprocesamiento de datos. El aprendizaje automático se usa con frecuencia para reparar artefactos de recopilación de datos en esta etapa. Después de la reducción de la dimensionalidad, la agrupación se utiliza para agrupar células con actividad genética comparable y se muestran las agrupaciones. Scanpy es una herramienta popular para este tipo de análisis, con más de 800.000 descargas.
La canalización típica tarda aproximadamente 5 horas en una sola instancia de CPU (n1-highmem-64) en GCP usando la implementación de Scanpy lista para usar (línea de base) para un conjunto de datos que contiene 1,3 millones de células cerebrales de ratón. Nvidia informó un tiempo de ejecución de extremo a extremo de 686 segundos en una sola GPU A100 que utiliza Nvidia RAPID.
Un nuevo estudio realizado por el equipo de Intel oneDAL en colaboración con los equipos de Katana Graph en Intel Labs mejora el rendimiento de la canalización al aplicar más algoritmos paralelos y ajustar su rendimiento a la arquitectura. La canalización completa ahora se puede completar en solo 626 segundos en una sola instancia de CPU (n1-highmem-64) en GCP. Katana Graph implementó la implementación del algoritmo eficiente de Louvain y Leiden para esto.
Los investigadores utilizaron Numba, un compilador justo a tiempo (JIT), para acelerar el preprocesamiento de datos aprovechando un caché de archivos cálidos y subprocesos múltiples. Como resultado, el rendimiento de preprocesamiento de referencia se mejoró más de 70 veces.
Para acelerar la agrupación en clústeres de K-means, KNN (K Nearest Neighbor) y PCA, utilizaron el complemento Intel scikit-learn (Análisis de componentes principales).
Durante mucho tiempo, Scanpy se basó en una implementación ineficiente de tSNE (incrustación de vecinos estocásticos distribuidos en t) de scikit-learn. Construir una implementación efectiva de tSNE resultó en una aceleración de casi 40 veces.
El uso de instancias n2-highcpu-64 de memoria baja en lugar de instancias n2-highmem-64 de memoria alta les permitió reducir los requisitos de memoria de la canalización. El equipo comenzó con una línea base de CPU de 5 horas, que es 40 veces más rápida. La canalización completa se completa en 459 segundos en una sola instancia de n2-highcpu-64 que se ejecuta en GCP (7,65 minutos). Esto es casi 1,5 veces más rápido que el rendimiento de Nvidia A100.
Como explica el equipo, la aceleración y la reducción logradas en los requisitos de memoria han reducido significativamente los gastos en la nube. La instancia n2-highcpu-64 en GCP cuesta solo $ 0,29. N1-highmem-64 con Scanpy es 66 veces más caro, mientras que la GPU Nvidia A100 es solo 2,4 veces más cara que esta opción. N1-highmem-64 con Scanpy es 66 veces más caro, mientras que la GPU Nvidia A100 es solo 2,4 veces más cara que esta opción.
Los investigadores esperan que las horas de trabajo más cortas permitan una mejor comprensión de varias células, abriendo la puerta a avances médicos que podrían tener ventajas generales significativas.
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools