Estás leyendo la publicación: En las últimas investigaciones, los investigadores de Apple ML explican cómo desarrollaron Apple Neural Scene Analyzer (ANSA), una columna vertebral unificada para construir y mantener escenas…
Este artículo está escrito como un resumen por el personal de Marktechpost basado en el artículo de investigación ‘Una arquitectura neuronal multitarea para el análisis de escenas en el dispositivo‘. Todo el crédito de esta investigación es para los investigadores de Apple en este proyecto.
Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático
El ecosistema de Apple se basa en gran medida en el análisis de escenas, un componente fundamental de muchas funciones y experiencias. Los resultados (o “señales”) generados por el análisis de escenas son cruciales para la forma en que las personas interactúan con las fotografías en sus dispositivos, desde la búsqueda de contenido visual hasta recuerdos poderosos que marcan momentos especiales en la vida de uno. Dado que numerosos modelos pueden compartir recursos, la implementación de modelos separados para cada atributo es ineficiente. Apple Neural Scene Analyzer (ANSA) proporciona una columna vertebral única para crear y mantener flujos de trabajo de análisis de escenas de producción.
Además de la aplicación Fotos, otros usuarios notables de ANSA incluyen:.
- Opciones de cámara, búsqueda de Spotlight y accesibilidad
- Notes y Final Cut Pro son dos de los programas más populares de Apple
- Aplicaciones basadas en API de visualización de desarrolladores externos
Los nuevos sistemas operativos (iOS 16 y Mac OS Ventura) utilizan una única red troncal que permite numerosos procesos totalmente en el dispositivo y ejecuta todas las tareas en decenas de milisegundos. Un flujo de trabajo algorítmico avanzado se ejecuta completamente en el cliente para brindar la mejor experiencia de usuario posible. ANSA debe operar bajo límites estrictos de potencia y rendimiento al tiempo que garantiza que las diversas experiencias de los usuarios reciban señales de alta calidad de ANSA.
La implementación del modelo en el dispositivo estuvo influenciada por los siguientes factores:
- La red troncal debe compartirse para ejecutar varias actividades simultáneamente y los parámetros de cómputo y red deben amortizarse.
- Los objetivos de latencia deben ser inferiores a decenas de milisegundos para casos de uso interactivo.
Existe una amplia gama de opciones de implementación para arquitecturas neuronales. Sin embargo, todos los dispositivos admitidos tienen capacidades informáticas y de hardware ligeramente variadas, pero todos deben usarse para ejecutar ANSA. Por lo tanto, ANSA fue desarrollado para ejecutarse de manera eficiente en todas las configuraciones de hardware que podrían usarse para ejecutar el software. Esta tecnología es prometedora, pero utiliza diseños basados en capas convolucionales para que esté disponible para dispositivos sin Neural Engine.
La figura de arriba representa la estructura del sistema visual humano.
Hay varias tareas posteriores compatibles con la columna vertebral visual. Como resultado de que la red troncal es utilizada por múltiples aplicaciones, la huella general del dispositivo puede mantenerse pequeña. La sección de imagen de la columna vertebral imagen-lenguaje, ilustrada en naranja, fue entrenada con un objetivo contrastivo. La imagen de arriba no representa el área lingüística de la columna vertebral. Las tareas de nivel inferior en la torre naranja se basan en características más cercanas a la imagen, mientras que las tareas de nivel superior se basan en partes más cercanas a la última capa de incrustación. En este diagrama, los trabajos que se ramifican a la misma profundidad comparten el mismo tono.
El objetivo es entrenar una columna vertebral de imagen con excelente calidad que pueda impulsar una amplia gama de experiencias de usuario. ANSA se creó en torno a una columna vertebral congelada con un objetivo de clasificación de múltiples etiquetas antes de iOS 16 y macOS Ventura. Esta selección produce una representación de imagen robusta y omnipresente para otras actividades posteriores.
Este clasificador se entrenó inicialmente en una pequeña cantidad de millones de fotografías, algunas de las cuales eran imágenes de archivo. Investigaciones recientes han demostrado que los conjuntos de datos a gran escala y poco supervisados se pueden utilizar para lograr los mejores resultados en muchas tareas posteriores. Se utiliza un objetivo contrastivo para entrenar a estos modelos para que incrusten fotos con sus descripciones en lenguaje natural sin usar anotaciones específicas de la tarea. También adquieren representaciones significativas que se pueden utilizar para transferir el aprendizaje en varias tareas posteriores mientras realizan la transferencia de disparo cero para el etiquetado de imágenes de manera competitiva con modelos totalmente supervisados. Después de haber sido entrenado en muchos cientos de millones de pares de imagen y texto, la columna vertebral más reciente ha adoptado el paradigma integrado de imagen y lenguaje.
Para grandes conjuntos de datos, se requería entrenamiento paralelo en varias GPU, y se usaron técnicas como puntos de control de gradiente y entrenamiento de precisión mixta para maximizar el tamaño del lote local en cada GPU. Como resultado, el conjunto de datos se compartió entre los trabajadores de la GPU, se almacenó con fotos reducidas a una resolución más cercana a la que necesita el modelo para el entrenamiento, lo que permitió un mayor rendimiento del entrenamiento (unas 10 veces más rápido que el enfoque base).
Es posible transferir el aprendizaje de un trabajo a otro con esta nueva columna vertebral preentrenada de lenguaje de imágenes. La clasificación se empleó anteriormente como el objetivo principal de preentrenamiento para la columna vertebral. Aún así, se despliega una pequeña cabeza en la parte superior de la columna vertebral del lenguaje de imágenes para ayudar en la tarea de clasificación. Se observó un aumento del 10,5 % en la precisión media media cuando se utilizaba una red troncal MobileNetv3 entrenada con un objetivo de lenguaje de imágenes en lugar de la red troncal preentrenada de clasificación inicial. Desde una capa lineal superficial en la parte superior de la imagen preentrenada incrustada hasta una red convolucional más complicada acoplada a varias capas en la columna vertebral, los cabezales se pueden emplear de varias maneras (como la que se usa para la detección de objetos). El cabezal de detección de objetos solo consume 1 MB de espacio de almacenamiento en la red troncal.
Debido a que ANSA depende completamente de los recursos informáticos locales, la nube y otros recursos remotos no eran una opción. La inferencia debe ser rápida, eficiente en cuanto a memoria y energía, y ocupar el menor espacio posible en el disco. En última instancia, se eligió una versión de MobileNetv3 que se adaptaba mejor a las CPU A11 Bionic, M1 y posteriores que aceleran el aprendizaje automático. La arquitectura final de ANSA tiene 16 millones de parámetros, ejecuta todos sus encabezados en menos de 9,7 milisegundos, usa solo 24,6 MB de memoria en Apple Neural Engine (ANE) y ocupa solo 16,4 MB de espacio en disco. Se utilizaron optimizaciones como la cuantificación y el recorte para lograr este resultado.
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools