REACT: Un enfoque novedoso de IA que aprovecha los recursos de Edge y de la nube para mejorar las aplicaciones de análisis de video en vivo

Estás leyendo la publicación: REACT: Un enfoque novedoso de IA que aprovecha los recursos de Edge y de la nube para mejorar las aplicaciones de análisis de video en vivo

Internet está en transición hacia una arquitectura de computación de punta para acomodar cargas de trabajo de DNN sensibles a la latencia en los dominios de aplicaciones de computación móvil e Internet de las cosas en desarrollo. Desafortunadamente, los modelos DNN grandes y de alta precisión no se pueden operar en el borde debido a su falta de capacidades informáticas, a diferencia de los entornos en la nube. Por lo tanto, los esfuerzos anteriores se han concentrado en trasladar parte de la computación a la nube para eludir esta restricción. Sin embargo, esto da como resultado retrasos más prolongados.

Una nueva investigación de Microsoft propone REACT, una arquitectura única que utiliza el borde y la nube en conjunto para ejecutar cálculos redundantes. Para mejorar la calidad de detección sin comprometer la latencia, fusionan las entradas de la nube recibidas de forma asincrónica en el flujo de computación en el perímetro. Esto permite aprovechar la precisión de la nube sin sacrificar la baja latencia del borde.

El equipo utiliza un enfoque doble para resolver los problemas de capacidad de computación de borde deficiente y pérdida de precisión debido a los modelos de borde.

  • Para comenzar, la identificación de objetos de borde debe llamarse solo una vez cada pocos cuadros debido a la correlación espaciotemporal entre cuadros de video sucesivos. La detección de bordes se produce cada cinco fotogramas. Utilizan una operación bastante liviana de seguimiento de objetos para cerrar la brecha entre los dos conjuntos de marcos.
  • En segundo lugar, solo ciertos cuadros se envían a la nube de forma asincrónica para aumentar la precisión de la inferencia. Dependiendo de la latencia de la red y la disponibilidad de los recursos de la nube, los dispositivos perimetrales no obtienen detecciones de la nube durante algunos fotogramas después.
  • A continuación, las detecciones de nubes más recientes y no informadas anteriormente se combinan con la imagen actual. Para “avanzar rápidamente” a la hora actual, utilizan la detección de nubes generada en un marco anterior y la alimentan a una segunda instancia del rastreador de objetos. Siempre que no haya un cambio drástico en la escena, los elementos recién identificados se pueden integrar en el marco actual.
🔥 Recomendado:  Cómo reaccionar a los mensajes en Instagram 2023 (VER Cómo hacerlo)

El equipo aplicó este método a un conjunto de datos de videos de dashcam. Sus experimentos utilizaron métodos de visión por computadora de vanguardia para obtener detecciones de elementos locales y remotos. Además, emplean la estadística ampliamente utilizada del campo de la visión artificial conocida como mAP@0.5 (precisión media media de 0,5 IoU) para evaluar la calidad de las detecciones de objetos. También analizaron dos conjuntos de datos para determinar qué tan efectivo fue REACT:

  1. Como sistema de vigilancia basado en drones, VisDrone
  2. El sistema D2City es un sistema de asistencia a la conducción basado en dashcam.

Los resultados de sus pruebas muestran que REACT puede proporcionar hasta un 50 % mejores resultados que los métodos de referencia. También demuestran que los modelos edge y cloud pueden complementarse entre sí y que el enfoque de fusión edge-cloud propuesto puede mejorar el rendimiento en general.

Además del seguimiento de objetos ligeros realizado en fotogramas intermedios, el detector de objetos solo se ejecuta una vez cada pocos fotogramas. Al duplicar la detección entre el borde y la nube, los desarrolladores tienen más libertad para elegir con qué frecuencia ejecutar sus aplicaciones en cada plataforma mientras mantienen el mismo nivel de precisión de detección.

Los investigadores también destacan que tener varios dispositivos de borde que usen el mismo modelo alojado en la nube puede distribuir el gasto de usar los recursos de la nube entre una población más grande. En particular, la GPU V100 puede admitir más de 60 dispositivos simultáneos simultáneamente, suponiendo que la aplicación pueda soportar una latencia media de hasta 500 ms.

🔥 Recomendado:  Introducción a un embudo de generación de leads [+How to Build One]

Si bien este trabajo ha discutido principalmente su aplicación a la detección de objetos, el equipo cree que se puede aplicar en otras situaciones, incluidas las aplicaciones de estimación de pose humana, instancia y segmentación semántica, para “lo mejor de ambos mundos”.