Estás leyendo la publicación: Google AI abre el código de su modelo de centro de atención que utiliza el aprendizaje automático para intentar identificar qué partes de una imagen atraerán la atención de un ser humano…
¿Alguna vez te has preguntado, al ver una imagen, hay partes específicas de la imagen que ves primero? ¿Cuáles son estas partes? ¿Tienen algunas características particulares que atraen la atención hacia esas partes? Ahora imagine una máquina que pueda enfocarse en estas partes. Conocer estas partes es una idea muy útil para acelerar el proceso de compresión y descompresión de imágenes.
Para descomprimir las secciones que captan primero la atención humana, los investigadores de Google Research recientemente abrieron un modelo de centro de atención que emplea modelos entrenados en aprendizaje automático para tratar de identificar qué partes de una imagen captarán primero la atención humana.
Este modelo está en formato Tensorflow lite y toma una imagen RGB como entrada y da la imagen de salida con un punto verde en el centro de atención.
El modelo de centro de atención es una red neuronal profunda que utiliza una red de clasificación previamente entrenada, como ResNet, MobileNet, etc., como base y acepta una imagen como entrada. El módulo de predicción del centro de atención toma su entrada de varias capas intermedias que produce la red troncal. Por ejemplo, las capas inferiores suelen contener información de bajo nivel, como intensidad, color y textura, mientras que los niveles más profundos suelen contener información de mayor nivel y más significativa, como forma y objeto.
Primero se muestra una versión de baja resolución de la imagen completa. En el momento en que su cerebro visual determina hacia dónde dirigir sus pupilas, esa parte de la imagen ya ha comenzado a ser más nítida. Luego, el programa predice dónde irán sus ojos a medida que se mueven alrededor de la imagen y agrega detalles adicionales a esas áreas. Las regiones relativamente opacas se rellenan en último lugar después de las porciones relativamente afiladas.
Este modelo puede ser realmente útil, ya que ayudará a cargar imágenes más rápido, ya que las partes importantes se cargarán más rápido. También será útil al implementar el aprendizaje automático y el procesamiento de imágenes, ya que se buscan las partes más impactantes. Por lo tanto, las implementaciones de dicho modelo son extensas y muy útiles.