Estás leyendo la publicación: Cómo el aprendizaje centrado en objetos condicional logra una mejor generalización
Las representaciones centradas en objetos son la clave para dirigir los modelos de ML hacia una generalización más sistemática. La última investigación sobre datos 3D mostró que los modelos con sesgos inductivos centrados en objetos pueden aprender a segmentar y representar objetos significativos a partir de la estructura estadística de los datos.
El aprendizaje centrado en objetos es un modelo no supervisado que identifica todos los objetos en el fondo y luego los combina en una imagen reconstruida. Tales representaciones facilitan que el robot tenga una comprensión estructural de un entorno complejo.
El aprendizaje centrado en objetos aumenta la eficiencia de la muestra de un conjunto de datos, la interpretabilidad de un algoritmo de aprendizaje automático y la capacidad de generalizar a nuevas tareas. La atención de la ranura, una arquitectura de modelo ampliamente utilizada en el aprendizaje centrado en objetos, se refiere a un proceso repetitivo utilizado para estimar el espacio latente alrededor de los objetos e identificar los objetos deseados a partir de las imágenes.
Luego, el modelo produce un conjunto de representaciones abstractas de la imagen relevantes para la tarea llamadas ranuras. Las ranuras son intercambiables entre todos los objetos de la escena y se pueden vincular con cualquier objeto de la entrada.
Limitaciones
- Aunque el modelo funcionó bien para videojuegos 2D o escenas 3D muy simples, no pudieron inferir con precisión a partir de escenas 3D complejas.
- A veces, el modelo segmentaba los objetos que no coincidían con la intención de la tarea. A veces, un objeto específico podría estar demasiado segmentado en partes separadas o podría fallar al segmentar un objeto en las partes deseadas. Esto se debe a que la información sensorial que obtenemos de un objeto depende de cómo lo percibimos visualmente, lo que hace que un objeto sea ambiguo.
Investigación
El equipo de Google Research introdujo un enfoque (parcialmente supervisado) para superar estas limitaciones. El método (llamado SAVi o Slot Attention for Video) es una extensión secuencial de la arquitectura del modelo de atención de slots. El estudio mostró que el modelo se puede entrenar para predecir reconstrucciones de cuadros utilizando datos de flujo óptico. Además, condicionar el modelo inicial a pequeños indicios como la posición del centro de masa de un objeto facilita el proceso de segmentación de objetos.
Inicialmente, SAVi se probó en condiciones sin supervisión. Cada ranura en SAVi representaba un objeto, una parte del objeto que se movía independientemente o el fondo.
El aprendizaje condicional centrado en objetos se utilizó para descomponer escenas complejas. El método utiliza flujo óptico, que son datos sobre el movimiento de píxeles individuales. Cada ranura estaba condicionada por señales externas como cuadros delimitadores o las coordenadas de un solo punto en un objeto, para el primer cuadro de video.
El método usa la regla de predicción-corrección, donde el resultado de la predicción se usa para formar la corrección en el siguiente paso, lo que permite que el modelo rastree objetos constantemente a lo largo del tiempo.
Resultados
Slot Attention for Video no está especialmente capacitado para la segmentación y el seguimiento de objetos, pero la función es un resultado natural. No hay etiquetas de segmentación por objeto para cada ranura, pero SAVi puede segmentar objetos para escenas mucho más complejas.
SAVi es una arquitectura basada en ranuras centrada en objetos que fue particularmente efectiva para identificar y rastrear objetos. El método sirvió para despejar dudas en el pasado acerca de que el aprendizaje centrado en objetos estaba restringido por la capacidad del modelo. Además, esto también podría abrir el camino para otros estudios semisupervisados.
Si bien SAVi usó datos de flujo óptico de un modelo no supervisado, es posible que esta información no esté disponible fuera de la capacitación. Por otro lado, entrenar únicamente con datos de flujo óptico podría ser un problema con objetos fijos. Además, existe una gran brecha entre los entornos de capacitación complejos y los escenarios complejos del mundo real.