Investigadores de POSTECH y NVIDIA crearon dos conjuntos de datos implícitos a gran escala, a saber, PeRFception-CO3D y PeRFception-ScanNet, que cubren entornos centrados en objetos y escenas

Estás leyendo la publicación: Investigadores de POSTECH y NVIDIA crearon dos conjuntos de datos implícitos a gran escala, a saber, PeRFception-CO3D y PeRFception-ScanNet, que cubren entornos centrados en objetos y escenas

En los últimos años, los avances en las representaciones implícitas han demostrado una gran precisión, variedad y resiliencia en la expresión de escenas 3D mediante el mapeo de coordenadas dimensionales bajas a los atributos de la escena local, como la ocupación, los campos de distancia con signo o los campos de radiación. Tienen varias ventajas que las representaciones explícitas (como vóxeles, mallas y nubes de puntos) no pueden: geometría más suave, menos espacio de memoria para almacenamiento y síntesis de vista única con alta precisión visual, por mencionar algunas. Por lo tanto, las representaciones implícitas se han empleado para la reconstrucción 3D, la síntesis de vista única, la estimación de posición, la producción de imágenes y muchas más aplicaciones.

Neural Radiance Fields (NeRF) y varios estudios de seguimiento han demostrado que las redes implícitas pueden crear imágenes fotorrealistas y capturar geometría precisa al convertir una escena estática en una función 5D implícita que produce campos de radiación dependientes de la vista. Emplean una radiación dependiente de la vista que se puede codificar en una red implícita mediante la supervisión de imágenes, la representación volumétrica diferenciable y la geometría de la escena. A diferencia de las representaciones 3D explícitas tradicionales, estos componentes permiten que las redes registren propiedades fotométricas de alta fidelidad, como la reflexión y la refracción.

El conjunto de datos de PeRFception transmite características tanto visuales (coeficiente armónico esférico) como geométricas (densidad, cuadrícula de vóxel disperso) en un solo formato compacto, lo que permite aplicarlo a una amplia gama de desafíos de percepción, como la clasificación 2D, la segmentación 3D y la clasificación 3D. de inmediato.

🔥 Recomendado:  Encuesta de contratación de ciencia de datos 2023 (perspectiva de los solicitantes de empleo): por AIM y AnalytixLabs

Dada la efectividad de las representaciones implícitas, es lógico considerarlas como uno de los formatos de datos estándar para 3D y percepción. A pesar de su capacidad para registrar una imagen con excelente fidelidad, estas representaciones innovadoras aún no se han aplicado a tareas de percepción como la categorización y la segmentación. La falta de un conjunto de datos sustancial adecuado para desarrollar un sistema de percepción es uno de los principales factores que contribuyen. Como resultado, en este documento, publican los primeros conjuntos de datos de representación implícita a gran escala para ayudar a acelerar la investigación de la percepción.

Los NeRF tienen fallas que impiden su uso generalizado como el formato de datos preferido para la percepción y los escenarios 3D. Primero, lleva muchos días entrenar una red implícita. Los NeRF no se pueden usar en aplicaciones en tiempo real debido al retraso en la inferencia (representación volumétrica), que puede durar varios minutos. La geometría y las características visuales de una escena se registran implícitamente como pesos en una red neuronal. Estos hechos impiden que la información sea procesada inmediatamente por un conducto de percepción ya existente. En tercer lugar, los pesos o características implícitos son exclusivos de una escena y no se pueden reutilizar entre escenas.

Sin embargo, los canales o características, como los canales RGB para imágenes, deben tener una estructura consistente para la percepción. Por ejemplo, si el orden de los canales varía de una imagen a otra, la tubería de clasificación de imágenes no funcionará de manera efectiva. Investigaciones recientes han superado estas limitaciones mediante el empleo de geometría de cuadrícula de vóxeles dispersos precisa y funciones basadas en características. Numerosas publicaciones recomiendan el uso de geometría de vóxel dispersa explícita para abordar la velocidad lenta, lo que minimiza la cantidad de muestras a lo largo de un rayo al evitar el espacio desocupado.

🔥 Recomendado:  "¡Pero sus correos electrónicos!" Desmontando el fenómeno de las redes sociales que son los correos electrónicos de Hillary Clinton

En segundo lugar, la optimización explícita de las características otorgadas a una geometría específica acelera el proceso de extracción de características de las redes en lugar de utilizar representaciones implícitas de pesos. Por último, pero no menos importante, Yu et al. demuestran que los coeficientes armónicos esféricos pueden describir una escena con tanta precisión como los NeRF manteniendo características consistentes y organizadas, lo cual es esencial para la percepción o generar una escena con elementos variados en formato NeRF. Su estudio utiliza Plenoxels como el formato principal para los desafíos de percepción y diseña escenarios centrados tanto en la escena como en el objeto. Los plenoxels, en particular, cumplen con todos los requisitos para la representación de datos, lo que permite un aprendizaje y una representación rápidos, al mismo tiempo que mantiene una representación de características uniforme para la percepción y la composición de la escena.

Principalmente transforman dos conjuntos de datos de imágenes, el conjunto de datos 3D de objetos comunes (CO3D) y ScanNet, en Plenoxels y etiquetan los conjuntos de datos convertidos PeRFception-CO3D y PeRFception-ScanNet, respectivamente. Entrenan redes para la clasificación de imágenes 2D, la clasificación de objetos 3D y la segmentación semántica 3D utilizando los conjuntos de datos de PeRFception. Debido a que los Plenoxels pueden ser extremadamente significativos, ofrecen algunas estrategias para comprimir datos e hiperparámetros para cada configuración para mejorar la precisión y reducir el tamaño de los datos.

Su capacidad para entrenar con éxito redes para cada desafío de percepción muestra que sus conjuntos de datos pueden combinar adecuadamente información 2D y 3D en un solo formato. También demuestran cómo su representación permite una manipulación compleja a nivel de cámara y un aumento de fondo más práctico. Ofrecen el siguiente resumen de sus contribuciones:

🔥 Recomendado:  Qué es un influencer en las redes sociales y cómo puede ayudar a tu marca

• Presentan los primeros conjuntos de datos implícitos a gran escala adecuados para tareas de percepción posteriores como clasificación de imágenes 2D, clasificación de objetos 3D y segmentación semántica de escenas 3D.

• Realizan la primera investigación en profundidad de pruebas de percepción visual que utilizan conscientemente la representación implícita. Sus conjuntos de datos transmiten con éxito la información para tareas de percepción 2D y 3D, según las pruebas exhaustivas.

• Proporcionan una canalización lista para usar que utiliza procedimientos completamente automatizados para producir conjuntos de datos implícitos. En el futuro, anticipan que este procedimiento automatizado permitirá la creación de un conjunto de datos 3D de gran tamaño.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘PeRFception: Percepción usando campos de radiación‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, página del proyecto y código.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools