Conozca a DALL-E-Bot: un sistema de robótica basado en inteligencia artificial (IA) que brinda a los modelos de difusión a escala web una realización para realizar las escenas que imaginan

Estás leyendo la publicación: Conozca a DALL-E-Bot: un sistema de robótica basado en inteligencia artificial (IA) que brinda a los modelos de difusión a escala web una realización para realizar las escenas que imaginan

Hoy en día, es difícil pasar un día sin leer/escuchar sobre una nueva aplicación de modelos de difusión si estás siguiendo las noticias sobre inteligencia artificial/aprendizaje automático. El éxito masivo de los modelos de difusión como DALL-E y Stable Diffusion ha atraído una enorme atención hacia estas aplicaciones.

Los modelos de difusión sobresalen en la generación de texto a X. Utilizan la Web como fuente de datos. Internet, específicamente la Web, es un conjunto de datos muy rico si sabe cómo recopilar los datos. Hay millones de pares de datos disponibles para cualquier aplicación que se te ocurra, desde pares de leyendas de imágenes hasta conversaciones de texto. Los modelos de difusión basados ​​en la web recopilan esta información y están capacitados en ellos. Dado un mensaje de texto, estos modelos desarrollan una distribución condicionada por el idioma a través de imágenes naturales a partir de las cuales se pueden crear imágenes únicas.

Si está siguiendo el dominio, ya ha visto las impresionantes imágenes o videos generados por los modelos de difusión. Pueden producir imágenes visualmente agradables que a veces llevan nuestra imaginación al límite.

¿Y si pudiéramos ir más profundo? ¿Qué pasa si usamos estas imágenes generadas para entrenar a otro modelo de IA para lograr una tarea? ¿Qué tal enseñarle a un robot a hacer algo? Esa es la pregunta que DALL-E-Bot intenta responder.

DALL-E-Bot intenta abordar el problema de la reorganización de objetos. Dado que los modelos de difusión pueden generar imágenes realistas, los autores querían examinar sus capacidades para disponer objetos en la escena de forma natural. Por ejemplo, “mesa de cocina con utensilios” generará una imagen de aspecto realista en la que los utensilios y el plato se colocarán de manera ordenada si se lo pasa a DALL-E. Basándose en esta observación, DALL-E-Bot utiliza un modelo de difusión para generar el objetivo del robot. Una vez que el robot vea esta imagen, sabrá cómo debería verse la disposición final del objeto.

🔥 Recomendado:  Ahrefs vs. Semrush: ¿Cuál es la mejor opción para tu negocio?

La automatización de los estados de los objetivos elimina el engorroso proceso de alinearlos manualmente con los valores humanos. Entonces, aquí es donde la difusión a escala web es una solución poderosa: las distribuciones naturales de objetos se pueden modelar de manera escalable y sin supervisión.

Entendimos cuál es el objetivo, pero ¿cómo lo logra DALL-E-Bot? Tratemos de responder a esta pregunta.

DALL-E-Bot utiliza un modelo de difusión para generar el estado objetivo y cómo deben verse los objetos al final para el robot. Dado que los modelos de difusión son modelos de texto a imagen, el primer paso es capturar la escena inicial y convertirla de alguna manera en texto. Encontraron una forma inteligente de hacer esta conversión utilizando un modelo de subtítulos de imágenes.

Esta conversión comienza con la búsqueda de las segmentaciones de objetos en la imagen de entrada utilizando Máscara R-CNN. Una vez obtenidas las máscaras de segmentación de cada objeto, se pasan al modelo CLIP para obtener las leyendas de las imágenes. CLIP explicará qué hay en la imagen, convirtiendo la imagen de entrada en una representación de texto.

Ahora tenemos nuestro mensaje de texto para generar la imagen de la meta. Utilizan el modelo DALL-E disponible públicamente sin ningún ajuste fino. Entonces, DALL-E-Bot es en realidad un modelo de reordenamiento autónomo de tiro cero. El prompt de texto obtenido en el paso anterior se pasa al modelo DALL-E y se genera la imagen del objetivo.

En este paso, el modelo sabe cómo deben organizarse los objetos al final. Para pasar esta información al robot, la imagen objetivo generada por DALL-E se pasa nuevamente a través de los modelos Mask R-CNN y CLIP. Estas características semánticas visuales extraídas se comparan con las de la imagen de entrada y la información de la posición final se obtiene alineando las máscaras de segmentación de los objetos. Por lo tanto, el robot sabe cómo y dónde mover cada objeto en la imagen de entrada. Finalmente, el robot realiza estas modificaciones empleando una pinza de succión para realizar una serie de operaciones de recoger y colocar.

🔥 Recomendado:  Las 10 mejores bibliotecas de Python para la ciencia de datos (2023)

Al final, DALL-E-Bot logró resultados impresionantes en la reorganización de objetos cotidianos. Los resultados fueron encontrados satisfactorios por los usuarios humanos. DALL-E-Bot proporciona una realización para los modelos de difusión a escala web para realizar los escenarios que imaginan.

Este fue un breve resumen de DALL-E-Bot. Puede encontrar más información en los enlaces a continuación si está interesado en obtener más información.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘DALL-E-Bot: Introducción de modelos de difusión a escala web a la robótica‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y proyecto.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools