▷ Un nuevo marco de IA llamado Text2Poster genera automáticamente carteles visualmente efectivos a partir de la información textual

Estás leyendo la publicación: Un nuevo marco de IA llamado Text2Poster genera automáticamente carteles visualmente efectivos a partir de la información textual

Los carteles se han utilizado ampliamente en numerosos contextos comerciales y sin fines de lucro para promover y difundir información como un tipo de medio con elementos artísticos y prácticos. Por ejemplo, las empresas de comercio electrónico utilizan banners llamativos para anunciar sus productos. Los sitios web de eventos sociales, como los de conferencias, suelen estar adornados con carteles opulentos y educativos. Estos carteles de alta calidad se crean integrando letras estilizadas en imágenes de fondo apropiadas, lo que requiere mucha edición manual e intuición estética no cuantitativa. Sin embargo, un enfoque tan lento y subjetivo no puede satisfacer la demanda enorme y en rápido crecimiento de letreros bien diseñados en aplicaciones del mundo real, lo que disminuye la eficacia de la difusión de información y da como resultado efectos de marketing menos que ideales.

En este trabajo, ofrecen Text2Poster, un marco único basado en datos que produce un generador de carteles automático efectivo. Text2Poster utiliza inicialmente un modelo textual visual preentrenado considerable para recuperar imágenes de fondo apropiadas de los textos de entrada, como se ve en la figura a continuación. Luego, el marco toma muestras de la distribución de diseño prevista para establecer el diseño de los textos, luego refina repetidamente el diseño utilizando codificadores automáticos en cascada. Finalmente, obtiene el color y la fuente del texto a partir de una colección de colores y tipografías que incluyen etiquetas semánticas. Adquieren los módulos del marco mediante el uso de técnicas de aprendizaje autosupervisadas y débiles. Los experimentos muestran que su sistema Text2Poster puede producir automáticamente carteles de alta calidad, superando a sus rivales académicos y comerciales en métricas objetivas y subjetivas.

Las etapas que toma el backend son las siguientes:

Usar un modelo visual-textual entrenado para recuperar imágenes: están interesados en investigar las fotos que están “débilmente asociadas” con las oraciones mientras recopilan imágenes de fondo para el desarrollo de carteles. Por ejemplo, les gusta descubrir imágenes con metáforas de amor cuando recopilan fotos para el término “La boda de Bob y Alicia”, como una imagen de una iglesia blanca contra un cielo azul. Utilizan el BriVL, uno de los modelos visuales y textuales preentrenados de SOTA, para lograr este objetivo recuperando imágenes de fondo de los textos.
Utilizando codificadores automáticos en cascada para la predicción del diseño, primero se encuentran las secciones uniformes de la imagen. Una vez que se encuentran las zonas suaves, la región suave se colorea en el mapa de prominencia. Ahora se presenta una distribución de diseño de amplificador estimada.
Estilización del texto: El texto se combina con la imagen original en función del arreglo previsto.

Tienen una página de GitHub donde puede acceder al código de inferencia para utilizar Text2Poster. Descargue los archivos del código fuente para ejecutar el programa. Otra forma de usar el programa es usar sus API de inicio rápido. Todos los detalles de uso están escritos en su página de GitHub.

Un nuevo marco de IA llamado Text2Poster genera automáticamente carteles visualmente efectivos a partir de la información textual

Otros temas interesantes: