Estás leyendo la publicación: Investigadores de la Universidad de Boston y Google presentan un método basado en inteligencia artificial (IA) para ilustrar artículos con resúmenes visuales
Los avances recientes en los modelos generativos han allanado el camino a una multiplicidad de tareas que hace algunos años solo eran imaginables. Con la ayuda de conjuntos de datos de imagen y texto a gran escala, los modelos generativos pueden aprender poderosas representaciones explotadas en campos como la traducción de texto a imagen o de imagen a texto.
El reciente lanzamiento de Stable Diffusion y DALL-E API provocó un gran entusiasmo en torno a los modelos generativos de texto a imagen capaces de generar imágenes novedosas complejas y sorprendentes a partir de un texto descriptivo de entrada, similar a realizar una búsqueda en Internet.
Con el creciente interés en la tarea inversa, es decir, la traducción de imagen a texto, varios estudios intentaron generar subtítulos a partir de imágenes de entrada. Estos métodos a menudo suponen una correspondencia uno a uno entre las imágenes y sus leyendas. Sin embargo, se pueden conectar varias imágenes y combinarlas con una narración de texto larga, como fotos en un artículo de noticias. Por lo tanto, la necesidad de correspondencias ilustrativas (p. ej., “viaje” o “vacaciones”) en lugar de subtítulos literales uno a uno (p. ej., “vuelo en avión”).
Con este propósito, los investigadores de Google introdujeron NewsStories, un conjunto de datos a gran escala que contiene más de 31 millones de artículos en inglés, 22 millones de imágenes y 1 millón de videos de más de 28 000 fuentes de noticias.
Además, basándose en el conjunto de datos presentado, proponen la tarea novedosa de aprender una representación contextualizada para un conjunto dado de imágenes de entrada de modo que pueda inferir la historia relevante.
El objetivo es maximizar la similitud semántica entre cada artículo y las imágenes de entrada, y esto se puede lograr explorando dos subtareas MIL (aprendizaje de múltiples instancias).
El primero consiste en la alineación de una imagen con el artículo completo, convertidos a través de un codificador de imagen y un codificador de lenguaje, respectivamente, en representaciones.
El segundo implica segmentar el artículo de texto en oraciones individuales y codificarlas en diferentes representaciones. El objetivo es la maximización de la información mutua entre las imágenes y las secuencias de texto, expresada en distribuciones de probabilidad.
Esta última solución presentada dio como resultado la mayor precisión.
En resumen, las contribuciones de este trabajo son múltiples, comenzando por el desafiante problema de alinear una historia y un conjunto de imágenes ilustrativas sin ordenamiento temporal con aplicaciones como la ilustración automatizada de historias. En segundo lugar, se presenta un conjunto de datos de noticias multimodal a gran escala, denominado NewsStories. Por último, los investigadores presentan un enfoque MIL intuitivo que supera los métodos de última generación en un 10 % en la recuperación de conjuntos de imágenes sin disparo en el conjunto de datos de última generación GoodNews.
Este fue un resumen de NewsStories, un método novedoso para ilustrar historias con resúmenes visuales. Puede encontrar más información en los enlaces a continuación si desea obtener más información al respecto.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘NewsStories: Ilustrando artículos con resúmenes visuales‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y proyecto.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools