Estás leyendo la publicación: Microsoft anuncia el lanzamiento de su último modelo de inteligencia artificial de lenguaje visual de dos mil millones de parámetros llamado BEiT-3
El equipo de Computación en lenguaje natural (NLC) de Microsoft presentó recientemente su último modelo de IA de lenguaje de visión, BEiT-3, una representación de codificador bidireccional de Image Transformers con 1900 millones de parámetros.
La idea central de BEiT-3 es tratar las imágenes como si estuvieran escritas en un idioma diferente (al que los autores se refieren como “Inglish”), lo que permite que el modelo se entrene previamente simplemente con el objetivo de modelado de lenguaje enmascarado (MLM). Debido a su arquitectura unificada, BEiT-3 puede admitir una amplia variedad de tareas posteriores. En los experimentos de evaluación, el modelo ya ha superado los registros de última generación en varios puntos de referencia, como la segmentación semántica, la recuperación multimodal y la respuesta visual a preguntas.
El modelo transformador se ha convertido en el marco de referencia para muchos proyectos de PNL gracias a sus resultados prometedores en muchos sectores. Como resultado, varios científicos comenzaron a usar el Transformador para tareas de visión, fusionando finalmente la PNL y la visión en un solo modelo. Sin embargo, además del objetivo típico de MLM, estos sistemas multimodales suelen incluir numerosos objetivos de capacitación previa porque tienen módulos codificadores separados para las diversas entradas.
Por el contrario, el diseño del Transformador multivía utilizado por BEiT-3 permite un único módulo de autoatención para información visual y textual. La información transmitida desde el cabezal de atención es enviada a un módulo “experto” adaptado a una determinada modalidad. El consumo de memoria GPU reducido se logra mediante el entrenamiento de lotes de tamaño reducido, lo que es posible gracias al enfoque exclusivo del entrenamiento previo del modelo en el objetivo de MLM.
BEiT-3 se entrenó previamente en varios conjuntos de datos de imágenes y texto disponibles públicamente, como ImageNet, COCO y el contenido de imágenes y texto completo de Wikipedia. Estos datos incluían 160 GB de documentos de solo texto, 14 millones de imágenes y 21 millones de pares de texto e imagen.
Los investigadores probaron el modelo en varios puntos de referencia de visión y lenguaje visual, como segmentación semántica en ADE20K, identificación de objetos, segmentación de instancias, leyendas de imágenes y recuperación en COCO y Flickr30K, y respuesta visual a preguntas en VQAv2. Se puede acceder a un conjunto completo de hallazgos en Papers with Code que muestra que BEiT-3 ha logrado mejores resultados que sus predecesores en la mayoría de las tareas.
La sencilla eficiencia de BEIT-3 es un buen augurio para el futuro de la expansión de los modelos básicos multimodales a gran escala. El equipo está trabajando en la capacitación previa de BEIT-3 multilingüe y en agregar otras modalidades (como audio) a BEIT-3 en el futuro. Creen que esto ayudará a converger la capacitación previa a gran escala en tareas, idiomas y modalidades.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Imagen como lengua extranjera: Preentrenamiento BEIT para todas las tareas de visión y visión-lenguaje‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, github y artículo de referencia.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools