Los investigadores de IA de Stanford proponen ‘LinkBERT’: un nuevo método de preentrenamiento que mejora el entrenamiento del modelo de lenguaje con enlaces de documentos

Estás leyendo la publicación: Los investigadores de IA de Stanford proponen ‘LinkBERT’: un nuevo método de preentrenamiento que mejora el entrenamiento del modelo de lenguaje con enlaces de documentos

Este artículo está escrito como un resumen por el personal de Marktechpost basado en el trabajo de investigación ‘LinkBERT: Modelos de lenguaje de preentrenamiento con enlaces de documentos‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, github y entrada en el blog.

Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático

Los modelos de lenguaje (LM) son la piedra angular de los sistemas modernos de procesamiento de lenguaje natural (NLP), principalmente debido a su extraordinaria capacidad para obtener conocimiento a partir de material textual. Estos modelos se han arraigado en nuestra vida diaria debido a su uso en herramientas como motores de búsqueda y asistentes de voz. Los modelos como las series BERT y GPT se destacan porque se pueden entrenar previamente en grandes cantidades de entrada de texto sin anotaciones mediante el aprendizaje autosupervisado. Estos modelos pre-entrenados se pueden modificar fácilmente para una amplia gama de nuevos trabajos de respuesta a preguntas sin mucho ajuste específico de la tarea modelado de lenguaje velado y modelado de lenguaje causal. La principal desventaja de estas soluciones predominantes de capacitación previa de LM es que solo modelan un documento a la vez y no capturan dependencias o conocimientos que abarcan varios documentos. Debido a su interdependencia, la evaluación independiente de cada documento tiene algunos límites. Esto se ilustra mejor mediante el uso de texto de la web o literatura científica, que se utiliza con frecuencia en el entrenamiento de LM. La mayoría de las veces, estos datos textuales contienen enlaces a documentos, como hipervínculos y enlaces de referencia. Estos enlaces de documentos son esenciales ya que el conocimiento se puede encontrar en varios documentos en lugar de uno solo.

Los enlaces de documentos son esenciales para que los LM aprendan nueva información y hagan descubrimientos, tal como lo son para los humanos. Debemos recordar que un corpus de texto es más que una lista de documentos; es un gráfico de documentos con enlaces que los unen. Es posible que los modelos entrenados sin estas dependencias no puedan capturar hechos dispersos en varios documentos, lo cual es necesario para una variedad de aplicaciones, como la respuesta a preguntas y el descubrimiento de conocimientos. Para dar un paso hacia la solución de este desafío, un grupo de investigadores del laboratorio de IA de Stanford creó LinkBERT, un nuevo enfoque previo al entrenamiento que incluye información sobre el enlace de documentos durante el entrenamiento. El LinkBERT LM se divide en tres etapas. La primera etapa es construir un gráfico de documento a partir del corpus de texto utilizando hipervínculos y enlaces de citas. Cada documento se ve como un nodo, y si hay un hipervínculo entre dos documentos, se agrega un borde dirigido entre ellos. El segundo paso es utilizar el gráfico para crear instancias de formación con reconocimiento de enlaces agrupando los documentos conectados. El documento se divide en segmentos, que posteriormente se concatenan en función de los vínculos del gráfico del documento. La concatenación se puede realizar de varias maneras, como segmentos contiguos, aleatorios y vinculados. El modelo puede aprender a reconocer las relaciones entre las partes del texto utilizando estos tres enfoques alternativos.

Fuente: https://ai.stanford.edu/blog/linkbert/

El último paso es entrenar previamente el LM mediante tareas autosupervisadas con reconocimiento de enlaces, como el modelado de lenguaje enmascarado (MLM) y la predicción de relaciones de documentos (DRP). MLM oculta algunos tokens en el texto de entrada antes de predecir los tokens en función de los tokens que los rodean. El objetivo es lograr que el LM adquiera conocimientos de múltiples saltos de temas que están vinculados entre sí a través de enlaces de documentos. Gracias a DRP, el modelo puede categorizar la relación entre dos segmentos como contiguos o aleatorios. Este trabajo ayuda al LM a conocer la relevancia y las dependencias de los documentos. Los modelos LinkBERT se probaron en varias tareas posteriores de diversos dominios. El modelo supera regularmente a los modelos de lenguaje de referencia como BERT y PubmedBERT que no fueron entrenados previamente con enlaces de documentos entre tareas y dominios. Debido a las conexiones críticas entre publicaciones científicas a través de enlaces de citas, estos resultados exitosos fueron especialmente relevantes para el dominio biomédico. LinkBERT también muestra resultados ejemplares para el razonamiento de saltos múltiples.

Es muy conveniente utilizar LinkBERT como reemplazo directo de BERT. LinkBERT no solo mejora el rendimiento de las tareas generales de comprensión del idioma, sino que también captura las relaciones de conceptos y es efectivo para la comprensión de documentos cruzados, según un estudio experimental cuidadoso. El modelo también internaliza más conocimiento del mundo y es útil para trabajos que requieren mucho conocimiento, como responder preguntas. Los modelos LinkBERT se lanzaron con la esperanza de allanar el camino para futuros proyectos de investigación. Algunos de estos proyectos incluyen la generalización de LM de estilo de secuencia a secuencia para llevar a cabo la generación de texto con reconocimiento de enlaces de documentos, etc. El trabajo de investigación también ha sido publicado en Association for Computational Linguistics 2022.

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools

🔥 Recomendado:  Detrás de escena de mi primera conferencia de comercio electrónico: la cumbre de vendedores