El Instituto Allen de Inteligencia Artificial presenta ACCoRD: un enfoque de documentos múltiples para generar descripciones diversas de conceptos científicos

Estás leyendo la publicación: El Instituto Allen de Inteligencia Artificial presenta ACCoRD: un enfoque de documentos múltiples para generar descripciones diversas de conceptos científicos

Todos hemos encontrado nuevas palabras con las que no estábamos familiarizados al leer artículos de investigación científica. Puede ser difícil para un principiante total comprender nuevas nociones científicas. En el peor de los casos, también puede resultar en una eventual postergación debido a la desmotivación. Aunque incluso los conceptos más conocidos pueden aclararse utilizando recursos en línea como Wikipedia, la mayoría de la terminología científica utilizada en la literatura debe explicarse adecuadamente en línea.

El trabajo anterior en el procesamiento del lenguaje natural (NLP) ha intentado abordar este problema mediante el desarrollo de sistemas que pueden extraer o producir automáticamente descripciones de conceptos científicos utilizando el texto en la publicación de investigación. El problema principal es que los artículos rara vez definen la terminología que emplean. Además, estos sistemas solo pretenden ofrecer una “mejor” descripción que sea apropiada para todos los usuarios en un sentido general.

Sin embargo, un solo tema se puede explicar de varias maneras, y la explicación que es más beneficiosa para una persona puede no ser la más efectiva para otra. Esto ocurre con frecuencia porque, como humanos, tenemos la propensión a enriquecer una metodología ya existente con nuestro conocimiento previo específico mientras buscamos determinar un concepto novedoso. Esto es especialmente cierto cuando se leen materiales tan complicados como artículos científicos; saber cómo encajan los nuevos conceptos en nuestro marco conceptual existente podría facilitar la comprensión de lo que leemos.

🔥 Recomendado:  Juega solitario por dinero y gana dinero con estas aplicaciones

Para presentar una solución a los desafíos mencionados anteriormente, el Instituto Allen para la Inteligencia Artificial (AI2), en su esfuerzo más reciente, desarrolló ACCoRD, un sistema integral que asume la tarea inusual de crear conjuntos de descripciones de conceptos científicos. En lugar de concentrarse en un solo paradigma generador de descripciones “mejores”, su enfoque hace uso de las numerosas formas en que se hace referencia a un concepto en la literatura científica para desarrollar descripciones únicas y variadas. Esta nueva tarea se denomina generación de conjunto de descripción (DSG). El equipo también puso a disposición el corpus ACCoRD, un recurso anotado por expertos, para ayudar en la investigación sobre este y otros temas relacionados. Este corpus incluye más de 1275 contextos etiquetados y 1787 descripciones de conceptos escritas a mano. Su trabajo también ganó reconocimiento en la pista de demostración del sistema de la estimada conferencia EMNLP 2022.

El enfoque ACCoRD crea descripciones diversas de conceptos de destino en términos de distintos tipos de relaciones y conceptos de referencia al utilizar el hecho de que un concepto se expresa de varias maneras en la literatura científica. Esto se logra a través de un proceso de tres etapas. La primera fase consiste en utilizar SciBERT, un modelo de lenguaje previamente entrenado para la escritura científica, para extraer frases de contexto de textos que definen un concepto científico particular. El corpus ACCoRD se usa luego para refinar aún más este modelo. Este proceso de extracción se concentra en circunstancias que explican un concepto objetivo en términos de un concepto de referencia.

🔥 Recomendado:  Redacción SEO: 7 consejos efectivos para subir de rango en el SERP

La siguiente etapa utiliza GPT-3 en el modo de pocos disparos para generar una forma condensada de descripciones independientes de la relación del objetivo con cada concepto de referencia de los contextos extraídos. Se elige un conjunto de descripciones final de las generaciones en la fase final priorizando una variedad variada de descripciones que cubren varios tipos de relaciones y conceptos de referencia.

De acuerdo con evaluaciones experimentales adicionales, varias descripciones de conceptos desarrolladas como resultado de la metodología del equipo se vieron favorecidas sobre otros enfoques estándar. Se puede acceder a la salida del sistema ACCoRD para 150 conceptos de PNL ampliamente utilizados en acuerdo.allenai.org. También han puesto a disposición el corpus ACCoRD para ayudar en la creación de futuros sistemas DSG, con el objetivo de que estos sistemas contribuyan a una mayor accesibilidad de material científico para lectores con antecedentes científicos variados.