Con solo ~ 20 líneas de código Python, puede hacer ‘Recuperación de control de calidad basado en GPT aumentado’ utilizando este repositorio de código abierto llamado PrimeQA

Estás leyendo la publicación: Con solo ~ 20 líneas de código Python, puede hacer ‘Recuperación de control de calidad basado en GPT aumentado’ utilizando este repositorio de código abierto llamado PrimeQA

En los últimos años, los investigadores han desarrollado un gran interés en las tareas relacionadas con la respuesta a preguntas (QA) en lo que respecta a la investigación en el procesamiento del lenguaje natural. Los sistemas de recuperación de información (IR), también conocidos como recuperadores, y los sistemas de comprensión de lectura automática (MRC) (también conocidos como lectores) constituyen la mayor parte de la canalización de control de calidad. La entrada de la canalización suele ser una consulta y una gran colección de documentos de la que el retriever extrae secciones pertinentes al contexto de la consulta. Por otro lado, el componente del lector extrae dichos contextos para obtener una respuesta precisa, que luego se proporciona como el resultado final de la canalización. Con el avance de modelos de lenguaje preentrenados más finos y algoritmos más avanzados para componentes de recuperación y lectura, el campo de investigación de control de calidad ha logrado un progreso notable.

Aunque el campo de control de calidad ha avanzado rápidamente en los últimos años, todavía hay mucho margen de mejora. Para llevar a cabo experimentos de control de calidad a gran escala, actualmente no existe un repositorio centralizado que facilite a los investigadores entrenar y analizar varios modelos de última generación. Con el fin de crear una solución integral para la investigación de control de calidad y con el objetivo a largo plazo de democratizar la investigación de control de calidad proporcionando una fácil replicabilidad, un equipo de IBM Research AI desarrolló un repositorio de control de calidad conocido como “El repositorio principal para el estado de la tecnología”. -Art Multilingual Question Answering Research and Development’ o PrimeQA. Es un repositorio de código abierto que brinda a académicos e investigadores todas las herramientas necesarias para crear fácil y rápidamente una aplicación de control de calidad personalizada. Usando PrimeQA, un investigador puede obtener modelos previamente entrenados de varias fuentes en línea y usarlos para ejecutar los experimentos descritos en un artículo publicado en la conferencia de PNL más reciente.

🔥 Recomendado:  Domine el comercio móvil para maximizar sus esfuerzos de marketing digital

La creación del repositorio PrimeQA tuvo en cuenta varios patrones de diseño, incluida la reproducibilidad, la personalización, etc. Los usuarios pueden combinar diferentes enfoques con sus respectivos módulos complementarios para replicar fácilmente los resultados publicados de última generación. Por ejemplo, combinar un lector con un recuperador, como se hace en varias canalizaciones de control de calidad. PrimeQA también brinda personalización para permitir que los investigadores amplíen sus modelos de acuerdo con las necesidades de sus aplicaciones y empleen datos únicos de acuerdo con los formatos de datos admitidos del repositorio. Para simplificar aún más a los desarrolladores la implementación rápida de modelos pre-entrenados listos para usar, PrimeQA también incluye muchos componentes reutilizables. Como resultado, hay menos necesidad de modificar el código, ahorrando tiempo y mano de obra. Además, los modelos PrimeQA se construyen sobre Transformers, lo que facilita su integración con Hugging Face Datasets y Model Hub.

PrimeQA es una caja de herramientas integral que consta de implementaciones fáciles de usar de recuperadores y lectores de última generación en la parte superior de las principales tablas de clasificación de control de calidad. Puede realizar entrenamiento, inferencia y evaluación del rendimiento de estos modelos. Además, varios repositorios hermanos ofrecen herramientas para vincular diferentes recuperadores y lectores y crear una interfaz de usuario (IU) frontal para los clientes. PrimeQA admite funcionalidades básicas de control de calidad, como la recuperación de información, la comprensión de lectura y capacidades auxiliares, como la generación de preguntas, que se describen en detalle a continuación:

1. Recuperación de información: PrimeQA incluye extensiones para recuperadores densos (como ColBERT) y dispersos (como BM25). El repositorio consta de un solo script de Python para cambiar a diferentes algoritmos de recuperación pasando argumentos adicionales.

🔥 Recomendado:  Los mejores títulos en ciencia de datos de universidades de EE. UU. que puede obtener aquí mismo en India

2. Comprensión lectora: El componente lector predice una respuesta para una consulta dada y un párrafo recuperado que se derivan directamente del contexto o se generan en base a él. PrimeQA permite el entrenamiento y la inferencia de lectores extractivos y generativos a través de un solo script de Python.

3. Generación de preguntas: La generación de preguntas es un método poderoso para mejorar la generalización de los modelos de control de calidad. Las arquitecturas modernas de generación de secuencia a secuencia son la base del componente QG de PrimeQA, que acepta texto de entrada estructurado y no estructurado a través de un solo script de Python.

En resumen, PrimeQA es una biblioteca de código abierto creada por investigadores y desarrolladores de control de calidad para facilitar la reproducción y reutilización de trabajos pasados ​​y presentes. Con contribuciones de importantes instituciones académicas, PrimeQA ya cuenta con una sólida comunidad de desarrolladores y agradece la participación tanto de recién llegados como de profesionales. La reutilización y la facilidad de acceso de PrimeQA han llamado mucho la atención, lo que ha permitido que la biblioteca se desarrolle de forma natural hasta convertirse en una herramienta clave para el rápido avance de la tecnología comunitaria de control de calidad.