Perfeccionamiento de LLaMA en documentos médicos: conozca el modelo PMC-LLaMA-A que logra un alto rendimiento en los puntos de referencia de control de calidad biomédicos

Estás leyendo la publicación: Perfeccionamiento de LLaMA en documentos médicos: conozca el modelo PMC-LLaMA-A que logra un alto rendimiento en los puntos de referencia de control de calidad biomédicos

El desarrollo de modelos de lenguaje extenso (LLM), como ChatGPT y GPT-4 de OpenAI, ha remodelado la inteligencia artificial en muchos campos, incluido el procesamiento del lenguaje natural, la visión por computadora y el campo biomédico. Desafortunadamente, aún se desconocen los detalles del entrenamiento de ChatGPT y las arquitecturas modelo para sus variantes. Si bien LLaMA es un modelo de lenguaje fundamental de código abierto, se supone que su bajo rendimiento en aplicaciones que requieren un amplio conocimiento del dominio se debe a la falta de datos específicos del dominio durante la etapa previa al entrenamiento del modelo.

Muchos estudios han estado discutiendo la modificación y el uso de LLM de código abierto para fines especializados. Por ejemplo, Alpaca y Vicuna se han centrado en ampliar la capacidad de interacción del modelo entrenándolo con ejemplos de instrucciones obedecidas creadas automáticamente.

Un trabajo reciente de la Universidad Jiao Tong de Shanghái y el Laboratorio de IA de Shanghái toma un rumbo diferente al infundir conocimiento del dominio en un solo LLaMA preentrenado para dirigir el modelo de lenguaje fundamental hacia un corpus médico específico. Presentan PMC-LLaMA, un modelo de lenguaje disponible públicamente desarrollado al refinar LLaMA-7B en 4,8 millones de artículos académicos médicos. El equipo cree que la discusión y la consulta médica se beneficiarían más de un modelo de lenguaje fundamental con un enfoque médico.

El equipo comenzó con los conjuntos de datos S2ORC, que contienen 81,1 millones de artículos académicos en inglés, y los clasificó según su ID de PubMed Central (PMC). Por lo tanto, aproximadamente 4,9 millones de artículos, que suman más de 75 000 millones de fichas, están muy relacionados con el conocimiento médico. Al optimizar un objetivo de generación autorregresiva, presentado por primera vez en GPT2, afinan el modelo LLaMA-7B en estos documentos PMC disponibles gratuitamente. Emplean el formato de datos bf16 (Brain Floating Point) y el enfoque de aceleración de datos paralelos totalmente fragmentados (FSDP) para acelerar el proceso de aprendizaje.

🔥 Recomendado:  Cómo usar la magia del marketing de contenido entrante para impulsar su negocio

El equipo prueba PMC-LLaMA realizando tres tipos diferentes de ajuste fino en los conjuntos de datos de control de calidad médicos asociados mencionados anteriormente: ajuste fino completo, ajuste fino eficiente de parámetros y ajuste fino eficiente de datos. Los resultados de los experimentos muestran que PMC-LLaMA supera a LLaMA y otros modelos entrenados con instrucciones ajustadas por LLaMA en el dominio médico cuando se modifican las instrucciones.

Una deficiencia de PMC-LLaMA es que no se pueden encontrar todos los tokens en los 4,8 millones de documentos porque hasta ahora solo han entrenado cinco épocas. En el futuro, planean entrenar gradualmente los modelos PMC-LLaMA con más parámetros, entrenar continuamente PMC-LLaMA y actualizar el modelo base en la página de la cara de abrazos.