Colapso del modelo: la amenaza oculta para los LLM y cómo mantener la IA Rea

Estás leyendo la publicación: Colapso del modelo: la amenaza oculta para los LLM y cómo mantener la IA Rea

Con la locura de los LLM, como los motores GPT ampliamente populares, todas las empresas, grandes o pequeñas, están en la carrera por desarrollar un modelo mejor que los existentes o utilizar los modelos actuales en un paquete innovador que resuelva un problema.

Ahora bien, si bien encontrar los casos de uso y construir un producto a su alrededor está bien, lo que preocupa es cómo entrenaremos un modelo, cuál es mejor que los modelos existentes, cuál será su impacto y qué tipo de técnica usaremos. Al resaltar todas estas preguntas y plantear un tema preocupante, este documento analiza todo lo que necesitamos saber.

Los motores GPT actuales, como chatGPT o cualquier otro modelo de lenguaje grande, ya sea general o un sistema basado en un nicho específico, han sido datos entrenados en Internet de forma pública y ampliamente accesible.

Esto nos da una idea de dónde provienen los datos. La fuente son personas comunes que leen, escriben, tuitean, comentan y revisan información.

Hay dos formas ampliamente aceptadas de aumentar la eficiencia con la que funcionará un modelo y lo mágico que lo encontrará una persona que no sea tecnológica. Una es aumentar los datos en los que está entrenando su modelo. Y el segundo es aumentar la cantidad de parámetros que considerará. Considere los parámetros como puntos de datos únicos o características del tema sobre el que está aprendiendo el modelo.

Hasta ahora, los modelos han estado trabajando con datos en cualquier forma, audio, video, imagen o texto, desarrollados por humanos. Si se trata como un gran corpus, este corpus tiene datos que eran auténticos en términos de semántica, constituidos por variedad y ocurrencia poco común, a lo que a menudo nos referimos como variedad en los datos, estaba allí. Todos los sabores vivos estaban intactos. Por lo tanto, estos modelos podrían desarrollar una distribución de datos realista y capacitarse para predecir no solo la clase más probable (común) sino también las clases o tokens que ocurren menos.

🔥 Recomendado:  Acelere la velocidad de su página: velocidad del sitio y amp; Lista de verificación de rendimiento

Ahora, esta variedad está amenazada con la infusión de datos generados por máquinas, por ejemplo, un artículo escrito por un LLM o una imagen generada por una IA. Y este problema es más grande de lo que parece a primera vista, ya que se agrava con el tiempo.

Ahora, según los investigadores de este artículo, este problema es bastante frecuente y peligrosamente impactante en los modelos que siguen un proceso de aprendizaje continuo. A diferencia del aprendizaje automático tradicional, que busca aprender de una distribución de datos estática, el aprendizaje continuo intenta aprender de una distribución dinámica, donde los datos se suministran secuencialmente. Los enfoques como este tienden a basarse en tareas, proporcionando datos con límites de tareas delineados, por ejemplo, clasificar perros de gatos y reconocer dígitos escritos a mano. Esta tarea es más similar al aprendizaje continuo sin tareas, donde las distribuciones de datos cambian gradualmente sin la noción de tareas separadas.

Model Collapse es un proceso degenerativo que afecta a generaciones de modelos generativos aprendidos, donde los datos generados contaminan el conjunto de entrenamiento de la próxima generación de modelos; siendo entrenados en datos contaminados, perciben mal la realidad. Todo esto conduce al colapso del modelo, que es una causa directa del envenenamiento de datos. Mientras que el envenenamiento de datos, en términos más amplios, significa cualquier cosa que pueda conducir a la creación de datos que no representan con precisión la realidad. Los investigadores han utilizado varios modelos manejables que imitan los modelos matemáticos de LLM para mostrar qué tan real es este problema y cómo crece con el tiempo. Casi todos los LLM sufren de eso, como se muestra en los resultados.

🔥 Recomendado:  ¿Qué es Google Shopping y por qué es importante para los vendedores de comercio electrónico?

Ahora que sabemos cuál es el problema y qué lo está causando, la pregunta obvia es ¿cómo lo resolvemos? La respuesta es bastante simple y también la sugiere el artículo.

  1. Mantener la autenticidad del contenido. Se realista
  2. Agregue más colaboradores para revisar los datos de capacitación y garantizar una distribución de datos realista.
  3. Regular el uso de datos generados por máquinas como datos de entrenamiento.

Con todo esto, este documento destaca cuán preocupante puede ser este problema que parece insignificante porque es muy costoso capacitar a los LLM desde cero, y la mayoría de las organizaciones utilizan modelos previamente capacitados como punto de partida hasta cierto punto.

Ahora, incluso los servicios críticos, como los casos de uso de ciencias de la vida, la gestión de la cadena de suministro e incluso toda la industria de contenido, se están trasladando rápidamente a los LLM para sus tareas y sugerencias regulares; sería interesante ver cómo los desarrolladores de LLM lo mantendrán realista y mejorarán el modelo continuamente.