El nuevo informe de inteligencia artificial de Google muestra mejoras en los datos y perspectivas de escalado que han permitido su nuevo modelo de lenguaje grande Palm2

Estás leyendo la publicación: El nuevo informe de inteligencia artificial de Google muestra mejoras en los datos y perspectivas de escalado que han permitido su nuevo modelo de lenguaje grande Palm2

Durante mucho tiempo, la predicción de la siguiente palabra fue el método de referencia para estimar la información lingüística presente, lo que convirtió al modelado del lenguaje en un área de estudio vital. En los últimos años, los modelos de lenguaje grande (LLM) han demostrado un rendimiento impresionante en problemas de razonamiento, matemáticas, ciencias y lenguaje gracias a una mayor escala y la arquitectura Transformer. La expansión del tamaño del modelo y la cantidad de datos ha jugado un papel fundamental en estos avances. La mayoría de los LLM todavía se adhieren a una fórmula probada y verdadera, que incluye corpus principalmente monolingües y un objetivo de modelado de lenguaje.

Una investigación reciente de Google presenta PaLM 2, una versión actualizada del modelo de lenguaje PaLM que incorpora nuevos desarrollos de modelado, datos y escalado. PaLM 2 integra una amplia variedad de nuevos hallazgos de varios campos de estudio, que incluyen:

  • Racionalización por computación: recientemente se ha demostrado que el tamaño de los datos es al menos tan relevante como el tamaño del modelo a través de la escala óptima de computación. Este estudio desacredita la sabiduría convencional de que es mejor escalar el modelo tres veces más rápido que el conjunto de datos si los usuarios quieren un rendimiento óptimo para su cálculo de entrenamiento.
  • La combinación de conjuntos de datos mejoró: la mayor parte del texto en los grandes modelos de lenguaje previamente entrenados anteriores estaba en inglés. Con cientos de idiomas y dominios en mente (como programación, matemáticas y textos multilingües paralelos), el equipo ha desarrollado una mezcla de precapacitación más diversa y multilingüe. Los hallazgos demuestran que los modelos más complejos pueden manejar de manera efectiva conjuntos de datos más diversos que no están en inglés y emplear la deduplicación para disminuir la memoria sin afectar negativamente la capacidad de comprensión del idioma inglés.
  • En el pasado, los LLM generalmente se basaban en un solo objetivo causal u oculto. La arquitectura modelo propuesta se basa en el Transformador, que ha demostrado mejorar tanto la arquitectura como las métricas objetivas. Los investigadores utilizaron una combinación cuidadosamente equilibrada de objetivos de preentrenamiento para entrenar este modelo para comprender una amplia gama de facetas lingüísticas.
🔥 Recomendado:  13 consejos de envío para hacer su vida más fácil (y los clientes más felices)

Los hallazgos revelan que los modelos PaLM 2 funcionan mucho mejor que PaLM en una amplia gama de tareas, como generar lenguaje natural, traducirlo y razonar. Aunque requiere más cómputo de entrenamiento que el modelo PaLM más grande, el modelo PaLM 2-L, el más grande de la familia PaLM 2, es mucho más pequeño. Estos hallazgos apuntan a alternativas al escalado de modelos para mejorar el rendimiento, como seleccionar cuidadosamente los datos y tener una arquitectura/objetivos eficientes que puedan desbloquear el rendimiento. Tener un modelo más pequeño que, sin embargo, es de alta calidad mejora la eficiencia de la inferencia, reduce los costos de servicio y abre la puerta para que el modelo se use en más aplicaciones posteriores y por más usuarios.

Las capacidades de lenguaje, producción de código y razonamiento de PaLM 2 en todos los idiomas son impresionantes. Supera a su predecesor en las pruebas de competencia lingüística avanzada en la naturaleza por un amplio margen.

Al alterar solo un subconjunto del preentrenamiento, PaLM 2 permite el control del tiempo de inferencia sobre la toxicidad a través de tokens de control. Los datos previos al entrenamiento de PaLM 2 se aumentaron con nuevas secuencias de fichas ‘canarias’ para facilitar mejores evaluaciones de memoria entre idiomas. Después de comparar PaLM y PaLM 2, los investigadores encontraron que este último tiene tasas promedio más bajas de memorización palabra por palabra. Para los idiomas finales, las tasas de memorización solo aumentan por encima del inglés cuando los datos se repiten varias veces a lo largo de los textos. El grupo demuestra que PaLM 2 ha mejorado las capacidades de clasificación de toxicidad multilingüe y evalúa los riesgos y sesgos asociados con varias aplicaciones potenciales.

🔥 Recomendado:  Aprenda a crear una barra de progreso de pasos similar a la de pago en Magento 2: código completo + explicación

El equipo cree que los cambios en la arquitectura y el objetivo, así como la escala adicional de los parámetros del modelo y el tamaño y la calidad del conjunto de datos, pueden continuar generando avances en la interpretación y generación de lenguaje.