▷ ¿Un nuevo BLOOM en IA? Por qué el modelo BLOOM puede cambiar las reglas del juego: hacia la IA

Estás leyendo la publicación: ¿Un nuevo BLOOM en IA? Por qué el modelo BLOOM puede cambiar las reglas del juego: hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Ahora estamos acostumbrados a modelos de lenguaje grandes, ¿por qué es tan especial?

Más y más grande

Cuando BERT Al final quedó bastante claro cuál era el camino que la industria había elegido para el futuro del campo del procesamiento del lenguaje natural. BERT fue el primer transformador que realmente llamó la atención, pero no el último (lamentablemente, podemos decir lo mismo de la serie de películas).

BERT abre el camino a bart, roberta, y otro modelo de transformadores grandes. Mostró que la pila de capas de autoatención y más parámetros era asombrosamente buena para muchas tareas (reconocimiento de entidades nombradas, traducción, respuesta a preguntas, etc.). Luego llegó en 2020 IA abierta entró con fuerza en la competición con GPT-3 (un modelo gigante con unos 175 mil millones de parámetros). Fue impresionante, pero permaneció en el trono solo por un tiempo, Google y algunas otras compañías lanzan un desfile de modelos más grandes. Nosotros vimos Ardilla de tierra (280 mil millones), PALMERA (540B), y LaMDA (137B). Con la excepción de chinchilla (70 mil millones, no muy pequeño de todos modos) el principio era el mismo recopilar más datos y aumentar la cantidad de parámetros.

Fue una carrera con pocos participantes. La verdad fue que BERT le mostró al mundo que solo las empresas tecnológicas de primer nivel podían competir en el juego. Se estima que GPT3 cuesta solo 10-20 millones de dólares para entrenar si solo consideramos la factura de la luz (imagínense cuánto cuesta comprar toda la GPU para el entrenamiento).

La viruela tecnológica: la alergia al código abierto que aqueja a la empresa tecnológica.

Todos estaban encantados de probar GPT-3, gato, Flamenco, DALL-Ey ImagenSin embargo, hubo restricciones en el mejor de los casos (y una lista de espera tan larga). OpenAI, Meta, Google y Microsoft abrieron algunos de sus modelos (los ejemplos son OPTAR, VPTy Cambiar transformadores) pero no estaban contentos con eso. La verdad es que si tienes lo mejor de tu clase, querrás quedarte para ti. Google usó fácilmente BERT y los siguientes modelos para mejorar la búsqueda de Google, pero perder la exclusiva es otra cosa.

Todos sabemos la importancia del código abierto (y si lo olvidas, está Linus Torvalds para recordarlo). Lo usamos todos los días y cualquiera que sea el programa sabe lo importante que es usar el componente de código abierto. Sin embargo, el código abierto es una empresa de autostop a la que solo le gustaría ganar dinero.

Para ser justo, EleutherAI, gran cienciay cara de abrazo trató de acabar con el monopolio y abrir muchos modelos geniales. Adam Smith dice algo así como “el mercado regula la compra a sí mismo”, así que ya ves, ahora tenemos empresas que harán cosas de código abierto y resolveremos el problema. Claro, tenemos 2 siglos de experiencia de que lo que dijo Adam Smith no era cierto. Entonces, en este punto, tenemos una pregunta sobre dónde estaban las instituciones.

El bueno, el malo y el sesgo

Entrenar a estos enormes modelos no es respetuoso con el medio ambiente. Diferentes artículos señalaron el impacto ambiental de la IA (incluso Forbes lo nota, así que te puedes imaginar). La huella de carbono de formar a un gran modelo de PNL es bastante impresionante según un estudio de la Universidad de Massachusetts. Además, tenemos que lidiar con el costo y elementos raros necesita producir el hardware (todas las GPU).

Además, desde palabra2vec fue publicado en 2013 alguien notó que había algo raro, los modelos de lenguaje pueden ser racistas y misóginos. ¿Por qué? Porque con el objetivo de recopilar la mayor cantidad de datos posible, a menudo recopilaron datos llenos de estereotipos. Por ejemplo, Reddit es una de las fuentes más utilizadas para extraer datos, y los investigadores del King’s College publicaron un artículo que mostró evidencia de prejuicios religiosos y de género en las comunidades de Reddit. Esto provocó críticas y OpenAI afirmó haber mitigado el sesgo en GPT-3. Sabemos que las empresas con controlarse a sí mismas no son suficientes (¿recuerdan las promesas de Facebook contra las fake news?). De hecho, si estos modelos terminan en producción, debemos eliminar el daño tanto como sea posible.

¿Qué es BLOOM? ¿Por qué debería preocuparme por otro modelo basado en transformador?

FLORACIÓN (BigScience Language Open-science Open-access Multilingual) tiene 176 mil millones de parámetros y ha sido entrenado en 1,5 terabytes de texto. Mirando debajo del capó, el sitio web informa que tiene 70 capas y usos atención de múltiples cabezas. Ok, suficiente con la jerga tecnológica, ¿qué significa? Es otro transformador. ¿Por qué tan especial?

Comencemos con el hecho de que detrás de BLOOM hay un equipo internacional de alrededor de 1000 voluntarios, en su mayoría académicos (más de 50 países y más de 20 idiomas). El proyecto abarca instituciones desde Francia hasta Canadá, pero también empresas como Hugging Face.

Además, lanzaron un carta ética, donde describieron el valor central que inspiró el proyecto. Decidieron distinguir dos categorías de valor intrínseco y extrínseco. Vale la pena dedicar una breve descripción de los valores que inspiraron el proyecto.

Valores intrínsecos:

Inclusividad. El proyecto pretendía evitar cualquier discriminación.
Diversidad. El proyecto BigScience se definió como un medio de diversidad, que abarca a muchos investigadores de diferentes países y orígenes.
Reproducibilidad. Como valor central, se decidieron por la ciencia abierta
Franqueza. La cual subdividieron en una centrada en el proceso y otra relacionada con los resultados.
Responsabilidad. La responsabilidad que calificaron de individual y colectiva, que también es social y ambiental.

Valores extrínsecos:

Accesibilidad. Se describen como vinculados a la apertura pero ampliados con el objetivo de ser accesibles y explicables al público en general.
Transparencia. relacionado con la apertura, BigScience fomenta la divulgación y difusión del proyecto
Interdisciplinariedad. El enfoque fue desde el principio unir diferentes disciplinas (informática, lingüística, sociología, filosofía, etc.).
Multilingüismo. Vinculados a los diversos valores, apuntaron desde la concepción del proyecto a cubrir diferentes lenguajes también como un medio de inclusión.

Comencemos con el hecho de que esta carta no fue una vaga promesa. Primero, el modelo fue entrenado en la supercomputadora pública Jean Zay alimentado por energía nuclear (que es una fuente de energía baja en carbono). Además, usaron el calor generado por el hardware para comer edificios en el campus.

Conscientes de las lecciones pasadas, trataron de limitar la hazar de asociaciones racistas o sexistas. ¿Cómo? Incluyendo académicos (incluidos especialistas en ética, estudiosos del derecho y filósofos) pero incluso empleadores de empresas de Facebook o Google. Además, en lugar de solo raspar la web, seleccionan 500 fuentes (discutiendo en talleres que incluyen grupos comunitarios como Masakhane, LatinX en IAy Aprendizaje automático Tokio). Los investigadores dijeron Naturaleza, que incluso con todas estas precauciones, el modelo probablemente no estará libre de sesgos. Pero dado que el código y los conjuntos de datos son abiertos, pueden comprender las raíces del comportamiento dañino y mejorar.

El modelo será de uso gratuito y pronto estará disponible a través de HuggingFace (también están planeados para una versión más pequeña y menos intensiva en hardware, así como una versión distribuida por el servidor).

Conclusiones

Los modelos de PNL probablemente cambiarán el mundo y la IA será omnipresente en todos los aspectos de nuestra vida futura. Sin embargo, sabemos cómo los monopolios son un problema cuando hay tecnologías de punta (recuerda el teléfono? Internet sin desmantelar el monopolio hubiera sido totalmente diferente). Hasta ahora, los modelos de lenguaje han sido el pasatiempo de un pequeño club de ricas empresas tecnológicas. BLOOM es el primer esfuerzo para permitir que todos se beneficien de la IA. En el futuro, probablemente tendremos chatbots en todas partes y necesitamos acceso a modelos grandes para el público.

Recursos adicionales

curiosidad por saber más sobre la parte técnica, dar un vistazo aquí y aquí
¿Quieres saber más sobre su enfoque? aquí

si te ha parecido interesante:

Puedes buscar mis otros artículos, también puedes suscribir para recibir notificaciones cuando publique artículos, y también puede conectarse o comunicarse conmigo en LinkedIn. ¡Gracias por su apoyo!

Aquí está el enlace a mi repositorio de Github donde planeo recopilar código y muchos recursos relacionados con el aprendizaje automático, la inteligencia artificial y más.

GitHub – SalvatoreRa/tutorial: Tutoriales sobre aprendizaje automático, inteligencia artificial, ciencia de datos con explicación matemática y código reutilizable (en python y R)

¿Un nuevo BLOOM en IA? Por qué el modelo BLOOM puede cambiar las reglas del juego se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA

Tabla de Contenido

¿Un nuevo BLOOM en IA? Por qué el modelo BLOOM puede cambiar las reglas del juego: hacia la IA

Ahora estamos acostumbrados a modelos de lenguaje grandes, ¿por qué es tan especial?

si te ha parecido interesante:

Otros temas interesantes: