Los principios del desarrollo de la IA centrada en los datos: hacia la IA

Estás leyendo la publicación: Los principios del desarrollo de la IA centrada en los datos: hacia la IA

Serie de charlas sobre el futuro de la IA centrada en los datos

Fondo

Alex Ratner es director general y cofundador de Snorkel IA y profesor asistente de informática en la Universidad de Washington. Recientemente se unió al evento Future of Data-Centric AI, donde presentó los principios de la IA centrada en datos y hacia dónde se dirige. Si desea ver su presentación completa, puede encontrarla a continuación o en YouTube.

A continuación se muestra una transcripción ligeramente editada de la presentación.

¿Qué es la “IA centrada en datos”?

La noción de IA centrada en datos puede sonar un poco tautológica para muchos. Cuando nosotros, como campo, decimos “IA” hoy en día, nos referimos principalmente al aprendizaje automático, que por definición se trata de datos y siempre lo ha sido. Así que la pregunta con la que comenzamos es primero: ¿Qué es “IA centrada en datos” y ¿por qué el creciente enfoque de la industria en ella es nuevo y diferente? Una buena manera de responder es comenzar contrastando la IA centrada en datos con lo que ha sido el foco del desarrollo del aprendizaje automático durante muchos años: la IA centrada en modelos. En el desarrollo de IA centrado en el modelo, los datos son más o menos una entrada fija, y la mayor parte de su tiempo de desarrollo, como ingeniero de IA/ML, se dedica a iterar en el modelo.

En un ciclo de desarrollo de IA centrado en datos, datos es, en cambio, el objeto central que desarrolla iterativamente, es decir, pasa relativamente más tiempo etiquetando, administrando, cortando, aumentando y curando los datos, y el modelo en sí permanece relativamente más fijo.

Si bien la inteligencia artificial se ha centrado principalmente en ML modeloslos ingenieros que realmente ponen modelos en producción saben que centrarse en el datos Es crucial .

IA centrada en datos frente a IA centrada en modelos

En el enfoque de desarrollo centrado en el modelo, con frecuencia existe la sensación de que el conjunto de datos es algo “fuera” o “anterior” al proceso real de desarrollo de IA. El desarrollo del aprendizaje automático (al menos el tipo predominante de aprendizaje supervisado) comienza con un conjunto de datos de entrenamiento: una colección de puntos de datos etiquetados como “verídicos” de los que su modelo aprende o se ajusta. En un proceso tradicional de desarrollo de ML centrado en modelos, los datos de entrenamiento se tratan como una entrada fija que es exógena del proceso de desarrollo de aprendizaje automático. Cuando, por ejemplo, comienza su experimento académico con uno de los conjuntos de datos de referencia como ImageNet, sus datos de entrenamiento son algo que descarga como un archivo estático. Después de eso, cualquier iteración nueva de su proyecto resultará de cambios en el modelo (al menos en el sentido más amplio). Este proceso incluye cosas como la ingeniería de características, el diseño de algoritmos, el diseño de arquitectura a medida, etc., todo sobre la iteración y el desarrollo del modelo. En otras palabras, realmente está “viviendo” en el modelo y tratando los datos como un artefacto estático.

En un enfoque centrado en los datos, pasa relativamente más tiempo etiquetando, administrando, cortando, aumentando y curando los datos, y el modelo en sí permanece relativamente más fijo.

El cambio tectónico hacia un enfoque centrado en los datos es tanto un cambio en el enfoque de la comunidad y la cultura del aprendizaje automático como un cambio tecnológico o metodológico: “centrado en los datos” en este sentido significa que ahora está pasando relativamente más tiempo en etiquetar, administrar, dividir, aumentar y curar el datoscon el modelo en sí relativamente más fijo.

La idea clave es que datos es el árbitro principal del éxito o el fracaso y, por lo tanto, es el foco clave del desarrollo iterativo. Es importante señalar que esto es no un binario o uno u otro entre enfoques centrados en datos y centrados en modelos. La IA exitosa requiere modelos bien concebidos y buenos datos.

Los principios del desarrollo de IA centrado en datos

1. Hoy en día, el desarrollo de la IA se centra cada vez más en la datosespecialmente datos de entrenamiento.

Como se mencionó anteriormente, hasta los últimos años, el desarrollo del aprendizaje automático se había centrado casi por completo en el modelo, donde los datos se imaginaban principalmente como “fuera” del proceso. Incluso hace solo cinco años, el conjunto de herramientas principal y el enfoque de desarrollo para casi todos los equipos de aprendizaje automático se centraban en:

  • Ingeniería de características, es decir, selección de atributos o características específicas de los datos que el modelo realmente está viendo y aprendiendo.
  • Diseño de la arquitectura del modelo, es decir, la estructura real de cualquier peso o parametrización de esas características que se introducen en el modelo como entrada.
  • Diseño de algoritmos de entrenamiento.

Sin embargo, más recientemente, la industria ha comenzado a exhibir un cambio importante hacia modelos de aprendizaje de representación mucho más potentes, automatizados, pero también hambrientos de datos. A menudo los llamamos modelos de “aprendizaje profundo”. En lugar de, digamos, miles de parámetros gratuitos que deben aprenderse de sus datos, a veces hay cientos de millones. Por lo tanto, a pesar de su potencia y utilidad, estos modelos necesitan muchos más datos de entrenamiento de etiquetas para alcanzar su máximo nivel de rendimiento.

🔥 Recomendado:  Visa y amp; PayPal insta a los comerciantes a migrar a Magento 2

Una diversidad cada vez mayor de tareas y modalidades de datos está siendo manejada por un conjunto cada vez más pequeño y unificado de arquitecturas modelo que son más accesibles, potentes y accesibles que nunca. Pero también requieren mucha más información y son mucho menos prácticos de modificar.

Emocionantemente, las arquitecturas de modelos de aprendizaje profundo son cada vez más convergentes y mercantilizadas, lo que significa que son mucho más accesible que los modelos de hace años o décadas. Una diversidad cada vez mayor de tareas y modalidades de datos está siendo manejada por un conjunto de arquitecturas modelo aún más pequeño y más estable. Pero como resultado, son mucho menos prácticos de modificar para los usuarios.

E incluso si estos modelos de caja negra son cada vez más poderosos, están mucho más hambrientos de datos. Debido a esto, sus datos de entrenamiento, incluido el volumen de datos, pero también la calidad, la gestión, la distribución, el muestreo, etc. de sus datos, son cada vez más el principal árbitro del éxito. Mirando la literatura más reciente en el campo, parece claro que la mayor parte del progreso en las tareas de referencia de última generación es encontrar formas creativas de recopilar más datos, aumentarlos y luego transformarlos o impulsarlos para usarlos de manera más efectiva. Para mejorar significativamente la tecnología de aprendizaje automático, los datos ahora deben convertirse en su enfoque principal.

Sin embargo, como resultado, la mayoría de las operaciones clave que solían ser lo que los equipos de desarrollo de IA y aprendizaje automático dedicaban la mayor parte de su tiempo a la ingeniería de funciones, el diseño de arquitectura de modelos, el diseño de algoritmos de entrenamiento y más, ya no son tan prominentes o tiempo intensivo. En cambio, la mayor parte del tiempo de su equipo se dedica a capacitar la recopilación de datos, el aumento y la gestión de sus datos. Eso presenta un enigma, porque si bien los datos son la clave interfaz emergente para el desarrollo de la IA hoy, es también la clave embotellamiento que limita el progreso. Este desafío nos lleva al segundo principio de la IA centrada en datos.

2. La IA centrada en datos debe ser programática

Dada la creciente importancia de los modelos de aprendizaje automático hambrientos de datos, la forma en que los equipos interactúan con sus datos debe ser algo mucho más eficiente que etiquetar y seleccionar manualmente un punto de datos a la vez.

Hoy en día, la creación de aplicaciones de IA a menudo requiere ejércitos virtuales de etiquetadores humanos, y ese tipo de inversión y requisito de mano de obra casi nunca es un comienzo para entornos del mundo real privados, de alta experiencia y que cambian rápidamente. Lejos de horas o días, los datos pueden tardar varias personas-año en estar realmente listos para el desarrollo del aprendizaje automático.

Para un ejemplo de caso de uso, el proyecto de investigación Stanford AI Lab Snorkel se asoció con Stanford Medicine para investigar el uso del aprendizaje automático para clasificar y clasificar rápidamente las radiografías de tórax. La construcción de los modelos ML reales tomó solo uno o dos días usando bibliotecas OSS, y las diferencias en los resultados entre los diferentes modelos fueron bastante mínimas, generalmente menos de un punto. Cualquiera que sea el modelo de última generación al que alimentamos los datos, no hizo mucha diferencia en la precisión de nuestros resultados. Por el contrario, se necesitaron entre ocho y catorce meses-persona de etiquetado manual por parte de nuestros socios médicos y de radiología para etiquetar los datos de entrenamiento originalmente, y la calidad de los datos de entrenamiento etiquetados que alimentamos a los modelos fue inmensamente impactante, haciendo ocho o nueve diferencias de puntos. Esto subraya el tema: si bien el modelo sigue siendo una parte crítica del proceso de aprendizaje automático, el punto de mayor influencia para las mejoras es el datos -cómo se administra, se divide y se aumenta.

Pero nuevamente, obtener esos datos etiquetados tomó el equivalente de ocho meses-persona. Y destaca los desafíos fundamentales del entrenamiento de datos:

  • Los casos de uso del mundo real requieren experiencia en la materia (SME) para el etiquetado. Por ejemplo, para un conjunto de datos médicos o clínicos utilizables, necesita médicos o profesionales que realicen el etiquetado. Para conjuntos de datos legales utilizables, necesita abogados calificados. A menudo, se trata de pymes que ya tienen poco tiempo para dedicarse a las tareas de etiquetado manual.
  • Los datos del mundo real son privado y propietario a una determinada organización o empresa. No se puede simplemente exportar o poner en código abierto para que otros lo usen, modifiquen o aprendan.
  • Los datos y objetivos del mundo real a menudo cambiar rápidamente, incluida la distribución de datos entrantes y los objetivos de modelado para los que realmente está creando su modelo. Como resultado, con frecuencia tiene que volver a etiquetar los datos.
🔥 Recomendado:  El enfoque de los ganadores: descifrar el complejo Hiring Hackathon de ReNew Power

Por lo tanto, el etiquetado y la conservación manual de los datos es esencialmente imposible para la mayoría de las organizaciones del mundo real, incluso para las más grandes.

Por lo tanto, el etiquetado y la conservación manual de los datos es esencialmente imposible para la mayoría de las organizaciones del mundo real, incluso para las más grandes. Esto es antes de que los equipos de aprendizaje automático se enfrenten a los desafíos éticos y de gobernanza de etiquetar manualmente los datos de capacitación. ¿Cómo inspeccionamos o corregimos los sesgos que los etiquetadores humanos ponen sobre la mesa? ¿Cómo gobernamos o auditamos un conjunto de datos de cientos de millones de puntos de datos etiquetados a mano? ¿Cómo rastreamos el linaje de los errores del modelo hasta el lugar del conjunto de datos del que el modelo lo aprendió? Resolver estos desafíos críticos con grandes conjuntos de datos de capacitación etiquetados manualmente es una pesadilla práctica para las organizaciones. De hecho, en realidad puede ser un problema mayor que el problema que estabas tratando de resolver en primer lugar..

La forma en que Snorkel AI resuelve el problema del etiquetado manual de datos es etiquetado programático. Para un ejemplo simple, puede pedirle a una PYME que simplemente escriba algunas palabras clave o frases, y luego etiquete los puntos de datos con líneas de código, en lugar de etiquetar laboriosamente cada punto de datos, uno por uno, manualmente.

En Snorkel AI, nuestro objetivo es crear una plataforma para un desarrollo de IA rápido, iterativo y centrado en los datos. En otras palabras, gira en torno a modificar, etiquetar y administrar sus datos. Lo llamamos Snorkel Flow. Tiene cuatro pasos básicos:

Snorkel Flow luego sirve como “Middleware de supervisión” para diversas fuentes de entrada, incluidos patrones, modelos, bases de conocimiento y ontologías, y más.

Una forma de ver este proceso general: puede tomar algo de lo mejor que brindan las entradas basadas en reglas (eficiencia y transparencia de especificación, modificabilidad, auditabilidad, etc.) y unir eso con las capacidades de generalización de las técnicas modernas de aprendizaje automático, incluidos los enfoques de transferencia, autosupervisados ​​y semisupervisados.

La idea clave aquí, para la que proporcionamos tarifas teóricas, es que luego puede escalar con datos sin etiquetar a la misma velocidad que con la adición de datos etiquetados. En otras palabras, puede volcar más datos sin etiquetar (que son demasiado caros para etiquetar) en estos enfoques de etiquetado programático, aprovechando así el volumen de datos sin etiquetar presentes en documentos o señales de red y, de hecho, obtener beneficios de escala similares en términos de rendimiento del modelo. .

Snorkel Flow “cierra el ciclo” identificando y corrigiendo rápidamente los modos de error en los datos y modelos simplemente escribiendo y editando funciones de etiquetado (LF), lo que le permite adaptarse rápidamente a las condiciones del mundo real de manera constante e iterativa

En más de 50 publicaciones revisadas por pares a lo largo de los años, y estudios de casos de clientes a través de la compañía Snorkel AI, este enfoque de Snorkel ofrece una forma empíricamente probada de acelerar la IA: ahorra meses-persona e incluso años, en paridad de calidad o superior, en un conjunto diverso de aplicaciones.

Snorkel Flow ha implementado este enfoque centrado en los datos en todo el flujo de trabajo para la IA porque la IA “centrada en los datos” es mucho más que solo el etiquetado. También incluye funciones de transformación (TF), funciones de corte (SF) y más.

Finalmente, llegamos al tercer principio principal de la IA centrada en datos.

3. La IA centrada en datos debe ser colaborativa con expertos en la materia

Para que la IA sea efectiva y segura, la PYME que realmente sabe cómo etiquetar y seleccionar los datos debe estar incluida en el bucle, y la IA centrada en los datos permite esto.

En la forma tradicional de hacer las cosas, los etiquetadores de pymes y los ingenieros/científicos de datos de ML están desconectados. Con Snorkel Flow, las pymes y MLE colaboran como parte fundamental del proceso.

Cuando la PYME que realmente sabe cómo etiquetar y seleccionar los datos se incluye en el ciclo, se convierte en una plataforma de IA mucho mejor. Aquí hay tres razones por las cuales:

Primero, incluir a la SME en el ciclo le permite inyectar experiencia directamente en el modelo, en lugar de que el modelo intente inferir características o heurísticas que la SME ya conoce.

En segundo lugar, Snorkel Flow le permite aprovechar la experiencia en la materia que ya ha sido codificada, por ejemplo, bases de conocimientos, ontologías, reglas y heurísticas heredadas. Snorkel Flow puede usar fuentes ya codificadas (potencialmente discordantes) de conocimiento experto estructurado para la supervisión programática.

Finalmente, y lo más importante: incluir a las PYME en el circuito es la única forma real de garantizar que los modelos de IA sean efectivos, seguros y éticos, es decir, realmente alineados con los objetivos y principios de producción del dominio en el que las PYME son expertas de manera única.

🔥 Recomendado:  Optimización de la arquitectura del sitio web para SEO

Fundamentalmente, todos estos beneficios de la colaboración entre pymes y científicos de datos son mucho más fáciles de lograr en un modelo centrado en datos, ya que se reúnen en el terreno común de datos como su punto central para la iteración y el desarrollo.

Resumen:

El enfoque tradicional centrado en el modelo para ML ha tenido un gran éxito y ha llevado el campo a un lugar en el que los modelos en sí son cada vez más descargables, comercializados y, sobre todo, ampliamente accesibles. Pero los modelos más nuevos, potentes y de “aprendizaje profundo” ahora consumen tanto datos que no solo hacen que los conjuntos de datos y el etiquetado manual de los datos de entrenamiento se vuelvan difíciles de manejar, sino que se obtienen rendimientos decrecientes en términos de cuánto progreso se puede lograr iterando solo en el modelo La respuesta para impulsar la IA ahora y en los próximos años se puede encontrar en un enfoque centrado en los datos.

Con el desarrollo de IA centrado en datos, los equipos dedican mucho más tiempo a etiquetar, administrar y aumentar los datos, porque la calidad y la cantidad de datos son cada vez más la clave para obtener resultados exitosos. Por lo tanto, los datos deben ser el foco principal de la iteración. Hay tres principios principales a tener en cuenta con un enfoque centrado en los datos:

  1. A medida que los modelos se vuelven más fáciles de usar y mercantilizados, el progreso del desarrollo de IA se centra cada vez más en la calidad de los datos de entrenamiento de los que aprenden los modelos de IA y la capacidad de iterar sobre estos datos de una manera ágil y transparenteen lugar de la ingeniería de características, la arquitectura de modelos o el diseño de algoritmos.
  2. La IA centrada en los datos sea programática con el fin de hacer frente al volumen de datos de entrenamiento que requieren los modelos de aprendizaje profundo de hoy en día, y la dificultad práctica de obtener estas etiquetas de forma repetida y manual en la mayoría de los contextos del mundo real. Etiquetar manualmente millones de puntos de datos simplemente no es práctico. En cambio, un proceso programático para etiquetar, administrar, aumentar, limpiar e iterar los datos es el determinante crucial del progreso.
  3. La IA centrada en datos debe tratar a las PYME como parte integral del proceso de desarrollo. Incluir a las pymes en el circuito que realmente entienden cómo etiquetar y curar sus datos permite a los científicos de datos inyectar la experiencia de las pymes directamente en el modelo. Una vez hecho esto, este conocimiento experto se puede codificar y desplegar para la supervisión programática.

A medida que avanza el campo de ML, la IA exitosa seguirá involucrando modelos bien construidos y datos bien diseñados. Pero debido a la sofisticación de los modelos actuales, los mayores beneficios en el futuro surgirán de enfoques que prioricen los datos. Y si los datos son cada vez más el árbitro clave del éxito o el fracaso, los datos deben ser el foco del desarrollo iterativo que avanza. ¡Hay muchos avances emocionantes en este campo emergente de IA centrada en datos, tanto aquí ahora como en el futuro!

Si desea ver la presentación completa de Alex, puede encontrarla en el Snorkel AI canal de Youtube. Le recomendamos que se suscriba para recibir actualizaciones o que nos siga en Gorjeo, LinkedIn, Facebooko Instagram.

1 “Github — Hazyresearch/Data-Centric-Ai: recursos para la IA centrada en datos”. 2021. . https://github.com/HazyResearch/data-centric-ai.
2 Dunnmon, Jared A., Alexander J. Ratner, Khaled Saab, Nishith Khandwala, Matthew Markert, Hersh Sagreiya y Roger Goldman et al. 2020. “La programación de datos multimodales permite el aprendizaje rápido de máquinas médicas”. 1 (2): 100019. doi:10.1016/j.patter.2020.100019.
3 “Artículos de Investigación”. 2022. . https://snorkel.ai/resources/research-papers/.

Tabla de Contenido