Los elementos de la IA centrada en datos: hacia la IA

Estás leyendo la publicación: Los elementos de la IA centrada en datos: hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Búsqueda de la excelencia en los datos

en mi ultimo correo, proporcioné una descripción general de la IA centrada en datos. En esta publicación, discutiremos los elementos individuales de la IA centrada en datos. La IA centrada en datos es una La calidad de los datos es un tema amplio con sólidas raíces en la ingeniería de datos. Por lo tanto, los elementos de la IA centrada en datos contribuyen en gran medida a medir, diseñar y mejorar la calidad de los datos.

Lo primero y más importante es la aptitud de los datos. En un contexto particular, la aptitud está determinada por la idoneidad de los datos para responder a una pregunta específica. En otras palabras, el grado en que los datos disponibles representan el fenómeno que está analizando. Validez, fiabilidady representatividad caracterizar la idoneidad de los datos en cuestión.

El validez de datos es la medida en que mide lo que se supone que mide. Dentro de un conjunto de datos, el fiabilidad de una medida dada describe su precisión y estabilidad. ¿La medición exacta tomada varias veces en las mismas circunstancias nos dará resultados similares cada vez? Finalmente, representatividad es un medio para medir si la muestra con la que está trabajando es un verdadero representante de la población más amplia a la que planea aplicar sus hallazgos.

Cuando los datos no se ajustan al propósito, lo que sucede se llama Colapso de contextobien resumido por este tuit.

Querido Amazon, compré un asiento de inodoro porque lo necesitaba. Necesidad, no deseo. No los colecciono. No soy un adicto al asiento del inodoro. No importa cuán tentador me envíes un correo electrónico, no voy a pensar, oh, continúa, solo un asiento de inodoro más, me daré un gusto.

— Jac Rayner (@GirlFromBlupo) 6 de abril de 2018

Los datos de alta calidad son aptos para el propósito y son de alta integridad. Datos de alta integridad

  • es siempre A hoy
  • es de linaje conocido, es decir, tiene información sobre quién recopiló los datos, qué métodos se utilizaron y cuál fue el propósito original para el cual se recopilaron los datos
  • Es apoyado por metadatos enriquecidos para ayudar a interpretar la información con detalles de las características técnicas y el contexto comercial, por ejemplo, para un conjunto de datos de inspección visual, metadatos para cada imagen, como la hora, la identificación de la fábrica, la identificación de la línea, la configuración de la cámara, etc.

Otro elemento importante es la consistencia de los datos. ¿Qué significa cuando decimos que sus datos deben ser consistentes? por ejemplo, si se trata de datos de series de tiempo, el frecuencia de registros debe ser consistente. Digamos que está recopilando datos cada 1 o 5 segundos, entonces su conjunto de datos debería reflejar eso y, si no, merece ser investigado en busca de errores con el proceso de recopilación de datos en sí.

De manera similar, para datos de texto, ortografía múltiple o abreviaturas señalar el mismo término debe normalizarse antes de ser utilizado. Los problemas de consistencia también podrían surgir debido a unidades de medida inconsistentes al agregar los datos de múltiples fuentes o decodificar el valor de algo durante un períodopor ejemplo, analizando las películas más taquilleras durante una década.

Otro aspecto importante aquí es coherencia del etiquetado de datos. Como sabe, los algoritmos de ML básicamente aprenden el mapeo entre entradas y salidas. Entonces, en general, será más fácil para su algoritmo aprender la función si hay un mapeo determinista entre sus características y etiquetas y sus datos están etiquetados consistentemente para reflejar ese mapeo.

La cobertura de datos se trata de la cobertura de casos importantes y especialmente el casos extremos. Su conjunto de datos debe tener diferentes variaciones de un caso dado. Queremos que nuestros datos sean diverso y aleatorio, incluyendo variaciones en el problema que estamos tratando de resolver.

Este es un ejemplo tomado de un estudio en el que una red neuronal intentaba clasificar vacas, camellos y osos polares. Ahora, como se puede imaginar, la mayoría de los ejemplos de entrenamiento de la vaca se tomaron cuando la vaca está pastando, con pasto de fondo. Pero cuando comenzaron a evaluar el modelo con la misma vaca pero con diferentes entornos, como desierto o nieve, el modelo predijo aquellos como camello y oso polar, respectivamente.

🔥 Recomendado:  El colaborador principal de Game7, Ronen Kirsh, dice que los juegos Web3 servirán como el "momento ChatGPT para la IA"

Falta de variación en sus datos, especialmente en lo relativo a la característica no causal, p.ej, brillo (día/noche) en un semáforo o fondo (hierba, arena o nieve), puede ser perjudicial para el modelo. Debe tratarse conscientemente utilizando enfoques centrados en datos como aleatorización de dominio o aumento de datos. En resumen, nosotros introducir ruido aleatorio o variación en los datos sin cambiar la salida para que el modelo aprenda a desarrollar la invariancia a tales características en los datos.

Los BIG data vienen con problemas como el cómputo y el etiquetado costosos. Las técnicas de selección de datos tienen como objetivo ayudar a pasar de los GRANDES datos a BUENOS datos y centrarse en la calidad en lugar de la cantidad. Nuevamente, esto podría ser extremadamente valioso para la IA industrial, donde a menudo enfrentamos escasez de datos. Las técnicas de selección de datos ayudan a responder preguntas como

  • ¿Cómo identificamos eficientemente los ejemplos de capacitación más informativos?
  • ¿Dónde añadimos más datos para que el impacto en el rendimiento sea máximo?

La selección o valoración de datos consiste en cuantificar la contribución de cada punto de datos a un modelo final. Tal cuantificación podría ser útil en varios entornos, tales como:

  1. Conocer el valor de nuestros ejemplos de capacitación puede ayudarnos a guiar en una recopilación de datos dirigida esfuerzo cuando sea necesario.
  2. Modelo explicabilidad o depuración
  3. Descartar los malos ejemplos cuando se detecta dicho subgrupo. Como nota al margen, esto a veces puede generar ideas para recopilar nuevas funciones para reducir el impacto de los malos ejemplos.
  4. Cuando compensar a los individuos por su contribución de datos, alias dividendo de datospor ejemplo, usuarios de motores de búsqueda que contribuyen con sus datos de navegación o pacientes que contribuyen con sus datos médicos

En mi papel como evangelista de IA, a menudo recibo una pregunta, “¿cuántos datos necesito (para entrenar un modelo)?” y yo suelo responder, “¡depende!”. Es una pregunta razonable ya que la recopilación de datos es un proceso costoso. El presupuesto de datos es beneficioso cuando se trata de responder preguntas como

  • ¿Cuál es el rendimiento final del modelo ML con suficientes datos de entrenamiento? es decir, Predicción del rendimiento final
  • ¿Cuál es la cantidad mínima de datos de entrenamiento para alcanzar el rendimiento final? es decir, Predecir la cantidad necesaria de datos de entrenamiento

Mira esto estudio piloto para detalles.

OK, esto es una obviedad. Lo escuchamos varias veces, basura adentro, basura afuera. Los datos sucios pueden conducir a decisiones incorrectas y análisis poco confiables. Por lo tanto, la limpieza de datos es una parte esencial de los proyectos de aprendizaje automático. Hay algunas herramientas geniales en el mercado.

Pero están surgiendo nuevas categorías en esta área de investigación.

  • Limpieza de datos basada en restricciones o ML: Métodos de identificación de errores y limpieza de datos de uso general sin tener en cuenta el modelo o la aplicación. Éstas incluyen basado en restricciones o parámetros métodos de limpieza de datos o aquellos que utilizan aprendizaje automático como el agrupamiento o el aprendizaje activo para detectar y resolver errores de datos.
  • Limpieza de datos basada en modelos:Técnicas de limpieza de datos diseñadas para ayudar al modelo que se está entrenando.
  • Limpieza de datos con reconocimiento de aplicaciones: Limpieza de datos basada en errores observados en la aplicación descendente debido a la predicción del modelo. Por lo tanto, el usuario final tendrá alguna forma de proporcionar retroalimentación al sistema, que se utilizará para fines de limpieza de datos.

Ahora hablamos de elementos como la cobertura de datos y el presupuesto de datos. Recopilar un conjunto de datos considerable que capture suficientemente las variaciones de un fenómeno del mundo real en cuestión es una tarea abrumadora. En la mayoría de los casos, el aumento artificial de datos puede servir como una vía barata pero prometedora. La idea central es transformar ejemplos en el conjunto de datos de entrenamiento para agregar diversidad en los datos vistos por el modelo para ayudar a generalizar. El éxito del aumento de datos lo ha convertido en la parte predeterminada de las canalizaciones de ML para una variedad de tareas en dominios como imagen, audio y texto.

🔥 Recomendado:  Las 20 mejores aplicaciones de Side Hustle

El aumento de datos también se ha convertido en una técnica de referencia para mejorar la robustez del modeloconstruyendo invariancia en el modelo para ciertos atributos de dominio no causales. Ahora, ¿a qué me refiero con “construir invariancia para ciertos atributos de dominio no causales?”. Recuerda el ejemplo de la vaca con hierba verde de fondo; en ese caso, el fondo es un atributo de dominio no causal, y debemos decirle eso a nuestro modelo. ¿Como hacemos eso? Agregando aleatorización a este atributo de dominio, es decir, agregando más ejemplos con el fondo aleatorio pero con la misma etiqueta, por ejemplo, vaca con fondo desértico o fondo nevado. De esa manera, nuestro modelo comprenderá que el fondo no importa ya que mi etiqueta de destino es la misma y generará invariancia a esa característica no causal.

La mayor parte del éxito reciente en el aprendizaje automático se debe al aprendizaje supervisado, donde los datos etiquetados son un cuello de botella . La creación de un conjunto de datos de este tipo es un asunto costoso y que requiere mucho tiempo.

La supervisión débil o la programación de datos intenta resolver este problema al permitir que los usuarios escriban funciones de etiquetadoaprovechar el conocimiento organizacional, como modelos internos, heurística de dominio, regla general, reglas heredadas, gráfico de conocimiento, base de datos existente, ontologías, etc. Tubo respirador y calamar volador son marcos que incorporan la programación de datos, un elemento esencial de la IA centrada en datos. Pero, como te habrás preguntado, las funciones de etiquetado son solo estimaciones ruidosas con diferentes niveles de precisión, cobertura e incluso correlaciones. Aún así, Snorkel utiliza técnicas novedosas y teóricamente fundamentadas para aprender etiquetas precisas.

La capacidad de escribir código para etiquetar los datos también lo ayuda a desvincularse de los datos en sí, mejorando privacidad de datos .

Además del etiquetado, Snorkel también es compatible con otros elementos de la IA centrada en datos, a saber, el aumento de datos (como aprendimos antes) y la identificación de subconjuntos (entenderemos más sobre esto pronto) usando funciones de transformación y funciones de corte .

MLOps es una frontera importante en la IA centrada en datos para que sea un proceso eficiente y sistemático. MLOps fusiona prácticas culturales y formas basadas en principios para la gestión del ciclo de vida, el monitoreo y la validación de modelos. MLOps maneja todo el ciclo de vida de un modelo de aprendizaje automático durante el desarrollo y la producción. Por lo general, consta de componentes para administrar etapas específicas previas y posteriores al entrenamiento y aspectos de monitoreo y depuración. También permite el control de versiones de modelos y conjuntos de datos, el seguimiento de experimentos y la implementación eficiente.

Es bien sabido que la precisión de los modelos activos en producción suele disminuir con el tiempo. La razón principal de esto es el cambio de distribución entre los nuevos datos de prueba en tiempo real y los datos utilizados para entrenar el modelo inicialmente. El remedio más destacado para este problema sigue siendo el reentrenamiento periódico (a veces diario o incluso cada hora) de los modelos utilizando datos de entrenamiento nuevos. Sin embargo, esta es una tarea muy costosa y puede evitarse mediante el uso de detectores de deriva, otro componente esencial de las herramientas de MLOps. Aprendizaje continuo o el aprendizaje permanentees un área prometedora que intenta permitir que los sistemas ML en producción se adapten automáticamente a la deriva de datos/conceptos sin la necesidad de volver a entrenar desde cero.

Las herramientas de MLOps también deben admitir la depuración en cualquier etapa del proceso para garantizar la sostenibilidad. Los errores en las canalizaciones de ML ocurren en varias etapas, como la limpieza de datos, la generación de funciones o el modelado. Las canalizaciones de ML no pueden ser sostenibles ni depurarse fácilmente sin garantizar la visibilidad de todos los pasos de la canalización. Por lo tanto, las herramientas de MLOps deberían facilitar el registro y la supervisión de extremo a extremo y proporcionar interfaces de consulta para sondear el estado de la canalización de ML.

Hay un plétora de opciones en el mercado cuando se trata de MLOps, pero no hay ganadores claros y este espacio aún está evolucionando.

🔥 Recomendado:  12 formas realistas de pagar la deuda rápidamente

La evaluación de un modelo entrenado es fundamental para desarrollar una aplicación de aprendizaje automático. La evaluación ayuda a evaluar la calidad del modelo y nos ayuda a anticipar si funcionará en el mundo real. Si bien esto no es nuevo para los profesionales, el enfoque centrado en los datos insta a hacerlo mucho más granular. Por ejemplo, en lugar de limitarnos a métricas estándar para el rendimiento promedio como F1 o Precisión, comprenda cómo se desempeña el modelo en varios subconjuntos de los datos. Tal evaluación granular ayuda a los propietarios de modelos a comprender claramente las capacidades y deficiencias de sus modelos.
Como profesional, uno debe aprender de manera proactiva a encontrar diferentes subconjuntos o segmentos en el conjunto de datos. Los aportes de los expertos en la materia (SME) podrían ser cruciales para descubrir los segmentos más relevantes en el conjunto de datos para un problema determinado.
Dado que encontrar esos segmentos en conjuntos de datos donde el modelo podría tener un rendimiento inferior se convierte en un paso esencial, esto también alienta a los investigadores a descubrir métodos para ayudar a realizar este descubrimiento de manera sistemática. La idea aquí es encontrar rebanadas que sean fácil de interpretary importantea la tarea en cuestión.

Una de las mejores prácticas que seguimos al validar modelos ML es verificar su rendimiento en los datos de prueba reservados inicialmente. También debemos asegurarnos de que los datos de prueba provengan de la misma distribución que los datos de entrenamiento. En realidad, sin embargo, a menudo nos encontramos con cambios en la distribución de datos. Los turnos de distribución se experimentan de diversas formas. Por ejemplo, es probable que el modelo aprenda correlaciones falsas entre características y objetivos específicos si los subconjuntos de gran volumen en los datos de entrenamiento muestran relaciones que no se aplican a los subconjuntos de bajo volumen.

Otro ejemplo sería cuando las distribuciones de los ejemplos para la clase con etiquetas idénticas (p. ej., un gato que se parece a un perro, diferentes subclases/razas en un perro, p. ej., labradores, chihuahuas, etc.) tienen una gran variación. En ambos casos, es probable que el modelo funcione mal en subconjuntos subrepresentados. Estimar los subconjuntos y equilibrarlos a través del aumento de datos (parche modelo) o el aprendizaje de representaciones grupales invariantes son las ideas clave que impulsan la investigación en esta dirección.

Lo mantuve al final como si solo hubiera una cosa que pudieras quitar de este artículo, debería ser esto. El acceso a la experiencia en el dominio es clave para crear aplicaciones sólidas de aprendizaje automático. Como profesional, el acceso a los expertos del dominio es tan crucial como el acceso a los datos. Los expertos en dominios desempeñan un papel clave en la habilitación de un enfoque centrado en los datos para la IA, ya que pueden ayudarnos a obtener UNO con los datos.

Referencias

[1] IA centrada en datos

[2] IA centrada en datos: enfoques del mundo real (2021)

[3] MLOps: de la IA centrada en el modelo a la centrada en los datos (2021)

[4] El camino hacia el software 2.0 o la IA centrada en datos (2021)

[5] Taller virtual de IA centrado en datos de HAI de Stanford: día 1 (2021)

[6] Taller virtual de IA centrado en datos de HAI de Stanford: día 2 (2021)

[7] Habilitadores de IA centrados en datos. Las mejores herramientas de MLOps centradas en datos en 2022 (2021)

[8] Limpieza de datos semisupervisada con Raha y Baran (2021)

[9] HoloClean: un sistema de aprendizaje automático para el enriquecimiento de datos

[10] Gestión práctica de datos de Python y calidad de datos


The Elements Of Data-Centric AI se publicó originalmente en Towards AI en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA