Una guía para principiantes sobre datos sintéticos: hacia la IA

Estás leyendo la publicación: Una guía para principiantes sobre datos sintéticos: hacia la IA

Publicado originalmente en Hacia la IA.

Una guía para principiantes sobre datos sintéticos

Los datos para el modelo de aprendizaje automático son como el corazón del cuerpo humano. El éxito de un modelo depende de múltiples factores, pero los datos son uno de los factores críticos que dictan el éxito. Algunas empresas tienen abundantes datos y no tienen problemas, pero algunas luchan por encontrar los datos adecuados para construir un modelo de IA que funcione. La alarmante estadística de que el 80 % del tiempo de un científico de datos se invierte en preparar datos indica la importancia de los datos “buenos” y “suficientes”.

Como sugiere el nombre, la tecnología de “datos sintéticos” permite a los profesionales generar datos similares a los datos reales, pero personalizados según sus requisitos, el volumen necesario y el caso de uso. Se genera utilizando diferentes técnicas, algunas de las cuales se discutirán en este blog.

Los datos sintéticos encajan en los siguientes casos de uso:

  1. Beneficioso para las organizaciones que carecen de una gran cantidad de datos pero que aún desean crear productos impulsados ​​por IA
  2. Puede ser útil en caso de un conjunto de datos desequilibrado. Los datos de la clase no dominante se pueden generar aprovechando las técnicas de datos sintéticos.
  3. Industrias altamente reguladas que no pueden usar PII para entrenar su modelo, por lo que generan algo similar a los datos originales en lugar de usar los datos reales. Imagine un nuevo equipo que se une a su organización para construir un modelo de predicción sobre datos de imágenes médicas; en lugar de utilizar los datos reales, que pueden tener información del paciente, decide generar un conjunto de datos que represente esa información, pero al mismo tiempo, dado que no son datos originales, puede enmascarar la información con éxito.
  4. Las empresas de vehículos autónomos se han basado en gran medida en datos sintéticos para generar todos los casos extremos posibles para entrenar su modelo. Se basan en gran medida en técnicas de simulación para generar datos sintéticos.
🔥 Recomendado:  La guía completa para implementar AMP de Google en tu tienda online

Técnicas para generar Datos Sintéticos

Hay diferentes tipos de técnicas que se pueden utilizar para generar datos sintéticos. Algunas son técnicas estadísticas simples y otras son técnicas de aprendizaje profundo como las GAN.

Métodos de estadística

Las muestras de datos se pueden generar a partir de una distribución de probabilidad con ciertas características estadísticas como media, varianza, sesgo, etc. Por ejemplo, en el caso de la detección de COVID, se supone que las muestras negativas pertenecen a una distribución estadística específica. Por el contrario, las muestras positivas no corresponden a esta distribución de datos. Los datos sintéticos pueden rescatar en situaciones inesperadas, como una pandemia, donde los datos no existen. Aquí, podemos usar cualquier dato pandémico existente de informes públicos para generar datos COVID.

Métodos de aprendizaje profundo

Red Adversaria Generativa (GAN): Las GAN son un método popular para generar datos sintéticos. Es un algoritmo que crea datos falsos, es decir, muy cercanos a los datos exactos. Hay dos componentes principales de GAN: discriminador y generador. El generador es el responsable de generar datos falsos, mientras que el discriminador es el que clasifica si los datos generados se acercan a los datos reales. Luego proporciona retroalimentación al generador.

En ocasiones, las GAN pueden aprender a generar solo un conjunto limitado de salidas, o “modos”, en lugar de explorar todo el espacio de posibles salidas. Esto se conoce como colapso de modo y puede generar datos repetitivos o de baja calidad.

Un enfoque alternativo a las GAN es WGAN. El objetivo de una GAN estándar es minimizar la divergencia de Jensen-Shannon entre la distribución de datos real y la distribución generada, mientras que para las WGAN, el objetivo es minimizar la función de pérdida de Wasserstein. La distancia de Wasserstein es una medida más significativa de la distancia entre distribuciones de probabilidad, ya que captura la cantidad de “trabajo” necesario para transformar una distribución en otra en lugar de evaluar el resultado real.

🔥 Recomendado:  Todo sobre las técnicas de conjunto: hacia la IA

Tecnologías de código abierto

  1. Generador de series temporales: paquete de Python que genera datos de series temporales
  2. Kubric: es un marco de Python de código abierto lanzado por Google que tiene como objetivo crear conjuntos de datos de imágenes sintéticas
  3. Cópulas: biblioteca de Python para modelar distribuciones multivariadas y muestrearlas mediante funciones de cópula. Dada una tabla de datos numéricos, utilizó cópulas para aprender la distribución y generar nuevos datos sintéticos siguiendo las mismas propiedades estadísticas.
  4. Pydbgen: paquete de Python que genera una tabla de base de datos aleatoria basada en la elección de tipos de datos del usuario. Esto genera algunos campos estándar como Nombre, Edad, etc.
  5. Gretel Synthetics: aprovecha las redes neuronales recurrentes (RNN) para generar datos sintéticos para textos estructurados y no estructurados.

Limitaciones de los datos sintéticos

  1. Falta de diversidad: los datos sintéticos a veces pueden carecer de la diversidad y complejidad de los datos del mundo real. Esto puede dar como resultado que los modelos funcionen bien con datos sintéticos pero que no se generalicen bien con los datos del mundo real.
  2. Representación incompleta: es posible que los datos sintéticos no siempre capturen por completo la complejidad de los datos del mundo real. Por ejemplo, es posible que no tenga en cuenta eventos raros o inesperados que podrían afectar el rendimiento del modelo.
  3. Sesgos: los datos sintéticos pueden estar sesgados si el proceso utilizado para generarlos está sesgado o si los datos del mundo real utilizados para entrenar al generador están sesgados. Esto puede conducir a modelos que perpetúan los sesgos existentes o crean otros nuevos.
🔥 Recomendado:  HideMyAss VPN Review 2023: ¿HMA es legítimo? ¿Es una estafa?

Las empresas se están moviendo hacia la adaptación de Data Centric AI. Los datos sintéticos pueden ser útiles para avanzar hacia ese enfoque. Aunque tiene sus pros y sus contras, con la investigación en curso, puede ayudar a casos de uso innovadores y ayudar a resolver problemas de arranque en frío.

Referencias:

Los datos sintéticos están a punto de transformar la inteligencia artificial

Imagínese si fuera posible producir cantidades infinitas del recurso más valioso del mundo, de forma económica y rápida…

www.forbes.com

Herramientas de datos sintéticos: ¿código abierto o comercial? Una guía para construir versus comprar – Statice

Creamos esta publicación para responder una pregunta recurrente que nuestro equipo encuentra durante las conversaciones con los clientes: ¿qué son…

www.statice.ai

https://analyticsindiamag.com/a-guide-to-generating-realistic-synthetic-image-datasets-with-kubric/#:~:text=Kubric%20is%20an%20open%2Dsource,functions%20of%20PyBullet% 20and%20Blender.&text=Kubric%2C%20a%20scalable%20dataset%20generator,computer%2Dgenerated%20images%20and%20videos.

Publicado a través de Hacia la IA