Estás leyendo la publicación: Investigadores de Meta y MLCommons proponen DataPerf: la primera plataforma para la creación de datos & Tablas de clasificación de algoritmos de IA centrados en datos
El auge de Machine Learning (ML) ha generado nuevos desafíos relacionados con la disponibilidad y la eficacia de los conjuntos de datos para entrenar y probar modelos de ML. Esto se conoce comúnmente como el “cuello de botella de datos” y está obstaculizando el progreso y la implementación de modelos ML en varios campos. En respuesta, se han desarrollado una plataforma y una comunidad llamadas DataPerf para crear competencias y tablas de clasificación para datos y algoritmos de IA centrados en datos.
Uno de los principales problemas con los conjuntos de datos es su calidad. Los conjuntos de datos públicos de capacitación y prueba generalmente se crean a partir de fuentes fácilmente disponibles, como raspados web, foros y Wikipedia o mediante crowdsourcing. Sin embargo, estas fuentes a menudo sufren problemas como sesgo, mala distribución y baja calidad. Por ejemplo, los datos visuales a menudo están sesgados hacia las regiones más ricas, lo que genera resultados sesgados. Estos problemas de calidad luego conducen a problemas de cantidad, donde una gran parte de los datos son de baja calidad, lo que aumenta el tamaño y el costo computacional de los modelos. A medida que las fuentes de datos públicos se agotan, los modelos ML pueden incluso estancarse en términos de precisión, lo que ralentiza el progreso. Por lo tanto, mejorar la calidad de los datos de entrenamiento y prueba es crucial para que la comunidad de IA avance.
DataPerf busca abordar estos desafíos proporcionando una plataforma para el desarrollo de tablas de clasificación para datos y algoritmos de IA centrados en datos. La plataforma está inspirada en las tablas de clasificación de ML y su objetivo es tener un impacto similar en la investigación de IA centrada en datos como el que tuvieron las tablas de clasificación de ML en la investigación de modelos de ML. La plataforma utiliza Dynabench, una herramienta de evaluación comparativa de datos, algoritmos centrados en datos y modelos.
La versión 0.5 de DataPerf actualmente ofrece cinco desafíos que se enfocan en cinco tareas comunes centradas en datos en cuatro dominios de aplicación diferentes. Estos desafíos tienen como objetivo comparar y mejorar el rendimiento de los algoritmos y modelos centrados en datos. Cada desafío viene con documentos de diseño que describen el problema, el modelo, el objetivo de calidad, las reglas y las pautas de envío. La plataforma Dynabench incluye una tabla de clasificación en vivo, un marco de evaluación en línea y el seguimiento de las presentaciones a lo largo del tiempo.
Los primeros dos desafíos se centran en la selección de datos de entrenamiento, donde los participantes diseñan una estrategia para seleccionar el mejor conjunto de entrenamiento de un gran grupo de candidatos de imágenes de entrenamiento mal etiquetadas o clips de palabras habladas extraídos automáticamente. El tercer desafío se centra en la limpieza de datos de entrenamiento, donde los participantes diseñan una estrategia para elegir muestras para volver a etiquetar de un conjunto de entrenamiento ruidoso, con la versión actual dirigida a la clasificación de imágenes. El cuarto desafío se centra en la valoración de conjuntos de datos de capacitación, donde los participantes diseñan una estrategia para seleccionar el mejor conjunto de capacitación de múltiples vendedores de datos en función de la información limitada intercambiada entre compradores y vendedores. Por último, el quinto desafío, llamado Adversarial Nibbler, se enfoca en diseñar avisos de apariencia segura que conducen a generaciones de imágenes inseguras en el dominio multimodal de texto a imagen.
DataPerf proporciona una plataforma y una comunidad para desarrollar competencias y tablas de clasificación para datos y algoritmos de IA centrados en datos. Al abordar el cuello de botella de datos a través de la evaluación comparativa y la mejora de la calidad de los datos de capacitación y prueba, DataPerf tiene como objetivo mejorar el aprendizaje automático en el futuro. Los desafíos que ofrece DataPerf también tienen como objetivo fomentar la innovación y fomentar nuevos enfoques para abordar el desafío del cuello de botella de datos en el aprendizaje automático. En última instancia, los esfuerzos de DataPerf podrían ayudar a superar las limitaciones de los conjuntos de datos existentes y permitir el desarrollo de modelos de aprendizaje automático más precisos y confiables en varios dominios.
Revisar la Proyecto y Artículo de referencia. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 17k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools