Investigadores de la Universidad de Tsinghua presentan un nuevo algoritmo de aprendizaje automático bajo el paradigma del metaaprendizaje

Estás leyendo la publicación: Investigadores de la Universidad de Tsinghua presentan un nuevo algoritmo de aprendizaje automático bajo el paradigma del metaaprendizaje

Los logros recientes en tareas supervisadas de aprendizaje profundo se pueden atribuir a la disponibilidad de grandes cantidades de datos de entrenamiento etiquetados. Sin embargo, se necesita mucho esfuerzo y dinero para recopilar etiquetas precisas. En muchos contextos prácticos, solo una pequeña fracción de los datos de entrenamiento tienen etiquetas adjuntas. El aprendizaje semisupervisado (SSL) tiene como objetivo aumentar el rendimiento del modelo utilizando entradas etiquetadas y no etiquetadas. Muchos enfoques efectivos de SSL, cuando se aplican al aprendizaje profundo, llevan a cabo una regularización de consistencia no supervisada para usar datos no etiquetados.

Los algoritmos de última generación basados ​​en la coherencia suelen introducir varios hiperparámetros configurables, aunque alcanzan un rendimiento excelente. Para un rendimiento óptimo del algoritmo, es una práctica común ajustar estos hiperparámetros a valores óptimos. Desafortunadamente, la búsqueda de hiperparámetros a menudo no es confiable en muchos escenarios de SSL del mundo real, como el procesamiento de imágenes médicas, la clasificación de imágenes hiperespectrales, el reconocimiento de tráfico de red y el reconocimiento de documentos. Esto se debe a que los datos anotados son escasos, lo que genera una gran variación cuando se adopta la validación cruzada. Tener un rendimiento de algoritmo sensible a los valores de los hiperparámetros hace que este problema sea aún más apremiante. Además, el costo computacional puede volverse inmanejable para los algoritmos de aprendizaje profundo de vanguardia a medida que el espacio de búsqueda crece exponencialmente en relación con la cantidad de hiperparámetros.

🔥 Recomendado:  25 cosas al azar que no sabes sobre mí

Investigadores de la Universidad de Tsinghua introdujeron un algoritmo SSL basado en metaaprendizaje llamado Meta-Semi para aprovechar más los datos etiquetados. Meta-Semi logra un rendimiento sobresaliente en muchos escenarios ajustando solo un hiperparámetro más.

El equipo se inspiró al darse cuenta de que la red se puede entrenar con éxito utilizando los ejemplos sin anotaciones apropiadamente “pseudo-etiquetados”. Específicamente, durante la fase de entrenamiento en línea, producen etiquetas pseudo-suaves para los datos no etiquetados en función de las predicciones de la red. Luego, eliminan las muestras con pseudoetiquetas incorrectas o poco confiables y usan los datos restantes para entrenar el modelo. Este trabajo muestra que la distribución de datos correctamente “pseudo-etiquetados” debería ser comparable a la de los datos etiquetados. Si la red se entrena con el primero, la pérdida final en el segundo también debe minimizarse.

Definieron el objetivo de meta-reponderación para minimizar la pérdida final en los datos etiquetados mediante la selección de los pesos más apropiados (los pesos a lo largo del documento siempre se refieren a los coeficientes utilizados para volver a ponderar cada muestra sin etiquetar en lugar de referirse a los parámetros de las redes neuronales). Los investigadores encontraron dificultades informáticas al abordar este problema utilizando algoritmos de optimización.

Por esta razón, sugieren una formulación de aproximación a partir de la cual se puede derivar una solución de forma cerrada. Teóricamente, demuestran que cada iteración de entrenamiento solo necesita un único paso de meta gradiente para lograr las soluciones aproximadas.

En conclusión, sugieren un enfoque de ponderación dinámica para volver a ponderar muestras pseudoetiquetadas previamente con pesos 0-1. Los resultados muestran que este enfoque finalmente alcanza el punto estacionario de la función de pérdida supervisada. En los puntos de referencia de clasificación de imágenes populares (CIFAR-10, CIFAR-100, SVHN y STL-10), se ha demostrado que la técnica propuesta funciona mejor que las redes profundas de última generación. Para las tareas difíciles de SSL CIFAR-100 y STL-10, Meta-Semi obtiene un rendimiento mucho mayor que los algoritmos SSL de última generación como ICT y MixMatch y obtiene un rendimiento algo mejor que ellos en CIFAR-10. Además, Meta-Semi es una adición útil a los enfoques basados ​​en consistencia; la incorporación de la regularización de la consistencia en el algoritmo aumenta aún más el rendimiento.

🔥 Recomendado:  Visualizando el futuro más allá del inventario de almacenes interiores… – Hacia la IA

Según los investigadores, Meta-Semi requiere un poco más de tiempo para entrenar es un inconveniente. Planean investigar este problema en el futuro.

Revisar la Papel y Artículo de referencia. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 15k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools