Estás leyendo la publicación: Conozca a ResMem: un nuevo algoritmo de IA que aumenta un modelo de predicción existente ajustando los residuos del modelo con un regresor basado en el vecino más cercano K
Los resultados fenomenales de las grandes redes neuronales modernas en la generalización de nuevos datos y tareas se han atribuido a su capacidad innata para recordar patrones de entrenamiento intrincados de manera subconsciente. Un método eficaz para habilitar dicho recuerdo es aumentar el tamaño del modelo, aunque esto puede aumentar significativamente los gastos de formación y servicio.
En su nuevo artículo ResMem: Learn What You Can and Memorize the Rest, los investigadores de la Universidad de Stanford intentan responder a esta pregunta proponiendo ResMem. Este algoritmo de memorización residual mejora la capacidad de generalización de los modelos de redes neuronales más pequeños mediante la memorización directa a través de un componente vecino más cercano k distinto.
Aquí hay una sinopsis de los hallazgos más importantes de la investigación del equipo:
- Primero, sugieren un enfoque de aprendizaje en dos etapas llamado memorización residual (ResMem), que combina un modelo de predicción básico con el regresor vecino más cercano.
- Proporcionan evidencia empírica de que ResMem mejora el rendimiento de las pruebas de las redes neuronales, especialmente con un gran conjunto de entrenamiento.
- En el tercer párrafo, examinan teóricamente la tasa de convergencia de ResMem en un problema de regresión lineal estilizada, lo que demuestra que es superior al modelo de predicción de referencia.
Algunas investigaciones anteriores han encontrado que memorizar la información relevante es suficiente y, en algunos casos, incluso esencial para la generalización eficiente en modelos de redes neuronales. En respuesta a esta línea de investigación, los investigadores proporcionan el método ResMem, que emplea una estrategia única de memorización explícita para impulsar el rendimiento de generalización de los modelos diminutos.
Cuando se ha entrenado una red neuronal convencional, se ajusta un regresor de vecino más cercano suave k a los residuos del modelo (rkNN). La precisión combinada del modelo de referencia y el rkNN determinan el resultado final.
El equipo de investigación experimentó comparando ResMem con una línea de base de DeepNet en tareas de visión (clasificación de imágenes en CIFAR100 e ImageNet) y NLP (modelado de lenguaje autorregresivo). En comparación con las capacidades de generalización de otros métodos en conjuntos de prueba, ResMem se desempeñó excepcionalmente bien. Los investigadores también señalan que ResMem proporciona un riesgo de prueba más favorable que el predictor de referencia cuando el tamaño de la muestra tiende a infinito.
Las redes neuronales modernas pueden memorizar implícitamente patrones de entrenamiento complicados, lo que contribuye a su excelente rendimiento de generalización. Motivados por estos hallazgos, los científicos están investigando una nueva estrategia para mejorar la generalización del modelo a través de la memoria explícita. Para mejorar los modelos de predicción preexistentes (como las redes neuronales), los investigadores ofrecen el enfoque de memorización residual (ResMem), que utiliza un regresor basado en el vecino más cercano k para ajustar los residuos del modelo. Finalmente, el regresor residual ajustado se agrega al modelo original para obtener un pronóstico. ResMem está diseñado para memorizar las etiquetas de entrenamiento de forma explícita. Los investigadores demuestran empíricamente que, en una variedad de puntos de referencia de procesamiento de lenguaje natural y visión estándar de la industria, ResMem aumenta constantemente la generalización del conjunto de prueba del modelo de predicción original. Como ejercicio teórico, formalizan un problema de regresión lineal simplificado y demuestran exhaustivamente cómo ResMem mejora el predictor de referencia en términos de riesgo de prueba.