Estás leyendo la publicación: Una guía de XAutoML: una herramienta para el análisis visual
XAutoML es una herramienta de análisis que explica los procedimientos de optimización de AutoML y las canalizaciones de aprendizaje automático construidas por AutoML. Para que el proceso de AutoML sea transparente y comprensible, combina visualizaciones interactivas con técnicas establecidas de IA explicable (XAI). La integración de XAutoML en los negocios puede ayudar a los expertos a centrarse en la explicación del modelo y puede obtener más modelos de transferencia para que las partes interesadas puedan creer en la solución. En esta publicación, analizaremos XAutoML y cómo las empresas pueden aprovechar esta tecnología. Los siguientes son los puntos principales que se discutirán en esta publicación.
Tabla de contenidos
- Introducción a XAutoML
- Flujo de trabajo de XAutoML
- Cómo se puede usar
Introducción a XAutoML
El aprendizaje automático (ML) se ha convertido en un componente crítico en muchas partes de la vida cotidiana. Sin embargo, la creación de aplicaciones de ML que parezcan atractivas es un desafío difícil y lento que requiere científicos de la información y expertos en el área bastante especializados.
AutoML aspira a mejorar la técnica actual de construcción de programas ML de dos maneras:
- Los profesionales de ML pueden ahorrar tiempo al automatizar tareas tediosas, como la optimización de hiperparámetros (HPO), lo que conduce a un mejor rendimiento y atención adicional en tareas extra difíciles; y
- Los expertos en dominios pueden habilitarse para construir canalizaciones de ML sin depender de ningún experto en aprendizaje automático.
En AutoML se genera una gran cantidad de candidatos de canalización de ML que pueden resolver una tarea determinada; sin embargo, los sistemas de AutoML crean varios tipos de candidatos sin diferencias significativas entre su rendimiento. Validar y seleccionar un modelo de un montón de modelos es un trabajo que requiere mucho tiempo para un desarrollador de ML, y para expertos en dominios sin experiencia en ML, es casi imposible realizar esta tarea.
Es por eso que los investigadores desarrollaron nuevas herramientas de análisis visual llamadas eXplainable Automated Machine Learning (XAutoML) para analizar y comprender la canalización generada por el sistema AutoML.
El objetivo de XAutoML es capacitar a todos los usuarios de AutoML, como científicos de datos, expertos en dominios e investigadores de AutoML, al
- Transparencia en el procedimiento de optimización interna y espacio de búsqueda de los sistemas AutoML
- Proporcionar información suficiente para validar y seleccionar modelos ML que se crean automáticamente.
¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos? echa un vistazo aquí.
Flujo de trabajo de XAutoML
El flujo de trabajo de XAutoML se combina con el flujo de trabajo común de ciencia de datos para que la herramienta de análisis visual sea más fácil de usar.
Fuente de imagen
Wang propone este flujo de trabajo de ciencia de datos, puede ver en la imagen que el flujo de trabajo se divide en tres etapas: preparación, modelado e implementación, estas etapas se dividen en 10 partes, desde la adquisición de datos hasta el monitoreo del tiempo de ejecución y la mejora del modelo. Los sistemas AutoML pretenden automatizar los pasos desde la ingeniería de funciones hasta el ensamblaje en el flujo de trabajo de la ciencia de datos. Puede ver en la figura que Visual Analytics está atascado con el procedimiento de optimización de AutoML, esa sección es XAutoML.
Hay tres objetivos principales de visualización. El primero es la validación eficiente de los modelos, el segundo es la comprensión y el diagnóstico de los métodos de AutoML y el tercero es el refinamiento del espacio de búsqueda, lo que significa adaptar el espacio de búsqueda subyacente. Además, sus objetivos de diseño son alinearse con el público objetivo de AutoML, combinarse con el flujo de trabajo habitual de la ciencia de datos y proporcionar información detallada.
Cómo se puede usar
En este momento, XAutoML solo funciona en el marco limitado de aprendizaje automático automatizado, como
auto-sklearn, dswizard, FLAML, Optuna, scikit-learn. Pero los desarrolladores están tratando de agregar más sistemas AutoML en el futuro.
Es muy simple de implementar. Con unas pocas líneas de código, puede acceder a la visualización integrada en Jupyter. Debajo de la imagen está la salida del modelo XAutoML.
Fuente de imagen
Para entender la visualización, se divide en secciones como se muestra en la figura anterior.
- A: es el código para la visualización,
- B: El resumen de optimización de la izquierda muestra estadísticas básicas sobre la ejecución de optimización
- B1: informa sobre la precisión de todos los candidatos a lo largo del tiempo
- B2: Curvas ROC de candidatos seleccionados.
- C: Esta es una vista de tabla de clasificación que proporciona una descripción general de todos los candidatos evaluados, los usuarios pueden abrir candidatos individuales a una descripción general.
- C2: Esta subsección se denomina vista de detalles de rendimiento. Esta sección muestra las métricas de rendimiento basadas en el rendimiento de los candidatos, puede ver que hay una matriz de confusión, informes de clase y una curva ROC.
- D: Estas pestañas permiten a los usuarios acceder al espacio de búsqueda y la inspección del conjunto. Puede ver que hay un logotipo de Jupyter asociado con cada información porque los usuarios pueden exportar la información a Jupyter para un análisis más detallado.
En la figura anterior, las subsecciones de información de C están recopiladas en una tarjeta con una breve descripción que se puede ampliar seleccionándola. Ahora vamos a discutir esas cartas brevemente.
La vista de detalles de rendimiento:
La siguiente figura analiza y visualiza las métricas básicas de rendimiento. Se muestran el rendimiento del entrenamiento y la validación, la duración del entrenamiento y la duración de la predicción. Para cada clase objetivo, el informe de clase proporciona precisión y recuperación. Se muestran una matriz de confusión estándar y una curva ROC.
Fuente de imagen
Vista sustituta global:
Se ajusta a un árbol de decisión para la predicción. Especificar un número máximo de nodos de salida permite a los usuarios ajustar de forma interactiva el tamaño del árbol de decisiones. Una barra de fidelidad indica en qué medida el árbol de decisiones coincide con el modelo real. Para un análisis más detallado, los usuarios pueden exportar el árbol de decisión ajustado a Jupyter.
Fuente de imagen
Conjunto de datos una vista previa:
En la vista previa del conjunto de datos, los usuarios pueden inspeccionar el conjunto de datos de la canalización seleccionada actualmente. Los usuarios pueden ver cómo cada paso en la canalización modifica los datos de entrada, proporcionando transparencia de datos. Hay mucho que visualizar. Los usuarios pueden expandirlo a Jupyter simplemente haciendo clic en el logotipo de Jupyter para un análisis más detallado.
Fuente de imagen
Vista de configuración:
La siguiente parte es que enumera los hiperparámetros para cada paso en la canalización. Para cada espacio de búsqueda, los hiperparámetros se trazan en un gráfico de CPC y se seleccionan los valores de cada hiperparámetro.
Fuente de imagen
El rendimiento de un modelo de ML puede verse muy influenciado por sus hiperparámetros. Pero en realidad, solo hay unos pocos hiperparámetros que tienen un efecto significativo en el rendimiento. Entonces, para identificar esos hiperparámetros, el Vista de importancia de hiperparámetro proporciona una representación visual de la importancia de cada hiperparámetro y las interacciones entre pares de ellos.
fANOVA se utiliza para calcular la importancia de los hiperparámetros. fANOVA es un método de AutoML para evaluar la importancia de los parámetros de un algoritmo. Cuando un usuario selecciona un hiperparámetro, se muestra un desglose detallado de las regiones con buen y mal desempeño en el espacio de búsqueda.
Fuente de imagen
Vista de importancia de la función:
Por último, la vista de importancia de características muestra la importancia de las características. El impacto de cada función en el poder predictivo del modelo de ML se mide mediante la importancia de una función de permutación. Los usuarios pueden ver una clasificación de todas las funciones, así como gráficos PDP e ICE. Al realizar una tarea de clasificación multiclase.
Fuente de imagen
‘duración’ es la característica más importante entonces ‘estado_de_ahorro’ y así sucesivamente se puede ver en la figura.
Ultimas palabras
Hay mucho que cubrir en XAutoML. Un artículo no es suficiente, pero cubro casi todas las funciones principales de XAutoML. Vimos cómo XAutoML se integró con Jupyter para hacer visualización. Discutimos cómo AutoML carece de información detallada sobre los modelos. Por último, revisamos cada una de las informaciones proporcionadas por XAutoML.