Estás leyendo la publicación: Cree un modelo de aprendizaje automático de extremo a extremo con DataRobot
DataRobot es una plataforma de IA empresarial avanzada que democratiza la ciencia de datos y automatiza el proceso integral de diseño, implementación y mantenimiento del aprendizaje automático y la inteligencia artificial a escala. DataRobot, que funciona con los algoritmos de código abierto más recientes y es accesible en la nube, en las instalaciones o como un servicio de IA totalmente administrado, le brinda el poder de la IA para lograr resultados comerciales superiores. En este artículo, aprenderíamos a construir un modelo clasificador de ML de extremo a extremo con DataRobot. Los siguientes son los temas a tratar.
Tabla de contenido
- Carga de datos
- Seleccionando el modelo
- Calculando los resultados
- Implementar el modelo final
Este artículo utilizará datos relacionados con campañas de mercado directas de una institución bancaria. Las llamadas telefónicas se utilizaron en las actividades de marketing. Con frecuencia era necesario más de un contacto con el mismo consumidor para determinar si el producto (depósito bancario a plazo) sería suscrito o no. Construiremos un modelo de clasificación que clasificaría al cliente si llamar al cliente o no.
Comencemos cargando los datos ya que el modelo no puede aprender sin datos.
Carga de datos
Una vez registrado e iniciado sesión en la página web de DataRobot, habrá una página que le pedirá que seleccione entre opciones como visualización de datos, creación de modelos de IA e implementación. Después de seleccionar la página se redirigiría a algo como esto.
Hay ciertas condiciones para los datos que se enumeran a continuación.
- El formato de archivo correcto
- Tamaño inferior a 200 MB
- Mínimo 20 filas
- No falta más de un encabezado de columna
- Sin encabezados de columna duplicados
- Sin codificación no compatible o inconsistente
Si su archivo de datos tiene más de 200 MB, entonces necesita crear una identificación de trabajo y luego podría usarse ya que DataRobot ha restringido la carga directa a 200 MB.
Luego haga clic en “Datos” presente en la barra de tareas superior de la página web para acceder a los datos. Una vez que se cargan los datos, se debe seleccionar la columna de destino. Si la columna de destino es discreta, DataRobot generaría un gráfico de conteo para las categorías.
Seleccionando el modelo
Una vez seleccionada, la columna de destino pasa al modo de modelado. En esto, hay una variedad de modos que se enumeran como rápido, piloto automático, manual y completo.
- El modo rápido es un modo de arranque que generará modelos base y podría improvisarse en consecuencia.
- El modo de piloto automático construirá todos los modelos posibles ofrecidos por DataRobot con diferentes validaciones cruzadas, tamaños de muestra de prueba de entrenamiento y selecciones de características.
- El modo manual es un modo definido por el usuario, lo que significa que puede seleccionar el modelo por su cuenta y entrenar en consecuencia.
- El modo comprensivo es un paso más allá que el modo de piloto automático. Si no está satisfecho con la recomendación de modelo del piloto automático, puede utilizar el modo completo.
En este artículo, vamos a utilizar el “modo de piloto automático”.
Una vez seleccionado, simplemente haga clic en el botón de inicio y la página se redirigirá a algo como esto.
Aquí se analizan los datos y puede seleccionar la cantidad de funciones que se utilizarán para el propósito de capacitación. Una vez que haya terminado con esta parte, puede pasar a seleccionar modelos o, según el modo seleccionado anteriormente, en la sección Modelado haciendo clic en “Modelos”.
Dado que estamos utilizando el modo de piloto automático, el proceso de entrenamiento del modelo se inicializará automáticamente después de que se complete la parte de análisis de datos. Entonces, solo tenemos que sentarnos y esperar a que se complete el proceso.
Calculando los resultados
El proceso se inició con 31 modelos. Estos 31 modelos son versiones diferentes del modelo base. El modelo base donde clasificadores basados en árboles y clasificadores lineales.
En la última, hubo un total de 63 modelos con diferentes tamaños de muestra, combinando diferentes algoritmos basados en árboles y algoritmos lineales, diferentes ajustes de hiperparámetros, etc.
Después de la finalización, el modo de piloto automático del DataRobot recomendó que el
El “Clasificador de árboles potenciado por gradiente de luz con parada temprana” es el mejor modelo que se puede implementar.
Veamos el rendimiento del modelo final. Al hacer clic en el nombre del modelo, podemos ver diferentes parámetros que pueden evaluar el rendimiento. Estos parámetros podrían ayudar a entender la razón detrás de la recomendación.
Aquí podemos ver en el panel derecho que hay una matriz de confusión y debajo de eso, tenemos la sensibilidad y la precisión. Entonces, la precisión es 0.52 y la sensibilidad es 0.70. Para este artículo, estamos considerando la tasa de valores pronosticados positivamente, ya que el equipo de ventas podría dirigirse a esos clientes. En el panel izquierdo, pudimos ver la curva ROC y la puntuación AUC de 0,92. Este modelo es un modelo de buen rendimiento.
Analicemos más a fondo observando el tiempo de procesamiento porque al implementar un modelo, una cosa es importante con qué rapidez podría procesar el modelo las entradas del usuario. Un modelo más rápido con un rendimiento ligeramente bajo en la predicción es mejor que un modelo más lento con un rendimiento alto.
Si hace clic en la pestaña “Velocidad frente a precisión”, un diagrama de dispersión representaría el rendimiento con el tiempo.
El modelo final es el mejor porque es el más rápido con solo 67,1 milisegundos para procesar los datos.
Ahora estamos satisfechos de que la recomendación es buena. Implementemos el modelo.
Implementar el modelo final
Implementar el modelo es fácil, simplemente seleccione el modelo de la pestaña Modelos haciendo clic en la casilla de verificación junto al nombre del modelo. Luego haga clic en el botón “implementar” y el modelo se implementa.
Una vez que se implementa el modelo, puede verlo haciendo clic en la pestaña “ML Ops” en la parte superior de la barra de tareas.
Conclusiones
DataRobot puede crear predicciones de una en una o en grandes lotes importando un archivo.
Cualquier modelo de aprendizaje automático se puede convertir en una aplicación de IA usando DataRobot, lo que permite que cualquier persona en su ecosistema interactúe con la información predictiva del modelo subyacente. Esta aplicación crítica le permite comparar un pronóstico con los resultados históricos, examinar las razones del pronóstico y cambiar los parámetros de entrada para observar cómo afectan estos resultados. Con este artículo, hemos aprendido a construir e implementar un modelo predictivo con DataRobot.