Estás leyendo la publicación: Principales herramientas para registrar y administrar modelos de aprendizaje automático
En el aprendizaje automático, el seguimiento de experimentos almacena todos los metadatos de los experimentos en una sola ubicación (base de datos o repositorio). Los hiperparámetros del modelo, las medidas de rendimiento, los registros de ejecución, los artefactos del modelo, los artefactos de datos, etc., están todos incluidos en esto.
Existen numerosos enfoques para implementar el registro de experimentos. Las hojas de cálculo son una opción (¡ya nadie las usa!), o puedes usar GitHub para realizar un seguimiento de las pruebas.
El seguimiento de los experimentos de aprendizaje automático siempre ha sido un paso crucial en el desarrollo de ML, pero solía ser un procedimiento laborioso, lento y propenso a errores.
El mercado de soluciones contemporáneas de gestión y seguimiento de experimentos para el aprendizaje automático se ha desarrollado y aumentado en los últimos años. Ahora, hay una gran variedad de opciones disponibles. Sin duda, descubrirá la herramienta adecuada, ya sea que busque una solución empresarial o de código abierto, un marco de seguimiento de experimentos independiente o una plataforma integral.
Utilizar una biblioteca o marco de código abierto como MLFlow o comprar una plataforma de herramientas empresariales con estas características como Pesos y sesgos, Comet, etc., son las formas más sencillas de realizar el registro de experimentos. Esta publicación enumera algunas herramientas de seguimiento de experimentos increíblemente útiles para los científicos de datos.
MLFujo
El ciclo de vida del aprendizaje automático, que abarca la experimentación, la reproducibilidad, la implementación y un registro de modelo central, es administrado por la plataforma de código abierto MLflow. Administra y distribuye modelos de varias bibliotecas de aprendizaje automático a varias plataformas para la inferencia y el servicio de modelos (Registro de modelos de MLflow). Actualmente, MLflow admite el código de Packaging ML en una forma reutilizable y reproducible para que pueda compartirse con otros científicos de datos o transferirse a producción, así como experimentos de seguimiento para registrar y comparar parámetros y resultados (seguimiento de MLflow) (proyectos de MLflow). Además, proporciona un almacén de modelos central para administrar de forma colaborativa todo el ciclo de vida de un modelo de MLflow, incluido el control de versiones del modelo, las transiciones de etapas y las anotaciones.
Pesos y sesgos
La plataforma MLOps para generar mejores modelos más rápidamente con el seguimiento de experimentos, el control de versiones de conjuntos de datos y la gestión de modelos se denomina Pesos y sesgos. Weights & Biases se puede instalar en su infraestructura privada o está disponible en la nube.
Cometa
La plataforma de aprendizaje automático de Comet interactúa con su infraestructura y herramientas actuales para administrar, visualizar y optimizar modelos. Simplemente agregue dos líneas de código a su script o cuaderno para iniciar automáticamente el seguimiento del código, los hiperparámetros y las métricas.
Comet es una plataforma para todo el ciclo de vida de los experimentos de aprendizaje automático. Se puede usar para comparar código, hiperparámetros, métricas, pronósticos, dependencias y métricas del sistema para analizar las diferencias en el rendimiento del modelo. Sus modelos pueden registrarse en el registro de modelos para transferirlos fácilmente a la ingeniería, y puede vigilarlos en uso con un seguimiento de auditoría completo desde las ejecuciones de capacitación hasta la implementación.
Arizar IA es una plataforma de observabilidad de aprendizaje automático que ayuda a los equipos de ML a entregar y mantener una IA más exitosa en producción. La plataforma de observabilidad y monitoreo de modelos automatizados de Arize permite a los equipos de ML detectar problemas cuando surgen, solucionar por qué sucedieron y administrar el rendimiento del modelo. Al permitir que los equipos monitoreen las incrustaciones de datos no estructurados para la visión por computadora y los modelos de procesamiento de lenguaje natural, Arize también ayuda a los equipos a identificar de manera proactiva qué datos etiquetar a continuación y solucionar problemas en la producción. Los usuarios pueden registrarse para obtener una cuenta gratuita en Arize.com.
IA de Neptuno
Los metadatos de creación de modelos de ML se pueden administrar y registrar mediante la plataforma Neptune. Se puede usar para registrar gráficos, hiperparámetros de modelos, versiones de modelos, versiones de datos y mucho más.
No necesita configurar Neptune porque está alojado en la nube y puede acceder a sus experimentos cuando y donde quiera que esté. Usted y su equipo pueden trabajar juntos para organizar todos sus experimentos en un solo lugar. Cualquier investigación puede ser compartida y trabajada por sus compañeros de equipo.
Debe instalar “neptune-client” antes de poder usar Neptune. Además, debe organizar un proyecto. Utilizará la API de Python para Neptune en este proyecto.
Sagrado
Sacred es una herramienta gratuita para experimentar con el aprendizaje automático. Para comenzar a utilizar Sacred, primero debe diseñar un experimento. Si usa Jupyter Notebooks para realizar el experimento, debe aprobar “interactive=True”. Los metadatos de construcción del modelo ML se pueden administrar y registrar con la herramienta.
Omniboard
Omniboard es la interfaz de usuario basada en web de Sacred. El programa establece una conexión con la base de datos MongoDB de Sacred. A continuación, se muestran las mediciones y los registros recopilados para cada experimento. Debes seleccionar un observador para ver todos los datos que recopila Sacred. El observador predeterminado se llama “MongoObserver”. La base de datos MongoDB está conectada y se crea una colección que contiene todos estos datos.
TensorTablero
Los usuarios generalmente comienzan a usar TensorBoard porque es la caja de herramientas gráfica para TensorFlow. TensorBoard ofrece herramientas para visualizar y depurar modelos de aprendizaje automático. El gráfico del modelo se puede inspeccionar, las incrustaciones se pueden proyectar en un espacio de menor dimensión, se pueden rastrear las métricas del experimento, como la pérdida y la precisión, y mucho más.
Con TensorBoard.dev, puede cargar y distribuir los resultados de sus experimentos de aprendizaje automático a todos (faltan funciones de colaboración en TensorBoard). TensorBoard es de código abierto y está alojado localmente, mientras que TensorBoard.dev es un servicio gratuito en un servidor administrado.
IA del gremio
Guild AI, un sistema para rastrear experimentos de aprendizaje automático, se distribuye bajo la licencia de código abierto Apache 2.0. Sus características hacen posible el análisis, la visualización, las operaciones de diferenciación, la automatización de canalizaciones, el ajuste de los hiperparámetros de AutoML, la programación, el procesamiento paralelo y la capacitación remota.
Guild AI también viene con varias herramientas integradas para comparar experimentos, como:
- Puede ver carreras en formato de hoja de cálculo completas con banderas y datos escalares con Guild Compare, una herramienta basada en curses.
- El programa basado en la web Guild View le permite ver carreras y comparar resultados.
- Un comando que te permitirá llegar a dos carreras se llama Guild Diff.
Poliaxón
Polyaxon es una plataforma para aplicaciones de aprendizaje profundo y aprendizaje automático escalables y repetibles. El objetivo principal de sus diseñadores es reducir los costos al tiempo que aumenta la producción y la productividad. La gestión de modelos, la organización de ejecuciones, el cumplimiento normativo, el seguimiento de experimentos y la optimización de experimentos son solo algunas de sus numerosas características.
Con Polyaxon, puede controlar la versión del código y los datos y registrar automáticamente métricas, hiperparámetros, visualizaciones, artefactos y recursos significativos del modelo. Para mostrar los metadatos registrados más tarde, puede usar la interfaz de usuario de Polyaxon o combinarla con otra placa, como TensorBoard.
ClearML
ClearML es una plataforma de código abierto con una colección de herramientas para optimizar su proceso de aprendizaje automático y cuenta con el respaldo del equipo de IA de Allegro. La implementación, la gestión de datos, la orquestación, la gestión de canalizaciones de ML y el procesamiento de datos están incluidos en el paquete. Todas estas características están presentes en cinco módulos ClearML:
- Los datos del experimento, el modelo y el flujo de trabajo se almacenan en el servidor ClearML, que también es compatible con el administrador de experimentos de la interfaz de usuario web.
- integrando ClearML en su base de código existente usando un módulo de Python;
- La experimentación escalable y la replicación de procesos son posibles gracias a la plataforma de control de versiones y gestión de datos ClearML Data, que se basa en el almacenamiento de objetos y los sistemas de archivos.
- Use una sesión de ClearML para iniciar instancias remotas de VSCode y Jupyter Notebooks.
Con ClearML, puede integrar el entrenamiento de modelos, la optimización de hiperparámetros, las opciones de almacenamiento, las herramientas de trazado y otros marcos y bibliotecas.
Valohai
Todo está automatizado utilizando la plataforma MLOps Valohai, desde la implementación del modelo hasta la extracción de datos. Valohai “proporciona orquestación de máquinas sin configuración y seguimiento de experimentos similar a MLFlow”, según los creadores de la herramienta. A pesar de no tener el seguimiento de experimentos como objetivo principal, esta plataforma ofrece ciertas capacidades, incluido el control de versiones, la comparación de experimentos, el linaje de modelos y la trazabilidad.
Valohai es compatible con una amplia gama de software y herramientas, así como con cualquier lenguaje o marco. Se puede configurar con cualquier proveedor de la nube o en las instalaciones. El programa tiene muchas características para hacerlo más simple y también está desarrollado pensando en el trabajo en equipo.
Paquidermo
Una plataforma de ciencia de datos de grado empresarial de código abierto, Pachyderm, permite a los usuarios controlar todo el ciclo de aprendizaje automático. Opciones de escalabilidad, construcción de experimentos, seguimiento y ascendencia de datos.
Hay tres versiones del programa disponibles:
- Pachyderm, desarrollado por la comunidad y de código abierto, fue creado y respaldado por un grupo de profesionales.
- En Enterprise Edition, se puede configurar una plataforma completa controlada por versiones en la infraestructura de Kubernetes preferida del usuario.
- La versión alojada y administrada de Pachyderm se llama Hub Edition.
Flujo de Kube
Kubeflow es el nombre del kit de herramientas de aprendizaje automático para Kubernetes. Su objetivo es utilizar la capacidad de Kubernetes para simplificar el escalado de modelos de aprendizaje automático. Aunque la plataforma tiene ciertas herramientas de seguimiento, el objetivo principal del proyecto es diferente. Consta de numerosos componentes, tales como:
- Kubeflow Pipelines es una plataforma para implementar flujos de trabajo de aprendizaje automático (ML) escalables y construir a partir de contenedores Docker. La característica de Kubeflow que se utiliza con más frecuencia es esta.
- La interfaz de usuario principal para Kubeflow es Panel central.
- Se usa un marco llamado KFServing para instalar y servir modelos de Kubeflow, y un servicio llamado Notebook Servers se usa para crear y administrar cuadernos Jupyter interactivos.
- Para entrenar modelos ML en Kubeflow a través de operadores, consulte Operadores de entrenamiento (p. ej., TensorFlow, PyTorch).
verta.ai
Una plataforma para MLOps corporativos se llama Verta. El programa se creó para facilitar la gestión de todo el ciclo de vida del aprendizaje automático. Sus características principales se pueden resumir en cuatro palabras: rastrear, colaborar, implementar y monitorear. Todas estas funcionalidades están incluidas en los productos principales de Verta, Gestión de experimentos, Implementación de modelos, Registro de modelos y Supervisión de modelos.
Con el componente de administración de experimentos, puede monitorear y visualizar experimentos de aprendizaje automático, registrar varios tipos de metadatos, explorar y comparar experimentos, garantizar la reproducibilidad del modelo, colaborar en proyectos de ML y lograr mucho más.
Verta es compatible con varios marcos de ML conocidos, incluidos TensorFlow, PyTorch, XGBoost, ONNX y otros. Las versiones de código abierto, SaaS y empresarial del servicio están disponibles.
Fiddler es pionero en la gestión del rendimiento de modelos empresariales. Supervise, explique, analice y mejore sus modelos de ML con Fiddler.
El entorno unificado proporciona un lenguaje común, controles centralizados e información procesable para poner en funcionamiento ML/IA con confianza. Aborda los desafíos únicos de construir sistemas MLOps internos estables y seguros a escala.
Estudio SageMaker
SageMaker Studio es uno de los componentes de la plataforma de AWS. Hace posible que los científicos y desarrolladores de datos construyan, entrenen y utilicen los mejores modelos de aprendizaje automático (ML). Es el primer entorno de desarrollo completo para aprendizaje automático (IDE). Consta de cuatro partes: preparar, construir, entrenar y ajustar, implementar y administrar. La funcionalidad de seguimiento del experimento está a cargo del tercer tren y sintonización. Los usuarios pueden automatizar el ajuste de hiperparámetros, depurar ejecuciones de entrenamiento, registrar, comparar experimentos y organizar.
Estudio DVC
El conjunto de herramientas de DVC, impulsado por iterative.ai, incluye DVC Studio. El estudio DVC, una interfaz visual para proyectos de ML, se creó para ayudar a los usuarios a realizar un seguimiento de las pruebas, visualizarlas y colaborar con el equipo. DVC se pensó inicialmente como un sistema de control de versiones de código abierto para el aprendizaje automático. Este componente todavía está en uso para permitir que los científicos de datos compartan y dupliquen sus modelos ML.