Estás leyendo la publicación: Cómo ejecutar Stable Diffusion 3 veces más rápido a menor costo: hacia la IA
Publicado originalmente en Hacia la IA.
Para un equipo de fanáticos de la IA como nosotros, ha sido emocionante ver el despegue del mercado de la IA en los últimos 12 meses. La barrera de entrada es cada vez más baja para los desarrolladores de IA. El gasto prohibitivo de entrenar nuevos modelos es un costo inicial que cada vez más enfrentan los proveedores de API de código cerrado como OpenAI, así como los investigadores y proyectos que crean modelos fundamentales de código abierto como Stable Diffusion, Whisper, LLaMA y otros.
Incluso con los gastos de capacitación iniciales drásticamente reducidos, seguimos escuchando que los costos de cómputo a largo plazo del despliegue de producción amenazan la viabilidad económica de cualquier oferta de IA. Y ese es el desarrollador o la empresa. incluso puede obtener acceso al cómputo de IA que quieren crear su aplicación/servicio en primer lugar.
En OctoML, tenemos la misión de ofrecer servicios informáticos de IA asequibles para aquellos que quieren controlar el negocio que están construyendo. Es por eso que construimos un nuevo servicio de cómputo, disponible ahora en acceso anticipado. Ofrece infraestructura de IA y técnicas avanzadas de optimización de aprendizaje automático que solo puede encontrar en servicios de IA a gran escala como OpenAI, le da el poder de controlar su propia API, elegir sus propios modelos y trabajar dentro de su presupuesto de IA.
Los usuarios con acceso anticipado pueden probar el modelo Stable Diffusion 2.1 más rápido (sin cambios en la precisión/rendimiento del modelo) del mercado, sin necesidad de entrenar o volver a entrenar el modelo. Aquí hay algunos datos iniciales que demuestran las ganancias de rendimiento:
La difusión estable funciona increíblemente rápido en A10G ¿Por qué está esperando en A100?
Una y otra vez escuchamos de los desarrolladores de IA que la disponibilidad de GPU está obstaculizando su capacidad para crear su nueva aplicación impulsada por IA. Cuando hacemos doble clic en estas conversaciones, descubrimos que las organizaciones confían en que solo el hardware NVIDIA más nuevo, es decir, los A100, ofrecen la relación precio/rendimiento que necesitan para ejecutar sus modelos a escala. Es por eso que nos complace compartir que los A10G pueden brindar la experiencia de usuario adecuada, es decir, 1,35 segundos, que cualquier aplicación potenciada por Stable Diffusion convencional necesita. Y lo más importante, los A10G ESTÁN disponibles en todas partes y no se racionan como los A100.
La versión optimizada de OctoML de Stable Diffusion 2.1 no solo es ultrarrápida, sino que supera en un 30 % la mejor configuración de bricolaje disponible para usuarios sofisticados que tienen experiencia en ingeniería de aprendizaje automático. La configuración DIY que se ejecuta en el A100 utiliza el xFormadores paquete de Meta que aprovecha las implementaciones de atención eficiente de la memoria de vanguardia, los núcleos fusionados y otras técnicas sofisticadas para obtener un alto rendimiento en las GPU que se ejecutan en el hardware más robusto (suponiendo que pueda obtenerlo). Incluso con ese nivel de sofisticación de bricolaje y ejecutándose en A100, la versión OctoML de Stable Diffusion 2.1 en realidad la supera en hardware menos potente.
¿Cómo se compara OctoML con los servicios alojados? 3 veces más rápido, ⅕ del costo.
Cuando se ejecuta IA en producción, los servicios alojados como HuggingFace (puntos finales de inferencia) son opciones populares porque son fáciles de usar y reducen los dolores de cabeza de la implementación manual y la administración de la infraestructura. Ahora que le hemos puesto a tierra en el hecho de que no necesita el hardware NVIDIA más reciente/mejor para ejecutar sus modelos, comparemos con HuggingFace, que es la fuente de distribución más popular para Stable Diffusion.
Mientras que el Versión HuggingFace ejecutándose en sus puntos finales de inferencia (esa infraestructura ha sido diseñada y optimizada para la comunidad de investigadores de ML) no se ha desarrollado para ofrecer los mejores servicios informáticos de su clase.
Como prueba de ello, destacamos que nuestro modelo de difusión estable alojado en nuestro servicio informático tiene un rango de aceleración entre 2X en una calidad de imagen inferior (512×512, 30 pasos) a 3X mejor en la calidad de imagen muy alta (768× 768, 150 pasos).
Cómo ganar la batalla de las aplicaciones de IA
OctoML le brinda la opción y la flexibilidad de personalizar el precio y el rendimiento para caso de uso y la experiencia que desea ofrecer a su usuario.
También puede darle a su negocio grandes ventajas competitivas.
Imagine que tiene una aplicación que ejecuta Stable Diffusion de OctoML, y una aplicación competidora impulsada por IA está usando Hugging Face. Les llevaría casi 4 veces más entregar a un cliente una imagen con la misma calidad, ¡casi un minuto! Y les habría costado 5 veces más de lo que pagaría con OctoML. Si sus requisitos de calidad de imagen son flexibles, puede entregar imágenes con OctoML por menos de 1/100 de centavo.
Otro aspecto único del enfoque OctoML es que, a diferencia de otras soluciones en el mercado, admite un ajuste fino sin fricciones para personalizar Stable Diffusion contra sus propios conjuntos de datos. Otros enfoques requieren que el modelo se vuelva a compilar cada vez que haya un ajuste fino que, en el caso de hacerlo con TensorRT, puede demorar aproximadamente 30 minutos.
Para obtener acceso anticipado al acceso anticipado al servicio informático OctoML, por favor Registrate aquí.
Si también está interesado en trabajar con nosotros en sus requisitos/necesidades de ajuste fino, o si tiene un caso de uso para aprovechar nuestro modelo de difusión estable fuera de nuestro servicio informático porque construyó su propia infraestructura de servicio, por favor contáctenos aquí para que podamos programar un tiempo para hablar.
Publicado a través de Hacia la IA