5 trampas de la pila de datos moderna para empresas emergentes: hacia la IA

Estás leyendo la publicación: 5 trampas de la pila de datos moderna para empresas emergentes: hacia la IA

Publicado originalmente en Hacia la IA.

5 trampas de la pila de datos moderna para empresas emergentes

Lecciones prácticas para startups que utilizan la pila de datos moderna

El pila de datos moderna es plataformas y servicios de datos abiertos nativos de la nube. Hoy es la era de la pila de datos moderna. Está ampliamente respaldado por capital de riesgo y evoluciona rápidamente.

Los datos se han vuelto más críticos que nunca. Cada vez más empresas emergentes están adoptando la pila de datos moderna para acelerar su negocio. Es urgente entender qué y cómo. Aquí compartiré cinco trampas de y para las empresas emergentes que utilizan la pila de datos moderna.

Trampa 1: “Moderno” en la pila de datos moderna significa “avanzado”

El término “moderno” en la pila de datos moderna se refiere al uso de tecnología reciente. No significa que sea avanzado en la gestión y el análisis de datos.

Con este principio, hay tres áreas para observar de cerca antes de saltar a la primera trampa.

  1. Compatible con versiones anteriores: es posible que una startup no tenga mucha carga heredada, pero muchas se han ejecutado a lo largo de los años. Y las plataformas de datos evolucionaban rápidamente, por ejemplo, la informática de Hadoop a Spark y el almacenamiento de Hive a la tienda de objetos (como S3). La adopción compatible con versiones anteriores puede eliminar la interrupción del sistema y del negocio.
  2. Fácil de actualizar o migrar: el crecimiento del negocio puede ser la prioridad para una startup. Es hora de adoptar la pila de datos moderna, pero a menudo hay diferentes opciones. Es vital elegir fácil de actualizar o migrar a favor de los negocios. Con el tiempo, la startup tiene tiempo para actualizarse mientras considera nuevamente la última pila de datos moderna, que probablemente evolucionará al mismo ritmo que su negocio.
  3. Desarrollo a largo plazo: una startup debe centrarse en el crecimiento del negocio y la satisfacción del cliente. Pero cualquier empresa será una empresa basada en datos. Las plataformas de datos desempeñarán un papel cada vez más crítico. Es necesario considerar el desarrollo de datos a largo plazo. Principalmente, debemos considerar el ecosistema y la comunidad asociados debido a la naturaleza de las plataformas de datos. Es decir, deberíamos partir de un proveedor líder en la nube (como AWS, Azure, GCP, Aliyun, etc.) o nuevas empresas emergentes (como Snowflake, Databricks, etc.) y considerar una estrategia de múltiples nubes para el futuro. Elegir un ecosistema apropiado con una comunidad activa puede ayudar a ser parte de él y resolver problemas desafiantes en poco tiempo.

Para analizar las áreas anteriores, necesitamos aprender la tecnología reciente utilizada en la pila de datos moderna. Estos deben incluir, entre otros, computación en la nube, sistemas distribuidos, contenedorización y prácticas como el gobierno de datos (calidad, seguridad y cumplimiento), automatización (código bajo/sin código) y aprendizaje automático.

🔥 Recomendado:  La radiología intervencionista está lista para la disrupción de la IA: líderes de opinión

La excelencia operativa y nativa de la nube debe ser la base de la pila de datos moderna. Estos fueron rediseñar las plataformas de datos y mejorar su rendimiento y escalabilidad.

La pila de datos moderna ofrece muchos beneficios en comparación con las plataformas de datos tradicionales, incluida la escalabilidad, la flexibilidad y la facilidad de mantenimiento. Esto lo hace ideal para nuevas empresas que buscan aprovechar la nube y crear aplicaciones basadas en datos.

Trampa 2: es suficiente en la nube o usar un servicio basado en la nube

La nube debe ser el primer catalizador para la evolución de la pila de datos moderna. Pero no basta con usar cualquier plataforma basada en la nube, por ejemplo, Amazon EMR y azur Ladrillos de datos. Estas son soluciones de alojamiento en la nube.

Se requieren tres prácticas en la nube para etiquetarlas como una pila de datos “moderna”.

  1. Nativo de la nube: recientemente, la práctica nativa de la nube ha reinventado el espacio de la nube. No definiré la nube nativa aquí porque muchas plataformas de datos, como Amazon Redshift y Aurora, son nativas de la nube hoy en día.
  2. Seguridad en la nube: la seguridad se vuelve cada vez más crucial para adoptar una plataforma de datos en la nube. Puede ser uno de los criterios necesarios para evaluar la adopción de la pila de datos. Es por eso que debemos elegir un proveedor líder en la nube o una startup de plataforma como marco. Dentro del marco, podemos agregar fuentes abiertas para más funciones.
  3. Soporte multinube: el soporte multinube es una tendencia de crecimiento empresarial tanto para usuarios como para proveedores. Los principales proveedores de nube son silos gigantes, pero también se inician en admitir múltiples nubes. Por ejemplo, Microsoft admite protección multinube para las tres principales plataformas en la nube de la industria.

Escollo 3: Más asequible para emplear la pila de datos moderna

Nos impresionó el modelo de pago por uso en la nube y aprovechar los recursos económicos en la nube. Pero ese no es el caso con la nube moderna y la pila de datos, ya que constantemente buscamos un mayor rendimiento y la última tecnología.

El costo no son solo los recursos de la nube, sino el valor agregado en la pila de datos moderna. Por ejemplo, Copo de nieve es significativamente más económico que muchos almacenes de datos tradicionales teniendo en cuenta el rendimiento general de los costos. Pero debido al aumento del volumen y la complejidad de los datos, la nube de datos se ha convertido en una de las plataformas de mayor recaudación.

🔥 Recomendado:  ASICS se asocia con STEPN y Solana para lanzar zapatillas para la comunidad Web3

Así que tenemos que optimizarlo tanto como sea posible. Podemos considerar la partición y retención de datos para equilibrar el costo y la velocidad. Por ejemplo, podemos usar Redshift como almacén de datos almacenando datos activos en SSD y datos menos activos en S3.

Trampa 4: traslade todos los datos a la nube de datos para su procesamiento y transformación in situ

Los lagos de datos ilimitados y los almacenes de datos en la nube son atractivos. Si bien mover datos a la nube para el procesamiento y la transformación en el lugar puede ofrecer beneficios como un acceso más fácil y una mayor escalabilidad, también tiene algunos inconvenientes y compensaciones potenciales.

En primer lugar, mover grandes cantidades de datos a la nube puede llevar tiempo y esfuerzo. Según el volumen de datos y la velocidad de la conexión a Internet, la transferencia de datos a la nube puede llevar mucho tiempo, lo que ralentiza el procesamiento y la transformación de datos en general. Además, muchos proveedores de la nube cobran por la transferencia de datos, por lo que mover grandes cantidades de datos puede volverse costoso rápidamente. En este caso, la computación cercana a los datos es una solución antes de juntar todos los datos. Esto puede aplicarse a la computación de borde y a las nuevas empresas web3 distribuidas.

En segundo lugar, puede mejorar la complejidad de la seguridad y privacidad de los datos. Si se transfieren datos sensibles o confidenciales a la nube, es vital asegurarse de que estén protegidos y que solo los usuarios autorizados puedan acceder a ellos. Esto puede requerir medidas de seguridad adicionales, como encriptación y autenticación, lo que agrega complejidad y sobrecarga al proceso general.

Por lo tanto, el traslado de datos a la nube para el procesamiento y la transformación en el lugar debe considerarse cuidadosamente y sopesarse frente a los posibles beneficios e inconvenientes. Puede que no siempre sea la mejor opción. En algunos casos, puede ser más apropiado preprocesar y transformar los datos localmente o utilizar un enfoque híbrido que combine la nube y la infraestructura local.

Escollo 5: Data Lakehouse estará en el camino

Data Lakehouse es incipiente, pero demuestra el beneficio combinado de Data Lake y Data Warehouse. Puede ser una solución unificada para todos los datos (tanto estructurados como no estructurados) y todos los casos de uso de OLAP (incluidos BI e IA).

Y puede eliminar datos lambda colas de arquitectura y mensajería y simplificar las plataformas de datos. Pero al menos tres áreas clave complementan el lago de datos y pueden pintar la imagen de todo el panorama de datos juntos.

  1. Ingeniería de IA: la ingeniería de IA coordina el ciclo de vida de los datos y la IA. Puede abordar sistemáticamente la calidad de los datos, la optimización del modelo, la efectividad del usuario y el gobierno y las operaciones de datos y modelos con la disciplina de la ingeniería. A través de este principio de ingeniería integral, podemos maximizar el valor de la creciente plataforma de datos unificados.
  2. Tejido de datos y malla de datos: Data fabric y data mesh son arquitecturas de datos, a diferencia de data lakehouse como plataforma de datos. Se diseñan para centralizar o descentralizar la gestión y el análisis de datos utilizando diferentes mecanismos. Esto puede ayudar a las nuevas empresas a mantener los sistemas y procesos existentes, flexibles y escalables.
  3. Plataformas de datos especialmente diseñadas: Data Lakehouse es una plataforma unificada innovadora, pero sigue siendo un OLAP. Todavía necesitamos otras plataformas de datos para cumplir con la pila de datos moderna, como la tienda y el motor de gráficos, la tienda de búsqueda, la tienda HTAP, etc.
🔥 Recomendado:  10 mejores pasos para la optimización de velocidad de Magento 2 [2023]

TL;RD

La pila de datos moderna es una tecnología emergente. Es imperativo que las startups lo adopten. Pero no es omni-tech ni nada parecido a útiles utensilios de cocina. Si no prestas atención, estará lleno de baches.

Es esencial comprender sus fundamentos para cumplir con los objetivos comerciales basados ​​en datos. Algo más puede ser secundario. Las cinco áreas anteriores cubren la pila de datos moderna, desde conceptos hasta preocupaciones y tendencias clave.


5 trampas de la pila de datos moderna para empresas emergentes se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA

Tabla de Contenido