Pila de datos moderna y lo que sabemos al respecto

Estás leyendo la publicación: Pila de datos moderna y lo que sabemos al respecto

Modern Data Stack (MDS) es un método novedoso de integración de datos que puede ahorrar tiempo al tiempo que se enfoca en tareas de alto valor. Es el núcleo de la arquitectura analítica. La pila de datos moderna se compone de herramientas y tecnología para entregar, administrar y analizar datos. Los procesos de datos, la gestión y consulta de datos y el análisis serán los cimientos de una pila de datos moderna. El artículo se centrará en comprender la modernización de las pilas de datos tradicionales. Los siguientes son los temas a tratar.

Tabla de contenido

  1. La pila de datos
  2. Acerca de la pila de datos moderna
  3. ¿Por qué se llama Modern Data Stack?
  4. ¿Cómo funciona la pila de datos moderna?
  5. ¿Por qué una organización debería actualizar su pila de datos?

Para producir valor, los datos primero deben ensamblarse, categorizarse, limpiarse y usarse en un proyecto de análisis. Comencemos hablando de Data Stack.

La pila de datos

Los datos se hacen consumibles con la ayuda de una pila de datos. Una pila de datos es análoga a una cocina de datos.

Considere cómo prepararía una comida. La mayoría de los componentes no son comestibles por sí solos, contienen nutrientes, pero no querrás comer trigo o vegetales crudos. Sin embargo, con el equipo adecuado en la cocina, como un tazón para mezclar, un horno, un temporizador de cocina, una sartén, cucharas y espátulas, y un chef que pueda seguir instrucciones, estas sustancias que antes no eran comestibles se transforman en una magnífica comida que todos disfrutarán. disfrutar.

Los fragmentos de información mentirosos no son atractivos. Sin embargo, después de viajar a través de una pila de datos, los bits de información se han transformado en tablas de dimensiones y hechos significativos con nombres y tipos de campo claros, que son fácilmente digeridos por varias divisiones corporativas.

¿Qué hay dentro de esa pila de datos?

Es mucho más que un almacén de datos. Las herramientas que cumplen cuatro funciones básicas forman pilas de datos.

  1. El cargando El proceso implica mover datos de un lugar a otro.
  2. Guarde todo en un solo lugar, generalmente en la nube, con almacenamiento.
  3. Transformar en datos que pueden ser utilizados.
  4. servir adelante análisis e inteligencia de negocios a los equipos

¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.

Acerca de la pila de datos moderna

Con el tiempo, las organizaciones dividirían su plataforma de datos en secciones específicas para ciertos aspectos como aplicaciones, análisis, etc. El término “pila de datos” se puso de moda para definir el conjunto de componentes o tecnologías para respaldar el flujo y el uso de datos para análisis.

Para ser eficaz, una pila de datos moderna consta de numerosos componentes o tecnologías que deben combinarse en un diseño uniforme. Muchas de estas tecnologías están disponibles como aplicaciones basadas en SaaS integradas. Las organizaciones pueden optar por desarrollar componentes individuales ellos mismos en algunas situaciones, especialmente si tienen requisitos inusuales o quieren ahorrar dinero. La transformación de datos es un buen ejemplo de esto, ya que algunas empresas deciden escribir operaciones de datos en Python y SQL.

Una pila de datos moderna y efectiva es esencial para impulsar una mayor adopción de análisis en su organización y, en general, tener un mayor uso de los datos. Las pilas de datos ineficientes pueden conducir a sobrecostos en el lado de la tecnología (costos de nube más altos) y costos de personal más altos y limitar el uso efectivo de los datos por parte de las organizaciones.

A medida que el mercado de análisis y almacenamiento de datos cambió a la nube, se inventaron nuevos enfoques y procesos innovadores para hacer que la pila de datos y operar la pila de datos sea más eficiente. Estos cambios incluyen:

  • Cambiar el proceso de integración de datos monolítico ETL (extracción, transformación y carga) a un proceso ELT (extracción, carga y transformación) más eficiente
  • Enfocar tanto procesamiento como sea posible en un almacén de datos en la nube para aprovechar su computación y almacenamiento escalables y rentables.
  • Aprovechar las categorías de productos recién inventadas para ayudar a administrar los datos en la pila de datos.
  • Uso de herramientas de análisis basadas en la nube más nuevas que permiten a los analistas y científicos de datos una mayor libertad para encontrar información.
🔥 Recomendado:  Una guía para principiantes sobre la descomposición propia desde cero

¿Por qué se llama Modern Data Stack?

La distinción más importante entre una pila de datos moderna y una pila de datos heredada es que la herencia está alojada en la nube y requiere una configuración técnica mínima por parte del usuario. Estas funciones mejoran la accesibilidad del usuario final, así como la escalabilidad, lo que le permite satisfacer fácilmente sus crecientes demandas de datos sin incurrir en el costoso y lento tiempo de inactividad que implica escalar instancias de servidores locales.

La pila de datos moderna, al final, reduce la barrera tecnológica para la integración de datos. Los componentes de la pila de datos moderna están diseñados pensando en los analistas y los usuarios comerciales, lo que garantiza que las personas de diversos orígenes no solo puedan utilizar sino también administrar estas herramientas sin requerir una gran experiencia técnica.

Se ahorra tiempo, dinero y esfuerzo con la pila de datos moderna. En comparación con las soluciones locales, los precios bajos y decrecientes de la computación y el almacenamiento en la nube continúan aumentando los ahorros de costos de una pila de datos contemporánea. Las conexiones listas para usar ahorran a sus analistas, científicos de datos e ingenieros de datos el tiempo que de otro modo se dedicaría a crear, construir y administrar conectores de datos, lo que les permite enfocarse en iniciativas de ciencia de datos y análisis de mayor valor.

¿Cómo funciona la pila de datos moderna?

Un Modern Data Stack (MDS) resuelve el propósito de evaluar los datos para encontrar nuevas áreas de potencial y aumentar la eficiencia. El MDS se compone de numerosas capas que se apilan una encima de la otra, cada una con su propósito único.

Revista de análisis de la India

Integración de datos

La integración de datos de varias fuentes en una sola vista cohesiva se conoce como integración de datos. Como parte del proceso de integración, la fase de ingesta implica la limpieza, el mapeo de ETL y la transformación. Las empresas pueden obtener información procesable de las herramientas de análisis a través de la integración de datos.

No existe una solución que se adapte a todos cuando se trata de integración de datos. Como alternativa, las soluciones de integración de datos a menudo involucran una red de fuentes de datos, un servidor maestro y clientes que interactúan con el servidor maestro.

En un escenario típico de integración de datos, el cliente solicita datos del servidor maestro. Posteriormente, el servidor maestro recopila los datos esenciales de fuentes internas y externas. Los datos se toman de muchas fuentes y luego se fusionan en una única recopilación de datos coherente. Esto se devuelve al cliente para su uso.

Almacenamiento de datos

Un almacén de datos suele ser una solución basada en la nube para almacenar todos los datos adquiridos por la herramienta de entrada de datos. A menudo se le llama lagos de datos. El almacén de datos en la nube o el lago de datos se encuentra en el corazón de la pila de datos moderna. También sirve como interfaz de consulta principal para herramientas EL, herramientas de transformación de datos y herramientas de análisis e inteligencia empresarial.

🔥 Recomendado:  Se abren las nominaciones para el índice de las '50 mejores empresas en la India para que trabajen los científicos de datos' de AIM

Cualquier proceso de datos, ya sea para la carga o transformación de datos, dependerá de la considerable capacidad computacional del almacén de datos en la nube o del lago de datos, así como del almacenamiento subyacente para los datos cargados o convertidos. Al consultar datos, las aplicaciones de BI y análisis también dependerán de esta capacidad de procesamiento. El almacén de datos en la nube o el lago de datos también gestionará y administrará las reglas y políticas de gobierno y seguridad de datos subyacentes. Otras tecnologías de pila de datos, como las funciones de seguridad y gobernanza, deberían funcionar junto con los controles fundamentales de CDW o Data Lake.

Hay ciertos puntos clave en los que debe centrarse antes de seleccionar un almacén de datos en la nube o un lago de datos en particular.

  • La escalabilidad autoelástica garantiza que cuando se ejecutan procesos de datos o consultas, solo se obtienen los recursos computacionales necesarios.
  • La eficiencia y granularidad de los recursos de cómputo y consulta del CDW o lago de datos, para garantizar que los costos de la pila de datos sean lo más bajos posible.
  • La seguridad del CDW o lago de datos debe ser fuerte. La facilidad de aplicar y gestionar la seguridad y la gobernanza.
  • La disponibilidad de CDW o lago de datos para las instancias y dónde están disponibles para ejecutarse.
  • Los tipos de formatos de datos necesarios para trabajar y el CDW o el lago de datos admiten estos formatos y permiten un uso eficiente dentro de la plataforma.

Transformación de datos

El proceso ELT (Extracción, carga y transformación) incluye herramientas de modelado y transformación de datos. Toman los datos sin procesar proporcionados por las herramientas de extracción y carga y los convierten en algo que los equipos de análisis pueden usar. Los datos sin procesar se transformarán en numerosos modelos de datos diferentes mediante tecnologías de transformación de datos para su uso en varios casos de uso de análisis. Los modelos de datos pueden ser intermedios, lo que permite que muchos modelos posteriores los utilicen, o pueden ser finales, lo que permite que los análisis los usen directamente.

Inteligencia de Negocio

Los datos se evalúan aquí y se construyen tableros para que los usuarios puedan examinar la información. Los especialistas en dominios ahora pueden responder a consultas comerciales sin depender de desarrolladores o analistas.

Gobernanza de datos (DG)

DG se refiere al proceso de hacer que los datos en los sistemas corporativos estén disponibles, sean accesibles, seguros e intrínsecamente conformes a las normas y regulaciones internas, así como también rigen el consumo de datos. El gobierno de datos garantiza que los datos sean confiables, seguros y consistentes. Las regulaciones de gobierno de datos están obligando a las empresas a considerar nuevas formas de proteger sus datos, así como a confiar en el análisis de datos para optimizar las operaciones y tomar mejores decisiones. Esencialmente, hay dos tipos de gobierno de datos.

  • Catálogos de datos Permita que las empresas realicen un seguimiento de sus datos y les den sentido, lo que mejora la capacidad de descubrimiento, la calidad y el intercambio de datos. Sin estas tecnologías, el lago de datos puede deteriorarse rápidamente y convertirse en un pantano de datos.
  • Cuando se trata de protección de datos, privacidad de datos Las herramientas ayudan a una empresa a cumplir legalmente. Se pueden abordar problemas como las filtraciones de datos confidenciales.

¿Por qué una organización debería actualizar su pila de datos?

Si bien existen otras ventajas al emplear una pila de datos actual, tres ventajas principales distinguen una pila de datos moderna de las versiones heredadas.

Gestión

Las pilas de datos siempre han sido construidas y desarrolladas por los equipos que las usan. Si bien no hay nada intrínsecamente malo con esta técnica, estas pilas de datos generalmente son muy personalizadas y frágiles. Estas pilas de datos pronto pueden volverse problemáticas y plantear un gran problema de mantenimiento si no cuentan con el apoyo de los ingenieros de datos y otros trabajadores técnicos. Las mismas soluciones se pueden lograr utilizando herramientas creadas especialmente para cada caso de uso utilizando una pila de datos actual.

🔥 Recomendado:  La violación de datos del sitio web de CSC expuso datos de más de 7 millones de usuarios de BHIM

Cuando se limita a la arquitectura de una pila de datos típica, la escalabilidad puede ser una barrera importante. La escalabilidad se logra rápidamente y no se limita a ciertas herramientas cuando se emplea una pila de datos contemporánea. Las tecnologías MDS están destinadas a manejar tanto o tan poco tráfico y procesamiento como se les dirija. Una empresa que enfrenta un desafío de rendimiento con su almacén de datos es un ejemplo de esto. Esto se puede solucionar fácilmente simplemente aumentando la capacidad del almacén mediante la configuración sencilla de la interfaz de usuario y escalando al instante.

Flexibilidad y Modularidad

La pila de datos moderna está destinada a parecer un microservicio. Esto permite la creación robusta de herramientas que abordan una operación específica en la pila de datos moderna. Además, al estructurar las herramientas de esta manera, todas las operaciones de la pila de datos contemporánea pueden conectarse entre sí de forma flexible, proporcionando libertad de elección cuando se trata de intercambiar actividades de la pila.

Las modernas soluciones de pila de datos estructuradas como módulos ayudan a las empresas a reducir el peligro de bloqueo del proveedor. Debido a que las tecnologías de pila de datos contemporáneas se construyen como microservicios o módulos, esencialmente resuelven el mismo problema, aunque con sutiles diferencias. Además, debido a que estas herramientas no dependen de las herramientas que las rodean, están conectadas sin apretar, lo que permite una intercambiabilidad simple.

Barrera Técnica

La barrera técnica es eventualmente más baja que la pila de datos tradicional. Hay dos beneficios principales para la organización.

  • La creación y el mantenimiento de pilas de datos no requieren equipos de big data.
  • El tiempo que los equipos de datos pueden haber dedicado anteriormente a desarrollar y administrar pilas de datos ahora puede reasignarse a utilizar y comprender los datos, lo que proporciona un tiempo más rápido para obtener información y un equipo de datos ágil que puede aumentar la capacidad de solicitud de datos.

Conclusión

Las pilas de datos frágiles y las operaciones inútiles hacen que sea más difícil continuar construyendo y escalando la pila de datos. Esto también dificulta la información necesaria para tomar decisiones clave basadas en datos. La pila de datos moderna abarca todo, desde componentes extremadamente modulares de la pila de datos que hacen que la adquisición de información sea muy accesible hasta la disminución de la barrera técnica y ofrece un gran valor para las empresas. Con este artículo, hemos entendido la pila de datos moderna y la evolución de la pila de datos.

Referencias

Tabla de Contenido