Tarea S9 Douglas Ramirez 32151049

Tarea S9 DataOps para el almacenamiento de datos moderno Semana: 9 Nombre del estudiante: Douglas Daniel Ramirez Canales - 32151049 Docente: Fernando José Cárcamo Clase: Administración de Bases de datos II Sección: 184 Fecha de entrega: 14/12/2025 Contenido Introducción ............................................................................................................................................ 3 Antecedentes Marco Teorico .................................................................................................................. 3 Metodología del arqueo bibliográfico ..................................................................................................... 3 Fuentes consultadas ................................................................................................................................ 4 Marco Teórico ......................................................................................................................................... 4 DataOps como modelo operativo reflejado en la arquitectura MDW ................................................ 4 Origen de los datos: Data source como punto de partida del flujo .................................................... 5 Data pipeline: la canalización como eje central del modelo DataOps ................................................ 5 Cleansing & standardization................................................................................................................ 5 Transform ............................................................................................................................................ 6 Data Lake Storage como columna vertebral del almacenamiento ..................................................... 6 Zonas del Data Lake............................................................................................................................. 6 Orquestación: el control del flujo mediante automatización ............................................................. 6 Serving: consumo de los datos según el perfil del usuario ................................................................. 7 Explore – Data Scientist ....................................................................................................................... 7 Azure Synapse Analytics (SQL) – Business user ................................................................................... 7 Conclusiones............................................................................................................................................ 8 Ilustración 1 Arquitectura general DataOps – Modern Data Warehouse en Azure ............................... 5 Ilustración 2 Orquestación de pipelines en Azure................................................................................... 7 Introducción En la actualidad, la información se ha convertido en uno de los activos más importantes para cualquier organización, independientemente de su tamaño o sector. Sin embargo, el simple hecho de almacenar grandes volúmenes de datos no garantiza valor alguno si estos no pueden ser organizados, procesados y utilizados de forma eficiente. Desde mi comprensión, uno de los principales problemas que enfrentan las empresas modernas no es la falta de datos, sino la dificultad para administrarlos correctamente y convertirlos en información útil para la toma de decisiones. A partir de esta necesidad surge el enfoque DataOps, el cual representa una evolución natural en la forma en que se gestionan los datos dentro de entornos tecnológicos complejos. DataOps no se limita únicamente a herramientas o plataformas específicas, sino que integra prácticas, procesos y una mentalidad orientada a la automatización, la colaboración y la mejora continua del ciclo de vida de los datos. En plataformas de nube como Microsoft Azure, este enfoque se apoya fuertemente en una infraestructura de almacenamiento y bases de datos modernas, capaces de adaptarse al crecimiento constante de la información. El objetivo de este marco teórico es analizar, desde mi punto de vista, la arquitectura base de DataOps para el almacenamiento de datos moderno en Azure, haciendo énfasis en la infraestructura que soporta las canalizaciones de datos. Más allá de los modelos de machine learning, el interés principal está en comprender cómo los datos son almacenados, organizados, procesados y gobernados, y cómo estas decisiones influyen directamente en la eficiencia operativa y en la calidad de los resultados obtenidos. Antecedentes Marco Teorico Tradicionalmente, las organizaciones gestionaban sus datos utilizando bases de datos centralizadas y sistemas rígidos, donde cualquier cambio en el volumen o tipo de información implicaba ajustes costosos y complejos. Este enfoque resultaba suficiente cuando los datos eran principalmente estructurados y el crecimiento era predecible. Sin embargo, con la llegada del big data, la analítica avanzada y la inteligencia artificial, estos modelos comenzaron a mostrar importantes limitaciones. Desde mi análisis, el problema principal de los enfoques tradicionales es que separan excesivamente las áreas de desarrollo, operaciones y análisis de datos. Esto provoca retrasos, errores frecuentes y poca visibilidad sobre el estado real de la información. DataOps surge precisamente como una respuesta a estos desafíos, tomando principios de DevOps y adaptándolos al contexto de los datos. En Azure, este cambio de paradigma se materializa mediante arquitecturas modernas que combinan almacenamiento escalable, bases de datos especializadas y servicios de integración, permitiendo que los datos fluyan de manera controlada y automatizada desde su origen hasta su consumo final. Metodología del arqueo bibliográfico Para la elaboración de este marco teórico, se utilizó un enfoque descriptivo y analítico. El proceso inició con la revisión de las instrucciones académicas de la tarea, lo cual permitió identificar claramente el alcance esperado y el énfasis en el almacenamiento y las bases de datos dentro del modelo DataOps. Posteriormente, se consultó documentación técnica oficial de Microsoft Learn, la cual fue utilizada como referencia conceptual y técnica, pero no como contenido a reproducir literalmente. Desde mi comprensión, la clave para elaborar un marco teórico original no consiste en copiar definiciones, sino en interpretar la información y relacionarla con escenarios reales y comprensibles. Finalmente, la información fue reorganizada, integrando ejemplos imaginados y reflexiones personales que facilitan la comprensión del modelo DataOps y su aplicación práctica en entornos empresariales. Fuentes consultadas Las fuentes consultadas para la elaboración del presente marco teórico corresponden principalmente a la documentación oficial de Microsoft Learn, en la cual se describen las arquitecturas de referencia, servicios de almacenamiento, bases de datos y herramientas de integración de Azure. Estas fuentes proporcionan definiciones técnicas, casos de uso y buenas prácticas ampliamente aceptadas en la industria. Marco Teórico DataOps como modelo operativo reflejado en la arquitectura MDW Desde mi punto de vista, el enfoque DataOps se comprende de manera mucho más clara cuando se analiza a través de una arquitectura real y funcional, como la presentada en el diagrama de Modern Data Warehouse (MDW) con DataOps en Azure. Este diagrama no debe interpretarse únicamente como una representación técnica de servicios conectados entre sí, sino como un modelo operativo completo que evidencia cómo una organización gestiona el ciclo de vida de sus datos de principio a fin. En esta arquitectura, DataOps actúa como el eje que integra personas, procesos y tecnología. Cada bloque del diagrama responde a una necesidad específica: capturar datos, almacenarlos correctamente, transformarlos de manera controlada y ponerlos a disposición de distintos usuarios. Desde mi comprensión, lo más relevante de este modelo es que el dato no se mueve de forma improvisada, sino que sigue un flujo definido, automatizado y gobernado. Este enfoque demuestra que DataOps no es una teoría abstracta ni una moda tecnológica, sino una práctica que se materializa directamente en la infraestructura. La arquitectura MDW evidencia cómo las decisiones sobre almacenamiento, canalizaciones y consumo de datos influyen directamente en la confiabilidad de la información y, por ende, en la toma de decisiones del negocio. Ilustración 1 Arquitectura general DataOps – Modern Data Warehouse en Azure Fuente: https://learn.microsoft.com/es-es/azure/architecture/databases/architecture/dataops-mdw Origen de los datos: Data source como punto de partida del flujo En el diagrama, el flujo de datos inicia con una fuente de datos externa, representada por el Parking web service. Este componente simboliza cualquier sistema real que genera datos de manera continua, como sensores IoT, aplicaciones web, sistemas transaccionales o servicios de terceros. Desde mi análisis, este punto es especialmente crítico porque define las condiciones iniciales del dato. En la práctica, los datos rara vez llegan limpios, completos o en un formato homogéneo. Asumir lo contrario es uno de los errores más frecuentes en arquitecturas tradicionales, y precisamente aquí es donde DataOps cobra sentido. El proceso identificado como Copy refleja una decisión de diseño importante: primero capturar, luego procesar. El objetivo inicial no es transformar ni corregir los datos, sino preservarlos tal como llegan. Desde mi punto de vista, esta decisión es clave para garantizar trazabilidad, auditoría y la posibilidad de reprocesar información en caso de errores posteriores. Data pipeline: la canalización como eje central del modelo DataOps El bloque de Data pipeline representa el corazón operativo de la arquitectura. Desde mi perspectiva, es aquí donde DataOps deja de ser un concepto y se convierte en una práctica concreta. Las canalizaciones no se limitan a mover datos entre servicios, sino que incorporan reglas, validaciones y controles que determinan la calidad del dato. Cleansing & standardization Este componente se encarga de la limpieza y estandarización de los datos. El diagrama muestra explícitamente la separación entre clean data y bad data, lo cual considero una práctica madura y realista. En lugar de descartar información incorrecta, la arquitectura la identifica, la clasifica y la redirige a zonas específicas. Desde mi comprensión, este enfoque permite aprender de los errores en la fuente de datos y mejorar los procesos de ingestión con el tiempo. Además, evita la pérdida de información que podría ser valiosa en análisis posteriores o auditorías. Transform La etapa de transformación prepara los datos para su uso analítico. Aquí se ajustan formatos, estructuras y relaciones, pero siempre trabajando sobre datos ya almacenados. Desde mi punto de vista, esta decisión reduce riesgos operativos, ya que evita modificar directamente los datos originales. Este enfoque también fortalece la trazabilidad, ya que permite identificar con claridad qué transformaciones se aplicaron, cuándo y sobre qué versión del dato. Data Lake Storage como columna vertebral del almacenamiento El Data Lake Storage es el componente central del diagrama y, desde mi punto de vista, el elemento más importante de toda la arquitectura. Aquí se materializa de forma clara el enfoque DataOps aplicado al almacenamiento, ya que el Data Lake no solo almacena información, sino que define el estado del dato dentro del sistema. Zonas del Data Lake El diagrama presenta varias zonas claramente diferenciadas: Landing: datos recién ingresados, sin ningún tipo de procesamiento Malformed: datos con errores de formato o inconsistencias Interim: datos parcialmente procesados Data warehouse: datos listos para análisis y consumo Desde mi análisis, esta organización por zonas refleja una gestión consciente y responsable del dato. Cada zona representa una etapa del ciclo de vida de la información, lo que facilita auditorías, reprocesos y análisis históricos. Sin esta separación, el Data Lake se convertiría rápidamente en un repositorio desordenado y difícil de gobernar. Orquestación: el control del flujo mediante automatización El componente Orchestrate, ubicado en la parte inferior del diagrama, representa la automatización del flujo de datos. Desde mi comprensión, este bloque simboliza servicios como Azure Data Factory, encargados de definir cuándo, cómo y en qué orden se ejecutan las tareas. La orquestación garantiza que los procesos sean repetibles, controlados y monitoreables. Sin este componente, la arquitectura dependería de ejecuciones manuales, lo que aumentaría el riesgo de errores y rompería con los principios fundamentales de DataOps. Ilustración 2 Orquestación de pipelines en Azure Fuente: https://learn.microsoft.com/azure/data-factory/introduction Serving: consumo de los datos según el perfil del usuario La sección de Serving muestra cómo los datos procesados se entregan a distintos perfiles de usuario, lo cual considero una de las fortalezas más importantes de esta arquitectura. Explore – Data Scientist El bloque Explore representa el acceso exploratorio al Data Lake por parte de científicos de datos. Desde mi punto de vista, este acceso permite experimentar, validar hipótesis y construir modelos sin afectar los datos productivos ni los reportes de negocio. Azure Synapse Analytics (SQL) – Business user El uso de PolyBase junto con Azure Synapse Analytics permite que los usuarios de negocio accedan a la información mediante consultas SQL, sin necesidad de interactuar directamente con la complejidad del Data Lake ni comprender su estructura interna. Desde mi punto de vista, esta separación es fundamental, ya que evita que los usuarios finales dependan del conocimiento técnico profundo para poder analizar datos relevantes para la toma de decisiones. En este modelo, el Data Lake se mantiene como la fuente central de información, mientras que Synapse actúa como una capa de acceso controlado y optimizado para análisis estructurado. Esto permite que los equipos de negocio trabajen con vistas y tablas previamente definidas, garantizando consistencia en los resultados y reduciendo el riesgo de interpretaciones incorrectas de los datos. Si yo fuera responsable de la infraestructura de una empresa dedicada a la gestión de servicios logísticos y distribución, utilizaría este enfoque para centralizar información sobre entregas, tiempos de despacho y volúmenes de carga. Los datos operativos provenientes de diferentes sistemas se almacenarían inicialmente en el Data Lake y, tras su procesamiento, se expondrían en Azure Synapse Analytics para que los gerentes pudieran analizarlos mediante consultas SQL y reportes. Desde mi perspectiva, este enfoque permite escalar la plataforma sin comprometer el control sobre los datos, optimizar los costos asociados al almacenamiento y procesamiento, y asegurar que cada área de la organización acceda únicamente a la información que necesita, presentada de forma clara y alineada con sus objetivos operativos y estratégicos. Conclusiones Después de analizar esta arquitectura desde el enfoque DataOps, mi comprensión sobre el almacenamiento de datos modernos cambió de manera significativa. Antes de este análisis, tendía a ver el almacenamiento como un componente pasivo, cuyo objetivo principal era “guardar información”. Sin embargo, el diagrama MDW demuestra que el almacenamiento es, en realidad, el elemento que define el orden, el control y la confiabilidad de todo el sistema de datos. Entendí que una mala decisión en la capa de almacenamiento no se corrige fácilmente con herramientas de análisis o visualización. Si los datos no están correctamente organizados desde su origen, cualquier resultado posterior pierde valor. Asimismo, comprendí que DataOps no se implementa únicamente con herramientas, sino con decisiones de diseño conscientes, como separar zonas del Data Lake, automatizar procesos y adaptar el consumo de datos a distintos perfiles de usuario. Bibliografía Microsoft Learn. (s.f.). What is DataOps? https://learn.microsoft.com/azure/architecture/data-guide/dataops/ Microsoft Learn. (s.f.). Modern data warehouse and DataOps architecture. https://learn.microsoft.com/es-es/azure/architecture/databases/architecture/dataops-mdw Microsoft Learn. (s.f.). Introduction to Azure Data Lake Storage Gen2. https://learn.microsoft.com/azure/storage/blobs/data-lake-storage-introduction Microsoft Learn. (s.f.). Azure Blob Storage documentation. https://learn.microsoft.com/azure/storage/blobs/ Microsoft Learn. (s.f.). Azure SQL Database documentation. https://learn.microsoft.com/azure/azure-sql/database/ Microsoft Learn. (s.f.). Azure Synapse Analytics overview. https://learn.microsoft.com/azure/synapse-analytics Microsoft Learn. (s.f.). Azure Data Factory – Introduction. https://learn.microsoft.com/azure/data-factory/introduction

Tarea S9 Douglas Ramirez 32151049

Documentos relacionados

Productos

Apoyo

Tarea S9 Douglas Ramirez 32151049

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib