Tarea S9 DataOps para el almacenamiento de datos
moderno
Semana: 9
Nombre del estudiante:
Douglas Daniel Ramirez Canales - 32151049
Docente:
Fernando José Cárcamo
Clase:
Administración de Bases de datos II
Sección:
184
Fecha de entrega:
14/12/2025
Contenido
Introducción ............................................................................................................................................ 3
Antecedentes Marco Teorico .................................................................................................................. 3
Metodología del arqueo bibliográfico ..................................................................................................... 3
Fuentes consultadas ................................................................................................................................ 4
Marco Teórico ......................................................................................................................................... 4
DataOps como modelo operativo reflejado en la arquitectura MDW ................................................ 4
Origen de los datos: Data source como punto de partida del flujo .................................................... 5
Data pipeline: la canalización como eje central del modelo DataOps ................................................ 5
Cleansing & standardization................................................................................................................ 5
Transform ............................................................................................................................................ 6
Data Lake Storage como columna vertebral del almacenamiento ..................................................... 6
Zonas del Data Lake............................................................................................................................. 6
Orquestación: el control del flujo mediante automatización ............................................................. 6
Serving: consumo de los datos según el perfil del usuario ................................................................. 7
Explore – Data Scientist ....................................................................................................................... 7
Azure Synapse Analytics (SQL) – Business user ................................................................................... 7
Conclusiones............................................................................................................................................ 8
Ilustración 1 Arquitectura general DataOps – Modern Data Warehouse en Azure ............................... 5
Ilustración 2 Orquestación de pipelines en Azure................................................................................... 7
Introducción
En la actualidad, la información se ha convertido en uno de los activos más importantes para cualquier
organización, independientemente de su tamaño o sector. Sin embargo, el simple hecho de almacenar
grandes volúmenes de datos no garantiza valor alguno si estos no pueden ser organizados, procesados
y utilizados de forma eficiente. Desde mi comprensión, uno de los principales problemas que enfrentan
las empresas modernas no es la falta de datos, sino la dificultad para administrarlos correctamente y
convertirlos en información útil para la toma de decisiones.
A partir de esta necesidad surge el enfoque DataOps, el cual representa una evolución natural en la
forma en que se gestionan los datos dentro de entornos tecnológicos complejos. DataOps no se limita
únicamente a herramientas o plataformas específicas, sino que integra prácticas, procesos y una
mentalidad orientada a la automatización, la colaboración y la mejora continua del ciclo de vida de los
datos. En plataformas de nube como Microsoft Azure, este enfoque se apoya fuertemente en una
infraestructura de almacenamiento y bases de datos modernas, capaces de adaptarse al crecimiento
constante de la información.
El objetivo de este marco teórico es analizar, desde mi punto de vista, la arquitectura base de DataOps
para el almacenamiento de datos moderno en Azure, haciendo énfasis en la infraestructura que
soporta las canalizaciones de datos. Más allá de los modelos de machine learning, el interés principal
está en comprender cómo los datos son almacenados, organizados, procesados y gobernados, y cómo
estas decisiones influyen directamente en la eficiencia operativa y en la calidad de los resultados
obtenidos.
Antecedentes Marco Teorico
Tradicionalmente, las organizaciones gestionaban sus datos utilizando bases de datos centralizadas y
sistemas rígidos, donde cualquier cambio en el volumen o tipo de información implicaba ajustes
costosos y complejos. Este enfoque resultaba suficiente cuando los datos eran principalmente
estructurados y el crecimiento era predecible. Sin embargo, con la llegada del big data, la analítica
avanzada y la inteligencia artificial, estos modelos comenzaron a mostrar importantes limitaciones.
Desde mi análisis, el problema principal de los enfoques tradicionales es que separan excesivamente
las áreas de desarrollo, operaciones y análisis de datos. Esto provoca retrasos, errores frecuentes y
poca visibilidad sobre el estado real de la información. DataOps surge precisamente como una
respuesta a estos desafíos, tomando principios de DevOps y adaptándolos al contexto de los datos.
En Azure, este cambio de paradigma se materializa mediante arquitecturas modernas que combinan
almacenamiento escalable, bases de datos especializadas y servicios de integración, permitiendo que
los datos fluyan de manera controlada y automatizada desde su origen hasta su consumo final.
Metodología del arqueo bibliográfico
Para la elaboración de este marco teórico, se utilizó un enfoque descriptivo y analítico. El proceso inició
con la revisión de las instrucciones académicas de la tarea, lo cual permitió identificar claramente el
alcance esperado y el énfasis en el almacenamiento y las bases de datos dentro del modelo DataOps.
Posteriormente, se consultó documentación técnica oficial de Microsoft Learn, la cual fue utilizada
como referencia conceptual y técnica, pero no como contenido a reproducir literalmente. Desde mi
comprensión, la clave para elaborar un marco teórico original no consiste en copiar definiciones, sino
en interpretar la información y relacionarla con escenarios reales y comprensibles. Finalmente, la
información fue reorganizada, integrando ejemplos imaginados y reflexiones personales que facilitan
la comprensión del modelo DataOps y su aplicación práctica en entornos empresariales.
Fuentes consultadas
Las fuentes consultadas para la elaboración del presente marco teórico corresponden principalmente
a la documentación oficial de Microsoft Learn, en la cual se describen las arquitecturas de referencia,
servicios de almacenamiento, bases de datos y herramientas de integración de Azure. Estas fuentes
proporcionan definiciones técnicas, casos de uso y buenas prácticas ampliamente aceptadas en la
industria.
Marco Teórico
DataOps como modelo operativo reflejado en la arquitectura MDW
Desde mi punto de vista, el enfoque DataOps se comprende de manera mucho más clara cuando se
analiza a través de una arquitectura real y funcional, como la presentada en el diagrama de Modern
Data Warehouse (MDW) con DataOps en Azure. Este diagrama no debe interpretarse únicamente
como una representación técnica de servicios conectados entre sí, sino como un modelo operativo
completo que evidencia cómo una organización gestiona el ciclo de vida de sus datos de principio a
fin.
En esta arquitectura, DataOps actúa como el eje que integra personas, procesos y tecnología. Cada
bloque del diagrama responde a una necesidad específica: capturar datos, almacenarlos
correctamente, transformarlos de manera controlada y ponerlos a disposición de distintos usuarios.
Desde mi comprensión, lo más relevante de este modelo es que el dato no se mueve de forma
improvisada, sino que sigue un flujo definido, automatizado y gobernado.
Este enfoque demuestra que DataOps no es una teoría abstracta ni una moda tecnológica, sino una
práctica que se materializa directamente en la infraestructura. La arquitectura MDW evidencia cómo
las decisiones sobre almacenamiento, canalizaciones y consumo de datos influyen directamente en la
confiabilidad de la información y, por ende, en la toma de decisiones del negocio.
Ilustración 1 Arquitectura general DataOps – Modern Data Warehouse en Azure
Fuente: https://learn.microsoft.com/es-es/azure/architecture/databases/architecture/dataops-mdw
Origen de los datos: Data source como punto de partida del flujo
En el diagrama, el flujo de datos inicia con una fuente de datos externa, representada por el Parking
web service. Este componente simboliza cualquier sistema real que genera datos de manera continua,
como sensores IoT, aplicaciones web, sistemas transaccionales o servicios de terceros.
Desde mi análisis, este punto es especialmente crítico porque define las condiciones iniciales del dato.
En la práctica, los datos rara vez llegan limpios, completos o en un formato homogéneo. Asumir lo
contrario es uno de los errores más frecuentes en arquitecturas tradicionales, y precisamente aquí es
donde DataOps cobra sentido.
El proceso identificado como Copy refleja una decisión de diseño importante: primero capturar, luego
procesar. El objetivo inicial no es transformar ni corregir los datos, sino preservarlos tal como llegan.
Desde mi punto de vista, esta decisión es clave para garantizar trazabilidad, auditoría y la posibilidad
de reprocesar información en caso de errores posteriores.
Data pipeline: la canalización como eje central del modelo DataOps
El bloque de Data pipeline representa el corazón operativo de la arquitectura. Desde mi perspectiva,
es aquí donde DataOps deja de ser un concepto y se convierte en una práctica concreta. Las
canalizaciones no se limitan a mover datos entre servicios, sino que incorporan reglas, validaciones y
controles que determinan la calidad del dato.
Cleansing & standardization
Este componente se encarga de la limpieza y estandarización de los datos. El diagrama muestra
explícitamente la separación entre clean data y bad data, lo cual considero una práctica madura y
realista. En lugar de descartar información incorrecta, la arquitectura la identifica, la clasifica y la
redirige a zonas específicas.
Desde mi comprensión, este enfoque permite aprender de los errores en la fuente de datos y mejorar
los procesos de ingestión con el tiempo. Además, evita la pérdida de información que podría ser valiosa
en análisis posteriores o auditorías.
Transform
La etapa de transformación prepara los datos para su uso analítico. Aquí se ajustan formatos,
estructuras y relaciones, pero siempre trabajando sobre datos ya almacenados. Desde mi punto de
vista, esta decisión reduce riesgos operativos, ya que evita modificar directamente los datos originales.
Este enfoque también fortalece la trazabilidad, ya que permite identificar con claridad qué
transformaciones se aplicaron, cuándo y sobre qué versión del dato.
Data Lake Storage como columna vertebral del almacenamiento
El Data Lake Storage es el componente central del diagrama y, desde mi punto de vista, el elemento
más importante de toda la arquitectura. Aquí se materializa de forma clara el enfoque DataOps
aplicado al almacenamiento, ya que el Data Lake no solo almacena información, sino que define el
estado del dato dentro del sistema.
Zonas del Data Lake
El diagrama presenta varias zonas claramente diferenciadas:
Landing: datos recién ingresados, sin ningún tipo de procesamiento
Malformed: datos con errores de formato o inconsistencias
Interim: datos parcialmente procesados
Data warehouse: datos listos para análisis y consumo
Desde mi análisis, esta organización por zonas refleja una gestión consciente y responsable del dato.
Cada zona representa una etapa del ciclo de vida de la información, lo que facilita auditorías,
reprocesos y análisis históricos. Sin esta separación, el Data Lake se convertiría rápidamente en un
repositorio desordenado y difícil de gobernar.
Orquestación: el control del flujo mediante automatización
El componente Orchestrate, ubicado en la parte inferior del diagrama, representa la automatización
del flujo de datos. Desde mi comprensión, este bloque simboliza servicios como Azure Data Factory,
encargados de definir cuándo, cómo y en qué orden se ejecutan las tareas.
La orquestación garantiza que los procesos sean repetibles, controlados y monitoreables. Sin este
componente, la arquitectura dependería de ejecuciones manuales, lo que aumentaría el riesgo de
errores y rompería con los principios fundamentales de DataOps.
Ilustración 2 Orquestación de pipelines en Azure
Fuente: https://learn.microsoft.com/azure/data-factory/introduction
Serving: consumo de los datos según el perfil del usuario
La sección de Serving muestra cómo los datos procesados se entregan a distintos perfiles de usuario,
lo cual considero una de las fortalezas más importantes de esta arquitectura.
Explore – Data Scientist
El bloque Explore representa el acceso exploratorio al Data Lake por parte de científicos de datos.
Desde mi punto de vista, este acceso permite experimentar, validar hipótesis y construir modelos sin
afectar los datos productivos ni los reportes de negocio.
Azure Synapse Analytics (SQL) – Business user
El uso de PolyBase junto con Azure Synapse Analytics permite que los usuarios de negocio accedan a
la información mediante consultas SQL, sin necesidad de interactuar directamente con la complejidad
del Data Lake ni comprender su estructura interna. Desde mi punto de vista, esta separación es
fundamental, ya que evita que los usuarios finales dependan del conocimiento técnico profundo para
poder analizar datos relevantes para la toma de decisiones.
En este modelo, el Data Lake se mantiene como la fuente central de información, mientras que
Synapse actúa como una capa de acceso controlado y optimizado para análisis estructurado. Esto
permite que los equipos de negocio trabajen con vistas y tablas previamente definidas, garantizando
consistencia en los resultados y reduciendo el riesgo de interpretaciones incorrectas de los datos.
Si yo fuera responsable de la infraestructura de una empresa dedicada a la gestión de servicios
logísticos y distribución, utilizaría este enfoque para centralizar información sobre entregas, tiempos
de despacho y volúmenes de carga. Los datos operativos provenientes de diferentes sistemas se
almacenarían inicialmente en el Data Lake y, tras su procesamiento, se expondrían en Azure Synapse
Analytics para que los gerentes pudieran analizarlos mediante consultas SQL y reportes.
Desde mi perspectiva, este enfoque permite escalar la plataforma sin comprometer el control sobre
los datos, optimizar los costos asociados al almacenamiento y procesamiento, y asegurar que cada
área de la organización acceda únicamente a la información que necesita, presentada de forma clara
y alineada con sus objetivos operativos y estratégicos.
Conclusiones
Después de analizar esta arquitectura desde el enfoque DataOps, mi comprensión sobre el
almacenamiento de datos modernos cambió de manera significativa. Antes de este análisis, tendía a
ver el almacenamiento como un componente pasivo, cuyo objetivo principal era “guardar
información”. Sin embargo, el diagrama MDW demuestra que el almacenamiento es, en realidad, el
elemento que define el orden, el control y la confiabilidad de todo el sistema de datos.
Entendí que una mala decisión en la capa de almacenamiento no se corrige fácilmente con
herramientas de análisis o visualización. Si los datos no están correctamente organizados desde su
origen, cualquier resultado posterior pierde valor. Asimismo, comprendí que DataOps no se
implementa únicamente con herramientas, sino con decisiones de diseño conscientes, como separar
zonas del Data Lake, automatizar procesos y adaptar el consumo de datos a distintos perfiles de
usuario.
Bibliografía
Microsoft Learn. (s.f.). What is DataOps?
https://learn.microsoft.com/azure/architecture/data-guide/dataops/
Microsoft Learn. (s.f.). Modern data warehouse and DataOps architecture.
https://learn.microsoft.com/es-es/azure/architecture/databases/architecture/dataops-mdw
Microsoft Learn. (s.f.). Introduction to Azure Data Lake Storage Gen2.
https://learn.microsoft.com/azure/storage/blobs/data-lake-storage-introduction
Microsoft Learn. (s.f.). Azure Blob Storage documentation.
https://learn.microsoft.com/azure/storage/blobs/
Microsoft Learn. (s.f.). Azure SQL Database documentation.
https://learn.microsoft.com/azure/azure-sql/database/
Microsoft Learn. (s.f.). Azure Synapse Analytics overview.
https://learn.microsoft.com/azure/synapse-analytics
Microsoft Learn. (s.f.). Azure Data Factory – Introduction.
https://learn.microsoft.com/azure/data-factory/introduction