Big Data, Internet of Things and Smart Cities BLOQUE 3. Software de Aplicación: Data Warehouse (DW). Una visión desde el punto de vista de negocio DATA WAREHOUSE Y DATA MART COMERCIAL HERRAMIENTAS PARA ANÁLISIS AVANZADO DE DATOS EN MARKETING Big Data, Internet of Things and Smart Cities Ramón Alberto Carrasco, Phd Índice DW. Conceptos fundamentales DW vs CRM Procesos ETL Explotación del DW. • Data Mining y OLAP • Tendencias actuales. • DW vs Big Data • Reflexiones finales • • • • Big Data, Internet of Things and Smart Cities Ramón Alberto Carrasco, Phd DW. Una visión desde el punto de vista de negocio • Problema • • Consecuencia • • Las organizaciones manejan enormes cantidades de datos: • en distintos formatos • que residen en distintas bases de datos • organizados utilizando distintos tipos de SGBD Resulta difícil acceder y utilizar todos los datos en aplicaciones de análisis (las cuales requieren extraer, preparar e integrar los datos) Data Warehousing • Diseño de procesos e implementación de herramientas que proporcionen información completa, oportuna, correcta y entendible en la toma de decisiones DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio OLTP (On-Line Transaction Processing) • Aplicaciones típicas de gestión • • • • Tareas repetitivas. Tareas muy bien estructuradas. Transacciones cortas. Prioridad: Gestión de transacciones • • Las transacciones se realizan sobre grandes bases de datos a las cuales se puede acceder eficientemente mediante índices, ya que cada operación afecta sólo a unos pocos registros. Es de vital importancia garantizar la “acidez” de las transacciones (atomicidad, consistencia, aislamiento y durabilidad). DW. Una visión desde el punto de vista de negocio OLAP (On-Line Analytical Processing) • Sistemas de ayuda a la decisión (DSS) • • • Consultas muy complejas (muchos datos y funciones de agregación). Actualizaciones poco frecuentes y planificadas en los procesos de ETL. Prioridad: Procesamiento de consultas • • Los data warehouses (DW) almacenan datos con perspectiva temporal (histórica) La optimización de las consultas y el tiempo de respuesta son primordiales DW. Una visión desde el punto de vista de negocio Dos enfoque principales Kimball Inmon Se permite a los usuarios departamentales construirse sus propias bases de datos. Estos repositorios si así se requiere se pueden integran mediante una metodología bottomup El diseño de la base de datos está centralizado. La metdología soportada es topdown. Diseño ágil Diseño riguroso Difícil de mantener la visión corporativa La visión corporativa es más fácil La redundancia es abundante La redundancia está regulada Data Marts dificilmente integrables Data Marts fáciles de integrar Enfoque flexible Enfoque rígido DW. Una visión desde el punto de vista de negocio Kimball Inmon DW. Una visión desde el punto de vista de negocio Cuadrante Mágico de Gartner para Plataformas de data warehouse (Fuente: Gartner, Ene 2013) Índice DW. Conceptos fundamentales DW vs CRM Procesos ETL Explotación del DW. • Data Mining y OLAP • Tendencias actuales. • DW vs Big Data • Reflexiones finales • • • • Big Data, Internet of Things and Smart Cities Ramón Alberto Carrasco, Phd DW. Una visión desde el punto de vista de negocio Top 10 Business and Technology Priorities Fuente: Insights from the 2013 Gartner CIO Agenda Report DW. Una visión desde el punto de vista de negocio ¿Un sistema CRM es OLAP u OLTP? DW. Una visión desde el punto de vista de negocio ¿Un sistema CRM es OLAP u OLTP? Fuente: P.C. Zikopoulos et al. 2012 Understading Big Data. McGraw-Hill DW. Una visión desde el punto de vista de negocio Índice DW. Conceptos fundamentales DW vs CRM Procesos ETL Explotación del DW. • Data Mining y OLAP • Tendencias actuales. • DW vs Big Data • Reflexiones finales • • • • Big Data, Internet of Things and Smart Cities Ramón Alberto Carrasco, Phd DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio Cuadrante Mágico de Gartner para Plataformas de Integración de datos (Fuente: Gartner, Jul 2014) DW. Una visión desde el punto de vista de negocio Origen de Datos: OLTP, fuentes externas… DW. Una visión desde el punto de vista de negocio Proceso ETL Índice DW. Conceptos fundamentales DW vs CRM Procesos ETL Explotación del DW. • Data Mining y OLAP • Tendencias actuales. • DW vs Big Data • Reflexiones finales • • • • Big Data, Internet of Things and Smart Cities Ramón Alberto Carrasco, Phd DW. Una visión desde el punto de vista de negocio Análisis OLAP DW. Una visión desde el punto de vista de negocio Análisis OLAP Los datos se modelan en cubos de datos o hipercubos que son estructuras multidimensionales cuyas operaciones comunes son: • Roll up (incremento en el nivel de agregación de los datos). • Drill down (incremento en el nivel de detalle, opuesto a roll up). • Slice (reducción de la dimensionalidad de los datos mediante selección). • Dice (reducción de la dimensionalidad de los datos mediante proyeccción). • Pivotaje o rotación (reorientación de la visión multidimensional). DW. Una visión desde el punto de vista de negocio Análisis OLAP. Esquema snowflake DW. Una visión desde el punto de vista de negocio Análisis OLAP. Esquema snowflake DW. Una visión desde el punto de vista de negocio Análisis OLAP DW. Una visión desde el punto de vista de negocio El modelo multidimensional se podría explotar mediante SQL DW. Una visión desde el punto de vista de negocio Aunque las herramientas de Business Intelligence y Reporting son más adecuadas para su explotación. DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio Cuadrante Mágico de Gartner para Plataformas de Business Intelligence y Analytics (Fuente: Gartner, Feb 2013) DW. Una visión desde el punto de vista de negocio Business analytics (minería de datos) DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio Segmentación sociodemográfica y datos de consumo de principales productos con KNIME DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio DW. Una visión desde el punto de vista de negocio Índice DW. Conceptos fundamentales DW vs CRM Procesos ETL Explotación del DW. • Data Mining y OLAP • Tendencias actuales. • DW vs Big Data • Reflexiones finales • • • • Big Data, Internet of Things and Smart Cities Ramón Alberto Carrasco, Phd DW. Una visión desde el punto de vista de negocio Nueva perspectiva en la extracción de conocimiento del Cliente • Se analiza toda la información • La información se usa en «crudo» y se «limpia» conforme es necesario • Se exploran todos los datos identificando correlaciones sin ser necesarias hipótesis previas • Los datos se analizan «in motion» conforme se van generando en tiempo real Fuente: P.C. Zikopoulos et al. 2012 Understading Big Data. McGraw-Hill DW. Una visión desde el punto de vista de negocio Se han desarrollado ecosistemas que sustenta esta nueva arquitectura incluyendo plataformas de Aprendizaje Automático (Machine Learning) Índice DW. Conceptos fundamentales DW vs CRM Procesos ETL Explotación del DW. • Data Mining y OLAP • Tendencias actuales. • DW vs Big Data • Reflexiones finales • • • • Big Data, Internet of Things and Smart Cities Ramón Alberto Carrasco, Phd DW. Una visión desde el punto de vista de negocio • El DW proporciona una serie de funcionalidades a los Sistemas de Información (SI) • Facilidad de Acceso. El sistema informacional debe permitir a la organización un acceso fácil a la información. • Consistente. El SI debe ser creíble, la información vista desde diferentes puntos de vista debe coincidir. • Adaptativo. Los cambios son inevitables, el SI debe poder adaptarse a los cambios pero además tiene que tener capacidad de resiliencia, es decir capacidad para volver a su estado cuando los cambios terminen. • Seguro. Debe proporcionar la información a quien tiene permiso para ello. • Mejorar el proceso de toma de decisión. El SI debe ser la base donde se contrasten las decisiones para encontrar las evidencias del resultado de las mismas. • Aceptado. El negocio debe aceptar el SI como fuente de información. Reflexiones finales Fuente: http://r4stats.com/articles/popularity/ Marketing 57 Reflexiones finales Fuente: http://r4stats.com/articles/popularity/ Marketing 58 Reflexiones finales Fuente: http://r4stats.com/articles/popularity/ Marketing 59 Reflexiones finales Generation 1ª Generación 2ª Generación Ejemplos KNIME, SAS, R, Weka, SPSS, KEEL Mahout, Pentaho, Cascading, MLLIB Scalabilidad Vertical Horizontal Algoritmos disponibles Huge collection of algorithms Small subset: sequential logistic regression, linear SVMs, Stochastic Gradient Descendent, k-means clustering, Random forest, etc. Algoritmos No disponibles Practically nothing Vast no.: Kernel SVMs, Multivariate Logistic Regression, Conjugate Gradient Descendent, ALS, etc. Tolerancia a Fallos Single point of failure Most tools are FT, as they are built on top of Hadoop/Spark Marketing 60