3.2. El Proceso de KDD 1 Fases y Técnicas del KDD Las distintas técnicas de distintas disciplinas se utilizan en distintas fases: 2 Fases del KDD: Recogida de Datos Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer conocimiento válido y útil a partir de la información original. Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra: • en bases de datos y otras fuentes muy diversas, • tanto internas como externas. • muchas de estas fuentes son las que se utilizan para el trabajo transaccional. El análisis posterior será mucho más sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional. 3 Fases del KDD: Recogida de Datos El proceso subsiguiente de minería de datos: • Depende mucho de la fuente: • OLAP u OLTP. • Datawarehouse o copia con el esquema original. • ROLAP o MOLAP. • Depende también del tipo de usuario: • ‘picapedreros’ (o ‘granjeros’): se dedican fundamentalmente a realizar informes periódicos, ver la evolución de determinados parámetros, controlar valores anómalos, etc. • ‘exploradores’: encargados de encontrar nuevos patrones significativos utilizando técnicas de minería de datos. 4 Fases del KDD: Recogida de Datos Recogida de Información Externa: • Aparte de información interna de la organización, los almacenes de datos pueden recoger información externa: • Demografías (censo), páginas amarillas, psicografías (perfiles por zonas), uso de Internet, información de otras organizaciones. • Datos compartidos en una industria o área de negocio, organizaciones y colegios profesionales, catálogos, etc. • Datos resumidos de áreas geográficas, distribución de la competencia, evolución de la economía, información de calendarios y climatológicas, programaciones televisivasdeportivas, catástofres,.. • Bases de datos externas compradas a otras compañías. 5 Fases del KDD: Selección, Limpieza y Transformación de Datos Limpieza (data cleansing) y criba (selección) de datos: Se deben elmininar el mayor número posible de datos erróneos o inconsistentes (limpieza) e irrelevantes (criba). Métodos estadísticos casi exclusivamente. • histogramas (detección de datos anómalos). • selección de datos (muestreo, ya sea verticalmente, eliminando atributos, u horizontalmente, eliminando tuplas). • redefinición de atributos (agrupación o separación). 6 Fases del KDD: Selección, Limpieza y Transformación de Datos Acciones ante datos anómalos (outliers): • ignorar: algunos algoritmos son robustos a datos anómalos (p.ej. árboles) • filtrar (eliminar o reemplazar) la columna: solución extrema, pero a veces existe otra columna dependiente con datos de mayor calidad. Preferible a eliminar la columna es reemplazarla por una columna discreta diciendo si el valor era normal u outlier (por encima o por debajo). • filtrar la fila: puede sesgar los datos, porque muchas veces las causas de un dato erróneo están relacionadas con casos o tipos especiales. • reemplazar el valor: por el valor ‘nulo’ si el algoritmo lo trata bien o por máximos o mínimos, dependiendo por donde es el outlier, o por medias. A veces se puede predecir a partir de otros datos, utilizando cualquier técnica de ML. • discretizar: transformar un valor continuo en uno discreto (p.ej. muy alto, alto, medio, bajo, muy bajo) hace que los outliers caigan en ‘muy alto’ o ‘muy bajo’ sin mayores problemas. 7 Fases del KDD: Selección, Limpieza y Transformación de Datos Acciones ante datos faltantes (missing values): • ignorar: algunos algoritmos son robustos a datos faltantes (p.ej. árboles). • filtrar (eliminar o reemplazar) la columna: solución extrema, pero a veces existe otra columna dependiente con datos de mayor calidad. Preferible a eliminar la columna es reemplazarla por una columna booleana diciendo si el valor existía o no. • filtrar la fila: claramente sesga los datos, porque muchas veces las causas de un dato faltante están relacionadas con casos o tipos especiales. • reemplazar el valor: por medias. A veces se puede predecir a partir de otros datos, utilizando cualquier técnica de ML. • segmentar: se segmentan las tuplas por los valores que tienen disponibles. Se obtienen modelos diferentes para cada segmento y luego se combinan. • modificar la política de calidad de datos y esperar hasta que los datos faltantes 8 estén disponibles. Fases del KDD: Selección, Limpieza y Transformación de Datos Razones sobre datos faltantes (missing values): A veces es importante examinar las razones tras datos faltantes y actuar en consecuencia: • algunos valores faltantes expresan características relevantes: p.ej. la falta de teléfono puede representar en muchos casos un deseo de que no se moleste a la persona en cuestión, o un cambio de domicilio reciente. • valores no existentes: muchos valores faltantes existen en la realidad, pero otros no. P.ej. el cliente que se acaba de dar de alta no tiene consumo medio de los últimos 12 meses. • datos incompletos: si los datos vienen de fuentes diferentes, al combinarlos se suele hacer la unión y no la intersección de campos, con lo que muchos datos faltantes representan que esas tuplas vienen de una/s fuente/s diferente/s al resto. 9 Fases del KDD: Selección, Limpieza y Transformación de Datos Transformación del Esquema: • Esquema Original: • Ventajas: Las R.I. se mantienen (no hay que reaprenderlas, no despistan) • Inconvenientes: Muchas técnicas no se pueden utilizar. • Tabla Universal: Cualquier Esquema Relacional se puede convertir (en una correspondencia 1 a 1) a una tabla universal. • Ventajas: Modelos de aprendizaje más simples (proposicionales). • Desventajas: Muchísima Redundancia (tamaños ingentes). La información del esquema se pierde. Muchas dependencias funcionales se vuelven a re-descubrir!! Se debe añadir metainformación. • Desnormalizado Tipo Estrella o Copo de Nieve (datamarts): • Ventajas: Se pueden buscar reglas sobre información sumarizada y si resultan factibles se pueden comprobar con la información detallada. Con operadores propios: Roll-up, Drill-down, Slicing and Dicing. • Desventajas: Orientadas a extraer un tipo de información (granjeros). 10 Fases del KDD: Selección, Limpieza y Transformación de Datos Intercambio de Dimensiones: (filas por columnas) EJEMPLO: Una tabla de cestas de la compra, donde cada atributo indica si el producto se ha comprado o no. • Objetivo: Ver si dos productos se compran conjuntamente (regla de asociación). Es muy costoso: hay que mirar al menos la raíz cuadrada de todas las relaciones (cestas). Y puede haber millones en una semana... Sin embargo... Productos sólo hay unos 10.000. 11 Fases del KDD: Selección, Limpieza y Transformación de Datos Intercambio de Dimensiones: EJEMPLO Si se intercambian filas por columnas tenemos: Jabón Huevos Patatas Fritas Champú Jabón + Champú Huevos + Patatas B1 X B2 B3 X X X X B4 B5 B6 ... X X X Sólo es necesario hace XOR entre dos filas para saber si hay asociación. 12 Fases del KDD: Selección, Limpieza y Transformación de Datos Transformación de los Campos: • Numerización / Etiquetado • Ventajas: Se reduce espacio. Ej: apellido entero. Se pueden utilizar técnicas más simples. • Desventajas: Se necesita meta-información para distinguir los datos inicialmente no numéricos (la cantidad no es relevante) de los inicialmente numéricos (la cantidad es relevante: precios, unidades, etc.) A veces se puede “sesgar” el modelo (biasing). • Discretización: • Ventajas: Se reduce espacio. Ej. 0..10 (pequeño, mediano, grande). Se pueden utilizar árboles de decisión y construir reglas discretas. • Desventajas: Una mala discretización puede invalidar los 13 resultados. Fases del KDD: La Minería de Datos Características Especiales de los Datos: Aparte del gran volumen, ¿por qué las técnicas de aprendizaje automático y estadística no son directamente aplicables? • Los datos residen en el disco. No se pueden escanear múltiples veces. • Algunas técnicas de muestreo no son compatibles con algoritmos no incrementales. • Muy alta dimensionalidad (muchos campos). • Evidencia POSITIVA. • DATOS IMPERFECTOS... Aunque algunos se aplican casi directamente, el interés en la investigación en minería de datos está en su adaptación. 14 Fases del KDD: La Minería de Datos Patrones a descubrir: • Una vez recogidos los datos de interés, un explorador puede decidir qué tipo de patrón quiere descubrir. • El tipo de conocimiento que se desea extraer va a marcar claramente la técnica de minería de datos a utilizar. • Según como sea la búsqueda del conocimiento se puede distinguir entre: • Directed data mining: se sabe claramente lo que se busca, generalmente predecir unos ciertos datos o clases. • Undirected data mining: no se sabe lo que se busca, se trabaja con los datos (¡hasta que confiesen!). • En el primer caso, algunos sistemas de minería de datos se encargan generalmente de elegir el algoritmo más idóneo entre los disponibles 15 para un determinado tipo de patrón a buscar. Fases del KDD: Evaluación y Validación La fase anterior produce una o más hipótesis de modelos. Para seleccionar y validar estos modelos es necesario el uso de criterios de evaluación de hipótesis. Por ejemplo: 1ª Fase: Comprobación de la precisión del modelo en un banco de ejemplos independiente del que se ha utilizado para aprender el modelo. Se puede elegir el mejor modelo. 2ª Fase: Se puede realizar una experiencia piloto con ese modelo. Por ejemplo, si el modelo encontrado se quería utilizar para predecir la respuesta de los clientes a un nuevo producto, se puede enviar un mailing a un subconjunto de 16 clientes y evaluar la fiabilidad del modelo. Fases del KDD: Interpretación y Difusión El despliegue del modelo a veces a veces es trivial pero otras veces requiere un proceso de implementación o interpretación: • El modelo puede requerir implementación (p.ej. tiempo real detección de tarjetas fraudulentas). • El modelo es descriptivo y requiere interpretación (p.ej. una caracterización de zonas geográficas según la distribución de los productos vendidos). • El modelo puede tener muchos usuarios y necesita difusión: el modelo puede requerir ser expresado de una manera comprensible para ser distribuido en la organización (p.ej. las cervezas y los productos congelados se compran frecuentemente en conjunto ponerlos en estantes distantes). 17 Fases del KDD: Actualización y Monitorización Los procesos derivan en un mantenimiento: • Actualización: Un modelo válido puede dejar de serlo: cambio de contexto (económicos, competencia, fuentes de datos, etc.). • Monitorización: Consiste en ir revalidando el modelo con cierta frecuencia sobre nuevos datos, con el objetivo de detectar si el modelo requiere una actualización. Producen realimentaciones en el proceso KDD. 18 Tipología de Técnicas de Minería de Datos Las técnicas de minería de datos crean modelos que son predictivos y/o descriptivos. Un modelo predictivo responde preguntas sobre datos futuros. • ¿Cuáles serán las ventas el año próximo? • ¿Es esta transacción fraudulenta? • ¿Qué tipo de seguro es más probable que contrate el cliente X? Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características. Genera información del tipo: • Los clientes que compran pañales suelen comprar cerveza. • El tabaco y el alcohol son los factores más importantes en la enfermedad Y. • Los clientes sin televisión y con bicicleta tienen características muy diferenciadas del resto. 19 Tipología de Técnicas de Minería de Datos Ejemplo de Modelo Predictivo: • Queremos saber si jugar o no jugar esta tarde al tenis. • Hemos recogido datos de experiencias anteriores: Example 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Sky Sunny Sunny Overcast Rain Rain Rain Overcast Sunny Sunny Rain Sunny Overcast Overcast Rain Temperature Hot Hot Hot Mild Cool Cool Cool Mild Cool Mild Mild Mild Hot Mild Humidity High High High High Normal Normal Normal High Normal Normal Normal High Normal High Wind Weak Strong Weak Weak Weak Strong Strong Weak Weak Weak Strong Strong Weak Strong PlayTennis No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No 20 Tipología de Técnicas de Minería de Datos Ejemplo de Modelo Predictivo: • Pasamos estos ejemplos a un algoritmo de aprendizaje de árboles de decisión, señalando el atributo “PlayTennis” como la clase (output). • El resultado del algoritmo es el siguiente modelo: Outlook? Sunny Humidity? High NO Rain Overcast Wind? YES Normal YES Strong NO Weak YES • Ahora podemos utilizar este modelo para predecir si esta tarde jugamos o no al tenis. P.ej., la instancia: (Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong) es NO. 21 Tipología de Técnicas de Minería de Datos Ejemplo de Modelo Descriptivo: • Queremos categorizar nuestros empleados. • Tenemos estos datos de los empleados: #Ej 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Sueldo 10000 20000 15000 30000 10000 40000 25000 20000 20000 30000 50000 8000 20000 10000 8000 Casado Sí No Sí Sí Sí No No No Sí Sí No Sí No No No Coche No Sí Sí Sí Sí Sí No Sí Sí Sí No Sí No Sí Sí Hijos 0 1 2 1 0 0 0 0 3 2 0 2 0 0 0 Alq/Prop Alquiler Alquiler Prop Alquiler Prop Alquiler Alquiler Prop Prop Prop Alquiler Prop Alquiler Alquiler Alquiler Sindic. No Sí Sí No Sí Sí Sí Sí No No No No No Sí No Bajas/Año 7 3 5 15 1 3 0 2 7 1 2 3 27 0 3 Antigüedad 15 3 10 7 6 16 8 6 5 20 12 1 5 7 2 Sexo H M H M H M H M H H M H M H 22 H Tipología de Técnicas de Minería de Datos Ejemplo de Modelo Descriptivo: • Pasamos estos ejemplos a un algoritmo de clustering K-meams. • Se crean tres clusters, con la siguiente descripción: cluster 1: 5 examples Sueldo : 22600 Casado : No -> 0.8 Sí -> 0.2 Coche : No -> 0.8 Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6 M -> 0.4 cluster 2: 4 examples Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25 M -> 0.75 cluster 3: 6 examples Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 Sí -> 0.33 Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83 M -> 0.17 • GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas. • GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres. • GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres. 23 Tipología de Técnicas de Minería de Datos Tipos de conocimiento: Asociaciones: Una asociación entre dos atributos ocurre cuando la frecuencia de que se den dos valores determinados de cada uno conjuntamente es relativamente alta. Ejemplo, en un supermercado se analiza si los pañales y los potitos de bebé se compran conjuntamente. Dependencias: Una dependencia funcional (aproximada o absoluta) es un patrón en el que se establece que uno o más atributos determinan el valor de otro. Ojo! Existen muchas dependencias nada interesantes (causalidades inversas). Ejemplo: que un paciente haya sido ingresado en maternidad determina su sexo. La búsqueda de asociaciones y dependencias se conoce a veces como análisis exploratorio. 24 Tipología de Técnicas de Minería de Datos Tipos de conocimiento (cont.): Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases, ya conocidas. Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, número de miopías y astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido satisfactoria. Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o negativo a partir de esos atributos. Agrupamiento / Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos. Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no supervisado), con lo que el objetivo es determinar grupos o racimos (clusters) diferenciados del resto. 25 Tipología de Técnicas de Minería de Datos Tipos de conocimiento (cont.): Tendencias/Regresión: El objetivo es predecir los valores de una variable continua a partir de la evolución sobre otra variable continua, generalmente el tiempo. Ejemplo, se intenta predecir el número de clientes o pacientes, los ingresos, llamadas, ganancias, costes, etc. a partir de los resultados de semanas, meses o años anteriores. Información del Esquema: (descubrir claves primarias alternativas, R.I.). Reglas Generales: patrones no se ajustan a los tipos anteriores. Recientemente los sistemas incorporan capacidad para establecer otros 26 patrones más generales. Taxonomía Técnicas de Minería de Datos. Data Mining Verification Driven DM SQL SQL Generator Discovery Driven DM Description Query Tools OLAP Source: http://www.crm-forum.com and Jae Kyu Lee Prediction Classification Visualization Clustering Association Sequential Association Statistical Regression Decision Tree Rule Induction Neural Network Distillation 27 Sistemas Elder Research, www.dataminglab.com 28 Sistemas Tipos de Sistemas: • Standalone: Los datos se deben exportar/convertir al formato interno del sistema de data mining: Knowledge Seeker IV (Angoss International Limited, Groupe Bull). • On-top: pueden funcionar sobre un sistema propietario (Clementine sobre ODBC, microstrategy sobre Oracle). • Embedded (propietarios): Oracle Discoverer, Oracle Darwin, IBM... • Extensible (Tecnología Plug-ins): proporcionan unas herramientas mínimas de interfaz con los datos, estadísticas y visualización, y los algoritmos de aprendizaje se pueden ir añadiendo con plug-ins. (ej. KEPLER). 29 Sistemas Producto Knowledge Seeker CART Clementine Data Surveyor GainSmarts Intelligent Miner Microstrategy Polyanalyst Darwin Enterprise Miner SGI MineSet Wizsoft/Wizwhy Compañía Angoss http://www.angoss.com/ Salford Systems www.salford-systems.com SPSS/Integral Solutions Limited (ISL) www.spss.com Data Distilleries http://www.datadistilleries.com/ Urban Science www.urbanscience.com Técnicas Decision Trees, Statistics Plataformas Win NT Decision Trees UNIX/NT Decision Trees, ANN, Statistics, Rule Induction, Association Rules, K Means, Linear Regression. Amplio Abanico. UNIX/NT ODBC UNIX ODBC Especializado en gráficos de ganancias en campañas de clientes (sólo Decision Trees, Linear Statistics y Logistic Regression). Decision Trees, Association Rules, ANN, RBF, Time IBM http://www.ibm.com/software/data/iminer Series, K Means, Linear Regression. Microstrategy Datawarehouse sólo www.microstrategy.com Megaputer Symbolic, Evolutionary http://www.megaputer.com/html/polyanal yst4.0.html Oracle Amplio Abanico (Decision Trees, ANN, Nearest http://www.oracle.com/ip/analyze/wareho Neighbour) use/datamining/index.html SAS Decision Trees, Association rules, ANN, regression, http://www.sas.com/software/components clustering. /miner.html Silicon Graphics association rules and classification models, used for http://www.sgi.com/software/mineset/ prediction, scoring, segmentation, and profiling http://www.wizsoft.com/ Interfaz ODBC UNIX/NT UNIX (AIX) IBM, DB2 Win NT Oracle Win NT Oracle, ODBC UNIX/NT Oracle UNIX (Sun), NT, Mac Oracle, ODBC UNIX (Irix) Oracle, Sybase, Informix. 30 Sistemas • Más software comercial DM: http://www.kdcentral.com/Software/Data_Mining/ http://www.the-data-mine.com/bin/veiw/Software/WebIndex • Algunos Prototipos No Comerciales o Gratuitos: • Kepler: sistema de plug-ins del GMD (http://ais.gmd.de/KD/kepler.html). • Rproject: herramienta gratuita de análisis estadístico (http://www.R-project.org/) • Librerías WEKA (http://www.cs.waikato.ac.nz/~ml/weka/) (Witten & Frank 1999) 31 Sistemas EJEMPLO: Clementine (Integral Solutions Limited (ISL)) www.spss.com • Herramienta que incluye: • fuentes de datos (ASCII, Oracle, Informix, Sybase e Ingres). • interfaz visual. • distintas herramientas de minería de datos: redes neuronales y reglas. • manipulación de datos (pick & mix, combinación y separación). 32 Sistemas EJEMPLO: Clementine Ejemplo Práctico: Ensayo de Medicamentos http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_3.html • Un número de pacientes hospitalarios que sufren todos la misma enfermedad se tratan con un abanico de medicamentos. • 5 medicamentos diferentes están disponibles y los pacientes han respondido de manera diferente a los diferentes medicamentos. • Problema: ¿qué medicamento es apropiado para un nuevo paciente? 33 Sistemas EJEMPLO: Clementine. Ejemplo Práctico: Ensayo de Medicamentos Primer Paso: ACCEDIENDO LOS DATOS: • Se leen los datos. Por ejemplo de un fichero de texto con delimitadores. • Se nombran los campos: age sex BP Cholesterol Na K drug edad sexo presión sanguínea (High, Normal, Low) colesterol (Normal, High) concentración de sodio en la sangre. concentración de potasio en la sangre. medicamento al cual el paciente respondió satisfactoriamente. SE PUEDEN COMBINAR LOS DATOS: P.ej. se puede añadir un nuevo atributo: Na/K 34 Sistemas EJEMPLO: Clementine Segundo Paso: Familiarización con los Datos. Visualizamos los registros: 35 Sistemas EJEMPLO: Clementine • Permite seleccionar campos o filtrar los datos • Permite mostrar propiedades de los datos. Por ejemplo: ¿Qué proporción de casos respondió a cada medicamento? 36 Sistemas EJEMPLO: Clementine • Permite encontrar relaciones. Por ejemplo: La relación entre sodio y potasio se muestra en un gráfico de puntos. 37 Se observa una dispersión aparentemente aleatoria (excepto para el medicamto Y) Sistemas EJEMPLO: Clementine Se puede observar a simple vista que los pacientes con alto cociente Na/K responden mejor al medicamento Y. Pero queremos una clasificación para todos los medicamentos. Es decir, nuestro problema original: ¿Cuál es el mejor medicamento para cada paciente? Tercer Paso: Construcción del Modelo Tareas a realizar en Clementine: • Filtrar los campos no deseados. • Definir tipos para los campos. • Construir modelos (reglas y redes) 38 Sistemas EJEMPLO: Clementine Se sigue este proceso en Clementine. Además el sistema lo visualiza: A partir de 2.000 ejemplos entrena la red y construye las reglas. 39 Sistemas EJEMPLO: Clementine Permite examinar las reglas: Las reglas extienden el mismo criterio que se había descubierto previamente: es decir, medicamento Y para los pacientes con alto cociente 40 Na/K. Pero además añaden reglas para el resto. Sistemas EJEMPLO: SAS ENTERPRISE MINER (EM) • Herramienta completa. Incluye: • conexión a bases de datos (a través de ODBC y SAS datasets). • muestreo e inclusión de variables derivadas. • partición de la evaluación del modelo respecto a conjuntos de entrenamiento, validación y chequeo. • distintas herramientas de minería de datos: varios algoritmos y tipos de árboles de decisión, redes neuronales, regresión y clustering. • comparación de modelos. • conversión de los modelos en código SAS. • interfaz gráfico. • Incluye herramientas para flujo de proceso: trata en el proceso KDD como un proceso y las fases se pueden repetir, 41 modificar y grabar. Sistemas EJEMPLO: SAS ENTERPRISE MINER (EM) (flujo del proceso KDD) 42 Sistemas EJEMPLO: SAS ENTERPRISE MINER (EM) Selección (assessment) de modelos 43 Sistemas Oracle: Herramientas “Business Intelligence” y “Data Mining” http://www.oracle.com/ip/analyze/warehouse/bus_intell/index.html Tienen una orientación más empresarial y de sistemas de información. Herramientas de OLAP, Datawarehouse e Informes Avanzados: • • • • Oracle Express Server. Sales Analyzer and Financial Analyzer. Oracle Express Objects and Oracle Express Analyzer. Oracle Discoverer and Oracle Reports. Herramientas propias de Minería de Datos: • Oracle Darwin. http://www.oracle.com/ip/analyze/warehouse/datamining/index.html 44 Sistemas MS SQL SERVER: Analysis Services • OLAP Services de SQL Server 97 se amplió a partir de SQL Server 2000 con características de DM en el llamado “Analysis Services”. • Se fundamenta en el “OLE DB for Data Mining”: extensión del protocolo de acceso a BB.DD. OLE DB. • Implementa una extensión del SQL que trabaja con DMM( Data Mining Model) y permite: 1. Crear el modelo 2. Entrenar el modelo 3. Realizar predicciones 45 Visualización Las técnicas de visualización de datos se utilizan fundamentalmente con dos objetivos: • aprovechar la gran capacidad humana de extraer patrones a partir de imágenes. • ayudar al usuario a comprender más rápidamente patrones descubiertos automáticamente por un sistema de KDD. 46 Visualización Estos dos objetivos marcan dos momentos diferentes del uso de la visualización de los datos (no excluyentes): • visualización previa (tb. Visual Data Mining [Wong 1999]): se utiliza para entender mejor los datos y sugerir posibles patrones o qué tipo de herramienta de KDD utilizar. • visualización posterior al proceso de minería de datos: se utiliza para mostrar los patrones y entenderlos mejor. 47 Visualización También marcan dos tipos de usuarios diferentes de las técnicas: • La visualización previa se utiliza frecuentemente por picapedreros, para ver tendencias y resúmenes de los datos, y por exploradores, para ver ‘filones’ que investigar. • La visualización posterior se utiliza frecuentemente para validar y mostrar a los expertos los resultados del KDD. las herramientas gráficas requieren mayor experiencia para seleccionar qué gráfico nos interesa utilizar entre los cientos de gráficas que proporcionan los sistemas actuales. 48 Visualización Visualización Previa: Ejemplo: segmentación mediante funciones de densidad, generalmente representadas tridimensionalmente. Los seres humanos ven claramente los segmentos (clusters) que aparecen con distintos parámetros 49 Visualización Visualización Previa: Mayor problema: dimensionalidad > 3. Objetivo: conseguir proyectar las dimensiones representación en 2 (ó 3 simuladas) dimensiones. en una Solución: Uso de proyecciones geométricas: 50 Visualización Visualización Previa: Proyecciones geométricas: • técnica de visualización de coordenadas paralelas [Inselberg & Dimsdale 1990]. Se mapea el espacio k-dimensional en dos dimensiones mediante el uso de k ejes de ordenadas (escalados linealmente) por uno de abscisas. Cada punto en el espacio k-dimensional se hace corresponder con una línea poligonal (polígono abierto), donde cada vértice de la línea poligonal intersecta los k ejes en el valor para la dimensión. • Cuando hay pocos datos cada línea se dibuja de un color. • Cuando hay muchos datos se utiliza una tercera dimensión para los casos. 1 • técnica radial (igual que la anterior pero los ejes se ponen circularmente) 100 80 60 40 5 2 20 Serie1 Serie2 0 Serie3 Serie4 4 3 51 Visualización Visualización Previa: Ejemplo:dimensionalidad... Dados ciertos atributos de pacientes (tabaquismo, colesterol, tensión, obesidad, alcoholismo, precedentes, estrés) y su riesgo (muy bajo, bajo, medio, alto, muy alto) de enfermedades coronarias: No Bajo Alto Bajo 8,5 No No No No Med Bajo Med 7 No No No No Bajo Bajo Bajo 8,5 No Sí Sí Sí Med Bajo Med 9 No No Sí No Med Med Bajo 9 No No Sí No Med Alto Med 11 No No No No Alto Alto Alto 13 Sí No Sí No M.A. Bajo Bajo 7 No No No No M.B. Bajo Alto 12 Sí Sí Sí Sí M.A. Alto Med 11 No No No Sí Alto Alto Med 8 No No No No Med coordenadas paralelas: S13 S11 S9 S7 S5 Casos S3 Factores S1 Rsg No Strss No Prcd. Sí Alcl. 9 Obsd. Med Representación por Tnsn. Bajo Alto Clstrl. Rsg Tbco. Tbco. Clstrl Tnsn Obsd Alcl Prcd Strs . . . . . Med Alto 8 No Sí Sí No El mayor problema de estas representaciones (y de otras 52 muchas) es que no acomodan bien las variables discretas. Visualización Visualización Previa: • Icónicas: Existen otro tipo de técnicas que sí permiten combinar atributos continuos y discretos, mediante el uso de transformaciones menos estándar y el uso de iconos. • Se utilizan rasgos compatibles y diferenciados para distintas dimensiones, como son círculos, estrellas, puntos, etc., con la ventaja de que se pueden combinar más convenientemente valores discretos y continuos. • Otras aproximaciones más sofisticadas se basan en estructuras jerárquicas, como por ejemplo, los Cone Trees [Robertson et al. 1991]. 53 Visualización Visualización Posterior: Se utiliza para mostrar los patrones y entenderlos mejor. • Un árbol de decisión es un ejemplo de visualización posterior. • Otros gráficos de visualización posterior de patrones: • muestran una determinada segmentación de los datos, una asociación, una determinada clasificación. • utilizan para ello gráficos de visualización previa en los que además se señala el patrón. • permiten evaluar gráficamente la calidad del modelo. 54 Visualización Visualización Posterior: EJEMPLO: se muestra una segmentación lineal para el corte del ejemplo anterior: 2 1 3 4 55 Visualización Visualización Posterior: EJEMPLO: se muestra el grado de asociación según la línea que conecta los valores (continua gruesa, continua, discontinua o inexistente): 56 Visualización Visualización Posterior: EJEMPLO: representación de ganancias acumulativas de un árbol de decisión: liftº = arcsen No/Total El árbol óptimo sería así: A max 57 Otoño 2009 Cada vez es más frecuente el almacén de información en bases de datos como en: Data Warehouse Empresas de Marketing Escuelas Gobierno Esto dificulta la realización de análisis de aspectos relevantes. MC Beatriz Beltrán Martínez Otoño 2009 2 La búsqueda tradicional de datos se realiza mediante análisis estadísticos. A finales de los 80’s la estadística se amplió a técnicas como lógica difusa, razonamiento heurístico y redes neuronales. Actualmente, las técnicas anteriores se aprovechan para generar conocimiento. MC Beatriz Beltrán Martínez Otoño 2009 3 La Minería de Datos es la extracción automática de información predictiva escondida desde bases de datos. La Minería de Datos estudia métodos y algoritmos que permiten la extracción automática de información sintetizada que permite caracterizar las relaciones escondidas. MC Beatriz Beltrán Martínez Otoño 2009 4 En las aplicaciones de la Minería de Datos se hace sobre datos previamente recolectados. Los datos no cambian mientras están siendo analizados. Por lo que los datos generados son confiables y consistentes para éstos datos. MC Beatriz Beltrán Martínez Otoño 2009 5 La Minería de Datos y las Bases de Datos comerciales están disponibles para resolver problemas de decisión de negocios. La Minería de Datos es una tecnología que ayuda a enfocarse en la información más importante en los almacenes de datos. MC Beatriz Beltrán Martínez Otoño 2009 6 Minería de Datos: Bases de Comerciales: Datos › No es una solución a negocios. › Es sólo tecnología. › Encuentra las “gemas pérdidas” en montañas de información. MC Beatriz Beltrán Martínez › Involucra decisiones de información. › Da decisiones de negocios. Otoño 2009 7 Las Herramientas de la Minería de Datos: › Predicen tendencias futuras y comportamientos. › Pueden responder a preguntas que consumarían demasiado tiempo para resolverlas. La automatización, herramientas típicas de decisión. MC Beatriz Beltrán Martínez Otoño 2009 provee soporte de 8 Las Herramientas obtienen de las bases de datos patrones escondidos. Las Técnicas de la Minería de Datos pueden ser implementadas rápidamente en software y en las plataformas de hardware existente. Las Herramientas de Minería de Datos pueden ser implementadas en plataformas cliente-servidor o computadoras de procesamiento paralelo. MC Beatriz Beltrán Martínez Otoño 2009 9 Las Técnicas de la Minería de Datos son el resultado de un largo proceso de investigación y desarrollo de productos. La Minería de Datos esta soportada por tres tecnologías que son lo suficientemente maduras: Colección masiva de datos. Computadoras con multiprocesamiento. Algoritmos de minería de datos. MC Beatriz Beltrán Martínez Otoño 2009 10 En la siguiente tabla se muestra la evolución del tipo de consultas. Evolución Colección de datos (Años 60) Acceso a datos. (Años 80) Data Warehouse y soporte a la toma de decisiones. (Años 90) Data Mining (1995) Preguntas de Negocios Tecnologías permitidas Cuales fueron los ingresos en los últimos 5 años? Computadoras, cintas y discos. (Procesamiento analítico en línea, bases de datos multidimensionales y almacenes de datos. Liberación de datos estáticos retrospectiva. Nivel de registro en liberación de datos dinámicos retrospectiva. Niveles múltiples en liberación de datos dinámicos retrospectiva. Algoritmos avanzados, computadoras con multiprocesador y bases de datos masivas. Liberación de información proactiva prospectiva Que rebajas se tuvieron en Bases de datos Nueva Inglaterra en marzo? relacionales y lenguajes de consulta estructurados (SQL) Que rebajas se tuvieron en Nueva Inglaterra en marzo? Repetir para Boston. Que es lo más probable que pase con las rebajas en Boston el próximo mes? MC Beatriz Beltrán Martínez Características Otoño 2009 11 El componente principal en la Tecnología de la Minería de Datos ha sido desarrollado en: Estadística Inteligencia Artificial Máquinas de Aprendizaje Actualmente, existe gran relevancia en: Ambientes de negocios Las descripciones básicas de las arquitecturas de almacenes de datos. MC Beatriz Beltrán Martínez Otoño 2009 12 Las técnicas para la Minería de Datos son: Redes Neuronales Artificiales. Árboles de Decisión. Algoritmos Genéticos. Modelos Lineales. Vecino más Cercano. MC Beatriz Beltrán Martínez Otoño 2009 13 La Minería de Datos ha surgido del potencial del análisis de grandes volúmenes de información. Su fin es obtener resúmenes y conocimiento para la toma de decisiones. Además se pretende construir experiencia a partir de millones de transacciones. MC Beatriz Beltrán Martínez Otoño 2009 14 El conjunto de datos de donde la minería intenta extraer conocimiento se le llama conjunto de entrenamiento. La meta de la Minería es obtener conocimiento válido no solo para la base de datos considerada sino para una muy similar. El conocimiento puede ser probado con otro conjunto de entrenamiento. MC Beatriz Beltrán Martínez Otoño 2009 15 Algunas de las aplicaciones de la Minería de Datos son: › › › › › › Compañias Farmaceuticas. Compañias de crédito. Compañias de transporte. Compañias de consumo. Reacciones químicas. Comercio, monitoreo. MC Beatriz Beltrán Martínez Otoño 2009 16 Facilidad con que se puede caer en una falsa interpretación. Es fácil equivocarse. Tiempo y espacio. Privacidad MC Beatriz Beltrán Martínez Otoño 2009 17 BD Selección Datos Preprocesado Selección de características Extracción de conocimiento Conocimiento MC Beatriz Beltrán Martínez Otoño 2009 Evaluación Modelo clasificador 18 Algoritmos de aprendizaje: Mediante una técnica de Minería de Datos, se obtiene un modelo de conocimiento. El modelo representa patrones de comportamiento observados en los valores de las variables o relaciones de asociación. También pueden usarse técnicas para generar distintos modelos. MC Beatriz Beltrán Martínez Otoño 2009 19 Los métodos descubren: no supervisados, patrones y tendencias en los datos actuales. El descubrimiento de esa información sirve para llevar a cabo acciones y obtener un beneficio de ellas. MC Beatriz Beltrán Martínez Otoño 2009 20 Data Mining Verification Driven DM SQL Discovery Driven DM SQL Generator Description Visualization Query Tools OLAP Prediction Clasification Clustering Association Secuential Association MC Beatriz Beltrán Martínez Decision Tree Distillation Otoño 2009 Statistical Regression Rule Induction Neural Network 21 Agrupamiento. › También se llama segmentación. › Identifica tipologías de grupos, donde se guarda similitud. › Se requiere información sobre el colectivo a segmentar. › La información corresponde a valores concretos. › Se basan en herramientas de carácter estadísticos, generación de reglas, redes neuronales,etc. MC Beatriz Beltrán Martínez Otoño 2009 22 Métodos estadísticos. › Técnica tradicional en el tratamiento de grandes volúmenes de datos. › Existen varios modelos: ANOVA (Análisis de Varianza). Contrasta con variables continuas. Ji cuadrado. Contrasta con la independencia de variables. Componentes principales. Permite reducir el número de variables. MC Beatriz Beltrán Martínez Otoño 2009 23 Métodos estadísticos. Análisis de clústers. Permite clasificar poblaciones. Análisis de discrimante. Permite encontrar reglas de clasificación de elementos en grupos. Regresión lineal. Se identifica una variable dependiente de las independientes, con una relación lineal. Regresión logística. Trabaja con variables discretas, se requiere que las variables sean lineales. MC Beatriz Beltrán Martínez Otoño 2009 24 Árboles de decisión. › Herramientas analíticas empleadas para el descubrimiento de reglas y relaciones. › Se construye partiendo el conjuntos de dos (CART) o más (CHAID). › Cada subconjunto a su vez es particionado. › Se continua hasta no encontrar diferencias significativas de influencia. MC Beatriz Beltrán Martínez Otoño 2009 25 Reglas de asociación. › Derivan de un tipo de análisis que extrae información por coincidencias. › Permite descubrir correlaciones o coocurrencias en los sucesos de la base de datos. › Se formaliza la obtención de reglas del tipo SI... ENTONCES. MC Beatriz Beltrán Martínez Otoño 2009 26 Redes neuronales. › Son capaces de detectar y aprender patrones y características de los datos. › Una vez adiestradas las redes pueden hacer previsiones, clasificaciones y segmentación. › Esto se realiza estructurando nivels o capas. › Se tienen dos tipos de aprendizaje: supervisado y no supervisado. MC Beatriz Beltrán Martínez Otoño 2009 27 Algorítmos genéticos. › Hacen uso de técnicas de reproducción (mutación y cruce) para ser utilizadas para búsqueda y optimización. › Se parte de una población inicial, y se altera optimizándola. › Esta herramienta se usa en las primeras fases de la minería y después se aplica redes neuronales o regresión logística. MC Beatriz Beltrán Martínez Otoño 2009 28 Lógica difusa. › Surge de la necesidad de modelar la realidad de forma mas exacta, evitando el determinismo y exactitud. › Permite el tratamiento probabilístico de categorización colectiva. › Trata la existencia de barreras difusas o suaves entre grupos. MC Beatriz Beltrán Martínez Otoño 2009 29 Series temporales. › Consisten en el estudio de una variable a través del tiempo para que partiendo de ese conocimiento y con el supuesto de no cambios poder realizar predicciones. › Se basan en ciclos, tendencias y estaciones. › Se puede aplicar enfoques híbridos entre métodos anteriores, o con otro tipo de variables. MC Beatriz Beltrán Martínez Otoño 2009 30 Redes bayesianas. › Son una alternativa para la minería. › Se tiene las ventajas: Permiten aprender sobre relaciones de dependencia y causalidad. Permiten combinar conocimiento de datos. Evitan el sobre-ajuste de datos. Permiten el manejo de bases de datos incompletas. MC Beatriz Beltrán Martínez Otoño 2009 31 Inducción de reglas. › Como información de entrada, se tiene un conjunto de casos donde se ha asociado una clasificación o evaluación. › Con tal información se obtiene un árbol de decisión, que soportan la evaluación o clasificación. › En caso de que la entrada tenga ruido, esta técnica se puede habilitar con métodos estadísticos. MC Beatriz Beltrán Martínez Otoño 2009 32 Sistemas basados en conocimiento y sistemas expertos. › Permiten la formalización de árboles y reglas de decisión, extraídas del conocimiento de expertos. › Poseen motores de inferencia, que gestionan las preguntas. › De esta forma el proceso de decisión es eficiente y rápido. MC Beatriz Beltrán Martínez Otoño 2009 33 Selección de técnicas adecuadas. El mínimo aceptable para elegir una tecnología de MD y un producto depende de qué tanto el producto beneficia al negocio: Ingresos. Costos disminuidos. Rendimiento de inversiones. Para desarrollar con éxito un negocio, el MD debe buscar deseados. algo MC Beatriz Beltrán Martínez más Otoño 2009 que patrones 34 Se tienen tres medidas claves, para una evaluación de las herramientas. Precisión: Se deben modelos precisos, pero reconociendo pequeñas diferencias en las técnicas. Explicación: Las herramientas deben explicar al usuario final de manera clara como funciona el modelo. Integración: Las herramientas deben integrarse en el proceso real del negocio, flujos de datos e información de la empresa. MC Beatriz Beltrán Martínez Otoño 2009 35 Con la aparición de Internet, los negocios del Siglo XXI se hacen bajo un entorno digital. Cada área de la empresa maneja sus propias fuentes de datos. Por ellos, es necesario integrar todos los sistemas de información en una organización; no solo para procesar esa información eficientemente sino también para crear inteligencia empresarial que sirva para todas las actividades. Es apoyar de forma sostenible y continuada a las organizaciones para mejorar su competitividad, facilitando la información necesaria para la toma de decisiones. INTELIGENCIA DE NEGOCIOS “es un proceso interactivo para explorar y analizar información estructurada sobre un área (normalmente almacenada en un datawarehouse), para descubrir tendencias o patrones, a partir de los cuales derivar ideas y extraer conclusiones” FACULTAD DE ADMINISTRACIÓN ESCUELA DE POSTGRADO ✓ Simplifica el acceso a la información y ahorra tiempos en la elaboración de reportes. ✓ Estandariza procesos permitiendo la eliminación de procesos manuales para la generación de la información. ✓ Provee información unificada y homogénea para toda las áreas funcionales. ✓ Visión integral de la organización. FACULTAD DE ADMINISTRACIÓN ESCUELA DE POSTGRADO VENTAJAS DE BI ✓ Monitoreo detallado de la organización. ✓ Flexibilidad de análisis. ✓ Permite detectar tendencias, oportunidades y riesgos que podrán ser traducidos en ventajas competitivas. ✓ La toma de decisiones es fundamentada en información confiable y precisa. FACULTAD DE ADMINISTRACIÓN ESCUELA DE POSTGRADO VENTAJAS DE BI ✓ Permite comunicación integral con los colaboradores de la organización. ✓ Posibilita la detección de patrones delictivos o fraudulentos. ✓ Permite ampliar los CRM conocimientos de las relaciones con clientes y partners. ✓ Ofrecen indicadores de rendimiento clave. FACULTAD DE ADMINISTRACIÓN ESCUELA DE POSTGRADO ✓ RÁPIDEZ: Modelo de datos o capa lógica con la flexibilidad para dar respuestas oportunas. ✓ FIABILIDAD: Información de calidad, íntegro y con procesos estandarizados. ✓ ABSTRACCIÓN: Capacidad de dar respuestas a preguntas complejas. ✓ NAVEGACIÓN: Capacidad de lo simple a lo complejo ✓ PRESENTACIÓN: Fácil interpretación de la información. FACULTAD DE ADMINISTRACIÓN ESCUELA DE POSTGRADO FACULTAD DE ADMINISTRACIÓN ESCUELA DE POSTGRADO FACULTAD DE ADMINISTRACIÓN ESCUELA DE POSTGRADO Los datos están localizados en todo el mundo como elementos primarios o un conjunto de valores que no dicen nada sobre el porqué de las cosas, por ejemplo un nombre o un número que solo nos ayudan a la toma de decisiones. La información es el conjunto de datos procesados y que tienen un significado que disminuye la incertidumbre cuando se añade un valor, que puede ser a través de la contextualización, el cálculo, la categorización o la agregación y que al receptor puede hacer cambiar la forma de su comprensión. El conocimiento se encuentra en agentes como personas, empresas, organizaciones donde la experiencia, los valores, la comparación con pares, predicciones de consecuencias, búsqueda de conexiones e información, permiten retroalimentar las acciones de las empresas. Este tipo de software permite a las empresas avanzar en la mejora competitiva por medio de cinco acciones fundamentales: ► Observación, mediante la cual se recopilan los datos y se analiza lo que está pasando. ► Comprensión, favorecida por el análisis profundo y el cruce de datos para la obtención de información valiosa. ► Predicción, propiciada por la evolución de los datos que permite realizar estimaciones a futuro. ► Colaboración, gracias a la difusión de los resultados y la cooperación entre departamentos. ► Decisión, último paso en el cual se propone la estrategia a seguir en función del análisis y las simulaciones realizadas. FACULTAD DE ADMINISTRACIÓN ESCUELA DE POSTGRADO Con el paso del tiempo, el mercado ha sido testigo de la aparición de múltiples soluciones de Business Intelligence. Arquitectura abierta, el tipo de arquitectura empleado para el diseño del software es, con diferencia, uno de los rasgos más críticos en una solución de Business Intelligence. Amplitud de bases de datos soportadas, la diversidad actual de tipos de bases de datos se ha convertido en todo un reto cuando se trata de implantar una solución de TI. Una solución de Business Intelligence de calidad debe ofrecer la mayor compatibilidad posible con distintas bases de datos. FACULTAD DE ADMINISTRACIÓN ESCUELA DE POSTGRADO Suministro de datos en tiempo real, si una solución de este tipo no es capaz de brindar datos en tiempo real, las decisiones que se adopten se verán claramente limitadas y podrían incluso resultar contradictorias. Compatibilidad con las estructuras de almacenamiento de datos (Data-Warehouse) y Data-Mart, tal y como explicamos en nuestro artículo sobre los principales desafíos de la implantación de Business Intelligence, el volumen y multiplicidad de datos supone todo un reto logístico cuya solución pasa por reunir toda la información en un mismo lugar y formato. Las estructuras de almacenamiento de datos o Data Warehouse posibilitan esta solución. Un Data-Mart es una versión especial de estos sistemas de almacenamiento, destinada a un departamento específico. Estas bases de datos integran y depuran la información de diversas fuentes para realizar un análisis mucho más ágil y con diversidad de enfoques. FACULTAD DE ADMINISTRACIÓN ESCUELA DE POSTGRADO Capacidades de autoservicio, gracias a la “capacidad de autoservicio”, los usuarios finales de un determinado programa de Business Intelligence disponen de la autonomía necesaria para generar sus propios informes , determinar los patrones de análisis y, en definitiva, ejecutar sus propias consultas sin necesidad de contar con la asistencia del personal de IT. Fácil importación de datos desde otras aplicaciones, en ocasiones, determinadas soluciones de Business Intelligence requieren que los datos provenientes de otras aplicaciones sean manufacturados e integrados en tablas o formatos semejantes. Versión móvil, a estas alturas, no resulta aceptable que una solución de Business Intelligence no disponga de una versión para dispositivos móviles. La creciente movilidad que está caracterizando el desarrollo de determinados puestos de trabajo, así como el auge imparable de los smartphones y tabletas ha dejado obsoletas aquellas aplicaciones y soluciones no adaptadas a esta nueva realidad. La Inteligencia de Negocios o Business Intelligence (BI) permite a las compañías contar con la información adecuada para una mejor toma de decisiones. Las compañías que implementan el BI logran sacar mayor provecho de las situaciones de crisis gracias a la posibilidad de contar con un análisis de mercado más acertado debido a que los datos pesados son transformados en importantes estrategias corporativas. Actualmente, las herramientas de BI disponibles en el mercado son incontables, pero se destacan 20 sofwares: El Científico de Datos es hoy, laboralmente, un capital humano altamente calificado y buscado ya que es quien logra convertir los datos en valor para la organización. Microsoft Dynamics NAV: especial para pequeñas y medianas empresas que buscan mejorar su competitividad. Microsoft Dynamics CRM: efectiva para la administración de clientes. Oracle Business Intelligence: una de las más completas en el mercado ya que cuenta con paneles interactivos, análisis predictivos en tiempo real, entre otros. Ultimus: un entorno integrado que permite compartir información entre aplicaciones. Office SharePoint Server: facilita el acceso a la información en cualquier momento y lugar. QlikView: mantiene las bases de datos al alcance de una manera sin precedentes. Microsoft Performance Point Server: permite supervisar, alinear y hacer un plan de negocio. Microsoft SQL Server: adecuada para realizar un análisis panorámico de la empresa y tomar las mejores decisiones. JetReports: especial para crear informes ERP. Eclipse BIRT Project: genera informes para aplicaciones web de código abierto. JasperReports: permite crear informes de rápida impresión. LogiReport: aplicación gratuita basada en web de LogiXML OpenI: aplicación web orientada al reporting OLAP. SPSS: programa estadístico especialmente empleado en ciencias sociales e investigaciones de mercado. Pentaho: incluye herramientas para generar informes, minería de datos, ETL, entre otros. RapidMiner: permite analizar datos a través de un entorno gráfico. Crystal Reports: genera informes desde bases de datos múltiples. ApeSoft: ofrece una interface sencilla similar a Microsoft Excel. SAS Institute: facilita la gestión de riesgo financiero, desarrollo de modelos de minería de datos, etc. NiMbox: organiza los datos de la empresa en interactivas aplicaciones. Business Intelligence es un nombre dado a un conjunto de herramientas utilizadas por una entidad para optimizar su rendimiento, haciendo un uso inteligente de la información. La importancia del Business Intelligence para las empresas está en que estas herramientas permiten tener un control absoluto de la información, de esta forma las organizaciones pueden gestionar estos datos de forma más eficaz para así poder entender su situación actual, plantear posibles escenarios futuros y tomar decisiones más inteligentes basadas en el conocimiento. Se solía decir que la información es poder. Pero ahora el poder es entenderla. Por eso cualquier empresa hoy en día debería plantearse seriamente el uso de herramientas de análisis de datos para extraer todo el conocimiento posible de su organización. Solo así podrá mantenerse competitiva en el mercado. Global Bike Curriculum: Introduction to S/4HANA using Global Bike Teaching material - Information i Teaching material - Version 3.3 (Mai 2019) Software used • SAP S/4HANA 1809 Model • Global Bike Prerequisites • No Prerequisites needed © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 2 Module Information Authors Simha Magal Stefan Weidner Jeff Word Target Audience Beginner © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 3 Module Information Learning Objectives At the completion of this module, you should be able to: Describe the story of the Global Bike Group Draw the organisational structures of the Global Bike Group Describe the essential characteristics of the products and business partners of the Global Bike Group. List the business processes of the Global Bike Group. © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 4 Agenda Global Bike Group Organizational Structure Products Business Partners Business Processes © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 5 Global Bike Group Background: • Global concern using full ERP capabilities • Consists of two companies located in the US and in Germany History: • • • • • • • John Davis won numerous mountain bike championships in the US In 1990, started his own mountain bike company (Frankenstein Bikes) Peter Schwarz grew up on road bikes in the Black Forest, Germany As a student, he engineered ultra-light composite frames In 1993, started his own bike frame company (Heidelberg Composites) Both met in 2000 In 2001, merged to form Global Bike Inc. © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 6 Global Bike Group Strategy: • John and Peter are Co-CEOs • John is responsible for (in terms of reporting) Sales, Marketing, Service and Support, IT, Finance, and Human Resources sells products and brings in money • Peter is responsible for Research, Design, Procurement, and Manufacturing Groups builds products and spends money • World-class bicycle company serving both the professional and “prosumer” in touring and off-road racing. • Focus on: Quality Toughness Performance © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 7 Agenda Global Bike Group Organizational Structure Products Business Partners Business Processes © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 8 Organizational Structure (Overview) Concern Global Bike Group Co-CEO John Davis Co-CEO Peter Schwarz Global Bike Inc. Dallas Miami © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. San Diego Global Bike Germany GmbH Heidelberg Hamburg Companies Locations 9 Organizational Structure (Human Resources) Employees (US and Germany) © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 10 Agenda Global Bike Group Organizational Structure Products Business Partners Business Processes © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 11 Products Trading Goods Raw Materials • Accessories Safety Gear Other © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 12 Products Semi-Finished Goods Finished Goods • Touring Bikes (Deluxe, Professional) in three colors • Off-Road Bikes (Men, Women) © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 13 Agenda Global Bike Group Organizational Structure Products Business Partners Business Processes © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 14 Business Partners Customers (US and Germany) © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 15 Vendors (US and Germany) Vendors (US and Germany) © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 16 Agenda Global Bike Group Organizational Structure Products Business Partners Business Processes © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 17 Business Processes Sell – Fulfillment People – Human Capital Management Buy – Procurement Store – Inventory and Warehouse Management Make – Production Maintain – Enterprise Asset Management Track – Financial Accounting Service – Customer Service Track – Controlling Project – Project Management © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 18 Cross-functional Integration © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 19 Process Integration (example) Order-to-Cash Process • Sales and Distribution (SD) • Materials Management (MM) • Financial Accounting (FI) © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 20 Process Integration (example) Procure-to-Cash Process • Materials Management (MM) • Financial Accounting (FI) © 2019 SAP SE / SAP UCC Magdeburg. All rights reserved. 21 Introduction to SAP S/4HANA Next Generation Business Suite Curriculum Information i Curriculum Version GBI 3.3 (July 2019) Software used • S/4HANA 1809 Prerequisites • / © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 2 Module Information Authors Babett Ruß Target Audience Beginner to advanced © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 3 Module Information Learning Objectives At the completion of this module, you will: Describe the SAP vision of the Intelligent Enterprise Be able explain the basic concepts of an Enterprise Resource Planning solution based on the SAP S/4HANA system. Explain how to use the SAP Fiori User Interface to interact with the S/4HANA system © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 4 Agenda SAP – The Intelligent Enterprise Fast Facts about SAP S/4HANA What´s New? Transition to SAP S/4HANA Guess What © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 5 Agenda SAP – The Intelligent Enterprise Fast Facts about SAP S/4HANA What´s New? Transition to SAP S/4HANA Guess What © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 6 SAP – The Intelligent Enterprise Market leader in enterprise application software One of the world largest independent software manufacturer 400,000 satisfied Customers in 190 countries SAP enables companies to • Streamline processes • Use live data Intelligence will reinvent industries and change business forever • Predict customer trends • Connect entire businesses Best-run technologies and solutions deployed end-to-end for your industry. © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 7 SAP – Run Simple A Short History SAP joins the Internet SAP R/3 can now be used online 2002 1995/96 Development SAP R/3 SAP presents at the CeBIT Hanover 30th Birthday of SAP 3rd largest independent software provider 1993/94 Partnership with Microsoft connecting SAP R/3 with Windows NT operating system IBM Corporation is now using SAP R/3 1986-89 1981/82 Introduction SAP R/2 1972 Foundation of SAP Development of real-time data application software © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 8 SAP – Run Simple A Short History 2015 Implementation of 1st SAP in-memory computing product 2013 SAP HANA platform Data access possible in seconds 2011 2009 2005/06 Announcment of release SAP ERP © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. SAP Business Suite moves to SAP HANA fastest growing product in history of enterprise software Launching Business Suite 7 optimization of business performance reduce IT costs 9 Agenda SAP – The Intelligent Enterprise Fast Facts about SAP S/4HANA What´s New? Transition to SAP S/4HANA Guess What © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 10 What´s New? SAP S/4HANA … … is the next generation Business Suite 1979 1992 … is the biggest innovation since SAP R/3 … connects people, business networks and devices 2004 R/2 … works in real time 2015 R/3 ERP S/4HANA … represents efficiency, simplicity and innovation … master data is managed centrally, for example partners, customers and vendors © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 11 Fast Facts about SAP S/4HANA Enterprise Resource Planning (SAP ERP) Enables a company to support and optimize its business processes Helps the organization run smoothly Real-time environment, Scalable and flexible Collections of logically related transactions within identifiable business functions © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. Buy (MM) Track (CO) People (HCM) Sell (SD) Maintain (EAM) Make (PP) Store (WM) Track (FI) Projekt (PS) Services (CS) 12 Fast Facts about SAP S/4HANA Data Types in ERP Systems ? … © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. ? … ? … 13 Fast Facts about SAP S/4HANA Data Types in ERP Systems Organizational Data Master Data Transaction Data Company Code Person Purchase Order Plant Material Invoice Storage Location Customer Quotation Distribution Channel Vendor Sales Order Purchasing Organization Work Centre Transportation Order … … … © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 14 Fast Facts about SAP S/4HANA Organizational Unit SAP Terminology: Enterprise Company Client Subsidiary Company Code Plant Plant Sales Organization Sales Organization Sales Organization Division Storage Location Department © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. Division Business Area Storage Location 15 Fast Facts about SAP S/4HANA Master Data Stored for a long time and seldom changed Represent logically grouped data like: • Customer Master • Material Master • Vendor Master • General Ledger accounts © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 16 Fast Facts about SAP S/4HANA Transaction Data Transaction data is the system record of business event. Depending on the business event, different master data and organizational data will be referenced For example, during a sales order business event, the following data is stored • Organizational level: client, company code, sales organization • Master data: customer, material, pricing (condition) • Situational data: date, time, person, amount © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 17 Fast Facts about SAP S/4HANA Documents Transactions are data sets that are generated if a business transaction was executed. Is a record of the business transaction Includes all relevant predefined information from the master data and organizational entities Example: • Sales Document • Purchasing Document • Material Document • Accounting Document Document Flow The document flow as well as the order status allow the setting of the status at any point in time SAP revises the status every time a change in a document takes place © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 18 Fast Facts about SAP S/4HANA Digital Transformation - Why? Changing the way of life Empowered & Informed Customer Customer s Simulation Forecasting Research Contact to the companies by social media etc New possibilities Drivers of Change IoT Companies Technology New organization units © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. Changing customer expections Big Data Cloud Mobility 19 Fast Facts about SAP S/4HANA S/4HANA is the digital core of the company that enables digital transformation. © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 20 Digital Platform unlocks data-driven intelligence and innovation Next generation data management expands SAP HANA in-memory database to address structured and unstructured data use cases and external data SAP HANA powers SAP Applications as the foundation of high performance data warehousing and analytics © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. Data Hub provides data orchestration and meta data management across heterogeneous data sources Platform for extending the business processes of our Intelligent Suite and enabling new innovations Delivering deep data and process integrations through APIs and microservices Marketplace for ecosystem to build new innovations leveraging APIs and Business Services 21 4th Generation Customer Experience Suite SAP C/4HANA Trusted, personalized customer experience by giving customers transparency & control over their data Unified Intelligent User Experience Conversational, Contextual and Intelligent UX Built-in Intelligence SAP Marketing Cloud SAP Commerce Cloud SAP Sales Cloud SAP Service Cloud Market with Intelligence in the Moment Personalized Shopping Experience across Touchpoints Build Relationships and guide Customers throughout their journey Make Customers happy SAP Customer Data Cloud Build Customer Trust and Loyalty SAP Cloud Platform Extension Factory Microservices Internet of Things Extensions Cloud-native Microservice based universal Extension Framework. Machine Learning © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. Integration Blockchain 22 Fast Facts about SAP S/4HANA Back to Standard Cloud Modifications ERP Any DB © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. Simplification On-Premise 23 SAP S/4HANA Architecture © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 24 Fast Facts about SAP S/4HANA On-Premise vs. Cloud SAP S/4HANA … … Choose between Cloud and On-Premise • Cloud and On-Premise can be used hybridly without losing the company´s integration • Possible migration of SAP Business Suite customers SAP Fiori SAP S/4HANA Core SAP HANA © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 25 Fast Facts about SAP S/4HANA On-Premise vs. Cloud Subscription Licensing Deployment in the private cloud, maintained by SAP Traditional licensing Traditional licensing with customer control of deployment and maintenance • SAP provides system and controls maintenance • Private control of deployment and maintenance • Automatic participation in quarterly innovation upgrades • Hardware at companies location • Privately controlled data • In-App extensibility with limited ABAP • Fewer release cycles • Current release cycles • Individual requirements possible • SAP ERP embedded • Traditional ABAP extensibility up to core modification © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 26 Agenda SAP – The Intelligent Enterprise Fast Facts about SAP S/4HANA What´s New? Transition to SAP S/4HANA Guess What © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 31 What´s New? SAP S/4HANA … … works with in-memory … has a new and modern design … works with new technology © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. In-Memory Database Fiori OLAP + OLTP together • • • • Column Store In-Memory Processing Compression Parallel Processing • • Hardware independence Mobile devices • Real-time analytics on current data Consolidated forecasts including actual and planned cash data • 32 What´s New? Innovation & Simplification Compression SAP HANA Real-Time Simplified OLAP + OLTP together SAP FIORI Any Attribute as an Index © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 33 What´s New? SAP HANA SAP HANA is an In-Memory Database that allows you to process data very fast But SAP HANA can do way more with its different processing engines © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 34 What´s New? Real Time Simplification • Example of data compression Traditional DB 593 GB on HANA 118,6 GB S/4 HANA 42,4 GB Traditional Database Architecture Principles of the S/4HANA Data Model • Normalized data modeling third normal form • Storage of data in denormalized form • Avoid unwanted redundancies • Single source of data • Avoid inconsistencies and anomalies • No longer need for redundant data storage for tasks such as aggregation • Processing of aggregation and analytics on the fly • Check for inconsistencies and anomalies due to denormalization are no longer a critical task Disadvantages A typical booking transaction addressed 15 tables. Now it only impacts 4 tables. BKPF BSEG BSEG BSEG BSIS BSIS BSIK BSET LFC1 GLT0 GLT0 GLT0 COBK COEP COSP © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. Frequent use of redundant data to increase the performance of e.g. data aggregation Higher effort to update redundant data 35 What´s New? SAP FIORI SAP S/4HANA … provides SAP Fiori user experience and interface • Independent of hardware • Real-time © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 36 What´s New? SAP FIORI SAP Fiori offers three application types: Transactional Apps: • Access to tasks like create, change or display process with guided navigation Analytical Apps: • Visual overview about business data Factsheet: • View essential information about objects and contextual navigation between related objects © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 37 Agenda SAP – The Intelligent Enterprise Fast Facts about SAP S/4HANA What´s New? Transition to SAP S/4HANA Guess What © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 38 Transition to SAP S/4HANA New Implementation System Conversion Landscape Transformation © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. ERP System Non-SAP System ERP System SAP S/4HANA ERP System – Region A ERP System – Region B ERP System – Region C 39 Agenda SAP – The Intelligent Enterprise Fast Facts about SAP S/4HANA What´s New? Transition to SAP S/4HANA Guess What © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 43 Guess What… … Which of the following statements regarding SAP S/4HANA On-Premise are true? SAP provides system and controls maintenance Privately controlled data Automatic participation in quarterly innovation upgrades Hardware at companies location Fewer release cycles © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 44 Guess What… … Which of the following statements regarding SAP S/4HANA On-Premise are true? SAP provides system and controls maintenance Privately controlled data Automatic participation in quarterly innovation upgrades Hardware at companies location Fewer release cycles © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 45 Guess What… …On which of the following key concepts is SAP S/4HANA mainly based? Distributed data storage Simplified data model Extended upgrade cycles Guided configuration SAP Fiori-Enabled user interaction © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 46 Guess What… …On which of the following key concepts is SAP S/4HANA mainly based? Distributed data storage Simplified data model Extended upgrade cycles Guided configuration Completely SAP Fiori-Enabled user interaction © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 47 Guess What… … SAP Fiori offers in S/4HANA different application types. Which of the following statements are true? With SAP S/4HANA Factsheet you can view essential information about objects and contextual navigation between related objects Since SAP S/4HANA you are able to use WebGUI Transactional Apps provides an visual overview about business data Access to tasks like create, change or display process with guided navigation are given by Analytical Apps © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 48 Guess What… … SAP Fiori offers in S/4HANA different application types. Which of the following statements are true? With SAP S/4HANA Factsheet you can view essential information about objects and contextual navigation between related objects Since SAP S/4HANA you are able to use WebGUI Transactional Apps provides an visual overview about business data Access to tasks like create, change or display process with guided navigation are given by Analytical Apps © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 49 Guess What… … Which of the following statements regarding SAP S/4HANA are true? SAP S/4HANA provides scalable, real-time, predictive and simulation capabilities SAP S/4HANA is only available as a cloud solution SAP S/4HANA is made for siloed, non-integrated business SAP S/4HANA enables instant, contextual information and a personal experience SAP S/4HANA is SAP´s new suite to help customer reimagine their business © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 50 Guess What… … Which of the following statements regarding SAP S/4HANA are true? SAP S/4HANA provides scalable, real-time, predictive and simulation capabilities SAP S/4HANA is only available as a cloud solution SAP S/4HANA is made for siloed, non-integrated business SAP S/4HANA enables instant, contextual information and a personal experience SAP S/4HANA is SAP´s new suite to help customer reimagine their business © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 51 Guess What… … Which of the following are top capabilities in the Real-Time Inventory Management use case from an IT perspective? No aggregate tables Reduced memory footprint Separation of data entities Highest possible data consistency Unlimited backups for inventory data © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 52 Guess What… … Which of the following are top capabilities in the Real-Time Inventory Management use case from an IT perspective? No aggregate tables Reduced memory footprint Separation of data entities Highest possible data consistency Unlimited backups for inventory data © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 53 Guess What… … Which types of integration are currently available between SAP S/4HANA and other cloud solutions from SAP? Hybris Ariba SAP Business One Successfactors SAP S/4HANA integration to SAP Business ByDesign © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 54 Guess What… … Which types of integration are currently available between SAP S/4HANA and other cloud solutions from SAP? Hybris Ariba SAP Business One Successfactors SAP S/4HANA integration to SAP Business ByDesign © 2017 SAP SE / SAP UCC Magdeburg. All rights reserved. 55 Thank you!