Jornada_MitosRealidades_BigData (PDF, 4532 Kb )

Anuncio
Jornada:
“Mitos y Realidades del Big Data”
-Introducción al Big DataUrko Zurutuza
Dpto. Electrónica e Informática
Mondragon Goi Eskola Politeknikoa JMA
Mondragon Unibertsitatea
Agenda
•  Introducción al Big Data (Urko Zurutuza)
•  Caso Práctico 1: (Adolfo Cortés)
–  Big Data para eficiencia energética en PYMEs
•  Caso Práctico 2 (Mario Íñiguez/Pedro )
–  Big Data para prever modelos de fuga de clientes
–  Big Data para eficiencia en hornos y procesos industriales en
condiciones extremas de temperatura
Índice
1.  Introducción
2.  Instalo y uso una BBDD NoSQL. ¿Hago Big Data?
3.  Tengo una plataforma basada en Hadoop instalada en mi
equipo, ¿Tengo Big Data?
4.  Conozco y aplico técnicas de Machine Learning y Data Mining
en la empresa. ¿Soy Big Data?
5.  Entonces, cómo hago, tengo y soy Big Data?
Data
50 x
CRECIMIENTO DE DATOS PARA EL 2020
Big Data
“Big Data” hace referencia al conjunto de información que
es demasiado compleja como para ser procesada mediante
TI tradicionales de manera aceptable
–Min Chen, Shiwen Mao, and Yunhao Liu. Big Data: A Survey. Mobile Networks and Applications,
19(2):171–209, 2014.
Big Data
“Big Data hace referencia al conjunto de información que
es demasiado compleja como para ser procesada mediante
TI tradicionales de manera aceptable
–Min Chen, Shiwen Mao, and Yunhao Liu. Big Data: A Survey. Mobile Networks and Applications,
19(2):171–209, 2014.
V
Big Data
olume
elocity
ariety
Instalo y uso una BBDD NoSQL. ¿Hago Big
Data?
NoSQL (Not Only SQL)
•  Base de Datos de nueva generación que en su mayoría
aborda algunas de las siguientes características:
–  no relacional,
–  distribuida,
–  open-source, y
–  horizontalmente escalable
[fuente: http://nosql-database.org/]
NoSQL (Not Only SQL) - Tipos
Tipo
Descripción
Clave-Valor
Cada elemento tiene una clave y su
valor asociado.
Familias de
Columnas
Para consultas sobre grandes
conjuntos de datos. Enfoque en
columnas no en filas
Documentos
Empareja una clave con una estructura
de datos o documento.
Grafos
Guarda nodos y sus relaciones. RRSS,
estructuras de redes,…
Ejemplo
emcached
Instalo y uso una BBDD NoSQL. ¿Hago Big
Data?
Tengo una plataforma basada en Hadoop
instalada en mi equipo, ¿Tengo Big Data?
Hadoop
•  Sistema que permite una computación
–  Fiable,
–  Escalable, y
–  Distribuida
•  Un Framework que permite el procesamiento distribuido
de grandes conjuntos de datos sobre clusters de
ordenadores.
Ecosistema Hadoop (simplificado)
Machine
Learning
Colector de
datos
Apache Pig:
Scripting
Data
Warehouse
Procesamiento
Distribuido de datos
Conector
BBDDR-HDFS
YARN
Zookeeper:
Coordina la
distribución
Gestiona recursos del
Cluster
Almacenamiento
redundante y fiable
S.O.
S.O.
S.O.
S.O.
S.O.
S.O.
S.O.
S.O.
S.O.
Map-Reduce
Map
Split
Shuffle
&
Sort
Reduce
,4
,2
,4
,3
ass
ign
s
ign
s
s
s
a
Master
,4
,2
,4
,3
Tengo una plataforma basada en Hadoop
instalada en mi equipo, ¿Tengo Big Data?
Conozco y aplico técnicas de Machine Learning y
Data Mining en la empresa. ¿Soy Big Data?
Conozco y aplico técnicas de Machine Learning y
Data Mining en la empresa. ¿Soy Big Data?
•  El fin del Big Data es extraer valor de tantos datos
•  Análisis de Datos (Big Data Analytics)
–  Recomendación basada en el comportamiento de usuarios
–  Agrupación de documentos de texto parecidos (por ejemplo)
–  Clasificación o predicción en base a casos anteriores
Conozco y aplico técnicas de Machine Learning y
Data Mining en la empresa. ¿Soy Big Data?
•  In-Memory Analytics vs. In-Hadoop Analytics
•  El fondo es el mismo, pero ahora:
–  Distribuido
–  Escalable
•  Herramientas
–  R
–  Spark (Mllib)
–  TODOS: RapidMiner, SAS, Teradata,…
Conozco y aplico técnicas de Machine Learning y
Data Mining en la empresa. ¿Soy Big Data?
Entonces, cómo hago, tengo y soy Big Data?
1.  Objetivos: ¿Qué valor añadido quiero obtener?
2.  Selecciona la infraestructura: en la empresa, o en la
nube (IaaS, PaaS, SaaS)
3.  Fórmate/contrata expertos
4.  Une las piezas (requisitos técnicos)
5.  Realiza implementaciones ágiles e iterativas
6.  Empieza con objetivos simples e integra los resultados
Objetivos: ¿Qué valor añadido quiero obtener?
•  Alinea la necesidad de Big Data con los objetivos de
negocio
•  Implementar Big Data es decisión de negocio, no de TI
•  Evalúa los requisitos de los datos (V’s!)
Selecciona la infraestructura
•  En casa?
–  Hardware (mínimo): 2*6core CPU, 24-64GB RAM, 1-2TB HDD
–  Distribuciones Hadoop: Cloudera, MapR, Hortonworks
•  En la nube?
–  IaaS (Amazon Elastic Compute Cloud, Azure,…)
–  PaaS (Amazon Elastic MapReduce, Azure HDInsight,…)
–  SaaS (Teradata, sqlstream,…)
Fórmate
• 
• 
• 
• 
• 
Administración del cluster
NoSQL
Desarrollo (Java, Python, R, …)
Machine Learning / Data Mining
Visual analytics (d3.js, CartoDB, Gephi, Tableu,…)
Une las piezas
• 
• 
• 
• 
• 
¿Qué preguntas debo responder?
¿Cómo recojo los datos?
¿Cómo los almaceno?
¿Cómo los analizo?
¿Cómo muestro los resultados?
Realiza implementaciones ágiles e iterativas
Empieza con objetivos simples e integra los
resultados
•  Según se van obteniendo pequeños resultados,
aparecen nuevas preguntas a responder.
•  Integrar resultados con el Sistema de Producción/
Sistema de Gestión actual
Conclusiones
• 
• 
• 
• 
Objetivos, estrategia, ROI
Datos: ¿Estamos preparados?
Infraestructura Local o en la Nube?
Big Data está relacionado con:
Análisis de Datos = Data Science
•  Analizas tus datos en “Small Data” ahora?
Eskerrik asko
Urko Zurutuza
Mondragon Unibertsitatea
[email protected]
https://es.linkedin.com/in/uzurutuza/
@urkovain
www.mondragon.edu
Descargar