Tema 1 - UPV Universitat Politècnica de València

Anuncio
Temario
Minería de Datos
1. Introducción a la Minería de Datos (DM)
1.1. Motivación
1.2. Problemas tipo y aplicaciones
1.3. Relación de DM con otras disciplinas
1. Introducción a la Minería de Datos
2. El proceso de KDD
2.1. Las Fases del KDD
2.2. Tipología de Técnicas de Minería de Datos
2.3. Sistemas Comerciales y Herramientas de Minería de Datos
2.4. Preparación y Visualización de Datos
3. Técnicas de Minería de Datos
José Hernández Orallo
3.1. El Problema de la Extracción Automática de Conocimiento.
3.2. Evaluación de Hipótesis
3.3. Técnicas no supervisadas y descriptivas.
3.4. Técnicas supervisadas y predictivas.
[email protected]
4. Web Mining
Máster y Cursos de Postgrado del DSIC
Universitat Politècnica de València
4.1. Los Problemas de la Información No Estructurada.
4.2. Extracción de Conocimiento a partir de Documentos HTML y texto.
4.3. Extracción de Información semi-estructurada (XML).
5. Otros Aspectos
Objetivos Tema 1
2
Ejemplos
• Reconocer la problemática del análisis de grandes
volúmenes de datos y de los beneficios de su uso
sistemático para la obtención de modelos y
patrones predictivos o descriptivos.
• Conocer las aplicaciones habituales de la minería
de datos.
• AGENTE en un BANCO:
¿Debo conceder el crédito a este cliente?
• GERENTE de un SUPERMERCADO:
¿Cuándo se compran huevos, se suele comprar también
aceite?
• DIRECTOR de RR.HH. de una EMPRESA:
¿Qué tipos de empleados tengo?
• Conocer la relación de la minería de datos con
otras disciplinas.
3
• COMERCIAL de una EMPRESA DE COMERCIALIZACIÓN:
¿Cuántos televisores planos se estima vender el mes que
viene?
4
Ejemplos
Ejemplos
• GERENTE de un SUPERMERCADO:
¿Cuándo se compran huevos, se suele comprar también aceite?
• AGENTE en un BANCO:
¿Debo conceder el crédito a este cliente?
Idc
Datos históricos:
D-crédito
(años)
C-crédito
(euros)
Salario
(euros)
Casa
propia
Cuentas
morosas
Devuelvecrédito
…
Idcesta
Huevos
Aceite
Pañales
Vino
Leche
Mantequilla
Salmón
Endibias
...
1
sí
no
no
sí
no
sí
sí
sí
...
...
101
15
60.000
2.200
sí
2
…
no
2
no
sí
no
no
sí
no
no
sí
102
2
30.000
3.500
sí
0
…
sí
3
no
no
sí
no
sí
no
no
no
...
103
9
9.000
1.700
sí
1
…
no
4
no
sí
sí
no
sí
no
no
no
...
104
15
18.000
1.900
no
0
…
sí
5
sí
sí
no
no
no
sí
no
sí
...
105
10
24.000
2.100
no
0
…
no
6
sí
no
no
sí
sí
sí
sí
no
...
...
…
…
…
…
…
…
…
7
no
no
no
no
no
no
no
no
...
8
sí
sí
sí
sí
sí
sí
sí
no
...
...
...
...
...
...
...
...
...
...
...
Datos históricos:
Minería de Datos
Patrón / Modelo:
Si Cuentas-Morosas > 0 entonces Devuelve-crédito = no
Si Cuentas-Morosas = 0 Y [(Salario > 2.500) O (D-crédito > 10)] entonces Devuelve-crédito = sí
Huevos Æ Aceite : Confianza = 75%, Soporte = 12%
5
Ejemplos
• COMERCIAL de una EMPRESA DE COMERCIALIZACIÓN:
¿Cuántos televisores planos se estima vender el mes que viene?
Id
Sueldo
Casado
Coche
Hijos
Alq/Prop
Sindicado
Bajas/Año
Antigüedad
1
10000
Sí
No
0
Alquiler
No
7
15
H
2
20000
No
Sí
1
Alquiler
Sí
3
3
M
3
15000
Sí
Sí
2
Prop
Sí
5
10
H
4
30000
Sí
Sí
1
Alquiler
No
15
7
M
5
10000
Sí
Sí
0
Prop
Sí
1
6
H
6
40000
No
Sí
0
Alquiler
Sí
3
16
M
7
25000
No
No
0
Alquiler
Sí
0
8
H
8
20000
No
Sí
0
Prop
Sí
2
6
M
15
8000
No
Sí
0
Alquiler
No
3
2
H
...
...
...
...
...
...
...
...
...
...
Patrón / Modelo:
6
Ejemplos
• DIRECTOR de RR.HH. de una EMPRESA:
¿Qué tipos de empleados tengo?
Datos
históricos:
Minería de Datos
Patrón / Modelo:
Sexo
Minería de Datos
• Grupo 1: Sin hijos y con vivienda de alquiler. Poco sindicados. Muchas bajas.
• Grupo 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente son mujeres y tienen casas de alquiler.
7
• Grupo 3: Con hijos, casados y con coche. Mayoritariamente hombres propietarios de su vivienda. Poco sindicados.
Datos históricos:
PRODUCTO
MES−12
...
MES−4
MES−3
MES−2
MES−1
televisor plano 30’
20
...
52
14
139
74
MES
?
vídeo-dvd-recorder
11
...
43
32
26
59
?
discman
50
…
61
14
5
28
?
frigorífico gama alta
3
…
21
27
1
49
?
nevera
14
...
27
2
25
12
?
…
…
…
…
…
…
…
...
Minería de Datos
Patrón / Modelo:
Modelo lineal: Ventas Mes Siguiente TV planos:
8
V(Mes)TVplanos = 0.62 · V(Mes-1)Tvplanos + 0.33 · V(Mes-2)Tvplanos + 0.12 · V(Mes-1)DVD-Recorder – 0.05
Motivación
Motivación
Nuevas Necesidades del Análisis
de Grandes Volúmenes de Datos
• La mayoría de decisiones de empresas, organizaciones e
instituciones se basan también en información de experiencias
pasadas extraídas de fuentes muy diversas.
• El aumento del volumen y variedad de información que se
encuentra informatizada en bases de datos digitales ha
crecido espectacularmente en la última década.
• las decisiones colectivas suelen tener consecuencias mucho
más graves, especialmente económicas, y, recientemente, se
deben basar en volúmenes de datos que desbordan la
capacidad humana.
• Gran parte de esta información es histórica, es decir,
representa transacciones o situaciones que se han producido.
• Aparte de su función de “memoria de la organización”, la
información histórica es útil para predecir la información
futura.
El área de la extracción (semi-)automática de
conocimiento de bases de datos ha adquirido
recientemente una importancia científica y
económica inusual
9
Motivación
10
Relación de DM con Otras Disciplinas
• El usuario final no es un experto en aprendizaje
automático ni en estadística.
• El usuario no puede perder más tiempo analizando
los datos:
ƒ industria: ventajas competitivas, decisiones más efectivas.
ƒ ciencia: datos nunca analizados, bancos no cruzados, etc.
ƒ personal: “information overload”...
Aparece...
• “Descubrimiento de Conocimiento a partir de Bases
de Datos” (KDD, del inglés Knowledge Discovery from
Databases).
“proceso no trivial de identificar patrones válidos, novedosos,
potencialmente útiles y en última instancia comprensibles a
partir de los datos”. Fayyad et al. 1996
• RELACIONES:
Los sistemas clásicos de estadística son difíciles de
usar y no escalan al número y tipo de datos que se
suelen encontrar en bases de datos.
11
ƒ Diferencia con métodos estadísticos: la estadística se utiliza
para validar o parametrizar un modelo sugerido y
preexistente, no para generarlo.
ƒ Diferencia sutil con “Análisis Inteligente de Datos” (IDA,
Intelligent Data Analysis) que correspondía con el uso de
12
técnicas de inteligencia artificial en el análisis de los datos.
Relación de DM con Otras Disciplinas
• KDD nace como interfaz y se nutre de diferentes
disciplinas:
ƒ estadística.
Relación de DM con Otras Disciplinas
• La minería o prospección de datos (DM) no es más
que una fase del KDD:
ƒ Fase que integra los métodos de aprendizaje y
estadísticos para obtener hipótesis de patrones
y modelos.
ƒ sistemas de información / bases de datos.
ƒ aprendizaje automático / IA.
ƒ visualización de datos.
• Al ser la fase de generación de hipótesis, vulgarmente se
asimila KDD con DM.
ƒ computación paralela / distribuida.
ƒ interfaces de lenguaje natural a bases de datos.
13
Relación de DM con Otras Disciplinas
• La minería de datos no es una extensión de los
sistemas de informes inteligentes o sistemas OLAP.
La minería de datos aspira a más
ƒ Otras herramientas, p.ej. consultas sofisticadas o análisis
estadístico, pueden responder a preguntas como:
“¿Han subido las ventas del producto X en junio?”
• Además, las connotaciones de aventura y de dinero fácil del
término “minería de datos” han hecho que éste se use como
identificador del área.
14
Relación de DM con Otras Disciplinas
• Los sistemas OLAP y las herramientas de minería de
datos son complementarias.
• Los sistemas OLAP permiten obtener la información que está
en la base de datos (sea implícita o explícitamente) de
manera agregada, cruzada y sumarizada, eficientemente.
• El resultado siempre es cierto y exacto. No es un
resultado hipotético.
“¿Las ventas del producto X bajan cuando promocionamos el producto Y?”
“¿El factor Y influye en las ventas del producto X?”
ƒ Pero sólo con técnicas de minería de datos podremos
responder a preguntas del estilo:
“¿He de conceder el préstamo al cliente X?
• Las herramientas de minería de datos permiten obtener
información que no está en la base de datos, pero que se
puede inferir de ella con cierta plausibilidad.
• El resultado puede ser falso y es aproximado. Es un
resultado hipotético.
“¿Qué se suele comprar cuando se compran pañales?
15
“¿Cuál será el producto más vendido si abrimos una delegación en Portugal?”
16
Áreas de Aplicación
Relación de DM con Otras Disciplinas
• Visión con las herramientas tradicionales:
Áreas de Aplicación:
• El analista empieza con una pregunta, una suposición
o simplemente una intuición y explora los datos y
construye un modelo. El analista propone el modelo.
• Visión con la minería de datos:
• Aunque el analista no pierde la posibilidad de
proponer modelos, el sistema encuentra y sugiere
modelos.
Ventajas:
• Generar un modelo requiere menos esfuerzo manual y permite
evaluar cantidades ingentes de datos.
• Se pueden evaluar muchos modelos generados
automáticamente, y esto aumenta la probabilidad de encontrar
un buen modelo.
• El analista necesita menos formación sobre construcción de
modelos y menos experiencia.
Más importante
industrialmente
• Toma de Decisiones (banca-finanzas-seguros,
márketing, políticas sanitarias/demográficas, ...)
• Procesos Industriales (componentes químicos,
compuestos, mezclas, esmaltes, procesos, etc.)
• Investigación Científica (medicina, astronomía,
meteorología, psicología, ...). Aquí la eficiencia no es tan
importante.
• Soporte al Diseño de Bases de Datos.
• Reverse Engineering (dados una base de datos,
desnormalizarla para que luego el sistema la normalice).
• Mejora de Calidad de Datos.
• Mejora de Consultas (si se descubren dependencias
funcionales nuevas u otras condiciones evitables).
17
18
Áreas de Aplicación. Problemas Tipo.
Áreas de Aplicación. Problemas Tipo.
KDD para toma de decisiones (Dilly 96)
KDD para toma de decisión
Comercio/Marketing:
- Identificar patrones de compra de los clientes.
- Buscar asociaciones de clientes y características demográficas.
- Predecir respuesta a campañas de mailing.
- Análisis de cestas de la compra.
Banca:
- Detectar patrones de uso fraudulento de tarjetas de crédito.
- Identificar clientes leales.
- Predecir clientes con probabilidad de cambiar su afiliación.
- Determinar gasto en tarjeta de crédito por grupos.
- Encontrar correlaciones entre indicadores financieros.
- Identificar reglas de mercado de valores a partir de históricos.
Seguros y Salud Privada: - Análisis de procedimientos médicos solicitados conjuntamente.
- Predecir qué clientes compran nuevas pólizas.
- Identificar patrones de comportamiento para clientes con riesgo.
- Identificar comportamiento fraudulento.
Transportes:
- Determinar la planificación de la distribución entre tiendas.
- Analizar patrones de carga.
19
Medicina:
- Identificación de terapias médicas satisfactorias para diferentes
enfermedades.
- Asociación de síntomas y clasificación diferencial de patologías.
- Estudio de factores (genéticos, precedentes, hábitos, alimenticios,
etc.) de riesgo/salud en distintas patologías.
- Segmentación de pacientes para una atención más inteligente según
su grupo.
- Predicciones temporales de los centros asistenciales para el mejor
uso de recursos, consultas, salas y habitaciones.
- Estudios epidemiológicos, análisis de rendimientos de campañas de
información, prevención, sustitución de fármacos, etc.
20
Áreas de Aplicación. Problemas Tipo.
KDD para Procesos Industriales
-
Extracción de modelos sobre comportamiento de compuestos.
Detección de piezas con trabas.
Predicción de fallos
Modelos de calidad.
Estimación de composiciones óptimas en mezclas.
Extracción de modelos de coste.
Extracción de modelos de producción.
Simulación costes/beneficios según niveles de calidad
21
Descargar