Minería de Datos

Anuncio
Minería de Datos
Vallejos, Sofia
Contenido
¾ Introducción:
I t d
ió
• Inteligencia de negocios (Business Intelligence).
• Componentes
• Descubrimiento de conocimiento en bases de datos (KDD).
(KDD)
¾ Minería de Datos:
•
•
•
•
•
Perspectiva histórica.
Fases de un Proyecto.
Proyecto
Fuentes de datos.
Funciones de minería.
Modelos típicos de minería.
¾ Ejemplos:
• Clustering.
• Asociación.
• Red neuronal como modelo predictivo.
¾ Web Mining.
¾ Conclusiones.
Vallejos, Sofia
Inteligencia
g
de Negocios
g
Hace referencia a un conjunto de productos y servicios
para acceder a los datos, analizarlos y convertirlos en
información.
“ Es un paraguas bajo el que se incluye un conjunto de
p
y metodologías
g
cuya
y misión consiste en
conceptos
mejorar el proceso de toma de decisiones en los
negocios basándose en hechos y sistemas que trabajan
con hechos.”
Howard Dresner
Gartner Group, 1989.
989.
Vallejos, Sofia
Inteligencia de Negocios
Componentes
¾ Multidimensionalidad.
¾ Agentes.
¾ Data Warehouse.
¾ Data Mining.
Vallejos, Sofia
Descubrimiento de
C
Conocimiento
i i t en Bases
B
de
d Datos
D t
Es un proceso de extracción no trivial para identificar
patrones que
p
q sean válidos,, novedosos,, potencialmente
p
útiles y entendibles, a partir de los datos.
Su objetivo principal:
l procesar automáticamente
á
grandes cantidades de datos para encontrar
conocimiento
n m n ú
útil p
para
r un u
usuario
u r y satisfacer
f
r sus
u
metas.
Vallejos, Sofia
Descubrimiento de
Conocimiento en Bases de
d Datos
Jerarquía
Vallejos, Sofia
Descubrimiento de
C
Conocimiento
i i t en Bases
B
de
d Datos
D t
Et
Etapas
d
de KDD
Vallejos, Sofia
Qué es Minería
de Datos
¾E
Es ell proceso de
d exploración
l
ió y análisis
áli i – de
d manera
automática o semiautomática – de los datos para
obtener p
patrones significativos
g
y reglas
g
de negocio.
g
¾ Consideraciones:
• Los patrones deben ser significativos.
• Sin automatización es imposible mirar grandes cantidades
de datos, p
pero se debe dar más énfasis a las etapas
p de
exploración y análisis, que al modo de exploración.
• Data Mining es un proceso.
Vallejos, Sofia
Qué es Minería
de Datos
¾ La
L MD puede
d ser dividida
di idid en:
• Minería de datos predictiva (mdp): usa
primordialmente técnicas estadísticas.
• Minería de datos para el descubrimiento de
conocimiento (mddc): usa principalmente técnicas
de inteligencia artificial.
artificial
Vallejos, Sofia
Qué no es Minería
de Datos
¾ No es un producto que se compra enlatado sino una
disciplina
p
que debe ser dominada.
q
¾ No es una solución instantánea a los problemas de
negocio.
¾ No es un fin en sí mismo,
mismo sino un proceso que ayuda a
encontrar soluciones a problemas de negocio.
Vallejos, Sofia
Minería de Datos:
Perspectiva histórica
Vallejos, Sofia
Fases de un Proyecto de
Minería de Datos
¾ El proceso de minería de datos pasa por las
si uientes fases:
siguientes
f ses:
• Filtrado de datos.
• Selección de Variables.
Variables
• Extracción de Conocimiento.
• Interpretación
p
y Evaluación.
Vallejos, Sofia
Fases de un Proyecto de DM:
Filtrado de datos
¾ Mediante el preprocesado, se filtran los datos
• Se eliminan valores incorrectos
incorrectos, no válidos
válidos, desconocidos
desconocidos...
según las necesidades y el algoritmo a usar).
• Se obtienen muestras de los mismos (en busca de una mayor
velocidad de respuesta del proceso).
proceso)
• Se reducen el número de valores posibles (mediante
redondeo, clustering,...).
Vallejos, Sofia
Fases de un Proyecto de DM:
Selección de Variables
¾ Los métodos para la selección de características son
básicamente dos:
• Aquellos basados en la elección de los mejores atributos del
problema.
• Y aquellos que buscan variables independientes mediante
tests de sensibilidad
sensibilidad, algoritmos de distancia o heurísticos.
heurísticos
Vallejos, Sofia
Fases de un Proyecto de DM:
Extracción de Conocimiento
¾ Mediante una técnica de minería de datos:
•
Se obtiene un modelo de conocimiento,, que
q representa
p
patrones de comportamiento observados en los valores de
las variables del problema o relaciones de asociación entre
dichas variables.
Vallejos, Sofia
Fases de un Proyecto de DM:
Interpretación y Evaluación
¾ Se debe proceder a su validación, comprobando que
las conclusiones que arroja son válidas y
suficientemente
suf
c entemente sat
satisfactorias.
sfactor as.
¾ Si ninguno de los modelos alcanza los resultados
esperados, debe alterarse alguno de los pasos
anteriores para generar nuevos modelos.
modelos
Vallejos, Sofia
Integrantes
g
del proyecto
p y
Vallejos, Sofia
El analista de datos
¾ Es el vínculo entre las áreas de tecnología informática y las áreas
de negocio.
¾ Habilidades requeridas:
• Manipulación de datos (SQL).
• Conocimiento de técnicas de minería y análisis exploratorio.
p
• Habilidad de comunicación (interpretación) de los problemas de
negocio.
Vallejos, Sofia
El analista de datos
¾ Traduce los requerimientos de información en preguntas
apropiadas para su análisis
á
con las herramientas de minería.
í
Vallejos, Sofia
Fuentes de Datos
¾ Tipos
p de fuentes:
• Transaccionales: Ej. operaciones realizadas con una tarjeta
de crédito.
• Relaciónales: Ej.
j estructura de p
productos que
q ofrece un
banco.
• Demográficos: Ej. características del grupo familiar.
¾ Origen de datos:
•
•
•
•
Bases de datos relacionales.
DataWarehouses
DataWarehouses.
Data Marts.
Otros formatos: Excel, Access, encuestas, archivos planos.
Vallejos, Sofia
Calidad de los Datos
¾ El éxito de las actividades de Data Mining se
relaciona directamente con la CALIDAD de los datos.
datos
¾ Muchas veces resulta necesario pre-procesar los
d
datos,
antes d
de d
derivarlos
l all modelo
d l d
de análisis.
ál
¾ El preproceso puede incluir transformaciones,
transformaciones
reducciones o combinaciones de los datos.
¾L
La semántica
á i de
d llos d
datos debe
d b ayudar
d para
seleccionar una conveniente representación, dado
que influye directamente sobre la calidad del modelo.
Vallejos, Sofia
Funciones de minería
¾ Utilizan técnicas matemáticas elaboradas para
d
descubrir
b
patrones ocultos
l
en los
l datos.
d
Ellas
Ell son:
•
•
•
•
•
•
•
•
•
Asociación.
Clasificación neuronal.
Clasificación en árbol.
Clustering
g demográfico.
g
Clustering neuronal.
Patrones secuenciales.
Secuencias semejantes.
semejantes
Predicción neuronal.
Predicción - función base radial.
Vallejos, Sofia
Modelos típicos de
minería
9 Clustering.
9 Clasificación.
9 Estimación.
9 Predicción.
9 Agrupamiento a partir de reglas de asociación.
Vallejos, Sofia
Modelos típicos de minería:
Clustering
¾ Agrupar a los clientes según indicadores F
(frecuencia), M (monto), etc en segmentos de
comportamientos homogéneos.
¾ Resultado: Clientes Buenos, Medios, Malos.
¾ El 78% de la facturación se concentra en el cluster
Buenos.
¾L
Los clientes
li t Buenos
B
son casados,
d
con hij
hijos,
trabajadores autónomos con ingreso superior a
$3000 p
pesos.
Vallejos, Sofia
Modelos típicos de minería:
Clasificación y Estimación
¾ Clasificar un nuevo cliente – de acuerdo a su perfil
sociodemográfico
g
– como un cliente:
• Bueno.
• Medio.
• Malo.
¾E
Estimar
i
ell consumo de
d un determinado
d
i d rubro
b d
de
artículos de un grupo de clientes en el próximo
trimestre.
Vallejos, Sofia
Modelos típicos de minería:
Predicción
¾ Predecir el abandono de un cliente:
• Para una compañía de telefonía celular.
• Para una AFJP.
• Para una tarjeta de crédito.
Vallejos, Sofia
Modelos típicos de minería:
Asociación
¾ Encontrar las reglas que determinan la interrelación
entre p
productos para
p
clientes de un banco. Por
ejemplo:
“ Cuando
un cliente
l
se activa en Caja de Ahorros,
h
ell
siguiente producto donde se activa es Préstamos
Personales.
r n
.E
Este p
patrón
r n ocurre
urr el 6
65 % de los
casos. ”
Vallejos, Sofia
Elección del modelo
¾ Principales objetivos del proceso de Data Mining:
• Predicción.
• Descripción.
¾ El método
é
a utilizar
l
depende de los
l objetivos
perseguidos por el análisis pero también de la calidad
y cantidad
n
de los datos disponibles.
p n
.
Vallejos, Sofia
DB2-Intelligent
g
Miner for Data
9 Comprende un conjunto de funciones estadísticas, de
proceso y de minería de datos.
9Ofrece herramientas de visualización.
Vallejos, Sofia
Ejemplos con DB2
Intelligent Miner for Data
9 Clustering.
9 Asociación.
Asociación
9 Red neuronal como modelo predictivo.
Vallejos, Sofia
Clustering
g
¾ Es la partición del conjunto de individuos en
subconjuntos
j
lo más homogéneos
g
p
posibles.
¾ El objetivo es maximizar la similitud de individuos del
cluster
l
y maximizar las
l diferencias
f
entre clusters.
l
¾ Se aplica para segmentación de bases de datos,
datos
identificación de tipos de clientes, etc.
Vallejos, Sofia
Aportes del software
de minería
¾ Determinar el número óptimo de clusters.
¾ Asignar a cada individuo a un único cluster.
¾ Evaluar el impacto de las variables en la formación
del cluster.
¾ Comprender el “perfil” de cada cluster.
Vallejos, Sofia
Ejemplo
j p de Clustering
g
La gerencia comercial de un banco necesita identificar
all segmento
t más
á valioso
li
d clientes
de
li t d
de una ttarjeta
j t d
de
crédito para organizar sus gastos de promociones y
campañas de marketing directo.
¾ Datos disponibles:
•
•
•
•
•
•
Frecuencia de uso de la tarjeta.
S ld promedio
Saldo
di mensuall en $
$.
Posesión de tarjeta Gold.
Monto promedio por cada transacción.
C tid d d
Cantidad
de servicios
i i por débit
débito automático.
t áti
Datos sociodemográficos: sexo, edad, estado civil,
ocupación, hijos.
• Fuente
F
t d
de d
datos:
t s: ttransacciones
s
i
sd
dell último
últi
año,
ñ ttabla
bl d
de
clientes.
Vallejos, Sofia
Ejemplo
j p de Clustering
g
¾ Preparación de los datos:
• Definir la unidad de análisis: ¿cuenta o tarjeta?.
• Definir qué es una transacción: ¿cómo se consideran los
ajustes?.
j t ?
• Describir las variables a incluir en el modelo.
¾ Tabla de datos:
Vallejos, Sofia
Ejemplo
j p de Clustering
g
¾ Medida de calidad del modelo:
• Criterio de Condorcet: asume
m un valor entre 0 y 1.
¾ Criterios de segmentación:
• Se toman como variables activas las que corresponden al
comportamiento de consumo.
• Se toman como variables suplementarias los atributos
sociodemográficos.
Vallejos, Sofia
Solución de 4 clusters
Vallejos, Sofia
Buenos clientes con
tarjeta Gold
Vallejos, Sofia
Buenos clientes sin
tarjeta Gold
Vallejos, Sofia
Asociación
¾ Análisis
A álisis de
d la
l canasta
st de
d mercado:
d
• Objetivo: generar reglas del tipo:
SI condición ENTONCES resultado
• Ejemplo:
SI producto A y producto C ENTONCES producto B
¾ ¿Cuán buena es una regla?. Medidas que la califican:
• Soporte.
S
• Confianza.
• Mejora.
M j
Vallejos, Sofia
Ejemplo
j p de Asociación
¾ El dueño de una pizzería vende 3 gustos de pizzas:
pepperoni, queso y hongos, y quiere armar “combos”
con las combinaciones más convenientes.
¾ Parte de un conjunto de 2000 tickets con los
correspondientes items (gusto de pizza) incluido en
cada
d uno.
Vallejos, Sofia
Ejemplo
j p de Asociación
¾ Cálculo de las medidas de Asociación:
Vallejos, Sofia
Red neuronal
¾ La Inteligencia
g
Artificial trabaja
j con
modelos conexionistas.
¾ El modelo conexionista imita el
ssistema
stema más complejo conoc
conocido
do hasta
el momento: el cerebro.
¾ El cerebro está formado por millones
de células llamadas neuronas.
¾ Estas neuronas son unos procesadores
de información muy sencillos con un
canal de entrada de información
(dendrita), un órgano de cómputo
(soma) y un canal de salida de
información (axón).
Vallejos, Sofia
La neurona artificial
¾ Elementos:
•
•
•
•
Entradas.
Entradas
Pesos sinápticos.
Reglas de propagación.
Función
ó de activación.
ó
Vallejos, Sofia
Ejemplo
j p de red neuronal
Valuación de propiedades
Vallejos, Sofia
Ejemplo
j p de red neuronal
Datos
Vallejos, Sofia
Vallejos, Sofia
Extensiones de la DM
¾ Web mining
• Web content mining (minería de contenido web). Es el proceso
que consiste en la extracción de conocimiento del contenido de
documentos o sus descripciones.
descripciones
• Web structure mining (minería de estructura web). Es el
proceso d
de iinferir
f i conocimiento
i i t d
de lla organización
i
ió d
dell WWW y
la estructura de sus ligas.
• Web usage mining (minería de uso web). Es el proceso de
extracción de modelos interesantes usando los logs de los
accesos al web.
Vallejos, Sofia
Vallejos, Sofia
Conclusiones
Ventajas
¾ La Minería de Datos es una herramienta eficaz para
dar respuestas a preguntas complejas de
Inteligencia de Negocios.
¾ Las herramientas disponibles permiten automatizar
gran parte
g
p
de la tarea de encontrar los patrones
p
de
comportamiento ocultos en los datos.
¾ Es una buena manera de convertir datos en
información, y esta a su vez en conocimiento, para la
correcta toma de decisiones.
Vallejos, Sofia
Conclusiones
Ventajas
¾ Ahorra grandes cantidades de dinero a una empresa
y abre nuevas oportunidades de negocios.
¾ proporciona poder de decisión a los usuarios del
negocio, y es capaz de medir las acciones y
resultados de la mejor forma.
Vallejos, Sofia
Conclusiones
Desventajas
¾Q
Que llos productos
d t a comercializar
i li
son
significativamente costosos.
¾ Que se requiera de experiencia para utilizar
herramientas de tecnología.
¾ Que sea fácil de hallar patrones equívocos triviales o
no interesantes.
¾ La Privacidad.
Vallejos, Sofia
Referencias
¾ Building Data Mining Applications for CRM. A. Berson, S. Shmit,
K. Thearling. Mc Graw Hill, 2000.
¾ Data Mining with Neuronal Networks. Joseph Bigus. Mc Graw
Hill, 1996.
¾ Principles of Data Mining. D. Hand, H. Manilla, P. Smyth. The
MIT Press. USA, 2000.
¾ U. Fayyad, G. Grinstein, A. Wierse. Data Mining and Knowledge
Discovery. M. Kaufmann, Harcourt Intl., USA, 2001.
Vallejos, Sofia
Fin d
de lla P
Presentación
nt ión
M h Gracias
Muchas
G
i !!
Vallejos, Sofia
Descargar