buenas prácticas para la segmentación

Anuncio
III JORNADAS DE DATA MINING
EN EL MARCO DE LA MAESTRÍA EN DATA MINING
DE LA UNIVERSIDAD AUSTRAL
BUENAS PRÁCTICAS PARA LA SEGMENTACIÓN COMPORTAMENTAL
DE CLIENTES EN INDUSTRIA DE TELECOMUNICACIONES
Flavio Giannico,
Consultor en Minería de Datos en SAS.
IAE - Pilar, 12 y 13 de agosto de 2008
Buenas prácticas para segmentación
comportamental de clientes en empresas
de telecomunicaciones
Flavio Martín Giannico
Consultor
Pilar, Agosto 12, 2008
Copyright © 2006, SAS Institute Inc. All rights reserved.
Agenda
¿Qué es SAS?
¿Qué es una Segmentación
Comportamental?
Diseñando una segmentación
comportamental en Telefonía
Implementación con Enterprise Miner
Copyright © 2006, SAS Institute Inc. All rights reserved.
Agenda
¿Qué es SAS?
¿Qué es una Segmentación
Comportamental?
Diseñando una segmentación
comportamental en Telefonía
Implementación con Enterprise Miner
Copyright © 2006, SAS Institute Inc. All rights reserved.
¿Qué es SAS?
Fundación en 1976
Empresa de SW privada más grande
del mundo
Crecimiento continuo +30 años
Ingresos $2.15Bi (‘07)
I&D 21% de los ingresos
43,000 Clientes en 112 países
Más de 10,000 empleados
Más de 400 oficinas en 52 países
Oficina Argentina: Alicia Moreau de
Justo 550 Piso 2 G. CP:1107 .
Ciudad de Buenos Aires.
Tel: 4878-4500
www.sas.com/argentina
Copyright © 2006, SAS Institute Inc. All rights reserved.
21%
La mayor inversión en I&D de
la industria
SAS…Pasado vs Presente
Pasado – Poderosa Herramienta Estadística
proc catmod order=data;
weight wt;
response / out=preds;
model severity=trt hospital;
run;
quit;
/* Keep just the predicted values, predictors, and response */
data pred2;
set preds;
if _type_='PROB';
keep severity trt hospital _pred_;
run;
/* Find predicted response level (level with highest predicted
probability) in each sample. */
proc summary data=pred2 nway;
class trt hospital;
var _pred_;
output out=predlvl (drop=_type_ _freq_)
maxid(_pred_(severity))=predlvl;
run;
/* Transpose the predicted values so that there is one observation per
sample containing predicted values for each response level. */
proc transpose data=pred2 out=pred3 (drop=_name_);
by trt hospital;
id severity;
var _pred_;
run;
Copyright © 2006, SAS Institute Inc. All rights reserved.
Presente – Completas Soluciones de Negocio
Evolución para satisfacer la demanda
Copyright © 2006, SAS Institute Inc. All rights reserved.
La Plataforma
Plataforma de Inteligencia Empresaria
Copyright © 2006, SAS Institute Inc. All rights reserved.
Optimización
Data Mining
Control de
Calidad
Text Mining
Forecasting
Analytics
Copyright © 2006, SAS Institute Inc. All rights reserved.
Análisis
Estadístico
Requerimientos de Industria
Soluciones de Industria
Copyright © 2006, SAS Institute Inc. All rights reserved.
Requerimientos de Industria
Soluciones de Industria
Copyright © 2006, SAS Institute Inc. All rights reserved.
Agenda
¿Qué es SAS?
¿Qué es una Segmentación
Comportamental?
Diseñando una segmentación
comportamental en Telefonía
Implementación con Enterprise Miner
Copyright © 2006, SAS Institute Inc. All rights reserved.
Clasificación vs Segmentación
Y
X
Si f(x,y) > 5 entonces VERDE sino ROJO
Copyright © 2006, SAS Institute Inc. All rights reserved.
Clasificación vs Segmentación
Y
X
Copyright © 2006, SAS Institute Inc. All rights reserved.
Segmentos de marketing y segmentos
comportamentales
Segmentos comportamentales
Segmentos de marketing
Edad
Llamadas larga distancia
SC2
Profiling
Estado civil
Ocupación
SC5
SC3
SC4
Hobbies
Datos externos (socio-económicosdemográficos)
Copyright © 2006, SAS Institute Inc. All rights reserved.
Llamadas al call center
Datos transaccionales de la
empresa (internos)
Llamadas hora pico
Geografía
SC1
Segmentaciones comportamentales
Ejemplos y acciones
Segmentación comportamental para personalizar oferta y mensaje
1. Segmentos con grandes diferencias en el uso del teléfono que mostraron
diferentes necesidades de productos y servicios
2. Se generaron productos y servicios para cada segmento comportamental
3. Se apareó cada segmento comportamental con segmentos de marketing.
4. Necesidad del segmento comportamental se satisface con los Productos
y servicios generados
5. La comunicación con el cliente se hace basándose en el segmento de
marketing.
Copyright © 2006, SAS Institute Inc. All rights reserved.
Requisitos deseables de una
segmentación comportamental
•Tenga sentido comercial , que sea accionable.
•Bien distribuida
•Estable
•Segmentos bien definidos: Podamos asignar un nombre sencillo a
cada segmento
Copyright © 2006, SAS Institute Inc. All rights reserved.
Agenda
¿Qué es SAS?
¿Qué es una Segmentación
comportamental?
Diseñando una segmentación
comportamental en Telefonía
Implementación con Enterprise Miner
Copyright © 2006, SAS Institute Inc. All rights reserved.
Distribución de actividad
10
9
8
8
5
2
1
0, 1
0 , 19
0, 2 7
0, 2
10
[1
115
]
[1
620
]
[2
130
]
[3
140
]
[4
150
]
[5
110
0]
[1
01
-1
50
]
[1
51
-2
00
]
[2
01
-3
00
]
[3
01
-4
00
]
[4
01
-5
00
]
[5
01
...
]
0, 1
8
6
0, 1 7
9
0, 3
0, 1 2
7
0 , 13
4
0, 2
5
0, 1 2
3
1
0, 1
0
Fuentede
dedatos
datos
Fuente
(Datawarehouse)
(Datawarehouse)
18
14
12
11
2
% telefonos
OLAP
20
18
16
14
12
10
8
6
4
2
0
Activida d
Umbral de actividad
Muestra
Muestra
Extracción muestra de
teléfonos y variables
crudas
Muestreo
Muestreo
Chequeos Población vs
muestra
M6 M5 M4 M3 M2 M1
Ventana de tiempo
Correlación
Componentes
principales
Cantidad de eventos
Cantidad de llamadas
En hora pico/no pico
Jóvenes
Transformación
logarítmica
Cantidad de números
llamados
Skewed variables
Baja
actividad
Cantidad de llamadas al
Call center
Cantidad de llamadas
entrantes/salientes
Segmentos iniciales
Copyright © 2006, SAS Institute Inc. All rights reserved.
Elección de variables
Análisis de variables
Tratamiento de
variables
Mejor
Segmentación
Estandarizar las variables
1. Buena distribución
2. Útil comercialmente
3. Bien definidos los segmentos
4.Estable
Ha
st
a
ac
á
Estandarización de
variables
lle
ga
re
m
Aplicar el algoritmo de segmentación
os
Scoring
Reportes de
seguimiento
Profiling
Copyright © 2006, SAS Institute Inc. All rights reserved.
Elegir segmentación
Extracción muestra de teléfonos y variables crudas
Muestra del 10% tomada al azar. Cientos de
miles de registros. Estadísticamente
representativa.
Tomar un 10% permite fácilmente pasar a
números poblacionales
24%
21%
Población total
18%
15%
Registros:
FUENTEDE
DE
FUENTE
DATOS
DATOS
(DataWarehouse)
(DataWarehouse)
12%
Miliones de registros
9%
Variable:
6%
Cantidad de llamadas
3%
0%
0
50
salientes
Muestra
Registros:
100 150 200 250 300
350 400
450
500 550
# llamadas salientes
24%
21%
18%
10% de registros
MUESTRA
MUESTRA
Variable:
Cantidad de llamadas
salientes
15%
12%
9%
6%
3%
0%
0
50
100 150 200 250 300
350 400
450
500
550
# llamadas salientes
Copyright © 2006, SAS Institute Inc. All rights reserved.
Chequeos Población vs muestra
OLAP
Muestreo
Muestreo
Copyright © 2006, SAS Institute Inc. All rights reserved.
Cubos de información,
informes de gestión, etc
Tener seguridad de la consistencia de los datos.
Sino no avanzar
Ventana de tiempo y umbral de actividad
Afectan la estabilidad de la segmentación
Demasiado estanco
Inestable
Distribución de actividad
2.
1.
Elegir semanas puede llevar a
cambios en los segmentos por
fluctuaciones estadísticas del
comportamiento.
2.
En general el comportamiento
mensual es más parejo a pesar de la
estacionalidad (vacaciones).
Elegir la longitud de la ventana de tiempo.
Ventanas largas hacen que los cambios
recientes tarden en aparecer. Ventanas
cortas son inestables. En general 3/6
unidades de granularidad mes se elije y
aportan una muy aceptable estabilidad.
Ejemplo: Promedio de cantidad de llamadas
de los últimos 6 meses
Copyright © 2006, SAS Institute Inc. All rights reserved.
12
11
10
9
8
8
5
2
1
0,1
0, 19
0, 27
0,2
10
[1
115
]
[1
620
]
[2
130
]
[3
140
]
[4
150
]
[5
110
0]
[1
01
-1
50
[1
51 ]
-2
00
[2
01 ]
-3
00
[3
01 ]
-4
00
[4
]
01
-5
00
]
[5
01
. ..
]
0, 1
8
6
0,17
9
0,3
0, 12
7
0,13
4
0,2
5
0, 12
2
0, 1
3
Elegir la granularidad de la medición
(semanas, meses,trimestres)
18
14
0
1.
20
18
16
14
12
10
8
6
4
2
0
1
Aceptablemente estable
% telefonos
M12 M11 M10 M9 M8 M7 M6 M5 M4 M3 M2 M1
Actividad
Es arriesgado sacar conclusiones sobre el
comportamiento de un cliente con pocos
eventos. Ejemplo: 5 llamadas y una es larga
distancia entonces el cliente hace un 20% de
sus llamadas por larga distancia.
Segmentos iniciales
Afectan la estabilidad de la segmentación
20
18
16
14
12
10
8
6
4
2
0
18
14
12
11
10
9
8
2
1
0,1
0, 19
0, 27
0,2
10
[1
115
]
[1
620
]
[2
130
]
[3
140
]
[4
150
]
[5
110
0]
[1
01
-1
50
[1
51 ]
-2
00
[2
01 ]
-3
00
[3
01 ]
-4
00
[4
]
01
-5
00
]
[5
01
. ..
]
0, 1
8
6
0,17
9
0,3
0, 12
7
0,13
4
0,2
5
2
0, 12
3
0
0, 1
Actividad
Teléfonos con menos de 6
meses de antigüedad
determinarán el segmento
Jóvenes.
No se puede determinar
comportamiento con menos
de 6 meses de información
Teléfonos con menos de 30
eventos promedio mensual
en los últimos 6 meses
integrarán el segmento de
Baja actividad.
Jóvenes
Baja
actividad
Copyright © 2006, SAS Institute Inc. All rights reserved.
8
5
1
M12 M11 M10 M9 M8 M7 M6 M5 M4 M3 M2 M1
% telefonos
Distribución de actividad
Elección de variables (1)
1.
Habrá 2 clases de variables:
1.
Variables segmentadoras: Utilizadas para crear los segmentos
2.
Variables descriptivas: Utilizadas para describir los segmentos
2.
Variables segmentadoras: Preferentemente de tipo intervalo pues los segmentos se construirán por
similitudes entre los individuos (teléfonos). En general la medida de similitud utilizada es la distancia
euclídea
3.
No más de 15 variables segmentadoras. Se torna dificultoso interpretar diferencias entre segmentos a
medida que crece el número de variables segmentadoras
4.
Las variables descriptivas pueden ser internas o externas (segmentos de marketing).
Copyright © 2006, SAS Institute Inc. All rights reserved.
Elección de variables (2)
Algunas variables que SAS encontró de utilidad en proyectos de segmentación
comportamental en empresas de comunicaciones.
• Telefonía fija
• Cantidad total de llamadas
•Cantidad de llamadas entrantes/salientes
• Cantidad de llamadas en hora pico y no pico
• Cantidad de llamadas día de semana/ fin de semana/ feriados
• Cantidad de llamadas locales/larga distancia
• Cantidad de llamadas a celulares
• Duración promedio de las llamadas
• Duración promedio de las llamadas en hora pico y no pico
• Duración promedio de las llamadas locales/larga distancia
• Duración promedio de las llamadas día de semana/ fin de semana/ feriados
• Duración promedio de las llamadas a celulares
•Cantidad de números diferentes llamados
•Cantidad de llamadas al call center
•Cantidad de llamadas entre sucursales
•Cantidad de días de retraso en el pago de la factura
•Uso de internet
Copyright © 2006, SAS Institute Inc. All rights reserved.
Elección de variables (3)
Algunas variables que SAS encontró de utilidad en proyectos de segmentación
comportamental en empresas de comunicaciones.
• Telefonía móvil
• Cantidad total de llamadas
•Cantidad de llamadas entrantes/salientes
• Cantidad de llamadas en hora pico y no pico
• Cantidad de SMS/Data, etc
• Cantidad de llamadas dentro de la misma operadora/otra operadora
• Duración promedio de las llamadas
• Duración promedio de las llamadas en hora pico y no pico
•Cantidad de números diferentes llamados
•Cantidad de llamadas al call center
•Cantidad de llamadas entre sucursales
•Cantidad de días de retraso en el pago de la factura
Copyright © 2006, SAS Institute Inc. All rights reserved.
Elección de variables (4)
Importante:
1.
El valor monetario de las llamadas no se incluye como variable segmentadora pues depende
más de la estructura de precios de la empresa que del comportamiento del cliente
2.
El valor monetario facturado al cliente debe utilizarse como una variable descriptiva del
segmento para diferenciar segmentos de bajo y alto valor
3.
Las variables relacionadas con la cantidad de minutos hablados no deben incluirse para
segmentar pues correlacionan fuertemente con la cantidad de llamadas.
Copyright © 2006, SAS Institute Inc. All rights reserved.
Análisis de variables
Correlación:
Problema: Produce que observaciones
diferentes sean tratadas como similares.
Copyright © 2006, SAS Institute Inc. All rights reserved.
Soluciones
•
Elegir las variables
cuidadosamente. No incluir
juntas la cantidad de llamadas y
la cantidad de minutos.
•
Crear nuevas variables. Por
ejemplo duración_promedio =
(minutos/llamadas) y dejar
duración_promedio y llamadas
•
Análisis de componentes
principales: Identificar la
variable original que más
influye en cada componente
principal.
Análisis de variables
Skewed (sesgadas) variables:
Problema: Las observaciones de la cola
producen segmentos muy pequeños.
Soluciones
Skewed variables
1.
Tratar como outliers las observaciones de
la cola y eliminarlas, pero ello podría
eliminar muchas observaciones. Incluso si
se eliminaran no cambiaría la distribución
subyacente y nuevos outliers aparecerían
2.
Transformación logarítmica
35
30
25
X2
20
15
10
5
0
0
1
2
3
X1
Copyright © 2006, SAS Institute Inc. All rights reserved.
4
5
6
Estandarización de variables
Multiplicar por 100
Dividir por 1000
Fuente: Granadesikan, R. 1977. Methods for Satistical Data Analysis of Multivariate Data
Copyright © 2006, SAS Institute Inc. All rights reserved.
Algoritmo de segmentación (K-medias)
Casos sin asignar a
segmentos
Reasignar cada caso al
centro más cercano
Copyright © 2006, SAS Institute Inc. All rights reserved.
Elegir semillas al azar
Actualizar centros de los
clusters y casos hasta el
proceso converja
Asignar cada caso al
centro más cercano
Convergencia
Actualizar los centros
de cada segmento
Agenda
¿Qué es SAS?
¿Qué es una Segmentación
comportamental?
Diseñando una segmentación
comportamental en Telefonía
Implementación con Enterprise Miner
Copyright © 2006, SAS Institute Inc. All rights reserved.
Implementación con Enterprise Miner (1)
Copyright © 2006, SAS Institute Inc. All rights reserved.
Implementación con Enterprise Miner (2)
Análisis de las variables
Copyright © 2006, SAS Institute Inc. All rights reserved.
Componentes principales
Transformación logarítmica
Implementación con Enterprise Miner (3)
Estandarizar
Copyright © 2006, SAS Institute Inc. All rights reserved.
Segmentación
Implementación con Enterprise Miner (4)
Elegir segmentación
Copyright © 2006, SAS Institute Inc. All rights reserved.
Implementación con Enterprise Miner (5)
Scoring
Copyright © 2006, SAS Institute Inc. All rights reserved.
Descargar