III JORNADAS DE DATA MINING EN EL MARCO DE LA MAESTRÍA EN DATA MINING DE LA UNIVERSIDAD AUSTRAL BUENAS PRÁCTICAS PARA LA SEGMENTACIÓN COMPORTAMENTAL DE CLIENTES EN INDUSTRIA DE TELECOMUNICACIONES Flavio Giannico, Consultor en Minería de Datos en SAS. IAE - Pilar, 12 y 13 de agosto de 2008 Buenas prácticas para segmentación comportamental de clientes en empresas de telecomunicaciones Flavio Martín Giannico Consultor Pilar, Agosto 12, 2008 Copyright © 2006, SAS Institute Inc. All rights reserved. Agenda ¿Qué es SAS? ¿Qué es una Segmentación Comportamental? Diseñando una segmentación comportamental en Telefonía Implementación con Enterprise Miner Copyright © 2006, SAS Institute Inc. All rights reserved. Agenda ¿Qué es SAS? ¿Qué es una Segmentación Comportamental? Diseñando una segmentación comportamental en Telefonía Implementación con Enterprise Miner Copyright © 2006, SAS Institute Inc. All rights reserved. ¿Qué es SAS? Fundación en 1976 Empresa de SW privada más grande del mundo Crecimiento continuo +30 años Ingresos $2.15Bi (‘07) I&D 21% de los ingresos 43,000 Clientes en 112 países Más de 10,000 empleados Más de 400 oficinas en 52 países Oficina Argentina: Alicia Moreau de Justo 550 Piso 2 G. CP:1107 . Ciudad de Buenos Aires. Tel: 4878-4500 www.sas.com/argentina Copyright © 2006, SAS Institute Inc. All rights reserved. 21% La mayor inversión en I&D de la industria SAS…Pasado vs Presente Pasado – Poderosa Herramienta Estadística proc catmod order=data; weight wt; response / out=preds; model severity=trt hospital; run; quit; /* Keep just the predicted values, predictors, and response */ data pred2; set preds; if _type_='PROB'; keep severity trt hospital _pred_; run; /* Find predicted response level (level with highest predicted probability) in each sample. */ proc summary data=pred2 nway; class trt hospital; var _pred_; output out=predlvl (drop=_type_ _freq_) maxid(_pred_(severity))=predlvl; run; /* Transpose the predicted values so that there is one observation per sample containing predicted values for each response level. */ proc transpose data=pred2 out=pred3 (drop=_name_); by trt hospital; id severity; var _pred_; run; Copyright © 2006, SAS Institute Inc. All rights reserved. Presente – Completas Soluciones de Negocio Evolución para satisfacer la demanda Copyright © 2006, SAS Institute Inc. All rights reserved. La Plataforma Plataforma de Inteligencia Empresaria Copyright © 2006, SAS Institute Inc. All rights reserved. Optimización Data Mining Control de Calidad Text Mining Forecasting Analytics Copyright © 2006, SAS Institute Inc. All rights reserved. Análisis Estadístico Requerimientos de Industria Soluciones de Industria Copyright © 2006, SAS Institute Inc. All rights reserved. Requerimientos de Industria Soluciones de Industria Copyright © 2006, SAS Institute Inc. All rights reserved. Agenda ¿Qué es SAS? ¿Qué es una Segmentación Comportamental? Diseñando una segmentación comportamental en Telefonía Implementación con Enterprise Miner Copyright © 2006, SAS Institute Inc. All rights reserved. Clasificación vs Segmentación Y X Si f(x,y) > 5 entonces VERDE sino ROJO Copyright © 2006, SAS Institute Inc. All rights reserved. Clasificación vs Segmentación Y X Copyright © 2006, SAS Institute Inc. All rights reserved. Segmentos de marketing y segmentos comportamentales Segmentos comportamentales Segmentos de marketing Edad Llamadas larga distancia SC2 Profiling Estado civil Ocupación SC5 SC3 SC4 Hobbies Datos externos (socio-económicosdemográficos) Copyright © 2006, SAS Institute Inc. All rights reserved. Llamadas al call center Datos transaccionales de la empresa (internos) Llamadas hora pico Geografía SC1 Segmentaciones comportamentales Ejemplos y acciones Segmentación comportamental para personalizar oferta y mensaje 1. Segmentos con grandes diferencias en el uso del teléfono que mostraron diferentes necesidades de productos y servicios 2. Se generaron productos y servicios para cada segmento comportamental 3. Se apareó cada segmento comportamental con segmentos de marketing. 4. Necesidad del segmento comportamental se satisface con los Productos y servicios generados 5. La comunicación con el cliente se hace basándose en el segmento de marketing. Copyright © 2006, SAS Institute Inc. All rights reserved. Requisitos deseables de una segmentación comportamental •Tenga sentido comercial , que sea accionable. •Bien distribuida •Estable •Segmentos bien definidos: Podamos asignar un nombre sencillo a cada segmento Copyright © 2006, SAS Institute Inc. All rights reserved. Agenda ¿Qué es SAS? ¿Qué es una Segmentación comportamental? Diseñando una segmentación comportamental en Telefonía Implementación con Enterprise Miner Copyright © 2006, SAS Institute Inc. All rights reserved. Distribución de actividad 10 9 8 8 5 2 1 0, 1 0 , 19 0, 2 7 0, 2 10 [1 115 ] [1 620 ] [2 130 ] [3 140 ] [4 150 ] [5 110 0] [1 01 -1 50 ] [1 51 -2 00 ] [2 01 -3 00 ] [3 01 -4 00 ] [4 01 -5 00 ] [5 01 ... ] 0, 1 8 6 0, 1 7 9 0, 3 0, 1 2 7 0 , 13 4 0, 2 5 0, 1 2 3 1 0, 1 0 Fuentede dedatos datos Fuente (Datawarehouse) (Datawarehouse) 18 14 12 11 2 % telefonos OLAP 20 18 16 14 12 10 8 6 4 2 0 Activida d Umbral de actividad Muestra Muestra Extracción muestra de teléfonos y variables crudas Muestreo Muestreo Chequeos Población vs muestra M6 M5 M4 M3 M2 M1 Ventana de tiempo Correlación Componentes principales Cantidad de eventos Cantidad de llamadas En hora pico/no pico Jóvenes Transformación logarítmica Cantidad de números llamados Skewed variables Baja actividad Cantidad de llamadas al Call center Cantidad de llamadas entrantes/salientes Segmentos iniciales Copyright © 2006, SAS Institute Inc. All rights reserved. Elección de variables Análisis de variables Tratamiento de variables Mejor Segmentación Estandarizar las variables 1. Buena distribución 2. Útil comercialmente 3. Bien definidos los segmentos 4.Estable Ha st a ac á Estandarización de variables lle ga re m Aplicar el algoritmo de segmentación os Scoring Reportes de seguimiento Profiling Copyright © 2006, SAS Institute Inc. All rights reserved. Elegir segmentación Extracción muestra de teléfonos y variables crudas Muestra del 10% tomada al azar. Cientos de miles de registros. Estadísticamente representativa. Tomar un 10% permite fácilmente pasar a números poblacionales 24% 21% Población total 18% 15% Registros: FUENTEDE DE FUENTE DATOS DATOS (DataWarehouse) (DataWarehouse) 12% Miliones de registros 9% Variable: 6% Cantidad de llamadas 3% 0% 0 50 salientes Muestra Registros: 100 150 200 250 300 350 400 450 500 550 # llamadas salientes 24% 21% 18% 10% de registros MUESTRA MUESTRA Variable: Cantidad de llamadas salientes 15% 12% 9% 6% 3% 0% 0 50 100 150 200 250 300 350 400 450 500 550 # llamadas salientes Copyright © 2006, SAS Institute Inc. All rights reserved. Chequeos Población vs muestra OLAP Muestreo Muestreo Copyright © 2006, SAS Institute Inc. All rights reserved. Cubos de información, informes de gestión, etc Tener seguridad de la consistencia de los datos. Sino no avanzar Ventana de tiempo y umbral de actividad Afectan la estabilidad de la segmentación Demasiado estanco Inestable Distribución de actividad 2. 1. Elegir semanas puede llevar a cambios en los segmentos por fluctuaciones estadísticas del comportamiento. 2. En general el comportamiento mensual es más parejo a pesar de la estacionalidad (vacaciones). Elegir la longitud de la ventana de tiempo. Ventanas largas hacen que los cambios recientes tarden en aparecer. Ventanas cortas son inestables. En general 3/6 unidades de granularidad mes se elije y aportan una muy aceptable estabilidad. Ejemplo: Promedio de cantidad de llamadas de los últimos 6 meses Copyright © 2006, SAS Institute Inc. All rights reserved. 12 11 10 9 8 8 5 2 1 0,1 0, 19 0, 27 0,2 10 [1 115 ] [1 620 ] [2 130 ] [3 140 ] [4 150 ] [5 110 0] [1 01 -1 50 [1 51 ] -2 00 [2 01 ] -3 00 [3 01 ] -4 00 [4 ] 01 -5 00 ] [5 01 . .. ] 0, 1 8 6 0,17 9 0,3 0, 12 7 0,13 4 0,2 5 0, 12 2 0, 1 3 Elegir la granularidad de la medición (semanas, meses,trimestres) 18 14 0 1. 20 18 16 14 12 10 8 6 4 2 0 1 Aceptablemente estable % telefonos M12 M11 M10 M9 M8 M7 M6 M5 M4 M3 M2 M1 Actividad Es arriesgado sacar conclusiones sobre el comportamiento de un cliente con pocos eventos. Ejemplo: 5 llamadas y una es larga distancia entonces el cliente hace un 20% de sus llamadas por larga distancia. Segmentos iniciales Afectan la estabilidad de la segmentación 20 18 16 14 12 10 8 6 4 2 0 18 14 12 11 10 9 8 2 1 0,1 0, 19 0, 27 0,2 10 [1 115 ] [1 620 ] [2 130 ] [3 140 ] [4 150 ] [5 110 0] [1 01 -1 50 [1 51 ] -2 00 [2 01 ] -3 00 [3 01 ] -4 00 [4 ] 01 -5 00 ] [5 01 . .. ] 0, 1 8 6 0,17 9 0,3 0, 12 7 0,13 4 0,2 5 2 0, 12 3 0 0, 1 Actividad Teléfonos con menos de 6 meses de antigüedad determinarán el segmento Jóvenes. No se puede determinar comportamiento con menos de 6 meses de información Teléfonos con menos de 30 eventos promedio mensual en los últimos 6 meses integrarán el segmento de Baja actividad. Jóvenes Baja actividad Copyright © 2006, SAS Institute Inc. All rights reserved. 8 5 1 M12 M11 M10 M9 M8 M7 M6 M5 M4 M3 M2 M1 % telefonos Distribución de actividad Elección de variables (1) 1. Habrá 2 clases de variables: 1. Variables segmentadoras: Utilizadas para crear los segmentos 2. Variables descriptivas: Utilizadas para describir los segmentos 2. Variables segmentadoras: Preferentemente de tipo intervalo pues los segmentos se construirán por similitudes entre los individuos (teléfonos). En general la medida de similitud utilizada es la distancia euclídea 3. No más de 15 variables segmentadoras. Se torna dificultoso interpretar diferencias entre segmentos a medida que crece el número de variables segmentadoras 4. Las variables descriptivas pueden ser internas o externas (segmentos de marketing). Copyright © 2006, SAS Institute Inc. All rights reserved. Elección de variables (2) Algunas variables que SAS encontró de utilidad en proyectos de segmentación comportamental en empresas de comunicaciones. • Telefonía fija • Cantidad total de llamadas •Cantidad de llamadas entrantes/salientes • Cantidad de llamadas en hora pico y no pico • Cantidad de llamadas día de semana/ fin de semana/ feriados • Cantidad de llamadas locales/larga distancia • Cantidad de llamadas a celulares • Duración promedio de las llamadas • Duración promedio de las llamadas en hora pico y no pico • Duración promedio de las llamadas locales/larga distancia • Duración promedio de las llamadas día de semana/ fin de semana/ feriados • Duración promedio de las llamadas a celulares •Cantidad de números diferentes llamados •Cantidad de llamadas al call center •Cantidad de llamadas entre sucursales •Cantidad de días de retraso en el pago de la factura •Uso de internet Copyright © 2006, SAS Institute Inc. All rights reserved. Elección de variables (3) Algunas variables que SAS encontró de utilidad en proyectos de segmentación comportamental en empresas de comunicaciones. • Telefonía móvil • Cantidad total de llamadas •Cantidad de llamadas entrantes/salientes • Cantidad de llamadas en hora pico y no pico • Cantidad de SMS/Data, etc • Cantidad de llamadas dentro de la misma operadora/otra operadora • Duración promedio de las llamadas • Duración promedio de las llamadas en hora pico y no pico •Cantidad de números diferentes llamados •Cantidad de llamadas al call center •Cantidad de llamadas entre sucursales •Cantidad de días de retraso en el pago de la factura Copyright © 2006, SAS Institute Inc. All rights reserved. Elección de variables (4) Importante: 1. El valor monetario de las llamadas no se incluye como variable segmentadora pues depende más de la estructura de precios de la empresa que del comportamiento del cliente 2. El valor monetario facturado al cliente debe utilizarse como una variable descriptiva del segmento para diferenciar segmentos de bajo y alto valor 3. Las variables relacionadas con la cantidad de minutos hablados no deben incluirse para segmentar pues correlacionan fuertemente con la cantidad de llamadas. Copyright © 2006, SAS Institute Inc. All rights reserved. Análisis de variables Correlación: Problema: Produce que observaciones diferentes sean tratadas como similares. Copyright © 2006, SAS Institute Inc. All rights reserved. Soluciones • Elegir las variables cuidadosamente. No incluir juntas la cantidad de llamadas y la cantidad de minutos. • Crear nuevas variables. Por ejemplo duración_promedio = (minutos/llamadas) y dejar duración_promedio y llamadas • Análisis de componentes principales: Identificar la variable original que más influye en cada componente principal. Análisis de variables Skewed (sesgadas) variables: Problema: Las observaciones de la cola producen segmentos muy pequeños. Soluciones Skewed variables 1. Tratar como outliers las observaciones de la cola y eliminarlas, pero ello podría eliminar muchas observaciones. Incluso si se eliminaran no cambiaría la distribución subyacente y nuevos outliers aparecerían 2. Transformación logarítmica 35 30 25 X2 20 15 10 5 0 0 1 2 3 X1 Copyright © 2006, SAS Institute Inc. All rights reserved. 4 5 6 Estandarización de variables Multiplicar por 100 Dividir por 1000 Fuente: Granadesikan, R. 1977. Methods for Satistical Data Analysis of Multivariate Data Copyright © 2006, SAS Institute Inc. All rights reserved. Algoritmo de segmentación (K-medias) Casos sin asignar a segmentos Reasignar cada caso al centro más cercano Copyright © 2006, SAS Institute Inc. All rights reserved. Elegir semillas al azar Actualizar centros de los clusters y casos hasta el proceso converja Asignar cada caso al centro más cercano Convergencia Actualizar los centros de cada segmento Agenda ¿Qué es SAS? ¿Qué es una Segmentación comportamental? Diseñando una segmentación comportamental en Telefonía Implementación con Enterprise Miner Copyright © 2006, SAS Institute Inc. All rights reserved. Implementación con Enterprise Miner (1) Copyright © 2006, SAS Institute Inc. All rights reserved. Implementación con Enterprise Miner (2) Análisis de las variables Copyright © 2006, SAS Institute Inc. All rights reserved. Componentes principales Transformación logarítmica Implementación con Enterprise Miner (3) Estandarizar Copyright © 2006, SAS Institute Inc. All rights reserved. Segmentación Implementación con Enterprise Miner (4) Elegir segmentación Copyright © 2006, SAS Institute Inc. All rights reserved. Implementación con Enterprise Miner (5) Scoring Copyright © 2006, SAS Institute Inc. All rights reserved.