HERRAMIENTAS PREDICTIVAS Guía de Uso Contenido Propósito de la guía............................................................................................................................. 3 A/B Test ............................................................................................................................................... 4 MB Análisis .......................................................................................................................................... 6 Modelado predictivo ........................................................................................................................... 8 Comparación de modelos y resultados ............................................................................................. 12 Propósito de la guía El propósito principal está enfocado en el entendimiento de las prácticas recomendadas para obtener resultados con las herramientas predictivas contenidas en Alteryx 10.0, con la finalidad de obtener resultados con la combinación correcta de las mismas. Esta guía no pretende explicar su uso técnico específico, ya que para ello existe múltiple documentación en las guías de ayuda publicadas; más bien provee al usuario, a manera de resumen, una forma sencilla entender su aplicabilidad e interpretación de los resultados. A/B Test AB Analysis AB Controls AB Treatments AB Trend El fin principal de este tipo de análisis es determinar la efectividad de modificar el cómo se presenta o se entrega un producto servicio; es decir, evaluar dos variables A y B, donde ambas son similares, ya que una de ellas se modifica durante el período de prueba mientras que la otra permanece constante. La variable modificada se le llama “Treatment” y la que no varía se llama “Control” ¿Cómo combinar estas herramientas para obtener resultados? (1) Se selecciona un archivo de “Treatment”. Ej.: un listado de tiendas, productos o servicios que deseo evaluar. (2) Valores de comportamiento de la variable del total de tiendas, productos o servicios, en un mismo período de tiempo. Ej.: gastos, ganancias, unidades vendidas, etc., durante un período de tiempo (cierres mensuales de venta por ejemplo) (3) Con la herramienta AB Trend se indica el identificador único de la tabla de valores (2), el campo de fecha, la variable que se desea evaluar y la periodicidad de la fecha indicada (diario, semanal, quincenal, mensual, etc.). Esta herramienta va a arrojar una tendencia y estacionalidad de la variable seleccionada, por cada tienda, producto o servicio de la lista. (4) Con la herramienta AB Controls se genera el archivo de tiendas, productos o servicios de control (los que no variarán en el análisis). Esta herramienta tiene dos entradas, la tendencia y estacionalidad del archivo completo de datos (3) y las tiendas, productos o servicios utilizados como “Treatment”. El resultado es una lista de las unidades de control asignados a cada unidad de “Treatment”. La asignación se basa en la distancia entre las medidas de tendencia y estacionalidad que hay entre las unidades “Treatment” y sus posibles controles. (5) El AB Analysis recibe el archivo con las unidades de Control (4), el de “Treatments” (1) y un tercer archivo de desempeño, que básicamente contiene los mismos campos que el archivo indicado en (2) pero agregando los datos nuevos que se produjeron luego del cambio efectuado en las variables “Treatment”. La salida es el análisis de los datos provistos. Ejemplos donde aplicar este tipo de análisis: Determinar qué tan exitosa es una promoción de venta (resultados antes y después de la promoción) Impacto en cambios en la presentación de un producto. Rentabilidad sobre cambios en ubicación, precios, colores, etc. Estudios de mercado. BENEFICIOS: Permite evaluar cambios sin compromisos de alta inversión Determina el impacto de cambios para evaluar costo – beneficio. Reducir riesgos de pérdidas por cambios infructuosos REQUERIMIENTOS: En ocasiones se debe contar con más de un año de historia disponible para poder hacer la comparación. MB Análisis MB Affinity MB Inspect MB Rules En general estas herramientas son útiles para el análisis de compra de ítems en la misma transacción. Basta con tener un archivo de compras con un identificador por cada transacción y los productos adquiridos en cada una. ¿Cómo combinar estas herramientas para obtener resultados? (1) Se selecciona el método de clasificación de los ítems con respecto a la ocurrencia, frecuencia, asociación, etc., a través de MB Rules. El resultado de esta herramienta es un objeto con el análisis de conteo, frecuencia de ítems y transacciones, y clasifica los ítems dependiendo del método seleccionado. En sí por sí sola esta herramienta sólo provee un resumen de las operaciones efectuadas en los datos provistos, y analizar qué productos se adquieren juntos. (2) Con el fin de dar un sentido analítico a la herramienta anterior, es necesario utilizar MB Inspect, y determinar qué tan probable es que las personas adquieran estos productos juntos. El análisis se hace basado en “support”, “confidence” y “lift”. a. Support: se define como la fracción de transacciones de los datos que contienen un ítem o un conjunto de ítems. En general se espera un alto número en este indicador. Por ejemplo: para supermercados hay productos básicos que tienen un alto índice de “support”, como pan, leche, etc., ya que aparecen en una alta fracción de transacciones. En otros comercios como ventas de cartuchos de impresora, no es probable que exista u producto con alto índice de “support” porque cada usuario adquirirá un ítem específico para su producto. b. Confidence: basados en dos grupos (izquierda y derecha), éste indicador muestra la probabilidad de que una nueva transacción que contenga un producto de la izquierda también contenga un producto de la derecha. c. Lift: se refiere a la proporción de “support” de productos de la izquierda que se combinan con los de la derecha, en relación a la probabilidad de que éstos ocurran en una misma transacción. Si éste indicador es menor que uno, sugiere que la presencia de un producto de la izquierda en un transacción implica una baja probabilidad de la existencia de un producto de la derecha en la misma transacción; si es igual a uno, no implica relación entre ambos productos; mientras que mayor que uno implica una alta probabilidad de existir en la misma transacción. En conclusión: En la ejecución de un MB análisis buscamos por agrupaciones con un lift mayor que uno, con una alta probabilidad de confidence de dos productos o conjuntos de aparecer juntos en una transacción, y preferiblemente identificar aquellos con alto support (si aplica al negocio) Esta herramienta provee un reporte con gráficos que ayudan al análisis e interpretación de la asociación que existe entre los ítems o grupos. Adicional a las dos herramientas analizadas, existe la MB Affinity, la cual genera una matriz n x n de cantidad de ocurrencia de dos ítems en una misma transacción, donde n es la cantidad de ítems entre todas las transacciones a analizar. BENEFICIOS: Mejor ubicación de ítems en una tienda para promocionar ventas Selección de ítems que pueden promocionarse juntos y programas de mercadeo Permitir la categorización de los productos dependiendo de los propósitos de compra y motivaciones REQUERIMIENTOS: A mayor número de transacciones, se obtienen resultados más confiables; sin embargo, para el uso de la matriz de MB Affinity, no puede exceder de 5.000 ítems en un equipo personal. Modelado predictivo Decision Tree Forest Model Boosted Model Logistic Regression Stepwise Spline Model Neural Network Naïve Bayes Classifier Support Vector Machine Linear Regression Count Regression Gamma Regression El objetivo principal de estos modelos es analizar los datos a través de una variable objetivo y otro conjunto de variables que puedan o no tener influencia sobre ésta. En general es conveniente realizar un análisis previo con las herramientas de “Data Investigation”, de manera que se pueda tener un informe más completo de las variables que realmente influyen en el valor de la variable objetivo, o incluso para tomar subconjuntos de muestra para la correcta ejecución del modelado predictivo. ¿Cómo combinar estas herramientas para obtener resultados? (1) Se aplican herramientas de investigación a los datos de origen (tales como Association Analysis, Frequency Table, Field Summary, Scatterplot) para analizar la relación entre la variable objetivo y las predictoras. (2) Se toma una muestra de los datos a través de herramientas como “Create Sample” y “OverSample”. (3) Se aplica el modelo o los modelos seleccionados sobre la muestra tomada y se analizan los resultados. (4) Se pueden comparar los modelos o evaluar los resultados sobre los elementos que no se encuentran en la muestra tomada para el análisis (Lift chart y Score). NOTA: Las herramientas del paso (4) se explican más adelante y las de los pasos (1) y (2) forman parte de “Data Investigation” que se asumen conocidas Los datos de entrada pueden tener diferente aplicabilidad. Otorgamiento de créditos, tendencia a la adquisición de productos, encuestas, características de productos que se venden o no (Ej.: relación precio – características de venta de inmuebles), tendencia a dar donaciones, aseguradoras, condiciones médicas, etc. A continuación se dará una breve explicación de las características más resaltantes de cada una de las herramientas de modelado predictivo: 1. Decision Tree: Realiza la predicción de la variable objetivo a través de la clasificación de ésta con respecto a las variables predictoras. Se caracteriza por hacer un análisis jerárquico de las características asociadas al objetivo y en general es de naturaleza flexible; esto es, permite hacer análisis por cada variable predictora, en lugar de todas a la vez. Los árboles de decisión son útiles cuando no hay una relación lineal con las variables predictoras. Son sencillos de interpretar, ya que basta con seguir la línea de características para determinar el porcentaje de confidencia del resultado de la predicción. 2. Forest Model: Provee un nivel más alto de confidencialidad ya que predice a partir de la combinación de varios árboles de decisión (la herramienta permite indicar cuantos). Usa la misma lógica de la herramienta anterior, pero al final basa la decisión en la combinación del resultado de todos los árboles. 3. Boosted Model: Internamente funciona combinando en serie varios árboles de decisión. La ventaja de usar ésta herramienta frente a las anteriores es que busca minimizar el grado de error en la selección y combinación de los árboles, aumentando el nivel de confianza en el resultado. Dependiendo de la complejidad de los datos, estas tres herramientas pueden arrojar resultados muy similares y podría no haber diferencia en utilizar una u otra, pero podrían combinarse y obtener resultados más confiables en nuestro “Score”. 4. Logistic Regression: Este modelo es sólo aplicable a variables objetivo que representan un resultado binario (Ej.: si o no, ganancias o pérdidas, etc.). El fin principal de esta herramienta es modelar la ocurrencia o no de un suceso ante la presencia de otros factores. Es una herramienta que por sus características es ampliamente utilizada en investigaciones médicas y epidemiológicas. 5. Stepwise: Proporciona resultados razonables cuando se tiene un número grande de variables predictoras, y permite tamizar entre aquellas que resultan realmente útiles para el modelo. Si se tiene un gran número de variables predictoras con respecto a la cantidad de observaciones (Ej.: 1 variable por cada 10 registros), o si hay excesiva dependencia linear entre ellas, el algoritmo de Stepwise podría no funcionar y terminar eliminando todas las variables del modelo. 6. Spline Model: Especialmente utilizados cuando las variables predictoras no muestran una relación simple con respecto a la variable objetivo, ya que este modelo no asume o impone la existencia de relaciones. Especialmente puede ser implementado con otros modelos como el de árboles de decisión, por el algoritmo específico de interpretación de las variables predictoras (no requiere relación linear). 7. Neural Network: Aplicable prácticamente en cada situación en la que las variables predictoras TIENEN una relación con la variable objetivo (aun cuando esta relación no sea necesariamente lineal o sea difícil de determinar). Principalmente la implementación de este modelo ha tenido resultados en fluctuación de valores de existencia, análisis de asignación de créditos. En general es un modelo de predicción basado en el aprendizaje histórico. 8. Naïve Bayes Classifier: Es un clasificador probabilístico basado en el teorema de Bayes (probabilidad condicional de que A ocurre si ocurre B, de B si ocurre A, o si simplemente ocurre A). Una ventaja de este modelo es que no requiere más que una pequeña cantidad de datos para “entrenar” y determinar lo que ocurrirá basado en las mismas características o variables predictoras, y asume que las variables predictoras son independientes entre sí. En general, se determinan probabilidades para cada clase y escoge la clase con la probabilidad más alta. 9. Support Vector Machine: Está basado en el concepto de separar los datos en planos de acuerdo a su clasificación con respecto a la variable objetivo, donde cada plano representa una variable predictora. El objetivo es analizar los datos y reconocer patrones de clasificación. Habitualmente son utilizadas para clasificación binaria. NOTA: Los modelos a continuación sólo aplican en variables objetivo continuas (numéricas), como por ejemplo, cantidad de reclamos, costos, promedios, etc. La cantidad de variables predictoras que influyen en el resultado es determinante en la diversidad y confidencialidad el mismo. 10. Linear, Count y Gamma Regressions: Estas herramientas permiten predecir valores de un campo numérico, asociado con una o más variables predictoras. Básicamente se diferencian en el método que utilizan para hacer la regresión, o la fórmula que minimiza el error. Ya sea por distribución normal, binomial, Poisson, Gamma, etc. En el caso de la Gamma, se debe tomar en cuenta que los datos deben se continuos y positivos. Las tres herramientas arrojan un informe estadístico, sólo que la regresión lineal se basa en el valor estadístico de “t” y las otras dos en el valor de “z”. REQUERIMIENTOS: Para una mejor asertividad en el resultado de estos modelos, lo ideal es tener en los datos la mayor cantidad de variables predictoras disponibles para poder hacer un análisis más completo de las que podrían influir o no en los resultados, y hacer uso de las más adecuadas. Comparación de modelos y resultados Lift Chart Nested Test Score Después de aplicar un modelo, de los analizados anteriormente, es necesario evaluar cuál de todos reporta mejores resultados, o el valor esperado de la predicción. Para ello contamos con estas herramientas de comparación, a saber: Lift Chart Representa gráficamente qué tanto se adapta un modelo al resultado esperado; esto es, qué tan eficaz es la predicción de cada uno de los modelos candidatos. Éste gráfico tiene la ventaja de que no sólo puede presentar el análisis de un modelo, sino que puede integrar varios modelos, si previo se hace un “union” de todos aquellos objetos que se desean evaluar. Responde a la pregunta ¿Qué tan Bueno es mi modelo con respecto a la línea base? (si no aplicara ningún modelo de regresión). -> Ejemplo: el modelo es 3 veces mejor que la línea base. El resultado se obtiene comparando el o los modelos con los datos que se desean predecir, y el mejor modelo será aquel que gráficamente se muestre más alejado de la línea base. Se puede elegir otro tipo de gráfico que analiza la tasa incremental de la respuesta a evaluar (desde el más hasta el menos probable). Esta herramienta es especialmente útil para comparar cuál de los modelos es mejor implementar, basados en cuantas veces es mejor uno que otro en cada punto de la evaluación, y con base en este análisis determinar a cuál de todos los modelos es más conveniente aplicar “Score”. Nested Test Examina si dos modelos son estadísticamente equivalentes; siempre y cuando uno de los modelos sea un subconjunto del otro. Determina si la evaluación de un modelo a partir de más datos implica una mejor predicción, o si realmente son equivalentes y no es necesario el uso de tiempo extra de procesamiento en el análisis de más datos para obtener el mismo resultado. Score Aplica la predicción basada en el modelo seleccionado y los registros de los cuales se espera evaluar una predicción. Es importante que la fuente de datos a evaluar contenga las mismas variables predictoras utilizadas para la construcción del modelo, de lo contrario no se podrá aplicar la herramienta. El resultado de esta herramienta es una tabla con la predicción de la variable objetivo (en los términos que ésta fue definida en el modelo) para cada registro de los datos evaluados.