Guía de Herramientas Predictivas

Anuncio
HERRAMIENTAS PREDICTIVAS
Guía de Uso
Contenido
Propósito de la guía............................................................................................................................. 3
Series de tiempo.................................................................................................................................. 4
A/B Test ............................................................................................................................................... 6
MB Análisis .......................................................................................................................................... 8
Modelado predictivo ......................................................................................................................... 10
Comparación de modelos y resultados ............................................................................................. 14
Propósito de la guía
El propósito principal está enfocado en el entendimiento de las prácticas recomendadas para
obtener resultados con las herramientas predictivas contenidas en Alteryx 10.0, con la finalidad de
obtener resultados con la combinación correcta de las mismas. Esta guía no pretende explicar su
uso técnico específico, ya que para ello existe múltiple documentación en las guías de ayuda
publicadas; más bien provee al usuario, a manera de resumen, una forma sencilla entender su
aplicabilidad e interpretación de los resultados.
Series de tiempo
TS Plot
TS Filler
TS Arima
TS ETS
TS Forecast
TS Compare
El análisis más común, cuando se trata de hacer predicciones, está basado en el estudio de la
tendencia y comportamiento de una determinada variable a través del tiempo, y en cómo se puede
replicar éste comportamiento en el futuro.
Una buena práctica para iniciar un análisis de series de tiempo es verificar el comportamiento
histórico de nuestra variable. Únicamente para tener una visual de la tendencia que ha tenido en
los últimos años, meses, días, horas, etc. (dependiendo de lo que estemos evaluando). Para ello
contamos con la herramienta “TS Plot”, que nos permite evaluar gráficamente patrones de
tendencia, estacionales, de regresión, etc. Esta herramienta es únicamente para tener un primer
acercamiento a nuestros datos, su uso es individual y no se combina con ninguna otra herramienta,
más que un “Browser” para ver la salida.
¿Cómo combinar estas herramientas para obtener resultados?
(1) Una vez que sepamos cuales son las características esenciales de nuestros datos (quizás con
una revisión con el “TS Plot”) es conveniente configurarlos con la herramienta “TS Filter”.
Esto nos permite indicar específicamente cuál es nuestra columna de tiempo y cuál es su
periodicidad. Especialmente útil si tenemos datos con varios campos de fecha, o si no hay
una continuidad específica en las fechas.
(2) Aplicación del modelo de pronóstico a través de “TS Arima” o “TS ETS”, los cuales se
diferencian básicamente en el método aplicado. Para el usuario de Alteryx ambos métodos
tienen la misma configuración, pero internamente analizan los datos por Autoregresión de
promedios (ARIMA) o por crecimiento exponencial (ETS). Es conveniente ejecutar ambos
modelos, porque dependiendo de los datos el comportamiento puede ser muy distinto.
Ambos arrojan un reporte estadístico básico, y una gráfica de predicción.
(3) Finalmente se aplica la herramienta “TS Forecast”, indicando los períodos que se desean
pronosticar (que estarán basados en los definidos en las herramientas anteriores). La
aplicación de ésta herramienta sólo tiene sentido si la entrada es un objeto con la
información de un modelo de pronóstico (como los evaluados en (2)) y muestra tanto los
datos como el gráfico del pronóstico. Puede evaluar porcentajes de error para tener un
margen dentro del cual nuestros datos pueden fluctuar en el futuro.
Si se quiere hacer una comparación formal en el resultado obtenido en la aplicación de los modelos,
se aplica la herramienta “TS Compare”, para la cual debemos tomar en cuenta lo siguiente:
(1)
(2)
(3)
(4)
Combinar mediante la herramienta “Union” los objetos resultantes de ambos modelos
Verificar que preferiblemente ambos modelos estén basados en la misma periodicidad
Hacer el análisis entre la unión de los modelos (entrada L) y los datos originales (entrada R)
El resultado será un reporte con la tabla de datos de ambos modelos (con lo cual tenemos
que tanto distan uno del otro) y una gráfica para la interpretación visual.
A/B Test
AB Analysis
AB Controls
AB Treatments
AB Trend
El fin principal de este tipo de análisis es determinar la efectividad de modificar el cómo se presenta
o se entrega un producto servicio; es decir, evaluar dos variables A y B, donde ambas son similares,
ya que una de ellas se modifica durante el período de prueba mientras que la otra permanece
constante. La variable modificada se le llama “Treatment” y la que no varía se llama “Control”
¿Cómo combinar estas herramientas para obtener resultados?
(1) Se selecciona un archivo de “Treatment”. Ej.: un listado de tiendas, productos o servicios
que deseo evaluar.
(2) Valores de comportamiento de la variable del total de tiendas, productos o servicios, en un
mismo período de tiempo. Ej.: gastos, ganancias, unidades vendidas, etc., durante un
período de tiempo (cierres mensuales de venta por ejemplo)
(3) Con la herramienta AB Trend se indica el identificador único de la tabla de valores (2), el
campo de fecha, la variable que se desea evaluar y la periodicidad de la fecha indicada
(diario, semanal, quincenal, mensual, etc.). Esta herramienta va a arrojar una tendencia y
estacionalidad de la variable seleccionada, por cada tienda, producto o servicio de la lista.
(4) Con la herramienta AB Controls se genera el archivo de tiendas, productos o servicios de
control (los que no variarán en el análisis). Esta herramienta tiene dos entradas, la tendencia
y estacionalidad del archivo completo de datos (3) y las tiendas, productos o servicios
utilizados como “Treatment”. El resultado es una lista de las unidades de control asignados
a cada unidad de “Treatment”. La asignación se basa en la distancia entre las medidas de
tendencia y estacionalidad que hay entre las unidades “Treatment” y sus posibles controles.
(5) El AB Analysis recibe el archivo con las unidades de Control (4), el de “Treatments” (1) y un
tercer archivo de desempeño, que básicamente contiene los mismos campos que el archivo
indicado en (2) pero agregando los datos nuevos que se produjeron luego del cambio
efectuado en las variables “Treatment”. La salida es el análisis de los datos provistos.
Ejemplos donde aplicar este tipo de análisis:
 Determinar qué tan exitosa es una promoción de venta (resultados antes y después de la
promoción)
 Impacto en cambios en la presentación de un producto.
 Rentabilidad sobre cambios en ubicación, precios, colores, etc.
 Estudios de mercado.
BENEFICIOS:



Permite evaluar cambios sin compromisos de alta inversión
Determina el impacto de cambios para evaluar costo – beneficio.
Reducir riesgos de pérdidas por cambios infructuosos
REQUERIMIENTOS:

En ocasiones se debe contar con más de un año de historia disponible para poder hacer la
comparación.
MB Análisis
MB Affinity
MB Inspect
MB Rules
En general estas herramientas son útiles para el análisis de compra de ítems en la misma
transacción. Basta con tener un archivo de compras con un identificador por cada transacción y los
productos adquiridos en cada una.
¿Cómo combinar estas herramientas para obtener resultados?
(1) Se selecciona el método de clasificación de los ítems con respecto a la ocurrencia,
frecuencia, asociación, etc., a través de MB Rules. El resultado de esta herramienta es un
objeto con el análisis de conteo, frecuencia de ítems y transacciones, y clasifica los ítems
dependiendo del método seleccionado. En sí por sí sola esta herramienta sólo provee un
resumen de las operaciones efectuadas en los datos provistos, y analizar qué productos se
adquieren juntos.
(2) Con el fin de dar un sentido analítico a la herramienta anterior, es necesario utilizar MB
Inspect, y determinar qué tan probable es que las personas adquieran estos productos
juntos. El análisis se hace basado en “support”, “confidence” y “lift”.
a. Support: se define como la fracción de transacciones de los datos que contienen un
ítem o un conjunto de ítems. En general se espera un alto número en este indicador.
Por ejemplo: para supermercados hay productos básicos que tienen un alto índice
de “support”, como pan, leche, etc., ya que aparecen en una alta fracción de
transacciones. En otros comercios como ventas de cartuchos de impresora, no es
probable que exista u producto con alto índice de “support” porque cada usuario
adquirirá un ítem específico para su producto.
b. Confidence: basados en dos grupos (izquierda y derecha), éste indicador muestra
la probabilidad de que una nueva transacción que contenga un producto de la
izquierda también contenga un producto de la derecha.
c. Lift: se refiere a la proporción de “support” de productos de la izquierda que se
combinan con los de la derecha, en relación a la probabilidad de que éstos ocurran
en una misma transacción. Si éste indicador es menor que uno, sugiere que la
presencia de un producto de la izquierda en un transacción implica una baja
probabilidad de la existencia de un producto de la derecha en la misma transacción;
si es igual a uno, no implica relación entre ambos productos; mientras que mayor
que uno implica una alta probabilidad de existir en la misma transacción.
En conclusión:
 En la ejecución de un MB análisis buscamos por agrupaciones con un lift mayor que
uno, con una alta probabilidad de confidence de dos productos o conjuntos de
aparecer juntos en una transacción, y preferiblemente identificar aquellos con alto
support (si aplica al negocio)
Esta herramienta provee un reporte con gráficos que ayudan al análisis e interpretación de
la asociación que existe entre los ítems o grupos.
Adicional a las dos herramientas analizadas, existe la MB Affinity, la cual genera una matriz n x n de
cantidad de ocurrencia de dos ítems en una misma transacción, donde n es la cantidad de ítems
entre todas las transacciones a analizar.
BENEFICIOS:



Mejor ubicación de ítems en una tienda para promocionar ventas
Selección de ítems que pueden promocionarse juntos y programas de mercadeo
Permitir la categorización de los productos dependiendo de los propósitos de compra y
motivaciones
REQUERIMIENTOS:

A mayor número de transacciones, se obtienen resultados más confiables; sin embargo,
para el uso de la matriz de MB Affinity, no puede exceder de 5.000 ítems en un equipo
personal.
Modelado predictivo
Decision Tree
Forest Model
Boosted Model
Logistic Regression
Stepwise
Spline Model
Neural Network
Naïve Bayes Classifier
Support Vector
Machine
Linear Regression
Count Regression
Gamma Regression
El objetivo principal de estos modelos es analizar los datos a través de una variable objetivo y otro
conjunto de variables que puedan o no tener influencia sobre ésta.
En general es conveniente realizar un análisis previo con las herramientas de “Data Investigation”,
de manera que se pueda tener un informe más completo de las variables que realmente influyen en
el valor de la variable objetivo, o incluso para tomar subconjuntos de muestra para la correcta
ejecución del modelado predictivo.
¿Cómo combinar estas herramientas para obtener resultados?
(1) Se aplican herramientas de investigación a los datos de origen (tales como Association
Analysis, Frequency Table, Field Summary, Scatterplot) para analizar la relación entre la
variable objetivo y las predictoras.
(2) Se toma una muestra de los datos a través de herramientas como “Create Sample” y
“OverSample”.
(3) Se aplica el modelo o los modelos seleccionados sobre la muestra tomada y se analizan los
resultados.
(4) Se pueden comparar los modelos o evaluar los resultados sobre los elementos que no se
encuentran en la muestra tomada para el análisis (Lift chart y Score).
NOTA: Las herramientas del paso (4) se explican más adelante y las de los pasos (1) y (2) forman parte de “Data Investigation” que se
asumen conocidas
Los datos de entrada pueden tener diferente aplicabilidad. Otorgamiento de créditos, tendencia a
la adquisición de productos, encuestas, características de productos que se venden o no (Ej.:
relación precio – características de venta de inmuebles), tendencia a dar donaciones, aseguradoras,
condiciones médicas, etc.
A continuación se dará una breve explicación de las características más resaltantes de cada una de
las herramientas de modelado predictivo:
1. Decision Tree:
Realiza la predicción de la variable objetivo a través de la clasificación de ésta con respecto
a las variables predictoras. Se caracteriza por hacer un análisis jerárquico de las
características asociadas al objetivo y en general es de naturaleza flexible; esto es, permite
hacer análisis por cada variable predictora, en lugar de todas a la vez.
Los árboles de decisión son útiles cuando no hay una relación lineal con las variables
predictoras. Son sencillos de interpretar, ya que basta con seguir la línea de características
para determinar el porcentaje de confidencia del resultado de la predicción.
2. Forest Model:
Provee un nivel más alto de confidencialidad ya que predice a partir de la combinación de
varios árboles de decisión (la herramienta permite indicar cuantos). Usa la misma lógica de
la herramienta anterior, pero al final basa la decisión en la combinación del resultado de
todos los árboles.
3. Boosted Model:
Internamente funciona combinando en serie varios árboles de decisión. La ventaja de usar
ésta herramienta frente a las anteriores es que busca minimizar el grado de error en la
selección y combinación de los árboles, aumentando el nivel de confianza en el resultado.
Dependiendo de la complejidad de los datos, estas tres herramientas pueden arrojar
resultados muy similares y podría no haber diferencia en utilizar una u otra, pero podrían
combinarse y obtener resultados más confiables en nuestro “Score”.
4. Logistic Regression:
Este modelo es sólo aplicable a variables objetivo que representan un resultado binario (Ej.:
si o no, ganancias o pérdidas, etc.). El fin principal de esta herramienta es modelar la
ocurrencia o no de un suceso ante la presencia de otros factores. Es una herramienta que
por sus características es ampliamente utilizada en investigaciones médicas y
epidemiológicas.
5. Stepwise:
Proporciona resultados razonables cuando se tiene un número grande de variables
predictoras, y permite tamizar entre aquellas que resultan realmente útiles para el modelo.
Si se tiene un gran número de variables predictoras con respecto a la cantidad de
observaciones (Ej.: 1 variable por cada 10 registros), o si hay excesiva dependencia linear
entre ellas, el algoritmo de Stepwise podría no funcionar y terminar eliminando todas las
variables del modelo.
6. Spline Model:
Especialmente utilizados cuando las variables predictoras no muestran una relación simple
con respecto a la variable objetivo, ya que este modelo no asume o impone la existencia de
relaciones. Especialmente puede ser implementado con otros modelos como el de árboles
de decisión, por el algoritmo específico de interpretación de las variables predictoras (no
requiere relación linear).
7. Neural Network:
Aplicable prácticamente en cada situación en la que las variables predictoras TIENEN una
relación con la variable objetivo (aun cuando esta relación no sea necesariamente lineal o
sea difícil de determinar). Principalmente la implementación de este modelo ha tenido
resultados en fluctuación de valores de existencia, análisis de asignación de créditos. En
general es un modelo de predicción basado en el aprendizaje histórico.
8. Naïve Bayes Classifier:
Es un clasificador probabilístico basado en el teorema de Bayes (probabilidad condicional
de que A ocurre si ocurre B, de B si ocurre A, o si simplemente ocurre A). Una ventaja de
este modelo es que no requiere más que una pequeña cantidad de datos para “entrenar” y
determinar lo que ocurrirá basado en las mismas características o variables predictoras, y
asume que las variables predictoras son independientes entre sí. En general, se determinan
probabilidades para cada clase y escoge la clase con la probabilidad más alta.
9. Support Vector Machine:
Está basado en el concepto de separar los datos en planos de acuerdo a su clasificación con
respecto a la variable objetivo, donde cada plano representa una variable predictora. El
objetivo es analizar los datos y reconocer patrones de clasificación. Habitualmente son
utilizadas para clasificación binaria.
NOTA: Los modelos a continuación sólo aplican en variables objetivo continuas (numéricas), como
por ejemplo, cantidad de reclamos, costos, promedios, etc. La cantidad de variables predictoras que
influyen en el resultado es determinante en la diversidad y confidencialidad el mismo.
10. Linear, Count y Gamma Regressions:
Estas herramientas permiten predecir valores de un campo numérico, asociado con una o
más variables predictoras. Básicamente se diferencian en el método que utilizan para hacer
la regresión, o la fórmula que minimiza el error. Ya sea por distribución normal, binomial,
Poisson, Gamma, etc. En el caso de la Gamma, se debe tomar en cuenta que los datos deben
se continuos y positivos. Las tres herramientas arrojan un informe estadístico, sólo que la
regresión lineal se basa en el valor estadístico de “t” y las otras dos en el valor de “z”.
REQUERIMIENTOS:

Para una mejor asertividad en el resultado de estos modelos, lo ideal es tener en los datos
la mayor cantidad de variables predictoras disponibles para poder hacer un análisis más
completo de las que podrían influir o no en los resultados, y hacer uso de las más adecuadas.
Comparación de modelos y resultados
Lift Chart
Nested Test
Score
Después de aplicar un modelo, de los analizados anteriormente, es necesario evaluar cuál de todos
reporta mejores resultados, o el valor esperado de la predicción. Para ello contamos con estas
herramientas de comparación, a saber:
Lift Chart
Representa gráficamente qué tanto se adapta un modelo al resultado esperado; esto es, qué tan
eficaz es la predicción de cada uno de los modelos candidatos. Éste gráfico tiene la ventaja de que
no sólo puede presentar el análisis de un modelo, sino que puede integrar varios modelos, si previo
se hace un “union” de todos aquellos objetos que se desean evaluar. Responde a la pregunta ¿Qué
tan Bueno es mi modelo con respecto a la línea base? (si no aplicara ningún modelo de regresión).
-> Ejemplo: el modelo es 3 veces mejor que la línea base.
El resultado se obtiene comparando el o los modelos con los datos que se desean predecir, y el
mejor modelo será aquel que gráficamente se muestre más alejado de la línea base.
Se puede elegir otro tipo de gráfico que analiza la tasa incremental de la respuesta a evaluar (desde
el más hasta el menos probable).
Esta herramienta es especialmente útil para comparar cuál de los modelos es mejor implementar,
basados en cuantas veces es mejor uno que otro en cada punto de la evaluación, y con base en este
análisis determinar a cuál de todos los modelos es más conveniente aplicar “Score”.
Nested Test
Examina si dos modelos son estadísticamente equivalentes; siempre y cuando uno de los modelos
sea un subconjunto del otro. Determina si la evaluación de un modelo a partir de más datos implica
una mejor predicción, o si realmente son equivalentes y no es necesario el uso de tiempo extra de
procesamiento en el análisis de más datos para obtener el mismo resultado.
Score
Aplica la predicción basada en el modelo seleccionado y los registros de los cuales se espera evaluar
una predicción. Es importante que la fuente de datos a evaluar contenga las mismas variables
predictoras utilizadas para la construcción del modelo, de lo contrario no se podrá aplicar la
herramienta.
El resultado de esta herramienta es una tabla con la predicción de la variable objetivo (en los
términos que ésta fue definida en el modelo) para cada registro de los datos evaluados.
Descargar