MINERÍA DE DATOS – TÉCNICAS PREDICTIVAS DE MODELIZACIÓN TÉCNICAS DE MINERÍA DE DATOS. TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN. MODELO DE REGRESIÓN MÚLTIPLE. MODELOS DE ELECCIÓN DISCRETA. CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 1 TÉCNICAS DE MINERÍA DE DATOS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 2 TÉCNICAS DE MINERÍA DE DATOS LA FASE DE TÉCNICAS DE MINERÍA DE DATOS PROPIAMENTE DICHAS ENGLOBA: TÉCNICAS PREDICTIVAS ENFOCADAS A LA MODELIZACIÓN Y CLASIFICACIÓN AD HOC. TÉCNICAS DESCRIPTIVAS ENFOCADAS GENERALMENTE A LA CLASIFICACIÓN POST HOC Y OTRO TIPO DE TÉCNICAS VARIADAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 3 TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS PREDICTIVAS: ESPECIFICAN EL MODELO PARA LOS DATOS EN BASE A UN CONOCIMIENTO TEÓRICO PREVIO. EL MODELO SUPUESTO DEBE CONTRASTARSE DESPUÉS DEL PROCESO DE MINERÍA DE DATOS ANTES DE ACEPTARLO COMO VÁLIDO. INCLUYEN TODOS LOS TIPOS DE: REGRESIÓN. SERIES TEMPORALES. ANÁLISIS DE LA VARIANZA Y COVARIANZA. ANÁLISIS DISCRIMINANTE. ÁRBOLES DE DECISIÓN. REDES NEURONALES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 4 TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS PREDICTIVAS: LOS ÁRBOLES DE DECISIÓN, LAS REDES NEURONALES Y EL ANÁLISIS DISCRIMINANTE SON A SU VEZ TÉCNICAS DE CLASIFICACIÓN: PUEDEN EXTRAER PERFILES DE COMPORTAMIENTO 0 CLASES, SIENDO EL OBJETIVO CONSTRUIR UN MODELO QUE PERMITA CLASIFICAR CUALQUIER NUEVO DATO. LOS ÁRBOLES DE DECISIÓN PERMITEN CLASIFICAR LOS DATOS EN GRUPOS BASADOS EN LOS VALORES DE LAS VARIABLES: EL MECANISMO CONSISTE EN ELEGIR UN ATRIBUTO COMO RAÍZ Y DESARROLLAR EL ÁRBOL SEGÚN LAS VARIABLES MÁS SIGNIFICATIVAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 5 TÉCNICAS DE MINERÍA DE DATOS EJEMPLOS PREDICTIVOS: INTERPOLACIÓN: PREDICCIÓN SECUENCIAL: • 1, 2, 3, 5, 7, 11, 13, 17, 19, ... ?. APRENDIZAJE SUPERVISADO: • 1 3 4. • 3 5 8. • 7 2 9. • 4 2 ?. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 6 TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS DESCRIPTIVAS: NO SE ASIGNA NINGÚN PAPEL PREDETERMINADO A LAS VARIABLES. NO SE SUPONE LA EXISTENCIA DE VARIABLES DEPENDIENTES NI INDEPENDIENTES Y TAMPOCO SE SUPONE LA EXISTENCIA DE UN MODELO PREVIO PARA LOS DATOS. LOS MODELOS SE CREAN AUTOMÁTICAMENTE PARTIENDO DEL RECONOCIMIENTO DE PATRONES. INCLUYEN: CLUSTERING Y SEGMENTACIÓN (QUE TAMBIÉN SON TÉCNICAS DE CLASIFICACIÓN EN CIERTO MODO). ASOCIACIÓN Y DEPENDENCIA. ANÁLISIS EXPLORATORIO DE DATOS. REDUCCIÓN DE LA DIMENSIÓN FACTORIAL, COMPONENTES PRINCIPALES, CORRESPONDENCIAS, ETC. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 7 TÉCNICAS DE MINERÍA DE DATOS EJEMPLOS DESCRIPTIVOS: SEGMENTACIÓN (APRENDIZAJE NO SUPERVISADO): • ¿CUÁNTOS GRUPOS HAY?. • ¿QUÉ GRUPOS FORMO?. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 8 TÉCNICAS DE MINERÍA DE DATOS Regresión Modelización Análisis de la varianza Análisis canónico Predictivas Redes Neuronales Discriminante Técnicas de minería Clasificación ad hoc Árboles de decisión Clasificación post hoc Clustering Segmentación Descriptivas Asociación Dependencia Reducción de la dimensión Análisis exploratorio MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 9 TÉCNICAS DE MINERÍA DE DATOS LAS TÉCNICAS DE CLASIFICACIÓN PUEDEN PERTENECER: AL GRUPO DE TÉCNICAS PREDICTIVAS: DISCRIMINANTE, ÁRBOLES DE DECISIÓN Y REDES NEURONALES. AL GRUPO DE TÉCNICAS DESCRIPTIVAS: CLUSTERING Y SEGMENTACIÓN. LAS TÉCNICAS DE CLASIFICACIÓN PREDICTIVAS SUELEN DENOMINARSE TÉCNICAS DE CLASIFICACIÓN AD HOC: CLASIFICAN INDIVIDUOS U OBSERVACIONES DENTRO DE GRUPOS PREVIAMENTE DEFINIDOS. LAS TÉCNICAS DE CLASIFICACIÓN DESCRIPTIVAS SE DENOMINAN TÉCNICAS DE CLASIFICACIÓN POST HOC: REALIZAN CLASIFICACIÓN SIN ESPECIFICACIÓN PREVIA DE LOS GRUPOS. LAS REDES NEURONALES PUEDEN UTILIZARSE TANTO PARA LA MODELIZACIÓN COMO PARA LA CLASIFICACIÓN. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 10 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 11 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN REVISIÓN DE CONCEPTOS PREVIOS VARIANZA SI SE TIENE UN CONJUNTO DE DATOS DE UNA MISMA VARIABLE, LA VARIANZA SE CALCULA DE LA SIGUIENTE FORMA: : CADA DATO. n: N° DE ELEMENTOS. : MEDIA ARITMÉTICA DE LOS DATOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 12 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN REVISIÓN DE CONCEPTOS PREVIOS COVARIANZA PARA HACER EL ESTUDIO CONJUNTO DE LAS VARIABLES CUANTITATIVAS X E Y, SE SUPONE QUE SE DISPONE DE UNA MUESTRA DE n PARES DE OBSERVACIONES DE X E Y: LA COVARIANZA MUESTRAL ENTRE LAS OBSERVACIONES DE X E Y SE DEFINE COMO: MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 13 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN REVISIÓN DE CONCEPTOS PREVIOS MODELO DE REGRESIÓN LINEAL LA RECTA DE REGRESIÓN DE Y SOBRE X ES LA RECTA y = a + bx QUE MINIMIZA EL ERROR CUADRÁTICO MEDIO (E.C.M.): EL COEFICIENTE DE CORRELACIÓN LINEAL ENTRE X E Y SE DEFINE COMO: MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 14 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN REVISIÓN DE CONCEPTOS PREVIOS COEFICIENTE DE CORRELACIÓN PARCIAL ES LA RELACIÓN ENTRE DOS VARIABLES CUANDO SE HA ELIMINADO DE CADA UNA DE ELLAS EL EFECTO QUE SOBRE ELLAS TIENE UNA TERCERA VARIABLE: X , Y SON LAS VARIABLES OBJETO DEL ESTUDIO. Z ES LA VARIABLE DE CONTROL. CONSISTE EN ESTUDIAR LAS CORRELACIONES Y COMBINARLAS: MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 15 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN TÉCNICAS PARA LA MODELIZACIÓN LA CLASIFICACIÓN DE LAS TÉCNICAS DISCRIMINA ENTRE LA EXISTENCIA O NO DE VARIABLES EXPLICATIVAS Y EXPLICADAS. TÉCNICAS PREDICTIVAS O MÉTODOS EXPLICATIVOS: EXISTE UNA DEPENDENCIA ENTRE LAS VARIABLES EXPLICADAS Y SUS VARIABLES EXPLICATIVAS, QUE PUEDA PLASMARSE EN UN MODELO,. ESTAS TÉCNICAS DE ANÁLISIS DE LA DEPENDENCIA: PUEDEN CLASIFICARSE EN FUNCIÓN DE LA NATURALEZA MÉTRICA O NO MÉTRICA DE LAS VARIABLES INDEPENDIENTES Y DEPENDIENTES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 16 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN VARIABLES INDEPENDIENTES Métricas No métricas VARIABLE DEPENDIENTE Métrica Simple Regresión lineal múltiple VARIABLE DEPENDIENTE No métrica Métrica Simple Múltiple Análisis canónico Análisis Discriminante ANOVA ANCOVA Modelos de elección discreta Regresión lineal con variables ficticias No métrica Múltiple MANOVA MANCOVA Modelos de elección discreta con variables ficticias MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 17 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN EL ANÁLISIS DE REGRESIÓN MÚLTIPLE: ES UTILIZADO PARA ANALIZAR LA RELACIÓN ENTRE: UNA VARIABLE DEPENDIENTE (O ENDÓGENA) MÉTRICA. VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) TAMBIÉN MÉTRICAS. EL OBJETIVO ESENCIAL ES UTILIZAR LAS VARIABLES INDEPENDIENTES, CUYOS VALORES SON CONOCIDOS, PARA PREDECIR LA ÚNICA VARIABLE CRITERIO (DEPENDIENTE) SELECCIONADA POR EL INVESTIGADOR. LA EXPRESIÓN ES LA SIGUIENTE: y = F(x1, x2,…, xn) DONDE INICIALMENTE, TANTO LA VARIABLE DEPENDIENTE y COMO LAS INDEPENDIENTES xi SON MÉTRICAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 18 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN TAMBIÉN SE PUEDE TRABAJAR CON VARIABLES INDEPENDIENTES NO MÉTRICAS SI SE EMPLEAN VARIABLES FICTICIAS PARA SU TRANSFORMACIÓN EN MÉTRICAS: MODELOS DE REGRESIÓN CON VARIABLES FICTICIAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 19 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN EL ANÁLISIS CANÓNICO O ANÁLISIS DE LA CORRELACIÓN CANÓNICA: ES UNA TÉCNICA PARA ANALIZAR LA RELACIÓN ENTRE MÚLTIPLES VARIABLES DEPENDIENTES (O ENDÓGENAS) MÉTRICAS Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) TAMBIÉN MÉTRICAS. EL OBJETIVO ESENCIAL ES UTILIZAR LAS VARIABLES INDEPENDIENTES, CUYOS VALORES SON CONOCIDOS, PARA PREDECIR LAS VARIABLES CRITERIO (DEPENDIENTES). LA EXPRESIÓN ES LA SIGUIENTE: G(y1, y2,…, yn) = F(x1, x2,…, xn) DONDE INICIALMENTE, TANTO LAS VARIABLES DEPENDIENTES yi COMO LAS INDEPENDIENTES xi SON MÉTRICAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 20 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN ES UNA AMPLIACIÓN DEL MODELO DE REGRESIÓN MÚLTIPLE AL CASO DE VARIAS VARIABLES DEPENDIENTES. TAMBIÉN PUEDE EXTENDERSE AL CASO DE VARIABLES DEPENDIENTES NO MÉTRICAS Y AL CASO DE VARIABLES INDEPENDIENTES NO MÉTRICAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 21 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN EL ANÁLISIS DISCRIMINANTE: SE USA PARA ANALIZAR LA RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE (O ENDÓGENA) NO MÉTRICA (CATEGÓRICA) Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) MÉTRICAS. EL OBJETIVO ES UTILIZAR LOS VALORES CONOCIDOS DE LAS VARIABLES INDEPENDIENTES PARA PREDECIR CON QUÉ CATEGORÍA DE LA VARIABLE DEPENDIENTE SE CORRESPONDEN. SE PUEDE PREDECIR EN QUÉ CATEGORÍA DE RIESGO CREDITICIO SE ENCUENTRA UNA PERSONA, EL ÉXITO DE UN PRODUCTO EN EL MERCADO, ETC. LA EXPRESIÓN ES: y = F(x1, x2,…, xn) DONDE y (DEPENDIENTE) ES NO MÉTRICA Y LAS VARIABLES INDEPENDIENTES SON MÉTRICAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 22 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN ES UN CASO PARTICULAR DEL ANÁLISIS DE REGRESIÓN MÚLTIPLE. ES UNA TÉCNICA DE CLASIFICACIÓN QUE PERMITE: AGRUPAR A LOS ELEMENTOS DE UNA MUESTRA EN DOS O MÁS CATEGORÍAS DIFERENTES, PREDEFINIDAS EN UNA VARIABLE DEPENDIENTE NO MÉTRICA, EN FUNCIÓN DE UNA SERIE DE VARIABLES INDEPENDIENTES MÉTRICAS COMBINADAS LINEALMENTE. PARA VALORES DADOS DE LAS VARIABLES INDEPENDIENTES SE DEBE PREDECIR LA PROBABILIDAD DE PERTENENCIA A UNA CATEGORÍA O CLASE DE LA VARIABLE DEPENDIENTE: EJEMPLO: SEGÚN ALGUNAS VARIABLES MEDIDAS EN EL INDIVIDUO, PREDECIR LA PROBABILIDAD DE QUE: UN INDIVIDUO COMPRE UN PRODUCTO. UN INDIVIDUO DEVUELVA UN CRÉDITO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 23 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN MODELOS DE ELECCIÓN DISCRETA: TIENEN LA MISMA NATURALEZA QUE EL MODELO DISCRIMINANTE. SE PREDICE LA PROBABILIDAD DE PERTENENCIA A UNA CATEGORÍA (CLASE) PARA VALORES DADOS DE LAS VARIABLES DEPENDIENTES. PREDICEN DIRECTAMENTE LA PROBABILIDAD DE OCURRENCIA DE UN SUCESO QUE VIENE DEFINIDO POR LOS VALORES DE LAS VARIABLES INDEPENDIENTES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 24 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN UN CASO PARTICULAR DEL MODELO DE REGRESIÓN MÚLTIPLE ES EL MODELO LINEAL DE PROBABILIDAD: Pi = F(xi, β) + ui SI F ES LA FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE ALEATORIA, ENTONCES P VARÍA ENTRE 0 Y 1. SI F ES LA FUNCIÓN LOGÍSTICA SE TIENE EL MODELO LOGIT O REGRESIÓN LOGÍSTICA: Pi = F(xi, β) + ui = 𝑒𝑥𝑖𝛽 1+𝑒 𝑥 𝑖 𝛽 ui SI F ES LA FUNCIÓN DE DISTRIBUCIÓN DE UNA NORMAL UNITARIA SE TIENE EL MODELO PROBIT: −1/2 Pi = F(xi, β) + ui = (2𝜋) 𝑥𝑖 𝛽 −∞ 𝑒 −𝑡 2 2 𝑑𝑡 + ui MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 25 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN EL ANÁLISIS DE LA VARIANZA SIMPLE SE UTILIZA PARA ANALIZAR LA RELACIÓN ENTRE: UNA VARIABLE DEPENDIENTE (O ENDÓGENA) MÉTRICA Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) NO MÉTRICAS. EL OBJETIVO ES DETERMINAR SI DIVERSAS MUESTRAS PROCEDEN DE POBLACIONES CON IGUAL MEDIA. LOS VALORES NO MÉTRICOS DE LAS VARIABLES INDEPENDIENTES DETERMINARÁN UNA SERIE DE GRUPOS EN LA VARIABLE DEPENDIENTE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 26 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN EL MODELO ANOVA MIDE LA SIGNIFICACIÓN ESTADÍSTICA DE LAS DIFERENCIAS ENTRE LAS MEDIAS DE LOS GRUPOS DETERMINADOS EN LA VARIABLE DEPENDIENTE POR LOS VALORES DE LAS VARIABLES INDEPENDIENTES: y = F(x1, x2,…, xn) DONDE LA VARIABLE DEPENDIENTE y ES MÉTRICA Y LAS VARIABLES INDEPENDIENTES SON NO MÉTRICAS. SE TRATA POR TANTO DE OTRO CASO PARTICULAR DEL MODELO DE REGRESIÓN MÚLTIPLE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 27 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN EL ANÁLISIS DE LA COVARIANZA SIMPLE ES UNA TÉCNICA UTILIZADA PARA ANALIZAR LA RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE (O ENDÓGENA) MÉTRICA Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS), PARTE DE LAS CUALES SON NO MÉTRICAS, SIENDO LA OTRA PARTE MÉTRICAS (COVARIABLES): y = F(x1, x2,…, xn) DONDE LA VARIABLE DEPENDIENTE y ES MÉTRICA Y LAS VARIABLES INDEPENDIENTES SON ALGUNAS MÉTRICAS Y OTRAS NO MÉTRICAS. ES OTRO CASO PARTICULAR DEL MODELO DE REGRESIÓN MÚLTIPLE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 28 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN EL ANÁLISIS DE LA VARIANZA MÚLTIPLE ES UNA TÉCNICA UTILIZADA PARA ANALIZAR LA RELACIÓN ENTRE: VARIAS VARIABLES DEPENDIENTES (O ENDÓGENAS) MÉTRICAS Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) NO MÉTRICAS. EL OBJETIVO ES CONTRASTAR SI LOS VALORES NO MÉTRICOS DE LAS VARIABLES INDEPENDIENTES DETERMINARÁN LA IGUALDAD DE VECTORES DE MEDIAS DE UNA SERIE DE GRUPOS DETERMINADOS POR ELLOS EN LAS VARIABLES DEPENDIENTES. EL MODELO MANOVA MIDE LA SIGNIFICACIÓN ESTADÍSTICA DE LAS DIFERENCIAS ENTRE LOS VECTORES DE MEDIAS DE LOS GRUPOS DETERMINADOS EN LAS VARIABLES DEPENDIENTES POR LOS VALORES DE LAS VARIABLES INDEPENDIENTES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 29 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN LA EXPRESIÓN ES: G(y1, y2,…, ym) = F(x1, x2,…, xn) DONDE LAS VARIABLES DEPENDIENTES SON MÉTRICAS Y LAS VARIABLES INDEPENDIENTES SON NO MÉTRICAS. ES OTRO CASO PARTICULAR DE LA REGRESIÓN MÚLTIPLE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 30 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN EL ANÁLISIS DE LA COVARIANZA MÚLTIPLE SE USA PARA ANALIZAR LA RELACIÓN ENTRE: VARIAS VARIABLES DEPENDIENTES (O ENDÓGENAS) MÉTRICAS Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) MEZCLA DE VARIABLES MÉTRICAS Y NO MÉTRICAS. LA EXPRESIÓN ES: G(y1, y2,…, ym) = F(x1, x2,…, xn) DONDE LAS VARIABLES DEPENDIENTES SON MÉTRICAS Y LAS VARIABLES INDEPENDIENTES SON UNA PARTE MÉTRICAS Y OTRA PARTE NO MÉTRICAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 31 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN EN EL ANÁLISIS DE LA COVARIANZA (SIMPLE Y MÚLTIPLE): LAS VARIABLES MÉTRICAS INDEPENDIENTES (COVARIABLES) TIENEN COMO OBJETIVO ELIMINAR DETERMINADOS EFECTOS QUE PUEDAN SESGAR LOS RESULTADOS INCREMENTANDO LA VARIANZA DENTRO DE LOS GRUPOS: ELIMINAR, MEDIANTE UNA REGRESIÓN LINEAL, LA VARIACIÓN EXPERIMENTADA POR LAS VARIABLES DEPENDIENTES PRODUCIDA POR LA COVARIABLE O COVARIABLES DE EFECTOS INDESEADOS. HACER UN ANÁLISIS ANOVA O MANOVA SOBRE LAS VARIABLES DEPENDIENTES AJUSTADAS (RESIDUOS DE LA REGRESIÓN ANTERIOR). MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 32 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN LA REGRESIÓN MÚLTIPLE ADMITE LA POSIBILIDAD DE TRABAJAR CON VARIABLES INDEPENDIENTES NO MÉTRICAS SI SE EMPLEAN VARIABLES FICTICIAS PARA SU TRANSFORMACIÓN EN MÉTRICAS: A CADA CLASE DE LA VARIABLE NO MÉTRICA SE LE ASIGNA UN VALOR NUMÉRICO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 33 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN EL MODELO DE REGRESIÓN MÚLTIPLE CON VARIABLES FICTICIAS: ES SIMILAR AL ANÁLISIS DE LA REGRESIÓN MÚLTIPLE. LA DIFERENCIA ES QUE LAS VARIABLES INDEPENDIENTES PUEDEN SER TAMBIÉN NO MÉTRICAS. SE USA PARA ANALIZAR LA RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE (O ENDÓGENA) MÉTRICA Y VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) MÉTRICAS, NO MÉTRICAS O MEZCLA DE AMBAS. EL OBJETIVO ES UTILIZAR LAS VARIABLES INDEPENDIENTES, CUYOS VALORES SON CONOCIDOS, PARA PREDECIR LA ÚNICA VARIABLE CRITERIO (DEPENDIENTE). LA EXPRESIÓN ES: y = F(x1, x2,…, xn) MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 34 TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN MÉTODOS DEL ANÁLISIS MULTIVARIANTE DE LA DEPENDENCIA, SEGÚN LA NATURALEZA DE SUS VARIABLES DEPENDIENTES E INDEPENDIENTES: TÉCNICA VARIABLES DEPENDIENTES VARIABLES INDEPENDIENTES ANOVA Y MANOVA Métrica (métricas) No métricas ANCOVA Y MANCOVA Métrica (métricas) Métricas y no métricas REGRESIÓN MÚLTIPLE Métrica Métricas REGRESIÓN MÚLTIPLE (VARIABLES FICTICIAS) Métrica Métricas y no métricas CORRELACIÓN CANÓNICA Métricas y no métricas Métricas y no métricas ELECCIÓN DISCRETA No métrica Métricas ELECCIÓN DISCRETA (VARIABLES FICTICIAS) No métrica Métricas y no métricas MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 35 MODELO DE REGRESIÓN MÚLTIPLE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 36 MODELO DE REGRESIÓN MÚLTIPLE LA REGRESIÓN MÚLTIPLE TIENE COMO OBJETIVO ANALIZAR UN MODELO QUE PRETENDE EXPLICAR EL COMPORTAMIENTO DE UNA VARIABLE (ENDÓGENA, EXPLICADA O DEPENDIENTE), Y, UTILIZANDO UN CONJUNTO DE VARIABLES EXPLICATIVAS (EXÓGENAS O INDEPENDIENTES), X1, X2,…, XK. EL MODELO LINEAL (MODELO ECONOMÉTRICO) VIENE DADO POR: Y = b0 +b1X1+ b2X2+…+ bkXk + u LOS COEFICIENTES (PARÁMETROS) b1, b2,…, bk DENOTAN LA MAGNITUD DEL EFECTO QUE LAS VARIABLES EXPLICATIVAS (EXÓGENAS O INDEPENDIENTES) X1, X2,…, XK TIENEN SOBRE LA VARIABLE EXPLICADA (ENDÓGENA O DEPENDIENTE) Y. EL COEFICIENTE b0 SE DENOMINA TÉRMINO CONSTANTE (O INDEPENDIENTE) DEL MODELO. EL TÉRMINO u SE DENOMINA TÉRMINO DE ERROR DEL MODELO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 37 MODELO DE REGRESIÓN MÚLTIPLE SI SE DISPONE DE UN CONJUNTO DE T OBSERVACIONES PARA C/U DE LAS VARIABLES ENDÓGENA Y EXÓGENAS, EL MODELO SE ESCRIBE DE LA FORMA: Yt = b0 +b1X1t+ b2X2t+…+ bkXkt + ut t=1,2,3,…,T LA APARICIÓN (NO NECESARIA) DE UN TÉRMINO INDEPENDIENTE EN EL MODELO PUEDE INTERPRETARSE COMO LA PRESENCIA DE UNA PRIMERA VARIABLE X0 CUYO VALOR SEA SIEMPRE 1. PROBLEMA FUNDAMENTAL: SUPONIENDO QUE LA RELACIÓN ENTRE LA VARIABLE Y Y EL CONJUNTO DE VARIABLES X1, X2,…, XK ES COMO SE HA DESCRITO EN EL MODELO, Y QUE SE DISPONE DE UN CONJUNTO DE T OBSERVACIONES PARA C/U DE LAS VARIABLES, LA ENDÓGENA Y LAS EXÓGENAS, ¿CÓMO PUEDEN ASIGNARSE VALORES NUMÉRICOS A LOS PARÁMETROS b0, b1, b2,…, bk, BASÁNDONOS EN LA INFORMACIÓN MUESTRAL?: ESTOS VALORES SE LLAMARÁN ESTIMACIONES DE LOS PARÁMETROS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 38 MODELO DE REGRESIÓN MÚLTIPLE UNA VEZ ENCONTRADAS LAS ESTIMACIONES DE PARÁMETROS DEL MODELO: SE PODRÁ HACER PREDICCIONES ACERCA COMPORTAMIENTO FUTURO DE LA VARIABLE Y. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN LOS DEL 39 MODELO DE REGRESIÓN MÚLTIPLE EL MODELO LINEAL SE FORMULA BAJO LAS SIGUIENTES HIPÓTESIS: LAS VARIABLES 𝑋1 , 𝑋2 , … , 𝑋𝐾 , SON DETERMINISTAS (NO SON VARIABLES ALEATORIAS), YA QUE SU VALOR ES UN VALOR CONSTANTE PROVENIENTE DE UNA MUESTRA TOMADA. LA VARIABLE u (TÉRMINO DE ERROR) ES UNA VARIABLE ALEATORIA CON ESPERANZA NULA Y MATRIZ DE COVARIANZAS CONSTANTE Y DIAGONAL (MATRIZ ESCALAR): PARA TODO t, LA VARIABLE ut, TIENE MEDIA CERO Y VARIANZA 2 NO DEPENDIENTE DE t, Y ADEMÁS Cov( 𝑢𝑖 , 𝑢𝑗 )=0 PARA TODO i Y PARA TODO j DISTINTOS ENTRE SÍ: • EL HECHO DE QUE LA VARIANZA DE 𝑢𝑡 SEA CONSTANTE PARA TODO t (QUE NO DEPENDA DE t), SE DENOMINA HIPÓTESIS DE HOMOSCEDASTICIDAD. • EL HECHO DE QUE Cov(𝑢𝑖 , 𝑢𝑗 )=0 PARA TODO i DISTINTO DE j SE DENOMINA HIPÓTESIS DE NO AUTOCORRELACIÓN. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 40 MODELO DE REGRESIÓN MÚLTIPLE LA VARIABLE Y ES ALEATORIA, YA QUE DEPENDE DE LA VARIABLE ALEATORIA u. SE SUPONE LA AUSENCIA DE ERRORES DE ESPECIFICACIÓN: SE SUPONE QUE TODAS LAS VARIABLES X QUE SON RELEVANTES PARA LA EXPLICACIÓN DE LA VARIABLE Y, ESTÁN INCLUIDAS EN LA DEFINICIÓN DEL MODELO LINEAL. LAS VARIABLES X1, X2,…, XK, SON LINEALMENTE INDEPENDIENTES: NO EXISTE RELACIÓN LINEAL EXACTA ENTRE ELLAS: HIPÓTESIS DE INDEPENDENCIA. CUANDO NO SE CUMPLE EL MODELO PRESENTA MULTICOLINEALIDAD. A VECES SE CONSIDERA LA HIPÓTESIS DE NORMALIDAD DE LOS RESIDUOS: LAS VARIABLES ut , SON NORMALES PARA TODO t. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 41 MODELO DE REGRESIÓN MÚLTIPLE ESTIMACIÓN DEL MODELO LINEAL DE REGRESIÓN MÚLTIPLE SE SUPONE QUE SE QUIERE AJUSTAR EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE: Y = b0 +b1X1+ b2X2+…+ bkXk + u SE DISPONE DE UN CONJUNTO DE T OBSERVACIONES PARA CADA UNA DE LAS VARIABLES ENDÓGENA Y EXÓGENAS. EL MODELO ES: Yt = b0 +b1X1t+ b2X2t+…+ bkXkt + ut t=1,2,3,…,T LA APARICIÓN (NO NECESARIA) DE UN TÉRMINO INDEPENDIENTE EN EL MODELO PUEDE INTERPRETARSE COMO LA PRESENCIA DE UNA PRIMERA VARIABLE X0 CUYO VALOR SEA SIEMPRE 1. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 42 MODELO DE REGRESIÓN MÚLTIPLE ESTIMACIÓN DEL MODELO LINEAL DE REGRESIÓN MÚLTIPLE EL CRITERIO DE MÍNIMOS CUADRADOS CONSIDERA QUE LA FUNCIÓN QUE MEJOR SE AJUSTA A LOS DATOS ES LA QUE MINIMIZA LA VARIANZA DEL ERROR e, LO QUE ES EQUIVALENTE A MINIMIZAR: S(b0, b1, b2,…, bk) = σ𝑇𝑡=1 𝑒𝑡2 = σ𝑇𝑡=1 𝑦𝑡 − 𝑏0 + 𝑏1 𝑥1𝑡 + 𝑏2 𝑥2𝑡 + ⋯ + 𝑏𝑘 𝑥𝑘𝑡 2 DERIVANDO RESPECTO DE LOS PARÁMETROS b0, b1, …, bk, E IGUALANDO A CERO SE TIENE: MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 43 MODELO DE REGRESIÓN MÚLTIPLE ESTIMACIÓN DEL MODELO LINEAL DE REGRESIÓN MÚLTIPLE ESTAS ECUACIONES FORMAN UN SISTEMA DENOMINADO SISTEMA DE ECUACIONES NORMALES, QUE PUEDE RESOLVERSE PARA b0, b1, …, bk MEDIANTE CUALQUIER MÉTODO APROPIADO PARA RESOLVER SISTEMAS DE ECUACIONES LINEALES. DE ESTA FORMA SE OBTIENE LA ESTIMACIÓN DEL MODELO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 44 MODELO DE REGRESIÓN MÚLTIPLE ESTIMACIÓN DEL MODELO, CONTRASTES E INTERVALOS DE CONFIANZA A TRAVÉS DEL CÁLCULO MATRICIAL YA SE SABE QUE EL MODELO LINEAL DE REGRESIÓN MÚLTIPLE PUEDE ESCRIBIRSE DE LA FORMA: Yt = b0 +b1X1t+ b2X2t+…+ bkXkt + ut t=1,2,3,…,T ESTA EXPRESIÓN PUEDE REPRESENTARSE EN FORMA MATRICIAL COMO SIGUE: ABREVIADAMENTE: Y = X B + u. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 45 MODELO DE REGRESIÓN MÚLTIPLE ESTIMACIÓN DEL MODELO, CONTRASTES E INTERVALOS DE CONFIANZA A TRAVÉS DEL CÁLCULO MATRICIAL EL PRIMER OBJETIVO DEL ANÁLISIS ECONOMÉTRICO ES EL DE OBTENER ESTIMACIONES, ES DECIR, VALORES NUMÉRICOS DE LOS COEFICIENTES 𝑏0 , 𝑏1 , … , 𝑏𝑘 COMO FUNCIÓN DE LA INFORMACIÓN MUESTRAL: ESTAS ESTIMACIONES PUEDEN SER TAMBIÉN POR INTERVALOS, ES DECIR, QUE SE PODRÁ CALCULAR INTERVALOS DE CONFIANZA PARA LOS PARÁMETROS. SE SUPONE QUE SE DISPONE YA DE UN VECTOR DE ESTIMACIONES 𝐵 DE LOS COEFICIENTES; SE PODRÍA ESCRIBIR: 𝐵 = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2 +⋯ + 𝑏𝑘 𝑋𝑘 𝑌=𝑋 𝑌𝑡 =𝑏0 + 𝑏1 𝑋1𝑡 + 𝑏2 𝑋2𝑡 +⋯ + 𝑏𝑘 𝑋𝑘𝑡 t=1,2,3,…,T LOS RESIDUOS SON LAS DIFERENCIAS ENTRE LOS VERDADEROS VALORES DE LA VARIABLE 𝑌𝑡 Y LOS VALORES ESTIMADOS PARA 𝑌𝑡 : 𝑢 ො 𝑡 = 𝑌𝑡 − 𝑌𝑡 PARA TODO t. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 46 MODELO DE REGRESIÓN MÚLTIPLE ESTIMACIÓN DEL MODELO, CONTRASTES E INTERVALOS DE CONFIANZA A TRAVÉS DEL CÁLCULO MATRICIAL 𝑢ො =X𝐵+ 𝑢: SE DEDUCE QUE Y =𝑌+ ො EL MODELO ORIGINAL ES Y= XB + u. 𝑢. EL MODELO ESTIMADO SERÁ Y = X𝐵+ ො LAS ESTIMACIONES DE LOS PARÁMETROS PUEDEN CALCULARSE POR EL MÉTODO DE MÍNIMOS CUADRADOS O SUMA RESIDUAL (SR): MINIMIZAR LA SUMA DE LOS CUADRADOS DE LOS RESIDUOS. SR=𝑢′ ො 𝑢ො = σ𝑇𝑡=1 𝑢ො 𝑡2 = σ𝑇𝑡=1(𝑌𝑡 − 𝑌𝑡 )2 EL VALOR DE LAS ESTIMACIONES DE LOS PARÁMETROS VIENE DADO POR LA EXPRESIÓN 𝐵 = (𝑋′𝑋)−1 X'Y: = B. SON ESTIMACIONES INSESGADAS, PUES E(𝐵) ES 2 (𝑋′𝑋)−1 . LA MATRIZ DE COVARIANZAS DE 𝐵 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 47 MODELO DE REGRESIÓN MÚLTIPLE ESTIMACIÓN DEL MODELO, CONTRASTES E INTERVALOS DE CONFIANZA A TRAVÉS DEL CÁLCULO MATRICIAL DE LO ANTERIOR SE DEDUCE QUE EL ESTIMADOR 𝑏𝑖 , DE UNO CUALQUIERA DE LOS COEFICIENTES 𝑏𝑖 , TIENE COMO ESPERANZA MATEMÁTICA 𝑏𝑖 ; Y COMO DESVIACIÓN TÍPICA EL VALOR 𝜎 * 𝑎𝑖𝑖 DONDE 𝑎𝑖𝑖 ES EL ELEMENTO I-ÉSIMO EN LA DIAGONAL PRINCIPAL DE LA MATRIZ 𝜎 2 (𝑋′𝑋)−1 . BAJO LA HIPÓTESIS DE NORMALIDAD DE LOS RESIDUOS, EL ESTADÍSTICO 𝑵𝒊 = 𝒊 −𝒃𝒊 𝒃 𝝈 𝒂𝒊𝒊 SIGUE UNA DISTRIBUCIÓN NORMAL (0, 1). MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 48 MODELO DE REGRESIÓN MÚLTIPLE ESTIMACIÓN DEL MODELO, CONTRASTES E INTERVALOS DE CONFIANZA A TRAVÉS DEL CÁLCULO MATRICIAL EL ESTIMADOR (MÁXIMO VEROSÍMIL Y DE MÍNIMOS CUADRADOS) DE 𝜎 2 ES: PERO NO ES INSESGADO. UN ESTIMADOR INSESGADO DE LA VARIANZA DEL ERROR ES: ෝ′ෝ 𝑢 𝑢 , 𝑇 ෝ′ෝ 𝑢 𝑢 𝜎ො 2 = 𝑇−𝑘−1 TAMBIÉN SE DEMUESTRA QUE EL ESTADÍSTICO G=𝒖′𝒖/𝝈𝟐 : SIGUE UNA DISTRIBUCIÓN CHI-CUADRADO CON T-k-1 GRADOS DE LIBERTAD. PERMITIRÁ CALCULAR INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS PARA 𝜎 Y PARA SU CUADRADO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 49 MODELO DE REGRESIÓN MÚLTIPLE ESTIMACIÓN DEL MODELO, CONTRASTES E INTERVALOS DE CONFIANZA A TRAVÉS DEL CÁLCULO MATRICIAL LAS DISTRIBUCIONES DE LOS ESTADÍSTICOS 𝑵𝒊 y G LLEVAN A LA SIGUIENTE CONCLUSIÓN: 𝟏 𝟐 EL ESTADÍSTICO 𝑵𝒊 / [𝑮/(𝑻 − 𝒌 − 𝟏)] ES UNA t DE STUDENT CON 𝑇 − 𝑘 − 1 GRADOS DE LIBERTAD. EL ESTADÍSTICO 𝑻𝒊 = 𝒊 −𝒃𝒊 𝒃 𝝈 𝒂𝒊𝒊 SIGUE UNA DISTRIBUCIÓN t DE STUDENT CON 𝑇 − 𝑘 − 1 GRADOS DE LIBERTAD: PERMITIRÁ HALLAR INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS PARA LOS PARÁMETROS 𝑏𝑖 DEL MODELO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 50 MODELO DE REGRESIÓN MÚLTIPLE ESTIMACIÓN DEL MODELO, CONTRASTES E INTERVALOS DE CONFIANZA A TRAVÉS DEL CÁLCULO MATRICIAL SE PODRÁ CONTRASTAR LA HIPÓTESIS NULA 𝐻0 DE QUE 𝑏𝑖 = 0 PARA CADA i= 1,2....,T DE LA FORMA HABITUAL UTILIZANDO EL ESTADÍSTICO 𝑇𝑖 : SI 𝑇𝑖0 ES EL VALOR DE 𝑇𝑖 CUANDO 𝑏𝑖 = 0, SE ACEPTARÁ LA HIPÓTESIS 𝐻0 AL NIVEL α CUANDO 𝑇𝑖0 ≤ 𝑡𝛼/2,𝑇−𝑘−1 . EL INTERVALO DE CONFIANZA PARA 𝑏𝑖 AL NIVEL α VENDRÁ DADO POR: 𝑏𝑖 ± 𝑡𝛼/2,𝑇−𝑘−1 𝜎 ො 𝑎𝑖𝑖 𝑡𝛼/2,𝑇−𝑘−1 ES EL VALOR DE LA ABSCISA DE UNA t DE STUDENT CON T-k-1 GRADOS DE LIBERTAD, QUE DEJA A SU DERECHA 𝛼/2 DE ÁREA. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 51 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE SE UTILIZARÁN AHORA LOS SIGUIENTES CONCEPTOS: 𝑇 ത 2 = 𝑌 ′ 𝑌 − 𝑇𝑌ത 2 . SUMA TOTAL ST = σ𝑡=1 𝑌𝑡 − 𝑌 SUMA EXPLICADA SE = σ𝑇𝑡=1 𝑌𝑡 − 𝑌ത SUMA RESIDUAL SR =σ𝑇𝑡=1 𝑌𝑡 − 𝑌 2 2 = 𝑌 ′ 𝑌 − 𝑇𝑌ത 2 . = 𝑢′ ො 𝑢. ො MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 52 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE LA SUMA TOTAL ES LA VARIANZA MUESTRAL DE LA VARIABLE ENDÓGENA (SALVO EL FACTOR TAMAÑO MUESTRAL): ES UNA MEDIDA DEL TAMAÑO DE LAS FLUCTUACIONES EXPERIMENTADAS POR DICHA VARIABLE ALREDEDOR DE SU VALOR MEDIO. EL OBJETO FUNDAMENTAL DE TODO MODELO ECONOMÉTRICO ES TRATAR DE EXPLICAR DICHAS FLUCTUACIONES. LA SUMA EXPLICADA ES EL GRADO DE FLUCTUACIÓN DE LA VARIABLE 𝑌𝑡 ALREDEDOR DEL PROMEDIO DE Y: ES EL NIVEL DE FLUCTUACIÓN DE LA VARIABLE 𝑌𝑡 QUE EL MODELO ES CAPAZ DE EXPLICAR. ES LA VARIACIÓN EXPLICADA POR LOS REGRESORES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 53 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE LA SUMA RESIDUAL ES UN INDICADOR DEL NIVEL DE ERROR DEL MODELO EN SU INTENTO DE EXPLICAR LA EVOLUCIÓN TEMPORAL DE LA VARIABLE 𝑌𝑡 SE SABE QUE: SR =σ𝑇𝑡=1 𝑌𝑡 − 𝑌 2 = 𝑌′ 𝑌 - 𝐵′𝑋′ 𝑌 = 𝑌′𝑌 - 𝑌′𝑌 = 𝑢′ ො 𝑢ො = (𝑌-𝑋𝐵)′(𝑌-𝑋 𝐵) SE PUEDE ESCRIBIR LA IGUALDAD: ′ 𝑌+ ෝ𝑢′𝑢ො 𝑌′𝑌 = 𝑌 SI A ESTA IGUALDAD SE LE RESTA 𝑇𝑌ത 2 SE TIENE: ത 2 ) = (𝑌′𝑌 − 𝑇𝑌ത 2 ) + 𝑢′ (𝑌 ′ 𝑌 − 𝑇 𝑌 ො 𝑢, ො O SEA: ST= SE + SR: SUMA TOTAL = SUMA EXPLICADA + SUMA RESIDUAL. A ESTOS TRES TÉRMINOS SE LES LLAMA SUMA DE CUADRADOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 54 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE A CADA SUMA DE CUADRADOS DIVIDIDA POR SUS GRADOS DE LIBERTAD SE LE LLAMA CUADRADO MEDIO. BAJO LA HIPÓTESIS DE NORMALIDAD DE LOS RESIDUOS: SE SE DISTRIBUYE SEGÚN UNA CHI-CUADRADO CON k GRADOS DE LIBERTAD. SR SEGÚN UNA CHI-CUADRADO CON T-k-1 GRADOS DE LIBERTAD. ST SEGÚN UNA CHI-CUADRADO CON n-1 GRADOS DE LIBERTAD. EL CUADRADO MEDIO EXPLICADO PAR EL MODELO SERÁ: CM(E) = SE/k. EL CUADRADO MEDIO RESIDUAL SERÁ: CM(R) = SR/(T-k-1). MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 55 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE SE DEFINE EL COEFICIENTE DE DETERMINACIÓN (𝑅2 ) COMO UNA MEDIDA DESCRIPTIVA DEL AJUSTE GLOBAL DEL MODELO CUYO VALOR ES EL COCIENTE ENTRE: LA VARIABILIDAD EXPLICADA (O SUMA EXPLICADA). LA VARIABILIDAD TOTAL (O SUMA TOTAL). 𝑅 2 = SE/ST = 1 -SR/ST. UN MODELO SERÁ TANTO MEJOR CUANTO MAYOR SEA 𝐑𝟐 : ESTE COEFICIENTE DEPENDE MUCHO DE NUEVAS VARIABLES INTRODUCIDAS EN EL MODELO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 56 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE SE DEFINE EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE COMO LA RAÍZ CUADRADA DEL COEFICIENTE DE DETERMINACIÓN, Y SU VALOR ES R. SE DEFINE EL COEFICIENTE DE DETERMINACIÓN CORREGIDO POR LOS GRADOS DE LIBERTAD COMO EL VALOR: 𝑇−1 𝑅ത 2 = 1-(1-𝑅2 )𝑇−𝑘−1 SE OBSERVA QUE CUANDO T → ∞, O SEA, PARA MUESTRAS GRANDES: (T-1)/(T-k-1) → 1: NO DEPENDE DE k, QUE ES EL NÚMERO DE VARIABLES DEL MODELO. ത 2 → 𝑅2 : 𝑅 ത 2 COMO UNA BUENA MEDIDA SE PUEDE CONSIDERAR A 𝑅 DE LA CALIDAD DE LA REGRESIÓN. EL MODELO SERÁ TANTO MEJOR CUANTO MAYOR SEA EL ഥ 𝟐. COEFICIENTE DE DETERMINACIÓN CORREGIDO 𝑹 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 57 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE DE LAS DISTRIBUCIONES DE SE Y SR, SE DEDUCE QUE EL ESTADÍSTICO: 𝑺𝑬/𝒌 𝑺𝑹/(𝑻−𝒌−𝟏) TIENE UNA DISTRIBUCIÓN F(k, T-k-1) DE FISHER SNEDECOR. COMO 1-𝑅2 = SR/ST: 𝑭 = F(k, T-k-1) = 𝑅2 (𝑇−𝑘−1) 1−𝑅2 𝑘 F PERMITIRÁ HACER CONTRASTES SOBRE EL COEFICIENTE DE CORRELACIÓN: PARA EL CASO DE REGRESIÓN SIMPLE (k=1) SE TIENE UNA F(1, T-2): EQUIVALE A UNA t DE STUDENT CON T-2 GRADOS DE LIBERTAD. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 58 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE EL ESTADÍSTICO (𝐵 − 𝐵)′ 𝑋′ 𝑋(𝐵 − 𝐵) : 𝑘ෝ 𝜎2 SIGUE UNA DISTRIBUCIÓN F(k, T-k-1). PERMITIRÁ HALLAR REGIONES DE CONFIANZA A UN NIVEL DE SIGNIFICACIÓN α PARA EL CONJUNTO DE PARÁMETROS 𝑏𝑖 DEL MODELO. ESTE ESTADÍSTICO TAMBIÉN PERMITE CONTRASTAR LA HIPÓTESIS NULA 𝑏1 =𝑏2 =...=𝑏𝑘 =0. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 59 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE EL CUADRO DEL ANÁLISIS DE LA VARIANZA SERÁ: FUENTE DE SUMA DE VARIACIÓN CUADRADOS MODELO RESIDUAL TOTAL SE SR ST GRADOS CUADRADOS DE MEDIOS LIBERTAD k CM(E)=SE/k T-k-1 CM(R)=SR/(T-k-1) T-1 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN F 𝐶𝑀(𝐸) 𝐶𝑀(𝑅) 60 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE EL ESTADÍSTICO MÁS GENERAL: –𝑫𝑩)′[𝑫 𝑿′ 𝑿 (𝑫𝑩 −𝟏 –𝑫𝑩) 𝑫′]−𝟏 (𝑫𝑩 T= SIGUE UNA DISTRIBUCIÓN F(k,T-k-1) PARA UNA MATRIZ ADECUADA D. PERMITIRÁ: REALIZAR CONTRASTES MÁS GENERALES DE DIVERSAS CLASES DE HIPÓTESIS. CONSTRUIR REGIONES DE CONFIANZA PARA LOS PARÁMETROS DEL MODELO Y PARA LAS PREDICCIONES: • PARA ELLO BASTA TOMAR LAS FORMAS ADECUADAS DE LA MATRIZ D. 𝒌ෝ 𝝈𝟐 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 61 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE PARA CONTRASTAR LA HIPÓTESIS 𝑏1 = 𝑏1 ∗ , 𝑏2 = 𝑏2 ∗ , ..., 𝑏𝑘 = 𝑏𝑘 ∗ , SE TOMA: 1 0 𝐷= ⋮ 0 0 1 ⋮ 0 ⋯ ⋯ ⋱ ⋯ 0 0 ⋮ 1 = 𝐼𝑘𝑥𝑘 ⇔ 𝐷𝐵 = 1 0 ⋮ 0 0 1 ⋮ 0 ⋯ ⋯ ⋱ ⋯ 0 0 ⋮ 1 𝑏1 𝑏2 ⋮ 𝑏𝑘 𝑏1 ∗ ∗ + 𝑏2 ⋮ 𝑏𝑘 ∗ ⇔ T= 𝐵 –𝐵 ∗ ′ 𝑋 ′ 𝑋(𝐵 –𝐵 ∗ ) 𝑘ෝ 𝜎2 → 𝐹𝑘,𝑇−𝑘−1 PARA CONTRASTAR UN SUBCONJUNTO DE PARÁMETROS 𝑏𝑟+1 = 𝑏𝑟+1 ∗ , 𝑏𝑟+2 = 𝑏𝑟+2 ∗ , ..., 𝑏𝑟+𝑘 = 𝑏𝑟+𝑘 ∗ , SE TOMA: MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 62 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE LA VARIANZA EN EL MODELO DE REGRESIÓN MÚLTIPLE TAMBIÉN ES POSIBLE CONTRASTAR UN CONJUNTO DE RESTRICCIONES LINEALES SOBRE LOS PARÁMETROS, QUE PUEDEN ESCRIBIRSE EN GENERAL DE LA SIGUIENTE FORMA: ∗ 𝑎11 𝑏1 +𝑎12 𝑏2 +.. ·+𝑎1𝑘 𝑏𝑘 =𝑏1 ∗ 𝑎21 𝑏1 +𝑎22 𝑏2 +.. ·+𝑎2𝑘 𝑏𝑘 = 𝑏2 ⋮ ∗ 𝑎𝑟1 𝑏1 +𝑎𝑟2 𝑏2 +.. ·+𝑎𝑟𝑘 𝑏𝑘 =𝑏𝑟 TOMANDO: 𝑎11 𝑎12 𝑎21 𝑎22 𝐷= ⋮ ⋮ 𝑎𝑟1 𝑎𝑟2 T= ⋯ 𝑎1𝑘 ⋯ 𝑎2𝑘 ⋱ ⋮ ⋯ 𝑎𝑟𝑘 −1 ′ 𝐷𝐵 –𝐷𝐵 ′ [𝐷 𝑋 ′ 𝑋 𝐷 (𝐷𝐵 –𝐷𝐵) 𝑟ෝ 𝜎2 → 𝐹𝑟,𝑇−𝑘−1 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 63 MODELO DE REGRESIÓN MÚLTIPLE PREDICCIONES UNA DE LAS FINALIDADES DEL ANÁLISIS DE LOS MODELOS ECONOMÉTRICOS ES HACER PREDICCIONES PARA LA VARIABLE DEPENDIENTE. SI SE ESTIMA EL MODELO Y=XB Y SE OBTIENE EL MODELO ESTIMADO 𝑌 =X𝐵: 0 = 𝑋0 𝐵 ES UN ESTIMADOR LINEAL SE TIENE QUE 𝑌 INSESGADO ÓPTIMO DEL PRONÓSTICO DE 𝑌 , PARA UN VALOR DADO 𝑋0 DE 𝑋. SE PUEDE PREDECIR: LA MEDIA E(𝑌0 ). EL VALOR PUNTUAL 𝑌0 . MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 64 MODELO DE REGRESIÓN MÚLTIPLE PREDICCIONES LOS ERRORES DE PREDICCIÓN VENDRÁN CUANTIFICADOS POR LAS VARIANZAS DE LOS PREDICTORES: VARIANZA PARA LA PREDICCIÓN EN MEDIA: 2 ′ −1 𝜎 𝑋0 𝑋 𝑋 𝑋0 ′. INTERVALO DE CONFIANZA PARA LA PREDICCIÓN EN MEDIA AL NIVEL 𝛼: 𝑌0 ± 𝑡𝑇−𝑘−1 (𝛼/2)𝜎ො 𝑋0 𝑋 ′ 𝑋 −1 𝑋0 ′ : • 𝑡𝑇−𝑘−1 (𝛼/2) ES EL VALOR DE LA t DE STUDENT CON Tk-1 GRADOS DE LIBERTAD EN EL PUNTO (𝛼/2). MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 65 MODELO DE REGRESIÓN MÚLTIPLE PREDICCIONES VARIANZA PARA LA PREDICCIÓN PUNTUAL: 2 ′ −1 𝜎 (𝑋0 𝑋 𝑋 𝑋0 ′ + 1). INTERVALO DE CONFIANZA PARA LA PUNTUAL: PREDICCIÓN 𝑌0 ± 𝑡𝑇−𝑘−1 (𝛼/2)𝜎ො 1 + 𝑋0 𝑋 ′ 𝑋 −1 𝑋0 ′: • 𝑡𝑇−𝑘−1 (𝛼/2) ES EL VALOR DE LA t DE STUDENT CON Tk-1 GRADOS DE LIBERTAD EN EL PUNTO (𝛼/2). MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 66 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE RESIDUOS UNA VEZ CONSTRUIDO EL MODELO DE REGRESIÓN: CONTRASTAR ENTRE OTRAS LAS HIPÓTESIS DE: LINEALIDAD. NORMALIDAD. HOMOSCEDASTICIDAD. NO AUTOCORRELACIÓN. INDEPENDENCIA. LOS RESIDUOS VAN A PRESENTAR UNA PRIMERA INFORMACIÓN SOBRE ESTAS HIPÓTESIS. SI EL HISTOGRAMA DE FRECUENCIAS DE LOS RESIDUOS NO SE AJUSTA AL DE UNA NORMAL, PUEDEN EXISTIR VALORES ATÍPICOS: ELIMINANDO LOS PARES ( 𝑋𝑖 𝑌𝑖 ) QUE PRODUCEN LOS VALORES ATÍPICOS, SE PUEDE CONSEGUIR NORMALIDAD EN LOS RESIDUOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 67 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE RESIDUOS ෝ𝒕 SI SE GRAFICAN LOS VALORES DE T CONTRA LOS VALORES DE 𝒖 Y SE DETECTA UNA TENDENCIA CRECIENTE O DECRECIENTE EN EL GRAFO: PUEDE EXISTIR AUTOCORRELACIÓN O CORRELACIÓN SERIAL. SI SE GRAFICAN LOS VALORES DE 𝑌𝑡 CONTRA LOS VALORES DE ෝ 𝑡 Y SE DETECTA UNA TENDENCIA DE CUALQUIER TIPO EN EL 𝒖 GRAFO: PUEDE EXISTIR AUTOCORRELACIÓN: HABRÁ CORRELACIÓN ENTRE LOS RESIDUOS. PUEDE HABER HETEROSCEDASTICIDAD O FALTA DE LINEALIDAD. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 68 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE RESIDUOS 𝒕 CONTRA LOS DE 𝒖 ෝ 𝒕 𝟐 Y SE SI SE GRAFICAN LOS VALORES DE 𝒀 DETECTA UNA TENDENCIA DE CUALQUIER TIPO EN EL GRAFO, PUEDE EXISTIR HETEROSCEDASTICIDAD. ෝ 𝒕 Y SE SI SE GRAFICAN LOS VALORES DE 𝑿𝒕 CONTRA LOS DE 𝒖 DETECTA UNA TENDENCIA CRECIENTE O DECRECIENTE EN EL GRAFO, PUEDE EXISTIR AUTOCORRELACIÓN: LOS RESIDUOS NO ESTARÁN INCORRELACIONADOS CON LAS VARIABLES EXPLICATIVAS. TAMBIÉN PUEDE HABER HETEROSCEDASTICIDAD O FALTA DE LINEALIDAD. SI SE GRAFICAN LOS VALORES DE 𝑿𝒕 CONTRA LOS VALORES DE ෝ 𝒕 𝟐 Y SE DETECTA CUALQUIER TENDENCIA EN EL GRAFO: 𝒖 PUEDE EXISTIR HETEROSCEDASTICIDAD O FALTA DE LINEALIDAD: HABRÁ RELACIÓN ENTRE LA VARIANZA DEL TÉRMINO DEL ERROR Y LAS VARIABLES EXPLICATIVAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 69 MODELO DE REGRESIÓN MÚLTIPLE ANÁLISIS DE RESIDUOS UN CONTRASTE MUY IMPORTANTE PARA DETECTAR LA AUTOCORRELACIÓN ES EL CONTRASTE DE DURBIN-WATSON: D σ𝑻 𝒖𝒕 −ෝ 𝒖𝒕−𝟏 )𝟐 𝒕=𝟐(ෝ = σ𝑻 𝟐 𝒕=𝟏 𝒖𝒕 PERMITE ADOPTAR LA SIGUIENTE REGLA: SI D=0 HAY AUTOCORRELACIÓN PERFECTA POSITIVA. SI D SE APROXIMA A 2 NO HAY AUTOCORRELACIÓN. SI D SE APROXIMA A 4 HAY AUTOCORRELACIÓN PERFECTA NEGATIVA. D SE ENCUENTRA TABULADO Y SEGÚN LA FRANJA EN LA QUE CAIGA SU VALOR, SE ACEPTA O RECHAZA LA HIPÓTESIS DE AUTOCORRELACIÓN. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 70 MODELO DE REGRESIÓN MÚLTIPLE TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN EXISTEN CRITERIOS QUE PERMITEN ELEGIR EL MEJOR MODELO PARA UNAS VARIABLES Y UN CONJUNTO DE DATOS DADOS. CRITERIO DE REGRESIÓN HACIA ADELANTE: VA INCLUYENDO VARIABLES EN EL MODELO HASTA OBTENER EL AJUSTE IDEAL. CRITERIO DE REGRESIÓN HACIA ATRÁS: EMPIEZA INCLUYENDO TODAS LAS VARIABLES EN EL MODELO Y VA ELIMINANDO LAS ADECUADAS HASTA OBTENER UN AJUSTE ÓPTIMO LIBRE DE PROBLEMAS. CRITERIO DE SELECCIÓN PASO A PASO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 71 MODELO DE REGRESIÓN MÚLTIPLE TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN LOS ESTADÍSTICOS AIC DE AKALKE Y SC DE SCHWARZ PERMITEN SELECCIONAR EL MODELO AJUSTADO CON MEJOR CAPACIDAD EXPLICATIVA: AQUEL QUE PRESENTA MENOR VALOR PARA ESTOS ESTADÍSTICOS. 𝟐𝒍 𝟐(𝑲+𝟏) + 𝑻 𝑻 𝟐𝒍 𝑲+𝟏 𝒍𝒐𝒈(𝑻) + 𝑻 𝑻 AIC = - SC = - 𝑻 𝒆′ 𝒆 ) 𝑻 l =- 𝟐(𝟏 + 𝒍𝒐𝒈(𝟐𝝅)+𝒍𝒐𝒈 K ES EL NÚMERO DE VARIABLES INDEPENDIENTES DEL MODELO (SIN INCLUIR LA CONSTANTE). T ES EL TAMAÑO MUESTRAL O NÚMERO DE OBSERVACIONES DE QUE SE DISPONE PARA LA ESTIMACIÓN DEL MODELO. e ES EL ERROR DEL MODELO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 72 MODELO DE REGRESIÓN MÚLTIPLE TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN ES POSIBLE SELECCIONAR MODELOS LINEALES AJUSTADOS DE ACUERDO A SU CAPACIDAD PREDICTIVA. SE DISPONE, ENTRO OTROS, DE LOS SIGUIENTES ESTADÍSTICOS (SIENDO n EL HORIZONTE DE PREDICCIÓN: LÍMITE PRÁCTICO Y VÁLIDO PARA LA PREDICCIÓN): RAÍZ DEL ERROR CUADRÁTICO MEDIO (ROOT MEAN SQUARED ERROR): 𝒏 ERROR ABSOLUTO MEDIO (MEAN ABSOLUTE ERROR): RECM = 𝟐 σ𝒏 𝒊=𝟏º(𝒀𝒊 −𝒀𝒊 ) EAM = σ𝒏 𝒊=𝟏º 𝒀𝒊 −𝒀𝒊 𝒏 PROPORCIÓN DEL SESGO (BIAS PROPORTION): 𝑷𝑺 = ഥ −𝒀)𝟐 (𝒀 𝟐 σ𝒏 𝒊=𝟏º(𝒀𝒊 −𝒀𝒊 ) /𝒏 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 73 MODELO DE REGRESIÓN MÚLTIPLE TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN PROPORCIÓN DE LA VARIANZA (VARIANCE PROPORTION): PROPORCIÓN PROPORTION): PV = (𝑺𝒀 −𝑺𝒀 )𝟐 𝟐 σ𝒏 𝒊=𝟏º(𝒀𝒊 −𝒀𝒊 ) /𝒏 𝑷𝑪 = DE LA COVARIANZA (COVARIANCE 𝟐(𝟏−𝒓)𝑺𝒀 𝑺𝒀 𝟐 σ𝒏 𝒊=𝟏º(𝒀𝒊 −𝒀𝒊 ) /𝒏 MIENTRAS MÁS PRÓXIMOS ESTÉN A CERO LOS VALORES DE LOS DOS PRIMEROS ESTADÍSTICOS: MEJOR SERÁ LA CAPACIDAD PREDICTIVA DEL MODELO. LAS TRES PROPORCIONES VARÍAN ENTRE 0 Y 1: ES CONVENIENTE QUE SEAN PEQUEÑAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 74 MODELO DE REGRESIÓN MÚLTIPLE EJEMPLO DE MLG MULTIVARIANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 75 MODELO DE REGRESIÓN MÚLTIPLE EJEMPLO DE MLG MULTIVARIANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 76 MODELO DE REGRESIÓN MÚLTIPLE EJEMPLO DE MLG MULTIVARIANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 77 MODELO DE REGRESIÓN MÚLTIPLE EJEMPLO DE MLG MULTIVARIANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 78 MODELO DE REGRESIÓN MÚLTIPLE EJEMPLO DE MLG MULTIVARIANTE RESULTADOS COMPLETOS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 79 MODELOS DE ELECCIÓN DISCRETA MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 80 MODELOS DE ELECCIÓN DISCRETA LA EXPRESIÓN DEL MODELO DE ANÁLISIS DE LA REGRESIÓN MÚLTIPLE ES: y = 𝐹(𝑥1 , 𝑥2 , … , 𝑥𝑛 ). LA REGRESIÓN MÚLTIPLE ADMITE LA POSIBILIDAD DE TRABAJAR CON VARIABLES DEPENDIENTES DISCRETAS EN VEZ DE CONTINUAS PARA PERMITIR LA MODELIZACIÓN DE FENÓMENOS DISCRETOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 81 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA: LA VARIABLE DEPENDIENTE ES UNA VARIABLE DISCRETA QUE REFLEJA DECISIONES INDIVIDUALES EN LAS QUE EL CONJUNTO DE ELECCIÓN ESTÁ FORMADO POR ALTERNATIVAS SEPARADAS Y MUTUAMENTE EXCLUYENTES. LOS MODELOS DE ELECCIÓN DISCRETA EN LOS QUE EL CONJUNTO DE ELECCIÓN TIENE SÓLO DOS ALTERNATIVAS POSIBLES SE LLAMAN MODELOS DE ELECCIÓN BINARIA. CUANDO EL CONJUNTO DE ELECCIÓN TIENE VARIOS VALORES DISCRETOS SE TIENEN LOS MODELOS DE ELECCIÓN MÚLTIPLE O MODELOS MULTINOMIALES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 82 MODELOS DE ELECCIÓN DISCRETA LOS MODELOS DE ELECCIÓN DISCRETA SE DENOMINAN MODELOS DE DATOS DE RECUENTO CUANDO LOS VALORES DE LA VARIABLE DEPENDIENTE DISCRETA SON NÚMEROS QUE NO REFLEJAN CATEGORÍAS. EN CASO DE QUE LOS VALORES NUMÉRICOS DE LA VARIABLE DEPENDIENTE DISCRETA REFLEJAN CATEGORÍAS LOS MODELOS SE DENOMINAN MODELO DE ELECCIÓN DISCRETA CATEGÓRICOS: SE CLASIFICAN EN: MODELOS DE ELECCIÓN DISCRETA CATEGÓRICOS ORDENADOS: LOS VALORES NUMÉRICOS NO TIENEN SIGNIFICADO CUANTITATIVO Y REFLEJAN UN ORDEN DE CATEGORÍAS. MODELOS DE ELECCIÓN DISCRETA CATEGÓRICOS NO ORDENADOS: LOS VALORES NUMÉRICOS REFLEJAN ÚNICAMENTE CATEGORÍAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 83 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA SE CONSIDERARÁN EL MODELO LINEAL DE PROBABILIDAD, EL MODELO LOGIT Y EL MODELO PROBIT. SE PARTE DEL MODELO DE REGRESIÓN LINEAL HABITUAL: Y=𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + ⋯ + 𝜷𝒌 𝑿𝒌 + 𝜺 UNA DE CUYAS HIPÓTESIS ES: E(𝜺|𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝒌 ) = 0 ESTO PERMITE ESCRIBIR EL MODELO COMO: E(𝒀|𝑿𝟏 , … , 𝑿𝒌 ) = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + ⋯ + 𝜷𝒌 𝑿𝒌 PARA LOS MODELOS DE ELECCIÓN DISCRETA BINARIA: Y ES UNA VARIABLE ALEATORIA DE BERNOUILLI DE PARÁMETRO p, POR LO TANTO: E(𝑌|𝑋1 , … , 𝑋𝑘 ) = P(𝑌 = 1|𝑋1 , … , 𝑋𝑘 ) = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 84 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA SE TIENE EL MODELO LINEAL DE PROBABILIDAD: OR EJEMPLO, 𝛽1 MIDE LA VARIACIÓN EN LA PROBABILIDAD DE "ÉXITO" (Y = 1) ANTE UNA VARIACIÓN UNITARIA EN 𝑋1 , (CON TODO LO DEMÁS CONSTANTE). COMO Y ES UNA VARIABLE ALEATORIA DE BERNOUILLI: V(𝑌|𝑋1 , … , 𝑋𝑘 ) = P(𝑌 = 1|𝑋1 , … , 𝑋𝑘 )(1 - P(𝑌 = 1|𝑋1 , … , 𝑋𝑘 )) SE TIENE ENTONCES: Y = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 + u ⇒ u = Y - 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 V(𝑢) = V(𝑌 − 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 ) = 𝑉(𝑌|𝑋1 , … , 𝑋𝑘 ) V(𝑢𝑖 ) = 𝑝𝑖 (1-𝑝𝑖 ) PARA CADA OBSERVACIÓN. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 85 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA SE TIENE UN MODELO CON HETEROSCEDASTICIDAD: PORQUE LA VARIANZA DEL ERROR NO ES CONSTANTE. PARA CADA VALOR DE 𝑋1 , … , 𝑋𝑘 LA VARIANZA DEL ERROR TIENE UN VALOR DIFERENTE: V(u) NO CONSTANTE. Y ES UNA VARIABLE DE BERNOUILLI: NO SE CUMPLE LA HIPÓTESIS DE NORMALIDAD. HAY QUE ESTIMAR ESTOS MODELOS POR UN MÉTODO ALTERNATIVO A MÍNIMOS CUADRADOS ORDINARIOS: EJ.: ESTIMADORES MÁXIMO VEROSÍMILES O MÍNIMOS CUADRADOS GENERALIZADOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 86 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA REALIZADA LA ESTIMACIÓN DEL MODELO LINEAL DE PROBABILIDAD SE TIENE: = 𝛽መ0 + 𝛽መ1 𝑋1 + 𝛽መ2 𝑋2 + ⋯ + 𝛽መ𝑘 𝑋𝑘 = 𝑃 𝑌 SE PUEDE INTERPRETAR COMO UNA ESTIMACIÓN DE LA PROBABILIDAD DE "ÉXITO" (DE QUE Y = 1). EN ALGUNAS APLICACIONES TIENE SENTIDO INTERPRETAR 𝛽መ0 COMO LA PROBABILIDAD DE ÉXITO CUANDO TODAS LAS 𝑋𝑗 VALEN 0. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 87 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA ES POSIBLE CONSIDERAR LOS MODELOS LOGIT (MODELO DE REGRESIÓN LOGÍSTICA) Y PROBIT COMO MODELOS DE RESPUESTA BINARIA: P(𝑌 = 1 |𝑋1 , 𝑋2 , … , 𝑋𝑘 ) = G(𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 ) PARA EVITAR LOS PROBLEMAS DEL MODELO LINEAL DE PROBABILIDAD: SE ESPECIFICAN COMO Y = G(X𝜷). DONDE G ES UNA FUNCIÓN QUE TOMA VALORES ESTRICTAMENTE ENTRE 0 y 1 (0<G(Z)<1) PARA TODOS LOS NÚMEROS REALES z. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 88 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA SEGÚN LAS DIFERENTES DEFINICIONES DE G SE TIENEN LOS DISTINTOS MODELOS DE ELECCIÓN BINARIA: SI G(z) = 𝑒𝑧 1+𝑒 𝑧 𝑌 = SE TIENE EL MODELO LOGIT: G(z) = 𝑒 𝛽0 +𝛽1 𝑋1 +𝛽2 𝑋2 +⋯+𝛽𝑘 𝑋𝑘 SI 1+𝑒 𝛽0 +𝛽1 𝑋1 +𝛽2 𝑋2 +⋯+𝛽𝑘 𝑋𝑘 𝑧 G(z) = Φ(z) = −∞ 𝜙(𝑣)𝑑𝑣 1 2𝜋 −𝑧2 2 Φ(z) = 𝑒 NORMAL (0,1). 𝑌 = G(z) G( 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 ) = SE TIENE EL MODELO PROBIT: ES LA FUNCIÓN DE DENSIDAD DE LA = G( 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 ) 𝛽0 +𝛽1 𝑋1 +𝛽2 𝑋2 +⋯+𝛽𝑘 𝑋𝑘 1 −∞ 2𝜋 𝑒 −𝑣2 2 = 𝑑𝑣 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 89 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA LOS MODELOS PROBIT Y LOGIT SON MODELOS NO LINEALES: NO SE PUEDE ESTIMAR POR MCO (MÍNIMOS CUADRADOS ORDINARIOS). SE TENDRÁ QUE EMPLEAR MÉTODOS DE MÁXIMA VEROSIMILITUD. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 90 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA SI SE TIENEN n OBSERVACIONES DE UNA MUESTRA ALEATORIA QUE SIGUEN EL MODELO: P(Y=1|X) = G(𝛽0 + 𝛽1 𝑋1 + ⋯ + 𝛽𝑘 𝑋𝑘 ) PARA OBTENER EL ESTIMADOR DE MÁXIMA VEROSIMILITUD (MV), CONDICIONADO A LAS VARIABLES EXPLICATIVAS, ES NECESARIA LA FUNCIÓN DE VEROSIMILITUD: 𝑛 L(𝛽) = ς𝑌 =1 𝑃𝑖 ς𝑌 =0(1 − 𝑃𝑖 ) = ς𝑖=1 𝐺(𝑋𝑖 ′𝛽)𝑌𝑖 (1 − 𝐺(𝑋𝑖 ′𝛽))1−𝑌𝑖 𝑖 𝑖 𝑃𝑖 = 𝑃 (𝑌𝑖 =1|𝑋1𝑖 , … , 𝑋𝑘𝑖 ) = G(𝛽0 + 𝛽1 𝑋1𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 ) = 𝐺(𝑋𝑖 ′𝛽) MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 91 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA EL ESTIMADOR DE MV DE 𝛽 ES EL QUE MAXIMIZA EL LOGARITMO DE LA FUNCIÓN DE VEROSIMILITUD: 𝑛 ′ ′ l(𝛽) = ln L(𝛽) =σ𝑖=1 𝑌𝑖 𝑙𝑛 𝐺 𝑋𝑖 𝛽 + (1 − 𝑌𝑖 ) 𝑙𝑛(1 − 𝐺 𝑋𝑖 𝛽) QUE SERÁ UN ESTIMADOR CONSISTENTE, ASINTÓTICAMENTE NORMAL Y ASINTÓTICAMENTE EFICIENTE. LAS CONDICIONES DE PRIMER ORDEN SERÁN: S( 𝛽 ) = 𝑌𝑖 −𝐺 𝑋𝑖′ 𝛽 𝑛 σ𝑖=1 𝐺 𝑋𝑖′ 𝛽 (1−𝐺 𝑋𝑖′ 𝛽) σ𝑛𝑖=1 𝑌𝑖 𝐺 𝑋𝑖′ 𝛽 (1−𝑌𝑖 ) 𝑋𝑖′ 𝛽) − (1−𝐺 𝑋𝑖 𝑔 𝑋𝑖′ 𝛽 = 𝑋𝑖 𝑔 𝑋𝑖′ 𝛽 = 0 g(.) ES LA FUNCIÓN DE DENSIDAD DE LA NORMAL O LA LOGÍSTICA (DERIVADA DE LA FUNCIÓN DE DISTRIBUCIÓN). MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 92 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA LA NO LINEALIDAD DEL PROBLEMA HACE QUE PARA OBTENER EL ESTIMADOR MV DE 𝜷 SE NECESITE: APLICAR UN ALGORITMO ITERATIVO. OBTENER EL ESTIMADOR POR MÉTODOS NUMÉRICOS ITERATIVOS. MEDIANTE EL ALGORITMO SCORING SE TIENE: 𝛽መ 𝑘+1 = 𝛽መ 𝑘 + 𝐼(𝛽መ 𝑘 ) −1 𝑆(𝛽መ 𝑘 ) LA MATRIZ DE COVARIANZAS ASINTÓTICA DE 𝛽መ SE ESTIMA COMO: A 𝑣ar ො 𝛽መ = 𝐼(𝛽መ 𝑘 ) −1 = 2 𝑋𝑖𝑋 ′ 𝑔(𝑋𝑖′ 𝛽) 𝑛 𝑖 σ𝑖=1 ′ ′ 1−𝐺 𝑋 𝛽 𝐺 𝑋𝑖 𝛽 𝑖 −1 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 93 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA PARA REALIZAR CONTRASTES DE HIPÓTESIS EN LOS MODELOS LOGIT Y PROBIT SE TENDRÁ EN CUENTA: QUE LA RAÍZ CUADRADA DE LOS ELEMENTOS DE LA DIAGONAL PRINCIPAL DE LA MATRIZ DE COVARIANZAS ASINTÓTICA SON LOS ERRORES ESTÁNDAR (ASINTÓTICOS) DE CADA UNO DE LOS 𝛽መ𝑗 . QUE SE PUEDE CONTRASTAR VARIAS RESTRICCIONES SIMULTÁNEAMENTE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 94 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA PARA CONTRASTAR LA HIPÓTESIS NULA DE QUE UN CONJUNTO DE PARÁMETROS ES IGUAL A CERO SE PUEDE EMPLEAR VARIOS PROCEDIMIENTOS: ESTADÍSTICO DE WALD: SE DISTRIBUYE ASINTÓTICAMENTE COMO UNA CHICUADRADO CON q (N° DE RESTRICCIONES) GRADOS DE LIBERTAD. CONTRASTE DE RAZÓN DE VEROSIMILITUDES (LIKELIHOOD RATIO (LR) TEST): SE BASA EN LA DIFERENCIA ENTRE EL LOGARITMO DE LA FUNCIÓN DE VEROSIMILITUD EN EL MODELO SIN RESTRINGIR Y EN EL RESTRINGIDO: • LR = 2 (l(𝛽መ𝑁𝑅 ) - l(𝛽መ𝑅 )) SE DISTRIBUYE ASINTÓTICAMENTE COMO UNA CHICUADRADO CON q GRADOS DE LIBERTAD. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 95 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA EN CUANTO A LAS MEDIDAS DE LA BONDAD DE AJUSTE EN LOS MODELOS LOGIT Y PROBIT SE TIENE: PORCENTAJE DE PREDICCIONES CORRECTAS: PARA CADA i SE CALCULA LA PROBABILIDAD ESTIMADA DE QUE 𝑌𝑖 =1: • 𝑃𝑖 = 𝑃 (𝑌𝑖 =1|𝑋1𝑖 , … , 𝑋𝑘𝑖 ) = G(𝛽መ0 + 𝛽መ1 𝑋1𝑖 + ⋯ + 𝛽መ𝑘 𝑋𝑘𝑖 ) • SI 𝑃𝑖 > 0,5 LA PREDICCIÓN SERÁ QUE 𝑌𝑖 = 1. • SI 𝑃𝑖 ≤ 0,5 LA PREDICCIÓN SERÁ QUE 𝑌𝑖 = 0. • EL % DE VECES EN QUE EL VALOR DE 𝑌𝑖 OBSERVADO COINCIDA CON LA PREDICCIÓN ES EL % DE PREDICCIONES CORRECTAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 96 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA Pseudo - 𝑹𝟐 (DE McFADDEN): ESTÁ BASADO EN EL LOGARITMO DE LA FUNCIÓN DE VEROSIMILITUD: 𝒍(𝜷) 𝟎) • Pseudo - 𝑹𝟐 = 1- 𝒍(𝜷 መ • 𝑙(𝛽) ES EL LOGARITMO DE LA FUNCIÓN DE VEROSIMILITUD PARA EL MODELO ESTIMADO. • 𝑙(𝛽መ0 ) ES EL LOGARITMO DE UN MODELO SÓLO CON TÉRMINO CONSTANTE. መ | < | 𝑙(𝛽መ0 ) |, EL VALOR Pseudo - 𝑹𝟐 ESTÁ • COMO | 𝑙(𝛽) ENTRE 0 Y 1. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 97 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA CRITERIOS DE INFORMACIÓN: SON MEDIDAS QUE TRATAN DE BUSCAR UN EQUILIBRIO ENTRE: • LA BONDAD DEL AJUSTE, MEDIDA EN BASE AL VALOR DEL LOGARITMO DE LA FUNCIÓN DE VEROSIMILITUD. • UNA ESPECIFICACIÓN PARSIMONIOSA DEL MODELO (EJEMPLOS: AKAIKE (AIC), SCHWARZ (SC) Y HANNAN-QUINN (HQ)). • SE ESCOGE EL MODELO CON MENOR VALOR DEL CRITERIO DE INFORMACIÓN. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 98 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEAL DE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA PARA INTERPRETAR LAS ESTIMACIONES EN LOS MODELOS PROBIT Y LOGIT: GENERALMENTE LO QUE INTERESA ES CONOCER EL EFECTO DE VARIACIONES EN UNA VARIABLE 𝑿𝒋 SOBRE LA PROBABILIDAD DE RESPUESTA: SI LA VARIABLE ES CONTINUA SERÁ: መ 𝛽መ𝑗 ∆𝑋𝑗 • ∆𝑃(Y=1|X)≈ 𝑔(𝐗𝛽) MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 99 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN MÚLTIPLE: MODELO LOGIT MULTINOMIAL CUANDO EL CONJUNTO DE ELECCIÓN TIENE VARIOS VALORES DISCRETOS SE TIENEN LOS MODELOS DE ELECCIÓN MÚLTIPLE O MODELOS MULTINOMIALES. EL MODELO LOGIT MULTINOMIAL ES UNA EXTENSIÓN DEL MODELO BINARIO PARA EL CASO EN EL QUE LA RESPUESTA, “DESORDENADA”, TIENE MÁS DE 2 POSIBILIDADES. SEA (𝑋𝑖 , 𝑌𝑖 ) UNA MUESTRA ALEATORIA DE LA POBLACIÓN (i = 1,.. .,n). INTERESA SABER CÓMO AFECTAN LOS CAMBIOS EN LOS ELEMENTOS DE X A LAS PROBABILIDADES DE RESPUESTA: 𝑃(Y = j |𝑋1 , 𝑋2 , … , 𝑋𝑘 ) = 𝑃(Y = j |𝐗) j = 1,…,J MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 100 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN MÚLTIPLE: MULTINOMIAL LAS PROBABILIDADES DE RESPUESTA SON: 𝑃(Y = j |𝑋) = 𝑃(Y = j |𝐗) = 𝑃(Y = 0 |𝐗) = exp(𝐗𝛽𝑗 ) 𝐽 1+σℎ=1 exp(𝐗𝛽ℎ ) exp(𝐗𝛽𝑗 ) 𝐽 1+σℎ=1 exp(𝐗𝛽ℎ ) 1 𝐽 1+σℎ=1 exp(𝐗𝛽ℎ ) MODELO LOGIT = 𝑝𝑗 (𝑋, 𝛽) j = 1,…,J = 𝑝𝑗 (𝐗𝛽) j = 1,…,J = 𝑝0 (𝐗𝛽) SI J = 1 SE TIENE EL CASO BINARIO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 101 MODELOS DE ELECCIÓN DISCRETA MODELOS DE ELECCIÓN MÚLTIPLE: MODELO LOGIT MULTINOMIAL EL MODELO SE ESTIMA POR MÁXIMA VEROSIMILITUD. EL LOGARITMO DE LA FUNCIÓN DE VEROSIMILITUD CONDICIONAL VIENE DADO POR: J 𝑙(𝛽) = σni=1 σj=0 1 𝑌𝑖 = 𝑗 log 𝑝𝑗 (𝑋𝑖 , 𝛽) MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 102 MODELOS DE ELECCIÓN DISCRETA MODELO LINEAL GENERAL DE REGRESIÓN MÚLTIPLE (GLM) EL MODELO GLM ES EL MODELO MÁS GENERAL POSIBLE DE REGRESIÓN LINEAL. INCLUYE: EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE CON VARIABLES CUANTITATIVAS. LOS MODELOS DE REGRESIÓN MÚLTIPLE CON VARIABLES CUALITATIVAS Y CUANTITATIVAS A LA VEZ. INCLUIRÁ TODOS LOS MODELOS DEL ANÁLISIS DE LA VARIANZA Y DE LA COVARIANZA. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 103 MODELOS DE ELECCIÓN DISCRETA EJEMPLO DE MODELO LOGIT MULTINOMIAL MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 104 MODELOS DE ELECCIÓN DISCRETA EJEMPLO DE MODELO LOGIT MULTINOMIAL MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 105 MODELOS DE ELECCIÓN DISCRETA EJEMPLO DE MODELO LOGIT MULTINOMIAL MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 106 MODELOS DE ELECCIÓN DISCRETA EJEMPLO DE MODELO LOGIT MULTINOMIAL MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 107 MODELOS DE ELECCIÓN DISCRETA EJEMPLO DE MODELO LOGIT MULTINOMIAL MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 108 MODELOS DE ELECCIÓN DISCRETA EJEMPLO DE MODELO LOGIT MULTINOMIAL RESULTADOS COMPLETOS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 109 MODELOS DE ELECCIÓN DISCRETA EJEMPLO DE MODELO PROBIT MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 110 MODELOS DE ELECCIÓN DISCRETA EJEMPLO DE MODELO PROBIT MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 111 MODELOS DE ELECCIÓN DISCRETA EJEMPLO DE MODELO PROBIT MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 112 MODELOS DE ELECCIÓN DISCRETA EJEMPLO DE MODELO PROBIT RESULTADOS COMPLETOS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 113 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 114 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE ES ÚTIL CUANDO SE DESEA CONSTRUIR UN MODELO PREDICTIVO PARA PRONOSTICAR EL GRUPO AL QUE PERTENECE UNA OBSERVACIÓN A PARTIR DE DETERMINADAS CARACTERÍSTICAS OBSERVADAS QUE DELIMITAN SU PERFIL. PERMITE ASIGNAR O CLASIFICAR NUEVOS INDIVIDUOS U OBSERVACIONES DENTRO DE GRUPOS PREVIAMENTE DEFINIDOS: POR ELLO ES UNA TÉCNICA DE CLASIFICACIÓN AD HOC. SE LO CONOCE COMO ANÁLISIS DE LA CLASIFICACIÓN: SU OBJETIVO FUNDAMENTAL ES: PRODUCIR UNA REGLA O UN ESQUEMA DE CLASIFICACIÓN. DEBE PREDECIR LA POBLACIÓN A LA QUE ES MÁS PROBABLE QUE TENGA QUE PERTENECER UNA NUEVA OBSERVACIÓN O INDIVIDUO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 115 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE EL MODELO PREDICTIVO DEFINE LA RELACIÓN ENTRE: UNA VARIABLE DEPENDIENTE (O ENDÓGENA) NO MÉTRICA (CATEGÓRICA), Y. VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) MÉTRICAS. LA EXPRESIÓN ES: y = F(𝒙𝟏 , 𝒙𝟐 ,…, 𝒙𝒏 ). LAS CATEGORÍAS DE LA VARIABLE DEPENDIENTE DEFINEN LOS POSIBLES GRUPOS DE PERTENENCIA DE LAS OBSERVACIONES O INDIVIDUOS. LAS VARIABLES INDEPENDIENTES DEFINEN EL PERFIL CONOCIDO DE CADA OBSERVACIÓN. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 116 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE EL OBJETIVO ESENCIAL: ES UTILIZAR LOS VALORES CONOCIDOS DE LAS VARIABLES INDEPENDIENTES MEDIDAS SOBRE UN INDIVIDUO U OBSERVACIÓN (PERFIL). PARA PREDECIR CON QUÉ CATEGORÍA DE LA VARIABLE DEPENDIENTE SE CORRESPONDEN PARA CLASIFICAR AL INDIVIDUO EN LA CATEGORÍA ADECUADA. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 117 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE LAS DOS GRANDES FINALIDADES SON: LA DESCRIPCIÓN DE DIFERENCIAS ENTRE GRUPOS, Y. LA PREDICCIÓN DE PERTENENCIA A GRUPOS. LA INTERPRETACIÓN DE LAS DIFERENCIAS ENTRE LOS GRUPOS RESPONDE AL OBJETIVO DE DETERMINAR: EN QUÉ MEDIDA UN CONJUNTO DE CARACTERÍSTICAS OBSERVADAS EN LOS INDIVIDUOS PERMITE EXTRAER DIMENSIONES QUE DIFERENCIAN A LOS GRUPOS. CUÁLES DE ESTAS CARACTERÍSTICAS SON LAS QUE EN MAYOR MEDIDA CONTRIBUYEN A TALES DIMENSIONES, ES DECIR, CUÁLES PRESENTAN EL MAYOR PODER DE DISCRIMINACIÓN. LAS CARACTERÍSTICAS USADAS PARA DIFERENCIAR ENTRE LOS GRUPOS RECIBEN EL NOMBRE DE VARIABLES DISCRIMINANTES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 118 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE AL ANÁLISIS PARA VALORAR EL GRADO EN QUE LAS VARIABLES INDEPENDIENTES CONTRIBUYEN A LA DIFERENCIACIÓN ENTRE LOS GRUPOS SE LE DENOMINA ANÁLISIS DISCRIMINANTE DESCRIPTIVO. LA PREDICCIÓN DE PERTENENCIA A LOS GRUPOS REQUIERE UNA O MÁS ECUACIONES MATEMÁTICAS, DENOMINADAS FUNCIONES DISCRIMINANTES: DEBEN PERMITIR LA CLASIFICACIÓN DE NUEVOS CASOS A PARTIR DE LA INFORMACIÓN QUE POSEEMOS SOBRE ELLOS. COMBINAN UNA SERIE DE CARACTERÍSTICAS O VARIABLES DE TAL MODO QUE SU APLICACIÓN A UN CASO NOS PERMITE IDENTIFICAR EL GRUPO AL QUE MÁS SE PARECE: EN ESTE SENTIDO SE PUEDE HABLAR DEL CARÁCTER PREDICTIVO DEL ANÁLISIS DISCRIMINANTE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 119 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE HIPÓTESIS EN EL MODELO DISCRIMINANTE EL MODELO DEL ANÁLISIS DISCRIMINANTE REQUIERE DE UNA COMPROBACIÓN DE DETERMINADOS SUPUESTOS. LA APLICACIÓN DEL ANÁLISIS DISCRIMINANTE REQUIERE QUE SE CUENTE CON: UN CONJUNTO DE VARIABLES DISCRIMINANTES (CARACTERÍSTICAS CONOCIDAS DE LOS INDIVIDUOS). UNA VARIABLE NOMINAL QUE DEFINE DOS O MÁS GRUPOS (CADA MODALIDAD DE LA VARIABLE NOMINAL SE CORRESPONDE CON UN GRUPO DIFERENTE). LOS DATOS DEBEN CORRESPONDER A INDIVIDUOS O CASOS CLASIFICADOS EN DOS O MÁS GRUPOS MUTUAMENTE EXCLUYENTES: CADA CASO CORRESPONDE A UN GRUPO Y SÓLO A UNO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 120 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE HIPÓTESIS EN EL MODELO DISCRIMINANTE LAS VARIABLES DISCRIMINANTES HAN DE ESTAR MEDIDAS EN UNA ESCALA DE INTERVALO O DE RAZÓN: PERMITIRÍA EL CÁLCULO DE MEDIAS Y VARIANZAS Y LA UTILIZACIÓN DE ÉSTAS EN ECUACIONES MATEMÁTICAS. TEÓRICAMENTE, NO EXISTEN LÍMITES PARA EL NÚMERO DE VARIABLES DISCRIMINANTES: SALVO LA RESTRICCIÓN DE QUE NO DEBE SER NUNCA SUPERIOR AL NÚMERO DE CASOS EN EL GRUPO MÁS PEQUEÑO. ES CONVENIENTE CONTAR AL MENOS CON 20 SUJETOS POR CADA VARIABLE DISCRIMINANTE SI QUEREMOS QUE LAS INTERPRETACIONES Y CONCLUSIONES OBTENIDAS SEAN CORRECTAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 121 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE HIPÓTESIS EN EL MODELO DISCRIMINANTE EN CUANTO A LA PRESENCIA DE DATOS DESAPARECIDOS (MISSING): CUANDO CORRESPONDEN A LA VARIABLE DE CLASIFICACIÓN: LOS INDIVIDUOS AFECTADOS PODRÍAN SER EXCLUIDOS DEL ANÁLISIS A LA HORA DE DETERMINAR LAS FUNCIONES DISCRIMINANTES. SI ESTÁN EN VARIABLES INDEPENDIENTES: HAY QUE ASEGURARSE DE QUE LOS INDIVIDUOS AFECTADOS NO POSEAN CARACTERÍSTICAS DIFERENCIALES RESPECTO AL RESTO DE LOS INDIVIDUOS: • SERÍA NECESARIO USAR PROCEDIMIENTOS PARA TRATAR LOS CASOS DESAPARECIDOS (IMPUTACIÓN POR LA MEDIA, REGRESIÓN, ETC.). MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 122 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE HIPÓTESIS EN EL MODELO DISCRIMINANTE EN CUANTO A LOS CASOS AISLADOS (OUTLIERS): DETECTAR SU EXISTENCIA EN CADA UNA DE LAS VARIABLES CONSIDERADAS POR SEPARADO. PARA LA DETECCIÓN DE CASOS AISLADOS MULTIVARIANTES PODRÍA RECURRIRSE AL CÁLCULO DE LA DISTANCIA DE MAHALANOBIS DE CADA INDIVIDUO RESPECTO AL CENTRO DEL GRUPO O A UN MÉTODO GRÁFICO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 123 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE HIPÓTESIS EN EL MODELO DISCRIMINANTE LA APLICACIÓN DEL ANÁLISIS DISCRIMINANTE SE APOYA EN UNA SERIE DE SUPUESTOS BÁSICOS: NORMALIDAD MULTIVARIANTE. HOMOGENEIDAD DE MATRICES DE VARIANZA-COVARIANZA (HOMOSCEDASTICIDAD). LINEALIDAD Y AUSENCIA DE MULTICOLINEALIDAD. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 124 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE ESTIMACIÓN DEL MODELO DISCRIMINANTE UNA VEZ COMPROBADO EL CUMPLIMIENTO DE LOS SUPUESTOS SUBYACENTES AL MODELO MATEMÁTICO, SE PERSIGUE: OBTENER UNA SERIE DE FUNCIONES LINEALES A PARTIR DE LAS VARIABLES INDEPENDIENTES QUE PERMITAN: INTERPRETAR LAS DIFERENCIAS ENTRE LOS GRUPOS. CLASIFICAR A LOS INDIVIDUOS EN ALGUNA DE LAS SUBPOBLACIONES DEFINIDAS POR LA VARIABLE DEPENDIENTE. ESTAS FUNCIONES LINEALES: SE DENOMINAN FUNCIONES DISCRIMINANTES. SON COMBINACIONES LINEALES DE LAS VARIABLES DISCRIMINANTES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 125 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE ESTIMACIÓN DEL MODELO DISCRIMINANTE CON G GRUPOS (G > 2) EN ANÁLISIS DISCRIMINANTE MÚLTIPLE, EL NÚMERO MÁXIMO DE FUNCIONES O EJES DISCRIMINANTES QUE SE PUEDEN OBTENER VIENE DADO POR: min (G-1, k). PUEDEN OBTENERSE HASTA G-1 EJES DISCRIMINANTES: SI EL NÚMERO DE VARIABLES EXPLICATIVAS k ES MAYOR O IGUAL QUE G-l: • SUELE SER SIEMPRE CIERTO. • EN LAS APLICACIONES PRÁCTICAS EL NÚMERO DE VARIABLES EXPLICATIVAS SUELE SER GRANDE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 126 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE ESTIMACIÓN DEL MODELO DISCRIMINANTE LA INTERPRETACIÓN DE LA FUNCIÓN DISCRIMINANTE PODRÁ HACERSE ATENDIENDO A: LAS POSICIONES RELATIVAS QUE DETERMINA PARA LOS CASOS. LOS CENTROIDES DE CADA GRUPO. LA RELACIÓN ENTRE LAS VARIABLES Y LA FUNCIÓN: ESTABLECER LA CONTRIBUCIÓN DE LAS DISTINTAS VARIABLES A LA DISCRIMINACIÓN. PARA EXAMINAR LA POSICIÓN RELATIVA QUE OCUPAN LOS CASOS Y LOS CENTROIDES DE ACUERDO CON LA FUNCIÓN O FUNCIONES OBTENIDAS: RECURRIR A LAS PUNTUACIONES DISCRIMINANTES: VALORES DE LA FUNCIÓN DISCRIMINANTE PARA CASOS ESPECÍFICOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 127 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE ESTIMACIÓN DEL MODELO DISCRIMINANTE C/U DE LAS FUNCIONES DISCRIMINANTES: REPRESENTA UN EJE EN EL ESPACIO DISCRIMINANTE. PERMITE DETERMINAR LA POSICIÓN DE CUALQUIER CASO A LO LARGO DE ESE EJE. TOMANDO LA FUNCIÓN CORRESPONDIENTE A UN EJE CUALQUIERA, EL VALOR DE LA PUNTUACIÓN DISCRIMINANTE ALCANZADA POR UN CASO m, PERTENECIENTE AL GRUPO k: SE OBTIENE AL SUSTITUIR EN LA ECUACIÓN LOS VALORES X POR LAS PUNTUACIONES OBSERVADAS PARA ESE CASO EN CADA UNA DE LAS VARIABLES: 𝑦𝑘𝑚 = 𝑢0 + 𝑢1 𝑋1𝑘𝑚 + 𝑢2 𝑋2𝑘𝑚 + ⋯ + 𝑢𝑝 𝑋𝑝𝑘𝑚 MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 128 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE ESTIMACIÓN DEL MODELO DISCRIMINANTE SI SE CALCULAN LAS PUNTUACIONES DISCRIMINANTES SOBRE LOS DIFERENTES EJES, SE PUEDE LOCALIZAR EN EL ESPACIO LA POSICIÓN DE CUALQUIER INDIVIDUO. C/ COEFICIENTE NO ESTANDARIZADO 𝒖𝒊 , REPRESENTA EL CAMBIO PRODUCIDO SOBRE LA POSICIÓN DE UN CASO SI EN LA VARIABLE 𝑿𝒊 LA PUNTUACIÓN OBSERVADA AUMENTARA EN UNA UNIDAD. PARA ESTUDIAR LOS GRUPOS ES INTERESANTE LA POSICIÓN DE LOS CENTROIDES DE CADA GRUPO. LA PUNTUACIÓN DE UN CENTROIDE SE DETERMINARÁ SUSTITUYENDO LAS VARIABLES DE LA ECUACIÓN DISCRIMINANTE POR LOS VALORES MEDIOS QUE ALCANZAN ESAS VARIABLES EN EL GRUPO. LAS COORDENADAS DE LOS CENTROIDES DE DIFERENTES GRUPOS DETERMINAN POSICIÓN DE C/U DE ELLOS EN EL ESPACIO DISCRIMINANTE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 129 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE LAS FUNCIONES DISCRIMINANTES SE UTILIZAN PARA PRONOSTICAR EL GRUPO AL QUE QUEDARÁ ADSCRITO UN NUEVO CASO NO CONTEMPLADO AL EXTRAER LAS FUNCIONES. LA CLASIFICACIÓN DE UN SUJETO PODRÍA HACERSE: A PARTIR DE SUS VALORES EN LAS VARIABLES DISCRIMINANTES. EN LAS FUNCIONES DISCRIMINANTES. LA CLASIFICACIÓN A PARTIR DE LAS FUNCIONES DISCRIMINANTES ES MÁS CÓMODA Y SUELE LLEVAR A MEJORES RESULTADOS EN LA MAYORÍA DE LOS CASOS. LOS PROCEDIMIENTOS PARA LA CLASIFICACIÓN SE BASAN EN LA COMPARACIÓN DE UN CASO CON LOS CENTROIDES DE GRUPO, A FIN DE VER A CUÁL DE ELLOS RESULTA MÁS PRÓXIMO. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 130 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE UNO DE LOS PROCEDIMIENTOS PARA ASIGNAR UN CASO A UNO DE LOS GRUPOS SE BASA EN LAS DENOMINADAS FUNCIONES DE CLASIFICACIÓN POR GRUPOS. EXAMINANDO LAS PUNTUACIONES OBTENIDAS POR UN CASO EN C/U DE LAS FUNCIONES DE CLASIFICACIÓN: SE PUEDE ESTABLECER A QUÉ GRUPO HA DE SER ASIGNADO. EL CASO SERÁ ASIGNADO A AQUEL GRUPO EN EL QUE SE OBTIENE LA PUNTUACIÓN MÁS ALTA. OTRO PROCEDIMIENTO SE BASA EN EL CÁLCULO DE LA DISTANCIA DEL CASO A LOS CENTROIDES DE CADA UNO DE LOS GRUPOS O FUNCIONES DE DISTANCIA GENERALIZADA: EL CASO SERÍA ADSCRITO A AQUEL GRUPO CON CUYO CENTROIDE EXISTE UNA MENOR DISTANCIA. LA DISTANCIA DE MAHALANOBIS ES UNA MEDIDA ADECUADA PARA VALORAR LA PROXIMIDAD ENTRE CASOS Y CENTROIDES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 131 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE OTRO PROCEDIMIENTO PARA ASIGNAR UN CASO A UNO DE LOS GRUPOS ES UTILIZAR LAS PROBABILIDADES DE PERTENENCIA AL GRUPO. UN CASO SE CLASIFICA EN EL GRUPO AL QUE SU PERTENENCIA RESULTA MÁS PROBABLE. EL CÁLCULO ASUME QUE TODOS LOS GRUPOS TIENEN UN TAMAÑO SIMILAR: NO SE TIENE EN CUENTA QUE A PRIORI ES POSIBLE ANTICIPAR UNA MAYOR PROBABILIDAD DE PERTENENCIA A UN DETERMINADO GRUPO CUANDO EN LA POBLACIÓN EL PORCENTAJE DE SUJETOS QUE PERTENECE A CADA GRUPO ES MUY DIFERENTE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 132 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE INCORPORANDO LAS PROBABILIDADES A PRIORI SE CONSIGUE: MEJORAR LA PREDICCIÓN FINAL. REDUCIR LOS ERRORES DE CLASIFICACIÓN. LA REGLA DE BAYES SERÍA ÚTIL PARA: CALCULAR LA PROBABILIDAD A POSTERIORI DE PERTENENCIA DEL CASO A UN GRUPO. CONOCIDA LA PROBABILIDAD A PRIORI PARA EL MISMO. UN CASO SERÁ CLASIFICADO EN EL GRUPO EN EL QUE SU PERTENENCIA CUENTA CON UNA MAYOR PROBABILIDAD A POSTERIORI. RESULTA INTERESANTE CONOCER PARA CADA INDIVIDUO: LA MÁXIMA PROBABILIDAD. LAS PROBABILIDADES DE PERTENECER A OTROS GRUPOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 133 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE UN PROCEDIMIENTO MUY ÚTIL ES EL MAPA TERRITORIAL: SITUAR EN EL EJE HORIZONTAL Y EN EL VERTICAL DOS FUNCIONES DISCRIMINANTES (O VARIABLES DISCRIMINANTES). SEPARAR EN EL PLANO RESULTANTE, POR MEDIO DE LÍNEAS LAS ZONAS O TERRITORIOS QUE OCUPARÍAN LOS SUJETOS CLASIFICADOS EN CADA GRUPO. CUANDO EL NÚMERO DE FUNCIONES ES MAYOR QUE DOS: REPRESENTAR SÓLO LAS DOS PRIMERAS, QUE SON LAS QUE EN MAYOR MEDIDA CONTRIBUYEN A LA SEPARACIÓN DE LOS GRUPOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 134 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE PARA VALORAR LA BONDAD DE LA CLASIFICACIÓN REALIZADA: SE APLICA EL PROCEDIMIENTO A LOS CASOS PARA LOS QUE SE CONOCE SU GRUPO DE ADSCRIPCIÓN. SE COMPRUEBA SI COINCIDEN EL GRUPO PREDICHO Y EL GRUPO OBSERVADO. EL PORCENTAJE DE CASOS CORRECTAMENTE CLASIFICADOS INDICARÍA LA CORRECCIÓN DEL PROCEDIMIENTO. LA MATRIZ DE CLASIFICACIÓN, TAMBIÉN DENOMINADA MATRIZ DE CONFUSIÓN, PERMITE PRESENTAR PARA LOS CASOS OBSERVADOS EN UN GRUPO: CUÁNTOS DE ELLOS SE ESPERABAN EN ESE GRUPO. CUÁNTOS EN LOS RESTANTES. RESULTA FÁCIL CONSTATAR QUÉ TIPO DE ERRORES DE CLASIFICACIÓN SE PRODUCEN. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 135 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE EN LA MATRIZ DE CLASIFICACIÓN CADA VALOR 𝒏𝒊𝒋 REPRESENTA EL NÚMERO DE CASOS DEL GRUPO i QUE TRAS APLICAR LAS REGLAS DE CLASIFICACIÓN SON ADSCRITOS AL GRUPO j. LOS VALORES SITUADOS EN LA DIAGONAL DESCENDENTE CONSTITUYEN EL NÚMERO DE CASOS QUE HAN SIDO CORRECTAMENTE CLASIFICADOS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 136 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE ESQUEMA GENERAL DISCRIMANTE DE LA TÉCNICA DEL ANÁLISIS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 137 OBJETIVOS DE LA INVESTIGACIÓN Clasificación de observaciones en grupos Predicción de pertenencia de individuos a grupos Examen de las diferencias entre grupos Identificación de dimensiones DISEÑO DE LA INVESTIGACIÓN Selección de variable dependiente e independientes Tamaño muestral, muestra de análisis y reserva ASUNCIONES Normalidad de variables independientes y linealidad de relaciones Ausencia de multicolinealidad entre variables independientes Matrices de igual dispersión para poblaciones de grupos MÉTODO DISCRIMINANTE Estimación de funciones discriminantes (simultánea o paso a paso) Significación estadística de las funciones discriminantes Significación de la precisión de la predicción FUNCIONES DISCRIMINANTES ¿Cuántas funciones se interpretan? Una sola Dos o más Pesos, cargas, centroides Evaluación función VALI DACIÓN RESULTADOS Muestras partidas o validación cruzada Diferencias de grupos perfiladas MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 138 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE EJEMPLO DE ANÁLISIS DISCRIMINANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 139 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE EJEMPLO DE ANÁLISIS DISCRIMINANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 140 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE EJEMPLO DE ANÁLISIS DISCRIMINANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 141 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE EJEMPLO DE ANÁLISIS DISCRIMINANTE MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 142 CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE EJEMPLO DE ANÁLISIS DISCRIMINANTE RESULTADOS COMPLETOS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 143