Técnicas Estadísticas de Análisis de Datos • Descripción de datos. Estadísticos de una variable • Distribuciones de probabilidad e intervalos de confianza • Contrastes de hipótesis. Tipos • Relaciones entre atributos • Nominales- Numéricos: Tests de comparación de medias (muestras dependientes e independientes) y análisis de varianza. • Numéricos - Numéricos: Análisis de Regresión • Nominales-Nominales: Tablas de Contingencia. Tests de independencia y comparación de proporciones. • Aplicación de técnicas estadísticas a la clasificación • Clasificación mediante regresión numérica • Clasificador bayesiano Técnicas Clásicas de Análisis de Datos 1 Análisis de una variable (muestra de datos) • Estadísticos: resumen (describen) toda la información contenida en una muestra de datos : • Variables continuas • medidas centrales (media, moda, mediana) • medidas de dispersión (rango, varianza, desviación estándar, percentiles) • medidas de forma (histograma) • Variables nominales • frecuencias relativas (probabilidades), moda • media y varianza de probabilidad estimada • Muestra: yi; i =1…n; toma valores en un rango continuo/discreto Técnicas Clásicas de Análisis de Datos 2 1 Estadísticos centrales • Media (esperanza) muestral: promedio de todos los valores 1 n ∑ yi n i =1 • Moda: valor que aparece más veces • Mediana: valor que deja el mismo número de casos a ambos lados media ( y) = y = ( ) mediana ( y) = yi | N º casos y j ≤ yi = N º casos ( y k ≥ yi ) • equivale a ordenar el vector de datos y tomar el valor central • menos sensible frente a valores extremos poco probables 3 Técnicas Clásicas de Análisis de Datos Estadísticos de dispersión • Recorrido (intervalo, o rango): max(yi)-min(yi) • Varianza: promedio de desviaciones con respecto a valor medio 1 n 1 n 2 2 2 Var ( y ) = ∑ ( yi − y) = ∑ y i − ny n − 1 i =1 n − 1 i =1 • Desviación estándar (típica): raíz cuadrada de la varianza desv ( y ) = σ y = Var ( y ) valor media, sigma 14 12 10 8 6 4 2 0 -2 0 -4 Datos valor medio valor medio+sigma valor medio - sigma 10 20 30 40 muestra Técnicas Clásicas de Análisis de Datos 4 2 Histograma Estimación de la distribución de densidad de probabilidad: frecuencia absoluta o relativa de valores de yi por unidad de intervalo histograma normal Nº de casos en intervalo frecuencia absoluta 140 120 100 80 60 40 20 0 -3 -2,4 -1,8 -1,2 -0,6 0 0,6 1,2 1,8 2,4 3 y intervalos de clase La suma total de frecuencias absolutas es el número de datos La suma de frecuencias relativas es 1 5 Técnicas Clásicas de Análisis de Datos Ejemplo: histograma de variable uniforme his togram a 140 120 100 80 60 40 20 0 his togram a 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 acum ulado 1.2 1 0.8 0.6 acum ulado 0.4 0.2 0 0 0.2 0.4 Técnicas Clásicas de Análisis de Datos 0.6 0.8 1 6 3 Cuantiles del histograma • Cuantil: valores que dividen el recorrido de datos en k partes de la misma frecuencia (percentiles: 100 partes, cuartiles: 4 partes, etc.) • Ejemplo: cuartiles porcentaje cuartiles 0,25 1,4 0,5 2,725 0,75 4 1 7,7 alumnos Calificación 2,8 0,6 5 3,1 3,9 4,9 1 0 6,55 ... frecuencia 80 60 40 20 0 0 1 2 3 4 5 6 7 8 9 10 calificación Recorrido inter-cuartílico: [1.4, 4]: contiene 50% datos Cuartil 1 Cuartil 3 Cuartil 2 Cuartil 4 Técnicas Clásicas de Análisis de Datos 7 Estadísticos de variable nominal • yi nominal: toma valores de un conjunto discreto (categorías): {vi1, …, viki} • Distribución de frecuencias de cada valor p 1 =100(n1 / n)% p2 = 100(n2 / n)% M pki = 100(nki / n)% ki n = ∑nj j =1 • Moda: valor que aparece más veces max (n j ) j Técnicas Clásicas de Análisis de Datos 8 4 Media y varianza de frecuencias estimadas • Cálculo de cada frecuencia • para una categoría dada: m casos de n p=m/n • puede verse como asignar: vi=1 cada ejemplo en la categoría vi=0 en el resto 1 n p = ∑ vi n i =1 • Varianza de p: Var (p) = 1 n 2 ∑ ( vi − p) = p(1 − p) n i =1 σ p = p(1 − p) • caso máxima varianza: p=0.5 9 Técnicas Clásicas de Análisis de Datos Ejemplo variable nominal y numérica Técnicas Clásicas de Análisis de Datos 60 50 porcentaje Sexo M M H M H H M H M H H H M H M M M M M H H M H H M H M M M M 40 30 20 10 0 H M sexo 120 100 porcentaje Edad 23 25 18 37 45 62 43 40 60 54 28 18 54 29 42 26 32 41 37 36 53 21 24 21 45 64 22 61 37 66 80 frecuencia 60 acumulada 40 20 0 18 25 35 45 55 65 edad 10 5 Distribución Normal • Curva de gran interés por explicar datos en muchas situaciones • Aplicada por primera vez como distribución por A. Quetelet (1830) f (z) = 1 1 exp − z 2 2π 2 • distribución simétrica: coincide media y mediana en 0 • se dispone del valor de la distribución de probabilidad: área bajo la curva de fZ(z) para cualquier valor: Tipificar o estandarizar variables: Se z FZ (z) -3 0.001349967 mide el desplazamiento respecto a la -2.5 0.00620968 -2 0.022750062 media en unidades de desviación típica: -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 0.066807229 0.15865526 0.308537533 0.5 0.691462467 0.84134474 0.933192771 0.977249938 0.99379032 0.998650033 y −y zi = i σi F(z0) f(z) 2 z 0 -5 -4 -3 -2 -1 0 1 3 z0 11 Técnicas Clásicas de Análisis de Datos Distribución Normal e Intervalos de Confianza f(z) f(z) F(z0) -3 -2 -1 0 1 3 Una cola (unilateral) F(z0) -3 -2 -1 0 1 z 3 Simétrico dos colas (bilateral) • Ej.: se conocen parámetros de una población con distribución normal: media: µ= 115; desviación típica:σ= 20 • ¿casos inferiores a 70? z=(70-115)/20, F(z)=0,012 • ¿casos superiores a 150? z=(150-115)/20, 1-F(z)=0,04 • ¿en intervalo 90-130? F((130-115)/20)-F((90-115)/20)=0,667 • ¿qué intervalos simétrico tienen el 80%, 95% de los casos (intervalos de confianza)? z=F-1(α/2); y=µ±zσ • 80%: z0.1=1,28; 115± z0.1*20=[89.3, 140.6] • 95%: z0.025=1,96; 115± z0.025*20=[75.8, 154.2] Técnicas Clásicas de Análisis de Datos 12 6 RELACIONES DE VARIABLES. TEST DE HIPOTESIS ANÁLISIS DE VARIAS VARIABLES • Objetivo: analizar la interrelación (dependencia) entre los valores de distintas variables, haciendo uso de los datos disponibles • Numéricas (retardo, carga, distancia,…) • Nominales (tipo de avión, condición visibilidad, …) • Herramienta de análisis: tests de hipótesis • Numéricas-numéricas: análisis de regresión y covarianza • Nominales-nominales: tablas de contingencia • Nominales-numéricas: comparación de medias, análisis de varianza Técnicas Clásicas de Análisis de Datos 13 ANÁLISIS ESTADÍSTICO DE DATOS ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NUMÉRICA • Permite identificar relaciones entre variables numéricas y construir modelos de regresión • Se consideran relaciones de una variable de salida (dependiente) con múltiples variables de entrada (independientes) • Estimación de una función (Regresión Lineal) que mejor “explique” los datos r r r {( X1, y1), (X 2 , y 2 ),..., (X n , y n )} r X : vectores con M dimensiones g(.) : R M → R r r X → ŷ = g(X) Técnicas Clásicas de Análisis de Datos 14 7 Mínimos Cuadrados • Estima vector de coeficientes que minimiza error I r r r ŷi = g i (X) = a 0 + ∑ a p x p =(A t ) * X p =1 r ( A ) = [a 0 r a1 L a I ]t ; X = [1 x1 L x I ]t • Objetivo: dadas N muestras, determinar coeficientes que minimicen el error de predicción global 2 n r ε = ∑ [g ( X j ) − y j ] j=1 • El método de mínimos cuadrados selecciona, como estimación de la recta de regresión poblacional, aquella para la cual esta suma de cuadrados es menor. • Problema clásico de minimización de función cuadrática: solución única Técnicas Clásicas de Análisis de Datos 15 Mínimos Cuadrados • Solución genérica matricial 1 1 r y1 ŷ1 g (X1) 1 x1 L x I r 1 x 2 L x 2 r r I A = H*A 1 y = M ; ĝ = M = M = rN M M M M y N ŷ N g (X ) 1 x N L x N I 1 • Solución MC: r r A = [ H t H ]−1 H t y [(1+F)x1] = [(1+F)xN] [Nx(1+F)] [(1+F)xN] [Nx1] Técnicas Clásicas de Análisis de Datos 16 8 Ejemplo: regresión lineal de 1 variable Año 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 Renta Consumo consumo E 1959,75 1751,87 1683,473374 2239,09 1986,35 1942,43325 2623,84 2327,9 2299,11261 3176,06 2600,1 2811,043671 3921,6 3550,7 3502,190468 4624,7 4101,7 4153,993607 5566,02 5012,6 5026,63666 6977,84 6360,2 6335,452914 8542,51 7990,13 7785,967518 9949,9 9053,5 9090,676976 11447,5 10695,4 10479,01488 13123,04 12093,8 12032,31062 15069,5 12906,27 13836,76054 16801,6 15720,1 15442,48976 18523,5 17309,7 17038,76316 Estimación Lineal a1 a0 0.927041871 -133.296932 ConsumoE = a 0 + a1 * Re nta 17 Técnicas Clásicas de Análisis de Datos Ejemplo: regresión lineal de 1 variable dependencia consumo consumos 20000 15000 Consumo 10000 consumo E 5000 0 0 5000 10000 15000 20000 renta Técnicas Clásicas de Análisis de Datos 18 9 Ejemplo: regresión lineal de 2 variables x1 Superficie 310 333 356 379 402 425 448 471 494 517 540 x2 Antigüedad 20 12 33 43 53 23 99 34 23 55 22 y Valor 106,287 Euros 107,784 Euros 113,024 Euros 112,275 Euros 104,042 Euros 126,497 Euros 94,311 Euros 106,961 Euros 122,006 Euros 126,497 Euros 111,527 Euros Estimación Lineal a2 a1 a0 -220.444829 58.2271936 95538.7217 Valor predicho 109,180 Euros 112,283 Euros 108,993 Euros 108,128 Euros 107,262 Euros 115,215 Euros 99,800 Euros 115,469 Euros 119,233 Euros 113,518 Euros 122,132 Euros Valor = a 0 + a1* Superficie + a 2 * Antigüedad 19 Técnicas Clásicas de Análisis de Datos Ejemplo: regresión lineal de 2 variables valores predichos 140000 150000 100000 100000 60000 superficie (m 2) Técnicas Clásicas de Análisis de Datos 494 448 402 90 70 50 30 10 356 540 0 310 antigüedad (a) 310 10 20 30 40 50 60 70 80 90 100 110 402 0 356 20000 494 50000 40000 540 80000 448 valor (euros) 120000 20 10 Evaluación del modelo de regresión Análisis de validez del modelo asumido: • Medidas de “parecido” entre variable de salida estimada y real, influencia de variables de entrada – Factor de Correlación – Error de predicción • Análisis de “calidad” del modelo – Error en coeficientes – Hipótesis de significatividad de parámetros: t-Student A1 AF ,..., ? σ A1 σAF α/2 N(0,1) -4 -3 -2 -1 0 1 2 3 21 Técnicas Clásicas de Análisis de Datos Factor de correlación • Factor de correlación entre datos y predicciones: Corr ( ŷ , y ) = 1 S ŷ S y n ∑ ( ŷ j=1 j − ŷ )( y j − y ) = Cov ( ŷ , y ) Var ( ŷ ) Var ( y ) • El factor de correlación varía entre -1 y 1. • En general, se puede hacer factores de correlación entre cualquier par de variables numéricas: indica el grado de relación lineal existente. • -1: existe asociación lineal negativa perfecta. • 1 positiva perfecta. • 0 no hay asociación lineal. Técnicas Clásicas de Análisis de Datos 22 11 Matrices de covarianza y correlación Muestra de vectores aleatorios: • r r r {X1 , X 2 ,..., X n } Matriz de covarianzas: r 1 n r µˆ = ∑ Xi n i =1 cov(x1, x 2 ) L cov(x1, x 2 ) var(x1 ) cov(x , x ) n r r var(x1) 1 r r 1 2 t r = ∑ (X − µˆ )(X − µˆ ) = Ĉ X i i M O M n i =1 cov(x , x ) L var(x I ) 1 I • La matriz de correlaciones es similar, normalizada 23 Técnicas Clásicas de Análisis de Datos ANÁLISIS ESTADÍSTICO DE DATOS ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NOMINAL • Mide la relación entre variables numéricas y nominales, o nominales y nominales (proporciones) • Analiza las diferencias de medias condicionadas a variable nominal: impacto de la variable nominal sobre la continua Variación E • Dos tipos de análisis: • Con dos medias o proporciones: significatividad de la diferencia tstudent • Más de dos valores distintos: Análisis de Varianza Técnicas Clásicas de Análisis de Datos Variación NE y Y1 Y2 Y3 Y 24 12 1. Comparación de dos medias • Se plantea como un test de hipótesis, dividiendo los datos en dos grupos, cada uno con su media y varianza. • Hipótesis sobre diferencia de medias: D = y1 − y2 • H0: la diferencia de medias en la población es nula D=0. • Hipótesis alternativa A: las medias son distintas: D!=0. • Hipótesis alternativa B: la media de 1 es mayor que 2: y1 > y2 • Hipótesis alternativa C: la media de 1 es menor que 2: y1 < y2 • Situaciones posibles: • Muestras independientes: conjuntos distintos. • Muestras dependientes: mismo conjunto, con dos variables a comparar en cada ejemplo. 25 Técnicas Clásicas de Análisis de Datos Contrastes de dos medias • Hipótesis alternativa A α/2=0.025 α/2=0.025 -3 3 z=−1.96 z=+1.96 • Hipótesis alternativa B: α=0.05 0 .4 -3 3 0 .3 5 z=−1.65 0 .3 0 .2 5 • Cuando las muestras son pequeñas no es válida la hipótesis de normalidad de los estadísticos de medias y ± t α / 2 ,GL σ Técnicas Clásicas de Análisis de Datos 0 .2 0 .1 5 0 .1 0 .0 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 26 13 2. Análisis de varianza (ANOVA) Niveles 1 ... i ... I Variación Explicada Observaciones Y11,Y12,...Y1j,...Y1n1 ... Yi1,Yi2,...Yij,...Yini ... YI1,YI2,...YIj,...YInI Variación No Explicada y Y1 I • Número total de elementos: 1 I Yi = ∑ Yij • Media por nivel: n i i =1 1 I ni • Media total: Y = ∑ ∑ Yij n i =i j=1 M ni i =i j=1 ij M Y3 Y i =1 variación explicada: variabilidad entre grupos variación no explicada (residual): variabilidad dentro de los grupos • Relación entre “cuadrados”: ∑∑ (Y Y2 n = ∑ ni ni M −Y ) 2 = ∑∑ (Yij −Yi ) 2 + ∑ n i ( Yi − Y ) 2 i =i j=1 i =1 27 Técnicas Clásicas de Análisis de Datos ANÁLISIS ESTADÍSTICO DE DATOS ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NOMINAL • Analiza la interrelación entre los valores de variables nominales según distribución de casos • Herramienta para dos variables: tabla de contingencia • distribución de casos (frecuencias) para las distintas combinaciones de valores de las dos variables variable 1 valor 1 valor 2 ... valor p1 totales 2 totales 1 variable 2 valor 1 valor 2 ... valor p2 n12 ... n1p2 t1 n11 n21 ... np11 t'1 n22 ... np12 t'2 ... ... ... ... n2p2 ... np1p2 t'p2 Probabilidades marginales: Técnicas Clásicas dePjAnálisis de Datos =t’j/t t2 ... tp1 t Probabilidades marginales: Pi=ti/t Casos “esperados” Eij=t(ti/t)(t’j/t)= tit’j/t 28 14 Relación entre variables nominales-nominales • Objetivo: analizar la interrelación (dependencia) entre los valores de variables nominales • Herramienta para dos variables: tabla de contingencia • distribución de casos (frecuencias) para las distintas combinaciones de valores de las dos variables variable 1 valor 1 valor 2 ... valor p1 totales 2 totales 1 variable 2 valor 1 valor 2 ... valor p2 n12 ... n1p2 t1 n11 n21 ... np11 t'1 n22 ... np12 t'2 ... ... ... ... n2p2 ... np1p2 t'p2 t2 ... tp1 t Probabilidades marginales: Pj=t’j/t Técnicas Clásicas de Análisis de Datos Probabilidades marginales: Pi=ti/t Estimación del nº esperado de observaciones Eij=t(ti/t)(t’j/t)= tit’j/t 29 Contraste Chi-2 de variables nominales • Es aplicable en análisis bi-variable (normalmente clase vs atributo) • Determina si es rechazable la hipótesis de que dos variables son independientes • Bajo hipótesis H0 se determinan los casos en el supuesto de variables independientes. Los valores esperados se determinan con probabilidades marginales de las categorías: Eij=tPi Pj (valores esperados). • Nuestro contraste de hipótesis nula de no asociación estará basado en las magnitudes de las diferencias entre los valores observados y los esperados bajo la hipótesis nula. • El estadístico Chi-cuadrado mide la diferencia entre los valores observados y los valores esperados. p1 p 2 χ 2 = ∑∑ (Oij − Eij ) 2 / Eij i =1 j =1 Técnicas Clásicas de Análisis de Datos 30 15 Ejemplo Técnicas Clásicas de Análisis de Datos 31 EJEMPLOS VALIDACIÓN HIPÓTESIS ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NUMÉRICA – Hay relación entre tiempo en retardo y: franja horaria (mañana-tarde-noche), tipo de día (diario-finsemana), compañía … • Mayor grado de relación? Técnicas Clásicas de Análisis de Datos 32 16 EJEMPLOS VALIDACIÓN HIPÓTESIS ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NUMÉRICA Hipótesis (análogo a comparación de prestaciones!) • Hipótesis nula H0: la diferencia de medias según tipo día es nula D=0 • Hipótesis alternativa: las medias son distintas: D!=0 fdp(T_finsemana-T_diario) α/2=0.025 α/2=0.025 -3 3 0 1.5 +1.96σ −1.96σ • Mayor grado de relación? Más evidencia estadística para rechazar la hipótesis de independencia 33 Técnicas Clásicas de Análisis de Datos EJEMPLOS VALIDACIÓN HIPÓTESIS ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NUMÉRICA 14 140 12 120 10 100 8 80 retardo intervenciones – Qué variables están “más linealmente” relacionadas … 6 60 40 4 20 2 0 0 0 10 20 30 operaciones 40 50 Técnicas Clásicas de Análisis de Datos 0 10 20 30 40 50 -20 operaciones 34 17 EJEMPLOS VALIDACIÓN HIPÓTESIS ANÁLISIS DE VARIAS VARIABLES – NOMINAL-NOMINAL – Dependencia entre grado de retardo y tipo de avión, visibilidad,… 35 Técnicas Clásicas de Análisis de Datos EJEMPLOS VALIDACIÓN HIPÓTESIS ANÁLISIS DE VARIAS VARIABLES – NOMINAL-NOMINAL – Hipótesis nula H0: las variables retardo y categoría son independientes: Eij=t(ti/t)(t’j/t) p1 p 2 χ 2 = ∑ ∑ ( E ij − Oij ) 2 / E ij i =1j=1 α χ2 Técnicas Clásicas de Análisis de Datos 36 18