1 Tema 3: Análisis de datos bivariantes Contenidos 3.1 Tablas de doble entrada. I I I I I I Datos bivariantes. Estructura de la tabla de doble entrada. Distribuciones de frecuencias marginales. Distribución conjunta de frecuencias relativas. Distribuciones de frecuencias condicionadas. Tabla de doble entrada para variables cuantitativas. 3.2 Correlación. I I I I I I Diagrama de dispersión. Tipos de relación entre dos variables cuantitativas. Medidas de dependencia lineal. Correlación y heterogeneidad. Correlación y datos atı́picos. Correlación y causalidad. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 2 Tema 3: Análisis de datos bivariantes 3.3 Recta de regresión. I I I I I I I Definición de la recta. Estimación de los coeficientes. Interpretación de los coeficientes. Valores predichos, residuos y varianza residual. Bondad del ajuste. Análisis de residuos. Los datos de Anscombe. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 3 Lecturas recomendadas I Peña, D. y Romo, J., Introducción a la Estadı́stica para las Ciencias Sociales. I I Capı́tulos 7, 8 y 9. Newbold, P. Estadı́stica para los Negocios y la Economı́a. I Secciones 2.5 y 12.1–12.4. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 4 Datos bivariantes Ejemplo Nivel educativo (X ) y situación laboral (Y ) de 10 Madrileños. Nivel educativo (1=Primaria o menos, 2=Secundaria, 3=Post-secundaria) Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo) Individuo Nivel educativo (X ) Situación laboral (Y ) 1 2 3 2 3 1 3 2 1 4 3 3 5 2 3 6 2 3 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 7 1 3 8 1 3 9 3 1 10 2 3 Tema 3 5 Datos bivariantes I Datos bivariantes: provienen de la observación simultánea de dos variables (X , Y ) en una muestra de n individuos. Los datos bivariantes son parejas de valores, numéricos o no, de la forma: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) I Se usan para describir las dos variables conjuntamente o una variable en función de la otra. I A menudo se intenta describir el comportamiento de una de las variables, que se llama la variable dependiente y se denota por Y , en función de la otra variable, que se llama la variable independiente o explicativa, y se denota por X . Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 6 Estructura de la tabla de doble entrada I Representamos los valores de una de las variables (p.ej. X ) en las cabeceras de las filas de una tabla, y los valores de la otra variable (p.ej. Y ) en las cabeceras de las columnas de la tabla. I En la casilla correspondiente a cada par de valores de X e Y , se escribe la frecuencia absoluta o número de individuos en cada combinación de valores. I Cuando al menos alguna de las dos variables es cualitativa, la tabla de doble entrada también se denomina tabla de contingencia. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 7 Estructura de la tabla de doble entrada/tabla de contingencia Ejemplo Datos de 1508 madrileños (Encuesta de Condiciones de Vida). X : Nivel educativo, Y : Situación laboral X I Primaria Secundaria Post-secundaria Empleado 95 393 317 Y Desempleado 6 28 8 Inactivo 315 257 89 Se denomina distribución conjunta de (X , Y ) al conjunto formado por los valores observados en forma de pares, junto con las frecuencias absolutas correspondientes a cada par. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 8 Estructura de la tabla de doble entrada I Tabla de doble entrada con k filas y m columnas Y y1 · · · yj ··· ym x1 n11 · · · n1j · · · n1m .. .. .. .. . . . . X I Total n1 .. . xi .. . ni1 .. . ··· nij .. . ··· nim .. . ni .. . xk Total nk1 n1 ··· ··· nkj nj ··· ··· nkm nm nk n Notación: nij frecuencia absoluta Total de fila i: Total de columna j: n·· tamaño muestral en la casilla (i, j) ni = ni1 + ni2 + · · · + nim nj = n1j + n2j + · · · + nkj n·· = n Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 9 Distribuciones de frecuencias marginales I I Los totales de las filas (columnas) se llaman frecuencias absolutas marginales de las filas (columnas). Éstas son las frecuencias univariantes de X y de Y . Ejemplo Distribuciones de frecuencias marginales: Nivel educativo (X ) ni Situación laboral (Y ) nj Primaria 416 Secundaria 678 Empleado 805 Post-secundaria 414 Desempleado 42 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Inactivo 661 Total 1508 Total 1508 Tema 3 10 Distribuciones de frecuencias marginales I Se denomina distribución marginal de X al conjunto de valores que toma X junto con sus frecuencias absolutas marginales. I Análogamente se define la distribución marginal de Y . I Observación: Si en lugar de tener dos variables (X , Y ) tuviéramos tres (X , Y , Z ) tendrı́amos tres distribuciones marginales. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 11 Distribución conjunta de frecuencias relativas I fij = nij /n·· frecuencia relativa en la casilla (i, j) X I x1 .. . y1 f11 .. . ··· ··· xi .. . fi1 .. . ··· xk Total fk1 f1 ··· ··· Y yj f1j .. . ··· ··· ym f1m .. . Total f1 .. . fij .. . ··· fim .. . fi .. . fkj fj ··· ··· fkm fm fk 1 Frecuencia relativa marginal de la fila i: fi = fi1 + · · · + fij + · · · + fim I Frecuencia relativa marginal de la columna j: fj = f1j + · · · + fij + · · · + fkj Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 12 Distribución de frecuencias condicionadas I I Dada la distribución conjunta de (X , Y ), se denomina distribución condicionada a la distribución de frecuencias absolutas de una de las variables, suponiendo conocido y fijado el valor de la otra variable. Ejemplo Distribución de frecuencias de la situación laboral (Y ) para personas con un nivel educativo (X ) de Primaria o menos. Y |X = Primaria Empleado Desempleado Inactivo Total n1j 95 6 315 416 Distribución de frecuencias de Y condicionado a X = xi : Es la distribución de frecuencias de la variable Y , de entre los individuos que han tomado el valor xi de X . I observa que se restringe al conjunto total de individuos que toman el valor xi de X . I Notación: Y |X = xi . Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 13 Distribución de frecuencias condicionadas Ejemplo Distribución de frecuencias del nivel educativo para inactivos. X |Y = Inactivo ni3 Primaria 315 Secundaria 257 Post-secundaria 89 Total 661 Distribución de frecuencias del nivel educativo para desempleados. X |Y = Desemp. ni2 Primaria 6 Secundaria 28 Post-secundaria 8 Total 42 Se ha visto, ası́, la definición más sencilla de distribución condicionada. Puede condicionarse también al hecho de que la variable tome varios valores, por ejemplo: X |(Y = Inactivo) ∪ (Y = Desempleado). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 14 Tabla de doble entrada para variables cuantitativas Ejemplo 43 alumnos encuestados X : Núm. de veces que han ido al teatro en el último mes Y : Núm. de veces que han ido al cine en el último mes X I 0 1 2 3 Total 0 12 4 3 1 20 1 5 3 3 0 11 Y 2 4 2 2 0 8 3 2 1 0 0 3 4 1 0 0 0 1 Total 24 10 8 1 43 Si X e Y son cuantitativas discretas tomando un número pequeño de valores, la tabla se construye de la misma forma que para el caso de variables cualitativas. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 15 Tabla de doble entrada para variables cuantitativas Ejemplo Empresas americanas X : Núm. de trabajadores, Y : Volumen de ventas X Y I [1,100) [100,200) [200,300] Total [1,25) 0.293 0.098 0.073 0.463 [25,50) 0.122 0.073 0.073 0.268 [50,75) 0.098 0.049 0.049 0.195 [75,99] 0.049 0.024 0.000 0.073 Total 0.561 0.244 0.195 1.000 Si X e Y son, bien cuantitativas discretas tomando un número grande de valores o bien continuas, es habitual agrupar los valores de las variables en intervalos. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 16 Diagrama de dispersión I La representación gráfica más común para dos variables cuantitativas es el diagrama de dispersión Ejemplo m2 habitables y Precio de 15 viviendas. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 17 Tipos de relación entre variables cuantitativas Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 18 Medidas de dependencia lineal para variables cuantitativas I La covarianza es una medida de variación conjunta de las dos variables. Cuantifica la información existente en un gráfico de dispersión sobre la asociación lineal entre dos variables. x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Covarianza: y 0.81186553 0.98151318 1.86964664 1.67494569 1.67159679 2.06896883 2.07458768 2.1276676 2.0867583 3.01682761 2.21807301 1.31836091 0.94868813 3.71304211 1.50010914 3.08738201 1.3694318 1.86684042 1.24087921 2.07104626 0.71226336 1.44547522 2.44837446 3.38040178 0.69995779 0.93002587 2.53962691 3.00173124 2.99222302 2.78137228 2.83313549 1.21334859 sxy = 1.71903042 1.77181509 3.11027837 2.8040063 3.13403354 4.82231585 3.77439638 3.98994917 4.6670687 4.4723854 4.87721889 3.52703885 2.44574875 8.19843302 2.49454861 5.43299601 0.92412073 3.80057902 1.55770547 4.70391609 0.26642136 3.01707838 4.86795198 6.17440013 0.85487048 0.00913399 5.79717576 5.26160403 6.00492001 3.57409016 6.24472749 1.78724959 1 n−1 9 Y 8 7 6 xi>media(x) yi>media(y) 5 4 0 0.5 1 xi<media(x) yi<media(y) 1.5 3 X 2 2.5 3 3.5 4 4.5 2 1 0 Pn i=1 xi yi z n X }| − nx̄ ȳ {! (xi − x̄)(yi − ȳ ) − ∞ < sxy < ∞ i=1 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 19 Medidas de dependencia lineal I sxy >> 0 ⇒ Relación lineal positiva. I sxy << 0 ⇒ Relación lineal negativa. I sxy ≈ 0 ⇒ No existe relación lineal o existe relación no lineal. Inconvenientes de la covarianza: I I I No está acotada ni superior ni inferiormente. Por lo tanto no se sabe cuándo es sxy suficientemente grande o pequeña. Depende de las unidades de medida de las variables: Si sxy es la covarianza de X e Y , y a, b ∈ R, b 6= 0 y T = a + bY , entonces: sxt = bsxy Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 20 Medidas de dependencia lineal I Coeficiente de correlación lineal de Pearson: r(x,y ) = I sxy sx sy ¿Ventajas? I Está acotado: −1 ≤ r(x,y ) ≤ 1 I Es adimensional. Interpretación del coeficiente de correlación de Pearson: I I I I I r(x,y ) > 0 Dependencia Directa. r(x,y ) < 0 Dependencia Indirecta. |r(x,y ) | = 1 Relación Lineal Perfecta. r(x,y ) = 0 X e Y están Incorreladas (ausencia de relación lineal). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 21 Correlación y heterogeneidad Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 22 Correlación y datos atı́picos Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 23 Correlación 6= Causalidad Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 24 Recta de regresión 200000 Ejemplo Diagrama de dispersión de Y : Ingresos netos frente a X : Años de estudio para 1508 madrileños. ● ● ● ● ● ● 150000 ● ● ● ● ● ● 100000 Ingresos netos ● ● ● ● ● ● ● 50000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 5 10 15 20 25 Años estudio I Los ingresos netos medios para cada valor de años de estudio (medias de Y condicionadas a cada valor de X ) forman aproximadamente una lı́nea recta. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 25 Definición de la recta de regresión I I Dada una muestra de n puntos (xi , yi ) queremos encontrar la recta y = a + bx que mejor se ajuste a la nube de puntos. Ecuación de la recta de regresión: ŷ = a + bx Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 26 Estimación de los coeficientes I Calculamos la ordenada en origen a y la pendiente b minimizando los residuos al cuadrado (método de mı́nimos cuadrados): residuo n n z }| { X X (yi − (a + bxi ))2 mı́n ( yi − ŷi )2 = mı́n a,b I a,b i=1 Estimadores de b y a: b a I i=1 sxy sx2 = ȳ − bx̄ = s Propiedad: b = r(x,y ) syx porque b = sxy sy sx2 sy s = r(x,y ) sy x Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 27 Interpretación de los coeficientes I Ecuación de la recta de regresión: ŷ = a + bx I a ordenada en el origen: valor medio de y cuando x = 0: x = 0 −→ ŷ = a + b(0) = a I b pendiente de la recta: incremento medio en y cuando se aumenta x una unidad: x2 = x1 + 1 −→ ŷ2 − ŷ1 = a + b(x1 + 1) − (a + bx1 ) = b Algunas veces el parámetro a carece de interpretación. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 28 Interpretación de los coeficientes Ejemplo: Recta de regresión ajustada para Ingresos netos (Y ) en función de Años de estudio (X ): ŷ = 7667,9 + 5474,9x I La renta neta media (anual) para individuos con 0 años de estudios es 7667.9 euros. En este caso, NO tiene sentido interpretar este parámetro. I La renta neta media (anual) aumenta 5474.9 euros por cada año extra de estudios. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 29 Valores predichos, residuos y varianza residual I I I Valores predichos (siempre que R 2 sea elevado y no se esté extrapolando: ŷi = a + bxi , i = 1, . . . , n ei = yi − ŷi , i = 1, . . . , n Residuos: e = 0 porque y = yb. Varianza residual: Es una medida del error cometido en la predicción de los datos. Divides entre n − 2 porque se han estimado a y b (menos dos grados de libertad). n 1 X 2 se2 = ei n−2 i=1 I Relación fundamental de la Regresión: La variabilidad total de la variable dependiente se puede explicar como la suma de la variabilidad del modelo más la variabilidad residual (como sumas de cuadrados): SCT = SCR + SCE. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 30 Propiedades de la recta de regresión I Existen dos rectas distintas porque provienen de dos problemas de optimización diferentes: Pn i=1 (yi b= sxy sx2 Pn − ybi )2 a = y − bx i=1 (xi d= sxy sy2 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 −b xi )2 c = x − dy Tema 3 31 Bondad del ajuste I El coeficiente de determinación R 2 mide el porcentaje de la varianza total (o información) recogido por el modelo: R2 = SCE SCR =1− SCT SCT I En el modelo de regresión lineal simple, el Coeficiente de determinación es 2 igual al coeficiente de correlación al cuadrado R 2 = r(x,y ) I 0 ≤ R 2 ≤ 1: Mayor R 2 indica un mejor ajuste. Interpretación: I I I I R 2 = 1 ⇒ Ajuste perfecto (SCE = 0) todos los residuos son 0 R 2 = 0 ⇒ Ajuste muy malo (SCE = SCT ) R 2 < 0,6 ⇒ Modelo con escasa fiabilidad: Buscar otro modelo mejor... Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 32 Análisis de los residuos I Para ver si el modelo de regresión es adecuado, se hace un diagrama de dispersión de residuos frente a valores predichos. I Un gráfico de residuos en el que los puntos parecen aleatorios indica que la recta de regresión se ajusta correctamente. Ejemplo Gráfico de residuos para la recta de ingresos netos: ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 Residuos 50000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −50000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40000 60000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 100000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 80000 ● ● ● ● ● 20000 ● ● ● ● ● ● ● 120000 140000 Valores ajustados Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 33 Los datos de Anscombe Ejemplo Los datos de Anscombe Datos 1 i 1 2 3 4 5 6 7 8 9 10 11 x 10 8 13 9 11 14 6 4 12 7 5 y 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68 Datos 2 x y 10 9,14 8 8,14 13 8,74 9 8,77 11 9,26 14 8,1 6 6,13 4 3,1 12 9,13 7 7,26 5 4,74 Datos 3 x 10 8 13 9 11 14 6 4 12 7 5 y 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73 Datos 4 x y 8 6,58 8 5,76 8 7,71 8 8,84 8 8,47 8 7,04 8 5,25 19 12,5 8 5,56 8 7,91 8 6,89 I Los datos de Anscombe son cuatro conjuntos de datos de dos variables cada uno. Estos conjuntos de datos son distintos pero la recta de regresión que determinan es la misma. I Nos muestran la necesidad de observar los datos antes de interpretar la recta de regresión. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 34 Los datos de Anscombe Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 35 Los datos de Anscombe I Recta ajustada: ŷ = 3 + 0,5x I Interpretación de la pendiente: un incremento de una unidad en la variable X produce, en promedio, un incremento de 0.5 unidades en la variable Y . I Predicción para x = 7,5 (dentro del rango de X ) ŷ = 3 + 0,5(7,5) = 6,75 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3