Tema 3: Análisis de datos bivariantes

1 Tema 3: Análisis de datos bivariantes Contenidos 3.1 Tablas de doble entrada. I I I I I I Datos bivariantes. Estructura de la tabla de doble entrada. Distribuciones de frecuencias marginales. Distribución conjunta de frecuencias relativas. Distribuciones de frecuencias condicionadas. Tabla de doble entrada para variables cuantitativas. 3.2 Correlación. I I I I I I Diagrama de dispersión. Tipos de relación entre dos variables cuantitativas. Medidas de dependencia lineal. Correlación y heterogeneidad. Correlación y datos atı́picos. Correlación y causalidad. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 2 Tema 3: Análisis de datos bivariantes 3.3 Recta de regresión. I I I I I I I Definición de la recta. Estimación de los coeficientes. Interpretación de los coeficientes. Valores predichos, residuos y varianza residual. Bondad del ajuste. Análisis de residuos. Los datos de Anscombe. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 3 Lecturas recomendadas I Peña, D. y Romo, J., Introducción a la Estadı́stica para las Ciencias Sociales. I I Capı́tulos 7, 8 y 9. Newbold, P. Estadı́stica para los Negocios y la Economı́a. I Secciones 2.5 y 12.1–12.4. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 4 Datos bivariantes Ejemplo Nivel educativo (X ) y situación laboral (Y ) de 10 Madrileños. Nivel educativo (1=Primaria o menos, 2=Secundaria, 3=Post-secundaria) Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo) Individuo Nivel educativo (X ) Situación laboral (Y ) 1 2 3 2 3 1 3 2 1 4 3 3 5 2 3 6 2 3 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 7 1 3 8 1 3 9 3 1 10 2 3 Tema 3 5 Datos bivariantes I Datos bivariantes: provienen de la observación simultánea de dos variables (X , Y ) en una muestra de n individuos. Los datos bivariantes son parejas de valores, numéricos o no, de la forma: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) I Se usan para describir las dos variables conjuntamente o una variable en función de la otra. I A menudo se intenta describir el comportamiento de una de las variables, que se llama la variable dependiente y se denota por Y , en función de la otra variable, que se llama la variable independiente o explicativa, y se denota por X . Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 6 Estructura de la tabla de doble entrada I Representamos los valores de una de las variables (p.ej. X ) en las cabeceras de las filas de una tabla, y los valores de la otra variable (p.ej. Y ) en las cabeceras de las columnas de la tabla. I En la casilla correspondiente a cada par de valores de X e Y , se escribe la frecuencia absoluta o número de individuos en cada combinación de valores. I Cuando al menos alguna de las dos variables es cualitativa, la tabla de doble entrada también se denomina tabla de contingencia. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 7 Estructura de la tabla de doble entrada/tabla de contingencia Ejemplo Datos de 1508 madrileños (Encuesta de Condiciones de Vida). X : Nivel educativo, Y : Situación laboral X I Primaria Secundaria Post-secundaria Empleado 95 393 317 Y Desempleado 6 28 8 Inactivo 315 257 89 Se denomina distribución conjunta de (X , Y ) al conjunto formado por los valores observados en forma de pares, junto con las frecuencias absolutas correspondientes a cada par. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 8 Estructura de la tabla de doble entrada I Tabla de doble entrada con k filas y m columnas Y y1 · · · yj ··· ym x1 n11 · · · n1j · · · n1m .. .. .. .. . . . . X I Total n1 .. . xi .. . ni1 .. . ··· nij .. . ··· nim .. . ni .. . xk Total nk1 n1 ··· ··· nkj nj ··· ··· nkm nm nk n Notación: nij frecuencia absoluta Total de fila i: Total de columna j: n·· tamaño muestral en la casilla (i, j) ni = ni1 + ni2 + · · · + nim nj = n1j + n2j + · · · + nkj n·· = n Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 9 Distribuciones de frecuencias marginales I I Los totales de las filas (columnas) se llaman frecuencias absolutas marginales de las filas (columnas). Éstas son las frecuencias univariantes de X y de Y . Ejemplo Distribuciones de frecuencias marginales: Nivel educativo (X ) ni Situación laboral (Y ) nj Primaria 416 Secundaria 678 Empleado 805 Post-secundaria 414 Desempleado 42 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Inactivo 661 Total 1508 Total 1508 Tema 3 10 Distribuciones de frecuencias marginales I Se denomina distribución marginal de X al conjunto de valores que toma X junto con sus frecuencias absolutas marginales. I Análogamente se define la distribución marginal de Y . I Observación: Si en lugar de tener dos variables (X , Y ) tuviéramos tres (X , Y , Z ) tendrı́amos tres distribuciones marginales. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 11 Distribución conjunta de frecuencias relativas I fij = nij /n·· frecuencia relativa en la casilla (i, j) X I x1 .. . y1 f11 .. . ··· ··· xi .. . fi1 .. . ··· xk Total fk1 f1 ··· ··· Y yj f1j .. . ··· ··· ym f1m .. . Total f1 .. . fij .. . ··· fim .. . fi .. . fkj fj ··· ··· fkm fm fk 1 Frecuencia relativa marginal de la fila i: fi = fi1 + · · · + fij + · · · + fim I Frecuencia relativa marginal de la columna j: fj = f1j + · · · + fij + · · · + fkj Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 12 Distribución de frecuencias condicionadas I I Dada la distribución conjunta de (X , Y ), se denomina distribución condicionada a la distribución de frecuencias absolutas de una de las variables, suponiendo conocido y fijado el valor de la otra variable. Ejemplo Distribución de frecuencias de la situación laboral (Y ) para personas con un nivel educativo (X ) de Primaria o menos. Y |X = Primaria Empleado Desempleado Inactivo Total n1j 95 6 315 416 Distribución de frecuencias de Y condicionado a X = xi : Es la distribución de frecuencias de la variable Y , de entre los individuos que han tomado el valor xi de X . I observa que se restringe al conjunto total de individuos que toman el valor xi de X . I Notación: Y |X = xi . Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 13 Distribución de frecuencias condicionadas Ejemplo Distribución de frecuencias del nivel educativo para inactivos. X |Y = Inactivo ni3 Primaria 315 Secundaria 257 Post-secundaria 89 Total 661 Distribución de frecuencias del nivel educativo para desempleados. X |Y = Desemp. ni2 Primaria 6 Secundaria 28 Post-secundaria 8 Total 42 Se ha visto, ası́, la definición más sencilla de distribución condicionada. Puede condicionarse también al hecho de que la variable tome varios valores, por ejemplo: X |(Y = Inactivo) ∪ (Y = Desempleado). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 14 Tabla de doble entrada para variables cuantitativas Ejemplo 43 alumnos encuestados X : Núm. de veces que han ido al teatro en el último mes Y : Núm. de veces que han ido al cine en el último mes X I 0 1 2 3 Total 0 12 4 3 1 20 1 5 3 3 0 11 Y 2 4 2 2 0 8 3 2 1 0 0 3 4 1 0 0 0 1 Total 24 10 8 1 43 Si X e Y son cuantitativas discretas tomando un número pequeño de valores, la tabla se construye de la misma forma que para el caso de variables cualitativas. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 15 Tabla de doble entrada para variables cuantitativas Ejemplo Empresas americanas X : Núm. de trabajadores, Y : Volumen de ventas X Y I [1,100) [100,200) [200,300] Total [1,25) 0.293 0.098 0.073 0.463 [25,50) 0.122 0.073 0.073 0.268 [50,75) 0.098 0.049 0.049 0.195 [75,99] 0.049 0.024 0.000 0.073 Total 0.561 0.244 0.195 1.000 Si X e Y son, bien cuantitativas discretas tomando un número grande de valores o bien continuas, es habitual agrupar los valores de las variables en intervalos. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 16 Diagrama de dispersión I La representación gráfica más común para dos variables cuantitativas es el diagrama de dispersión Ejemplo m2 habitables y Precio de 15 viviendas. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 17 Tipos de relación entre variables cuantitativas Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 18 Medidas de dependencia lineal para variables cuantitativas I La covarianza es una medida de variación conjunta de las dos variables. Cuantifica la información existente en un gráfico de dispersión sobre la asociación lineal entre dos variables. x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Covarianza: y 0.81186553 0.98151318 1.86964664 1.67494569 1.67159679 2.06896883 2.07458768 2.1276676 2.0867583 3.01682761 2.21807301 1.31836091 0.94868813 3.71304211 1.50010914 3.08738201 1.3694318 1.86684042 1.24087921 2.07104626 0.71226336 1.44547522 2.44837446 3.38040178 0.69995779 0.93002587 2.53962691 3.00173124 2.99222302 2.78137228 2.83313549 1.21334859 sxy = 1.71903042 1.77181509 3.11027837 2.8040063 3.13403354 4.82231585 3.77439638 3.98994917 4.6670687 4.4723854 4.87721889 3.52703885 2.44574875 8.19843302 2.49454861 5.43299601 0.92412073 3.80057902 1.55770547 4.70391609 0.26642136 3.01707838 4.86795198 6.17440013 0.85487048 0.00913399 5.79717576 5.26160403 6.00492001 3.57409016 6.24472749 1.78724959 1 n−1 9 Y 8 7 6 xi>media(x) yi>media(y) 5 4 0 0.5 1 xi<media(x) yi<media(y) 1.5 3 X 2 2.5 3 3.5 4 4.5 2 1 0 Pn i=1 xi yi z n X }| − nx̄ ȳ {! (xi − x̄)(yi − ȳ ) − ∞ < sxy < ∞ i=1 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 19 Medidas de dependencia lineal I sxy >> 0 ⇒ Relación lineal positiva. I sxy << 0 ⇒ Relación lineal negativa. I sxy ≈ 0 ⇒ No existe relación lineal o existe relación no lineal. Inconvenientes de la covarianza: I I I No está acotada ni superior ni inferiormente. Por lo tanto no se sabe cuándo es sxy suficientemente grande o pequeña. Depende de las unidades de medida de las variables: Si sxy es la covarianza de X e Y , y a, b ∈ R, b 6= 0 y T = a + bY , entonces: sxt = bsxy Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 20 Medidas de dependencia lineal I Coeficiente de correlación lineal de Pearson: r(x,y ) = I sxy sx sy ¿Ventajas? I Está acotado: −1 ≤ r(x,y ) ≤ 1 I Es adimensional. Interpretación del coeficiente de correlación de Pearson: I I I I I r(x,y ) > 0 Dependencia Directa. r(x,y ) < 0 Dependencia Indirecta. |r(x,y ) | = 1 Relación Lineal Perfecta. r(x,y ) = 0 X e Y están Incorreladas (ausencia de relación lineal). Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 21 Correlación y heterogeneidad Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 22 Correlación y datos atı́picos Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 23 Correlación 6= Causalidad Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 24 Recta de regresión 200000 Ejemplo Diagrama de dispersión de Y : Ingresos netos frente a X : Años de estudio para 1508 madrileños. ● ● ● ● ● ● 150000 ● ● ● ● ● ● 100000 Ingresos netos ● ● ● ● ● ● ● 50000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 5 10 15 20 25 Años estudio I Los ingresos netos medios para cada valor de años de estudio (medias de Y condicionadas a cada valor de X ) forman aproximadamente una lı́nea recta. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 25 Definición de la recta de regresión I I Dada una muestra de n puntos (xi , yi ) queremos encontrar la recta y = a + bx que mejor se ajuste a la nube de puntos. Ecuación de la recta de regresión: ŷ = a + bx Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 26 Estimación de los coeficientes I Calculamos la ordenada en origen a y la pendiente b minimizando los residuos al cuadrado (método de mı́nimos cuadrados): residuo n n z }| { X X (yi − (a + bxi ))2 mı́n ( yi − ŷi )2 = mı́n a,b I a,b i=1 Estimadores de b y a: b a I i=1 sxy sx2 = ȳ − bx̄ = s Propiedad: b = r(x,y ) syx porque b = sxy sy sx2 sy s = r(x,y ) sy x Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 27 Interpretación de los coeficientes I Ecuación de la recta de regresión: ŷ = a + bx I a ordenada en el origen: valor medio de y cuando x = 0: x = 0 −→ ŷ = a + b(0) = a I b pendiente de la recta: incremento medio en y cuando se aumenta x una unidad: x2 = x1 + 1 −→ ŷ2 − ŷ1 = a + b(x1 + 1) − (a + bx1 ) = b Algunas veces el parámetro a carece de interpretación. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 28 Interpretación de los coeficientes Ejemplo: Recta de regresión ajustada para Ingresos netos (Y ) en función de Años de estudio (X ): ŷ = 7667,9 + 5474,9x I La renta neta media (anual) para individuos con 0 años de estudios es 7667.9 euros. En este caso, NO tiene sentido interpretar este parámetro. I La renta neta media (anual) aumenta 5474.9 euros por cada año extra de estudios. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 29 Valores predichos, residuos y varianza residual I I I Valores predichos (siempre que R 2 sea elevado y no se esté extrapolando: ŷi = a + bxi , i = 1, . . . , n ei = yi − ŷi , i = 1, . . . , n Residuos: e = 0 porque y = yb. Varianza residual: Es una medida del error cometido en la predicción de los datos. Divides entre n − 2 porque se han estimado a y b (menos dos grados de libertad). n 1 X 2 se2 = ei n−2 i=1 I Relación fundamental de la Regresión: La variabilidad total de la variable dependiente se puede explicar como la suma de la variabilidad del modelo más la variabilidad residual (como sumas de cuadrados): SCT = SCR + SCE. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 30 Propiedades de la recta de regresión I Existen dos rectas distintas porque provienen de dos problemas de optimización diferentes: Pn i=1 (yi b= sxy sx2 Pn − ybi )2 a = y − bx i=1 (xi d= sxy sy2 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 −b xi )2 c = x − dy Tema 3 31 Bondad del ajuste I El coeficiente de determinación R 2 mide el porcentaje de la varianza total (o información) recogido por el modelo: R2 = SCE SCR =1− SCT SCT I En el modelo de regresión lineal simple, el Coeficiente de determinación es 2 igual al coeficiente de correlación al cuadrado R 2 = r(x,y ) I 0 ≤ R 2 ≤ 1: Mayor R 2 indica un mejor ajuste. Interpretación: I I I I R 2 = 1 ⇒ Ajuste perfecto (SCE = 0) todos los residuos son 0 R 2 = 0 ⇒ Ajuste muy malo (SCE = SCT ) R 2 < 0,6 ⇒ Modelo con escasa fiabilidad: Buscar otro modelo mejor... Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 32 Análisis de los residuos I Para ver si el modelo de regresión es adecuado, se hace un diagrama de dispersión de residuos frente a valores predichos. I Un gráfico de residuos en el que los puntos parecen aleatorios indica que la recta de regresión se ajusta correctamente. Ejemplo Gráfico de residuos para la recta de ingresos netos: ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 Residuos 50000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −50000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40000 60000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 100000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 80000 ● ● ● ● ● 20000 ● ● ● ● ● ● ● 120000 140000 Valores ajustados Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 33 Los datos de Anscombe Ejemplo Los datos de Anscombe Datos 1 i 1 2 3 4 5 6 7 8 9 10 11 x 10 8 13 9 11 14 6 4 12 7 5 y 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68 Datos 2 x y 10 9,14 8 8,14 13 8,74 9 8,77 11 9,26 14 8,1 6 6,13 4 3,1 12 9,13 7 7,26 5 4,74 Datos 3 x 10 8 13 9 11 14 6 4 12 7 5 y 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73 Datos 4 x y 8 6,58 8 5,76 8 7,71 8 8,84 8 8,47 8 7,04 8 5,25 19 12,5 8 5,56 8 7,91 8 6,89 I Los datos de Anscombe son cuatro conjuntos de datos de dos variables cada uno. Estos conjuntos de datos son distintos pero la recta de regresión que determinan es la misma. I Nos muestran la necesidad de observar los datos antes de interpretar la recta de regresión. Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 34 Los datos de Anscombe Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3 35 Los datos de Anscombe I Recta ajustada: ŷ = 3 + 0,5x I Interpretación de la pendiente: un incremento de una unidad en la variable X produce, en promedio, un incremento de 0.5 unidades en la variable Y . I Predicción para x = 7,5 (dentro del rango de X ) ŷ = 3 + 0,5(7,5) = 6,75 Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3

Tema 3: Análisis de datos bivariantes

Documentos relacionados

Productos

Apoyo

Tema 3: Análisis de datos bivariantes

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib