Tema 3: Análisis de datos bivariantes

Anuncio
1
Tema 3: Análisis de datos bivariantes
Contenidos
3.1 Tablas de doble entrada.
I
I
I
I
I
I
Datos bivariantes.
Estructura de la tabla de doble entrada.
Distribuciones de frecuencias marginales.
Distribución conjunta de frecuencias relativas.
Distribuciones de frecuencias condicionadas.
Tabla de doble entrada para variables cuantitativas.
3.2 Correlación.
I
I
I
I
I
I
Diagrama de dispersión.
Tipos de relación entre dos variables cuantitativas.
Medidas de dependencia lineal.
Correlación y heterogeneidad.
Correlación y datos atı́picos.
Correlación y causalidad.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
2
Tema 3: Análisis de datos bivariantes
3.3 Recta de regresión.
I
I
I
I
I
I
I
Definición de la recta.
Estimación de los coeficientes.
Interpretación de los coeficientes.
Valores predichos, residuos y varianza residual.
Bondad del ajuste.
Análisis de residuos.
Los datos de Anscombe.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
3
Lecturas recomendadas
I
Peña, D. y Romo, J., Introducción a la Estadı́stica para las Ciencias
Sociales.
I
I
Capı́tulos 7, 8 y 9.
Newbold, P. Estadı́stica para los Negocios y la Economı́a.
I
Secciones 2.5 y 12.1–12.4.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
4
Datos bivariantes
Ejemplo Nivel educativo (X ) y situación laboral (Y ) de 10 Madrileños.
Nivel educativo (1=Primaria o menos, 2=Secundaria, 3=Post-secundaria)
Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo)
Individuo
Nivel educativo (X )
Situación laboral (Y )
1
2
3
2
3
1
3
2
1
4
3
3
5
2
3
6
2
3
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
7
1
3
8
1
3
9
3
1
10
2
3
Tema 3
5
Datos bivariantes
I
Datos bivariantes: provienen de la observación simultánea de dos variables
(X , Y ) en una muestra de n individuos. Los datos bivariantes son parejas
de valores, numéricos o no, de la forma:
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
I
Se usan para describir las dos variables conjuntamente o una variable en
función de la otra.
I
A menudo se intenta describir el comportamiento de una de las variables,
que se llama la variable dependiente y se denota por Y , en función de la
otra variable, que se llama la variable independiente o explicativa, y se
denota por X .
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
6
Estructura de la tabla de doble entrada
I
Representamos los valores de una de las variables (p.ej. X ) en las
cabeceras de las filas de una tabla, y los valores de la otra variable (p.ej.
Y ) en las cabeceras de las columnas de la tabla.
I
En la casilla correspondiente a cada par de valores de X e Y , se escribe la
frecuencia absoluta o número de individuos en cada combinación de
valores.
I
Cuando al menos alguna de las dos variables es cualitativa, la tabla de
doble entrada también se denomina tabla de contingencia.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
7
Estructura de la tabla de doble entrada/tabla de
contingencia
Ejemplo Datos de 1508 madrileños (Encuesta de Condiciones de Vida). X :
Nivel educativo, Y : Situación laboral
X
I
Primaria
Secundaria
Post-secundaria
Empleado
95
393
317
Y
Desempleado
6
28
8
Inactivo
315
257
89
Se denomina distribución conjunta de (X , Y ) al conjunto formado por los
valores observados en forma de pares, junto con las frecuencias absolutas
correspondientes a cada par.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
8
Estructura de la tabla de doble entrada
I
Tabla de doble entrada con k filas y m columnas
Y
y1 · · ·
yj
···
ym
x1 n11 · · · n1j · · · n1m
..
..
..
..
.
.
.
.
X
I
Total
n1
..
.
xi
..
.
ni1
..
.
···
nij
..
.
···
nim
..
.
ni
..
.
xk
Total
nk1
n1
···
···
nkj
nj
···
···
nkm
nm
nk
n
Notación:
nij frecuencia absoluta
Total de fila i:
Total de columna j:
n·· tamaño muestral
en la casilla (i, j)
ni = ni1 + ni2 + · · · + nim
nj = n1j + n2j + · · · + nkj
n·· = n
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
9
Distribuciones de frecuencias marginales
I
I
Los totales de las filas (columnas) se llaman frecuencias absolutas
marginales de las filas (columnas).
Éstas son las frecuencias univariantes de X y de Y .
Ejemplo Distribuciones de frecuencias marginales:
Nivel educativo (X )
ni
Situación laboral (Y )
nj
Primaria
416
Secundaria
678
Empleado
805
Post-secundaria
414
Desempleado
42
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Inactivo
661
Total
1508
Total
1508
Tema 3
10
Distribuciones de frecuencias marginales
I
Se denomina distribución marginal de X al conjunto de valores que toma
X junto con sus frecuencias absolutas marginales.
I
Análogamente se define la distribución marginal de Y .
I
Observación: Si en lugar de tener dos variables (X , Y ) tuviéramos tres
(X , Y , Z ) tendrı́amos tres distribuciones marginales.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
11
Distribución conjunta de frecuencias relativas
I
fij = nij /n·· frecuencia relativa en la casilla (i, j)
X
I
x1
..
.
y1
f11
..
.
···
···
xi
..
.
fi1
..
.
···
xk
Total
fk1
f1
···
···
Y
yj
f1j
..
.
···
···
ym
f1m
..
.
Total
f1
..
.
fij
..
.
···
fim
..
.
fi
..
.
fkj
fj
···
···
fkm
fm
fk
1
Frecuencia relativa marginal de la fila i:
fi = fi1 + · · · + fij + · · · + fim
I
Frecuencia relativa marginal de la columna j:
fj = f1j + · · · + fij + · · · + fkj
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
12
Distribución de frecuencias condicionadas
I
I
Dada la distribución conjunta de (X , Y ), se denomina distribución
condicionada a la distribución de frecuencias absolutas de una de las
variables, suponiendo conocido y fijado el valor de la otra variable.
Ejemplo Distribución de frecuencias de la situación laboral (Y ) para
personas con un nivel educativo (X ) de Primaria o menos.
Y |X = Primaria Empleado Desempleado Inactivo Total
n1j
95
6
315
416
Distribución de frecuencias de Y condicionado a X = xi : Es la
distribución de frecuencias de la variable Y , de entre los individuos que
han tomado el valor xi de X .
I
observa que se restringe al conjunto total de individuos que toman el valor
xi de X .
I
Notación: Y |X = xi .
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
13
Distribución de frecuencias condicionadas
Ejemplo Distribución de frecuencias del nivel educativo para inactivos.
X |Y = Inactivo
ni3
Primaria
315
Secundaria
257
Post-secundaria
89
Total
661
Distribución de frecuencias del nivel educativo para desempleados.
X |Y = Desemp.
ni2
Primaria
6
Secundaria
28
Post-secundaria
8
Total
42
Se ha visto, ası́, la definición más sencilla de distribución condicionada. Puede
condicionarse también al hecho de que la variable tome varios valores, por
ejemplo: X |(Y = Inactivo) ∪ (Y = Desempleado).
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
14
Tabla de doble entrada para variables cuantitativas
Ejemplo 43 alumnos encuestados
X : Núm. de veces que han ido al teatro en el último mes
Y : Núm. de veces que han ido al cine en el último mes
X
I
0
1
2
3
Total
0
12
4
3
1
20
1
5
3
3
0
11
Y
2
4
2
2
0
8
3
2
1
0
0
3
4
1
0
0
0
1
Total
24
10
8
1
43
Si X e Y son cuantitativas discretas tomando un número pequeño de
valores, la tabla se construye de la misma forma que para el caso de
variables cualitativas.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
15
Tabla de doble entrada para variables cuantitativas
Ejemplo Empresas americanas
X : Núm. de trabajadores, Y : Volumen de ventas
X
Y
I
[1,100)
[100,200)
[200,300]
Total
[1,25)
0.293
0.098
0.073
0.463
[25,50)
0.122
0.073
0.073
0.268
[50,75)
0.098
0.049
0.049
0.195
[75,99]
0.049
0.024
0.000
0.073
Total
0.561
0.244
0.195
1.000
Si X e Y son, bien cuantitativas discretas tomando un número grande de
valores o bien continuas, es habitual agrupar los valores de las variables en
intervalos.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
16
Diagrama de dispersión
I
La representación gráfica más común para dos variables cuantitativas es el
diagrama de dispersión
Ejemplo m2 habitables y Precio de 15 viviendas.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
17
Tipos de relación entre variables cuantitativas
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
18
Medidas de dependencia lineal para variables cuantitativas
I
La covarianza es una medida de variación conjunta de las dos variables.
Cuantifica la información existente en un gráfico de dispersión sobre la
asociación lineal entre dos variables.
x
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
Covarianza:
y
0.81186553
0.98151318
1.86964664
1.67494569
1.67159679
2.06896883
2.07458768
2.1276676
2.0867583
3.01682761
2.21807301
1.31836091
0.94868813
3.71304211
1.50010914
3.08738201
1.3694318
1.86684042
1.24087921
2.07104626
0.71226336
1.44547522
2.44837446
3.38040178
0.69995779
0.93002587
2.53962691
3.00173124
2.99222302
2.78137228
2.83313549
1.21334859
sxy =
1.71903042
1.77181509
3.11027837
2.8040063
3.13403354
4.82231585
3.77439638
3.98994917
4.6670687
4.4723854
4.87721889
3.52703885
2.44574875
8.19843302
2.49454861
5.43299601
0.92412073
3.80057902
1.55770547
4.70391609
0.26642136
3.01707838
4.86795198
6.17440013
0.85487048
0.00913399
5.79717576
5.26160403
6.00492001
3.57409016
6.24472749
1.78724959
1
n−1
9
Y
8
7
6
xi>media(x)
yi>media(y)
5
4
0
0.5
1
xi<media(x)
yi<media(y)
1.5
3
X
2
2.5
3
3.5
4
4.5
2
1
0
Pn
i=1 xi yi
z
n
X
}|
− nx̄ ȳ
{!
(xi − x̄)(yi − ȳ )
− ∞ < sxy < ∞
i=1
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
19
Medidas de dependencia lineal
I
sxy >> 0 ⇒ Relación lineal positiva.
I
sxy << 0 ⇒ Relación lineal negativa.
I
sxy ≈ 0 ⇒ No existe relación lineal o existe relación no lineal.
Inconvenientes de la covarianza:
I
I
I
No está acotada ni superior ni inferiormente. Por lo tanto no se sabe
cuándo es sxy suficientemente grande o pequeña.
Depende de las unidades de medida de las variables:
Si sxy es la covarianza de X e Y , y a, b ∈ R, b 6= 0 y T = a + bY ,
entonces:
sxt = bsxy
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
20
Medidas de dependencia lineal
I
Coeficiente de correlación lineal de Pearson:
r(x,y ) =
I
sxy
sx sy
¿Ventajas?
I
Está acotado: −1 ≤ r(x,y ) ≤ 1
I
Es adimensional.
Interpretación del coeficiente de correlación de Pearson:
I
I
I
I
I
r(x,y ) > 0 Dependencia Directa.
r(x,y ) < 0 Dependencia Indirecta.
|r(x,y ) | = 1 Relación Lineal Perfecta.
r(x,y ) = 0 X e Y están Incorreladas (ausencia de relación lineal).
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
21
Correlación y heterogeneidad
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
22
Correlación y datos atı́picos
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
23
Correlación 6= Causalidad
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
24
Recta de regresión
200000
Ejemplo Diagrama de dispersión de Y : Ingresos netos frente a X : Años de
estudio para 1508 madrileños.
●
●
●
●
●
●
150000
●
●
●
●
●
●
100000
Ingresos netos
●
●
●
●
●
●
●
50000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
5
10
15
20
25
Años estudio
I
Los ingresos netos medios para cada valor de años de estudio (medias de
Y condicionadas a cada valor de X ) forman aproximadamente una lı́nea
recta.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
25
Definición de la recta de regresión
I
I
Dada una muestra de n puntos (xi , yi ) queremos encontrar la recta
y = a + bx que mejor se ajuste a la nube de puntos.
Ecuación de la recta de regresión:
ŷ = a + bx
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
26
Estimación de los coeficientes
I
Calculamos la ordenada en origen a y la pendiente b minimizando los
residuos al cuadrado (método de mı́nimos cuadrados):
residuo
n
n
z }| {
X
X
(yi − (a + bxi ))2
mı́n
( yi − ŷi )2 = mı́n
a,b
I
a,b
i=1
Estimadores de b y a:
b
a
I
i=1
sxy
sx2
= ȳ − bx̄
=
s
Propiedad: b = r(x,y ) syx
porque b =
sxy sy
sx2 sy
s
= r(x,y ) sy
x
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
27
Interpretación de los coeficientes
I
Ecuación de la recta de regresión:
ŷ = a + bx
I
a ordenada en el origen: valor medio de y cuando x = 0:
x = 0 −→ ŷ = a + b(0) = a
I
b pendiente de la recta: incremento medio en y cuando se aumenta x una
unidad:
x2 = x1 + 1 −→ ŷ2 − ŷ1 = a + b(x1 + 1) − (a + bx1 ) = b
Algunas veces el parámetro a carece de interpretación.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
28
Interpretación de los coeficientes
Ejemplo: Recta de regresión ajustada para Ingresos netos (Y ) en función de
Años de estudio (X ):
ŷ = 7667,9 + 5474,9x
I
La renta neta media (anual) para individuos con 0 años de estudios es
7667.9 euros. En este caso, NO tiene sentido interpretar este parámetro.
I
La renta neta media (anual) aumenta 5474.9 euros por cada año extra de
estudios.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
29
Valores predichos, residuos y varianza residual
I
I
I
Valores predichos (siempre que R 2 sea elevado y no se esté extrapolando:
ŷi = a + bxi ,
i = 1, . . . , n
ei = yi − ŷi ,
i = 1, . . . , n
Residuos:
e = 0 porque y = yb.
Varianza residual: Es una medida del error cometido en la predicción de
los datos. Divides entre n − 2 porque se han estimado a y b (menos dos
grados de libertad).
n
1 X 2
se2 =
ei
n−2
i=1
I
Relación fundamental de la Regresión: La variabilidad total de la variable
dependiente se puede explicar como la suma de la variabilidad del modelo
más la variabilidad residual (como sumas de cuadrados):
SCT = SCR + SCE.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
30
Propiedades de la recta de regresión
I
Existen dos rectas distintas porque provienen de dos problemas de
optimización diferentes:
Pn
i=1 (yi
b=
sxy
sx2
Pn
− ybi )2
a = y − bx
i=1 (xi
d=
sxy
sy2
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
−b
xi )2
c = x − dy
Tema 3
31
Bondad del ajuste
I
El coeficiente de determinación R 2 mide el porcentaje de la varianza
total (o información) recogido por el modelo:
R2 =
SCE
SCR
=1−
SCT
SCT
I
En el modelo de regresión lineal simple, el Coeficiente de determinación es
2
igual al coeficiente de correlación al cuadrado R 2 = r(x,y
)
I
0 ≤ R 2 ≤ 1: Mayor R 2 indica un mejor ajuste.
Interpretación:
I
I
I
I
R 2 = 1 ⇒ Ajuste perfecto (SCE = 0) todos los residuos son 0
R 2 = 0 ⇒ Ajuste muy malo (SCE = SCT )
R 2 < 0,6 ⇒ Modelo con escasa fiabilidad: Buscar otro modelo mejor...
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
32
Análisis de los residuos
I
Para ver si el modelo de regresión es adecuado, se hace un diagrama de
dispersión de residuos frente a valores predichos.
I
Un gráfico de residuos en el que los puntos parecen aleatorios indica que
la recta de regresión se ajusta correctamente.
Ejemplo Gráfico de residuos para la recta de ingresos netos:
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
Residuos
50000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−50000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
40000
60000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
100000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
80000
●
●
●
●
●
20000
●
●
●
●
●
●
●
120000
140000
Valores ajustados
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
33
Los datos de Anscombe
Ejemplo Los datos de Anscombe
Datos 1
i
1
2
3
4
5
6
7
8
9
10
11
x
10
8
13
9
11
14
6
4
12
7
5
y
8,04
6,95
7,58
8,81
8,33
9,96
7,24
4,26
10,84
4,82
5,68
Datos 2
x
y
10
9,14
8
8,14
13
8,74
9
8,77
11
9,26
14
8,1
6
6,13
4
3,1
12
9,13
7
7,26
5
4,74
Datos 3
x
10
8
13
9
11
14
6
4
12
7
5
y
7,46
6,77
12,74
7,11
7,81
8,84
6,08
5,39
8,15
6,42
5,73
Datos 4
x
y
8
6,58
8
5,76
8
7,71
8
8,84
8
8,47
8
7,04
8
5,25
19
12,5
8
5,56
8
7,91
8
6,89
I
Los datos de Anscombe son cuatro conjuntos de datos de dos variables
cada uno. Estos conjuntos de datos son distintos pero la recta de
regresión que determinan es la misma.
I
Nos muestran la necesidad de observar los datos antes de interpretar la
recta de regresión.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
34
Los datos de Anscombe
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
35
Los datos de Anscombe
I
Recta ajustada:
ŷ = 3 + 0,5x
I
Interpretación de la pendiente: un incremento de una unidad en la variable
X produce, en promedio, un incremento de 0.5 unidades en la variable Y .
I
Predicción para x = 7,5 (dentro del rango de X )
ŷ = 3 + 0,5(7,5) = 6,75
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11
Tema 3
Descargar