Regresión y Correlación

Anuncio
Regresión y Correlación
1.- El número de turistas (en millones) entrados en España mensualmente durante los
años 2001 y 2002 se expone en la siguiente estadística.
Nº Turistas
2001
2,76
2,62
2,92
3,8
4,4
4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 5,4129
Nº Turistas
2002
2,89
2,63
3,2
3,19
4,52
4,77 8,91 9,99 5,95 4,35 2,87
3,7
4,7475 5,3203
a) Calcular en qué año hubo mayor dispersión de turistas por mes.
b) Calcular la matriz de covarianzas.
c) Calcular el coeficiente de correlación lineal entre los dos años e interpretarlo.
2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad
tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del
padre, y = edad de la madre).
Se pide:
x\y
18-22
22-26
26-30
30-34
34-38
17-21
5
21-25
2
3
25-29
29-33
33-37
9
4
1
6
6
3
10
7
4
a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una
edad de 25 años.
b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una
edad de 25 años.
c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de
determinación (R2).
d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias
absolutas acumuladas de la distribución marginal de los padres.
e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres.
f) Qué media es más representativa. Justificar la respuesta.
3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres
y sus hijos mayores.
Estatura x del padre
169 164
174
167 177 162
182 172
177 174 179
185
Estatura y del hijo
177 172
177
169 180 172
177 169
185 174 177
182
A)
B)
C)
D)
E)
Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos.
Explicar cuál de las dos estaturas es más dispersa.
Hallar e interpretar el coeficiente de correlación lineal.
Calcular la recta de regresión de x sobre y. Varianza explicada y residual.
¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm?
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 1
Regresión y Correlación
4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de
25 estudiantes
X\Y
[20 a 26)
[26 a 32)
[32 a 38)
[38 a 44)
[44 a 50)
[14 a 20)
1
[20 a 26)
3
1
[26 a 32)
2
5
2
[32 a 38)
1
4
1
[38 a 44)
1
3
[44 a 50)
1
Sobre la distribución marginal X (Matemáticas) calcular:
a) La media, y la cuasivarianza.
b) Representar un diagrama de cajas y estudiar si existen puntos atípicos.
Sobre la distribución marginal Y (Física) calcular:
c) La media, la varianza de la muestra.
d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias
absolutas acumuladas.
Respecto de ambas variables
e) Hallar e interpretar el coeficiente de correlación lineal.
f) Calcular el porcentaje de la variación total de la variable nota de física que se
explica mediante la relación con la variable nota de matemáticas.
g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota
de matemáticas.
5.- De una variable estadística bidimensional se conocen los siguientes datos:
∑ x= 140; ∑ y= 90; N= 12; σx= 3.5; σy= 2.2 y el coeficiente de correlación lineal r =
0.9. Calcular:
A) La recta de regresión de y sobre x.
B) La recta de regresión de x sobre y.
C) El valor de x para un valor de y=7.
D) El punto de intersección de las rectas de regresión.
E) Varianza residual.
F) Varianza explicada.
G) Coeficiente de determinación.
H) Matriz de covarianzas.
6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable
1
4x + 2y =
2
1.
estadística (X,Y) son 
 y que la varianza marginal de la variable Y es σ y =
1
5x + 3y =
Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza
marginal de X ( σ2x ).d) El valor estimado para y sabiendo que x=0.
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 2
Regresión y Correlación
7.-Se han realizado 10 mediciones de distintas
distancias (x) y se ha estimado el correspondiente
error (y), cuyos resultados vienen reflejados en la
siguiente tabla de doble entrada: a) Hallar la
distancia media, el error medio. y las varianzas de
las variables distancias y errores. b) Hallar ambas
rectas de regresión, los coeficientes de regresión,
las pendientes de las rectas de regresión y el
coeficiente de correlación lineal.
Y
0.1
0.2
0.3
0.4
0.5
0.01
3
0
0
0
0
0.02
1
1
0
0
0
0.03
0
1
2
0
0
0.04
0
0
0
1
1
X
8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como
se indica en la siguiente tabla:
x
6
9
24
38
46
48
52
75
118
196
y
1,2
1,8
3,3
7,2
7
9,1
11
14,5
22,9
36,3
La variable x representa la velocidad media en cientos de km/s, y la variable y, la
distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 años-luz, o sea, es la
distancia a la cual se ve el diámetro de la órbita terrestre bajo un ángulo de 1’.
Determinar el coeficiente de correlación lineal.
9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas
relativas de los 12 puntos que se expresan en la tabla:
Estaca
X
Y
1
37
64
2
39
71
3
29
53
4
42
67
5
31
55
6
30
58
7
35
77
8
28
57
9
32
56
10
22
51
11
41
76
12
37
68
a) Hallar el intervalo X ± σX . ¿Qué tanto por ciento de valores en la variable X
quedan dentro de dicho intervalo?
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 3
Regresión y Correlación
Siendo la distribución conjunta (X, Y)
b) Calcular la matriz de covarianzas. c) El coeficiente correlación lineal.
Interpretarlo d) La recta de regresión de Y sobre X. e) Varianza residual. f) El
coeficiente de determinación. Interpretarlo.
10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificación obtenida en
1 
 − x + 2y =
Estadística (Y) y como resultado obtenemos las rectas de regresión: 
 y que
1
 −5x + 3y =
1 . Se pide:
la varianza marginal de la variable Y es σ 2y =
a) El coeficiente de correlación lineal. b) Las medias marginales.c) La covarianza
d) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar?
11.-. La intensidad de corriente I, que se aprecia en un amperímetro varía con la fuerza
electromotriz aplicada E, de acuerdo con la tabla de datos experimentales adjunta:
E 5 10 1.5 20 25 30
I -7 -2 1.0
4
10 12
Determinar:
a) La matriz de covarianzas.
b) El coeficiente de correlación lineal e interpretarlo.
c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz. ¿Cuál
será el valor estimado de la intensidad para una fuerza electromotriz de 20?
12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística
bidimensional (x,y).
x
5
4
3
2
1
0
y
6.2 5.6 3.4 2.3 1.9 1.2
a) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es
lógico adoptar un ajuste lineal.
b) Calcular:
b1) La matriz de covarianzas.
b2) El coeficiente de correlación lineal. Interpretarlo.
c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x = 4.
d) Calcular
d1) La varianza residual.
d2La varianza explicada por el ajuste lineal.
13.- Los siguientes datos representan los resultados, notas, de una determinada
asignatura (Y) y el número de horas de estudio semanales (X) de 16 alumnos.
∑ xi = 96 ∑ yi = 64 ∑ xi ⋅ yi = 492
i
∑x
i
2
i
= 657
i
∑y
i
2
i
= 526
i
Se pide:
a)
Estimar el modelo de regresión simple que relaciona los resultados obtenidos con
el número de horas dedicadas al estudio.
b) Calcule una medida de la bondad del ajuste e interprete el resultado.
c)
Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el examen?
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 4
Regresión y Correlación
d) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para superar la
asignatura? Considerad que el 5 es el aprobado.
14.- La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura
(en ºC) en la ciudad durante 5 días,
temperatura 34
25
32
37
39
cerveza
187
123
198
232
267
a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos?
b) Hallar e interpretar el coeficiente de determinación.
c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura).
d) Predecir la cantidad de cerveza que se vendería en este bar un día con una
temperatura de 35ºC.
15.- Los neumáticos subinflados o sobreinflados pueden acelerar el desgaste de los
neumáticos y aumentar o disminuir el consumo. Se toma una muestra de tamaño 14
resultando:
L: libras por
pulg2
30
30
31
31
32
32
33
M : millas
29.5
30.2
32.1
34.5
36.3
35.0
38.2
L: libras por
pulg2
33
34
34
35
35
36
36
M : millas
37.6
37.7
36.1
33.6
34.2
26.8
27.4
a) Hallar la matriz de covarianzas.
b) Los coeficientes de correlación lineal (r) y de determinación (R2). Interpretarlos.
c) Calcular la recta de regresión de L/M
d) Calcular la varianza residual
16.- Conocidas la media aritmética y la varianza de cada una de las variables asociadas a
una distribución bidimensional, X =3, Y =2, σ2x=6, σ2y=8 de la que se conoce, además, la
recta de regresión de Y sobre X, 2x+3y-12=0. Obtener el coeficiente de correlación lineal
y la recta de regresión de X sobre Y.
17.- Sea la distribución conjunta de la variable x = “número de habitaciones de un piso”
con respecto a la variable y = “precio de alquiler en euros”.
x\y 0-500
500-1000 1000- 1500
2
2
2
0
3
8
12
16
4
4
13
18
Se pide:
a) Distribuciones marginales de las variables x e y.
b) Moda y mediana de las variables x e y.
c) Centro de gravedad de la distribución conjunta.
d) Recta de regresión de x sobre y.
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 5
Regresión y Correlación
e) Coeficiente de correlación lineal.
f) Si disponemos de 600 euros ¿Cuál es el mayor número de habitaciones de un piso de
alquiler que podemos conseguir?
18.- A partir del diagrama de dispersión
Se pide: a) Coeficiente de correlación lineal. b) Recta de regresión de y sobre x. c)
Si y=2 ¿qué valor se puede estimar para la variable x? d) Representar las rectas de
regresión sobre el diagrama de dispersión.
19.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los
pesos y edades de los niños atendidos.
Peso
en kilos 0
0–4 2
4–8 4
8 – 12
12 – 16
16 - 20
Edad en años
1
2
3
2
8
1
2
9
2
7
8
4
14
1
a) Obtener la mediana del peso en kilos.
b) ¿Qué distribución tiene mayor dispersión relativa?
c) Si un niño tiene 2 años y pesa 10 kg, ¿qué percentil representa entre los niños
de 2 años?
d) Hallar el sesgo de la distribución de peso en kilos.
e) Hallar el coeficiente de correlación lineal. Interpretarlo.
f) Si un niño tiene un año ¿cuál será su peso estimado?
g) Si un niño pesa 10 kilos ¿cuántos años se estima que tendrá?
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 6
Regresión y Correlación
1.- El número de turistas (en millones) entrados en España mensualmente durante los
años 2001 y 2002 se expone en la siguiente estadística.
X
σx
Nº Turistas
2001
2,76
2,62
2,92
3,8
4,4
4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 2,3266
Nº Turistas
2002
2,89
2,63
3,2
3,19
4,52
4,77 8,91 9,99 5,95 4,35 2,87
3,7
4,7475 2,3066
a) Calcular en qué año hubo mayor dispersión de turistas por mes.
b) Calcular la matriz de covarianzas.
c) Calcular el coeficiente de correlación lineal entre los dos años e interpretarlo.
Solución:
a)
σ x 2,3266
=
≈ 0, 49205 .
X 4, 7283
CV(2001)
=
CV(2002)
=
σ y 2,3066
=
≈ 0, 4850 .
Y 4, 7475
La dispersión en el año 2001 es un poco mayor.
b)
∑x y n
i
=
σ xy
i
n
i
i
−=
XY
12611,5
− 4, 7283 ⋅ 4, 7475
= 4, 7475
12
 σ2x σ xy   5, 4129 5,3438 
=
Σ =
 σ xy σ 2y   5,3438 5,3203 


c)
=
rxy
σ xy
5,3438
=
≈ 0,996 . La correlación lineal es directa y casi perfecta
σ x σ y 2,3266 ⋅ 2,32066
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 7
Regresión y Correlación
2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad
tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del
padre, y = edad de la madre). Se pide:
a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una edad
de 25 años.
b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una edad
de 25 años.
c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de
determinación (R2).
d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias absolutas
acumuladas de la distribución marginal de los padres.
e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres.
f) Qué media es más representativa. Justificar la respuesta.
x
y
18-22
22-26
26-30
30-34
34-38
17-21
5
21-25
2
3
25-29
29-33
33-37
9
4
1
6
6
3
10
7
4
Solución:
x\y
19
23
20
5
2
24
3
27
31
35
ni.xi
ni.(xi-m)2
7
140
448
13
312
208
9
1
4
6
10
20
560
0
32
6
7
13
416
208
36
3
4
7
252
448
28
n.j
5
5
13
16
21
60
1680
1312
n.jyj
95
115
351
496
735
Y = 29,87
X = 28
σ 2x =21,87
n.j(yj-m)2 590,78 235,98 107,08 20,43 552,65
f)
ni.
x = 28
y = 29,87
σ x = 4,68
σ y = 5,01
σ 2y =25,12
CV(x)=0,17
CV(y)=0,17
Las dos medias, son igual de representativas, ya que, los coeficientes de variación son iguales.
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 8
Regresión y Correlación
x\y
19
27
31
5832
744
3024
5208
9800
32
5952
7840
36
3348
5040
20
23
1900
24
35
920
1656
28
1900
2576
8856
15252
22680
51264
covarianza 18,13
a) Recta de regresión de x sobre y: x −=
X
=
( x − 28
)
σ 2y
( y − Y)
18,13
x 0,83y + 3, 24 ⇒ x= 0,83 ⋅ 25 + 3, 24= 24
( y − 29,87 ) ⇒=
21,87
b) Recta de regresión de y sobre x: y −=
Y
( y − 29,87 )=
c)=
rxy
σ xy
σ xy
σ2x
(x − X)
18,13
y 0, 72x + 9, 66 ⇒ y= 0, 72 ⋅ 25 + 9, 66= 27, 7
( x − 28) ⇒=
25,12
σ xy
= 0, 77 , por tanto, la relación lineal es directa pero no demasiado buena.
σx σy
R 2 = 0,6 , el ajuste no es demasiado bueno.
d) Polígonos de frecuencia, absoluta y absoluta acumulada de la distribución marginal
“padres”.
25
20
15
10
5
0
16.
18 - 22 22 - 26 26 - 30 30 - 34 34 - 38
e) Mediana; M = 29 +
40.
70
60
50
40
30
20
10
0
18.
22.
26.
30.
34.
38.
28
60
= 30, 75 Percentil 90; P90 =33 +
= 35,86
16
21
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 9
Regresión y Correlación
3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres
y sus hijos mayores.
Estatura x del padre
169 164
174
167 177 162
182 172
177 174 179
185
Estatura y del hijo
177 172
177
169 180 172
177 169
185 174 177
182
A)
B)
C)
D)
E)
Solución:
A)
Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos.
Explicar cuál de las dos estaturas es más dispersa.
Hallar e interpretar el coeficiente de correlación lineal.
Calcular la recta de regresión de x sobre y. Varianza explicada y residual.
¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm?
y
Si ordenamos la variable y de menor a mayor
N
= 3 ⇒ Q1 = 172 ;
169 172 174 177 180 182 185
4
ni
2
2
1
4
1
1
1
Ni
2
4
5
9
10
11
12
3N
= 9 ⇒ Q3 = 177.5 ;
4
N
= 6 ⇒ M = 177
2
=
X
2082
547
2
= 173.5; σ=
= 45.5833
x
12
12
(x − X) ( y − Y)
2
2
x
y
169
177
20,25
1.17506
29913
2111
270.917
= 175.916
=
= 22.5764 .
. σ2y
12
12
4.7514
CV(y) = 0.027
σ y =4.7514 =
175.916
164
172
90.25
15.3351
28208
174
177
0.25
1.17506
30798
167
169
42.25
47.8311
28223
B) La estatura de los padres es más dispersa
177
180
12.25
16.6791
31860
162
172
132.25
15.3351
27864
182
177
72.25
1.17506
32214
172
169
2.25
47.8311
29068
177
185
12.25
82.5191
32745
174
174
0.25
3.67106
30276
179
177
30.25
1.17506
31683
185
182
132.25
37.0151
33670
2082 2111
547
σ x =6.7515
6.7515
CV(x)
= = 0.0389
173.5
=
Y
por tener su coeficiente de variación mayor.
366522
=
σ xy
− 173.5 ⋅175.916
= 22.074 .
12
=
C) rxy
22.074
= 0.688 Directa
6.7515 ⋅ 4.7514
D) Recta de regresión de x sobre y:
σ xy
x −=
X
y−Y
σ 2y
(
x − 173.5
=
)
xy
270.917 366522
22.074
(y − 175.916)
22.5764
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 10
Regresión y Correlación
x = 0.978 y + 1.499
La varianza explicada σ2y ⋅ R 2 =22,5764 ⋅ 0, 6882 ≈ 10.686
La varianza residual o no explicada σ2r =σ2y (1 − R 2 ) =22,5764 ⋅ (1 − 0, 6882 ) ≈ 11.89
E) Recta de regresión de Y sobre X: y −=
Y
y − 175.916=
σ xy
σ2x
(x − X)
22.074
(x − 173.5) ó y = 0.484 x + 91.897
45.5833
Si la estatura del padre es x=177 sustituyendo en la ecuación anterior se obtiene y=177.56.
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 8
Regresión y Correlación
4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de
25 estudiantes
X\Y
[20 a 26)
[26 a 32)
[32 a 38)
[38 a 44)
[44 a 50)
[14 a 20)
1
[20 a 26)
3
1
[26 a 32)
2
5
2
[32 a 38)
1
4
1
[38 a 44)
1
3
[44 a 50)
1
Sobre la distribución marginal X (Matemáticas) calcular:
a) La media, y la cuasivarianza.
b) Representar un diagrama de cajas y estudiar si existen puntos atípicos.
Sobre la distribución marginal Y (Física) calcular:
c) La media, la varianza de la muestra.
d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias
absolutas acumuladas.
Respecto de ambas variables
e) Hallar e interpretar el coeficiente de correlación lineal.
f) Calcular el porcentaje de la variación total de la variable nota de física que se explica
mediante la relación con la variable nota de matemáticas.
g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota de
matemáticas.
Solución:
a) X =
b)
791
1229,8
= 51,24
= 31,64 , S 2x =
24
25
Q1 = 26.833 , Q 3 = 36,75 , 1.5 * IQR = 14.875
Q1 − 1.5 *1QR = 11,96 , Q 3 + 1.5 * IQR = 51,625, M = 31
11.96
14
50
51.62
31
26,8
c)=
Y
36.7
911
884.16
= 36, 44 =
σ2y
= 35,366
25
25
d)
20
26
32
38
U. D. de Matemáticas de la ETSITGC
44
Asignatura: CÁLCULO Y ESTADÍSTICA 9
Regresión y Correlación
e)
rxy = 0.7719
f) R 2 = 0.32198
32,198%
g) Recta de regresión de Y sobre X: y −=
Y
y − 36.44 =
U. D. de Matemáticas de la ETSITGC
σ xy
σ2x
(x − X)
32.198
( x − 31.64)
49.19
Asignatura: CÁLCULO Y ESTADÍSTICA 10
Regresión y Correlación
5.- De una variable estadística bidimensional se conocen los siguientes datos:
∑ x= 140; ∑ y= 90; N= 12; σx= 3.5; σy= 2.2 y el coeficiente de correlación lineal r =
0.9. Calcular: A) La recta de regresión de y sobre x. B) La recta de regresión de x sobre
y. C) El valor de x para un valor de y=7. D) El punto de intersección de las rectas de
regresión. E) Varianza residual. F) varianza explicada. G) Coeficiente de determinación.
H) Matriz de covarianzas
Solución:
=
X
∑x
i
140 35
= =
;=
Y
N
12
3
∑y
i
σ xy
σ xy
90 15
= =
; r=
=
= 0,9 ⇒ σ=
6,93
xy
xy
N
12 2
σ x σ y 3,5 ⋅ 2, 2
a) Recta de regresión de y sobre x: y −=
Y
σ xy
σ2x
(x − X)
15  6,93 
35 

=
x −  ⇒ y 0,5657142857·x + 0,9
y− =

2 
2  3,5 
3 

b) Recta de regresión de x sobre y: x −=
X
σ xy
σ 2y
( y − Y)
35  6,93 
15 

y− =
x − =

 ⇒ x 1,431818181 ⋅ y + 0,928030303
2 
3  2, 2 
2

c) El valor de x se obtiene de la recta de regresión de x sobre y
=
x 1.431818181 ⋅ y + 0.928030303=1.431818181 ⋅ 7 + 0.928030303  10.95075757
d) El punto de intersección corresponde al centro de gravedad:
( X, Y ) =
 35 15 
 , 
 3 2
e) Depende de la recta de regresión
Para la recta de regresión de y sobre x
La varianza residual o no explicada σ 2r =σ2x (1 − R 2 ) =3,52 ⋅ (1 − 0,92 ) ≈ 2,3275
Para la recta de regresión de x sobre y
La varianza residual o no explicada σ2r =σ2y (1 − R 2 ) =2, 22 ⋅ (1 − 0,92 ) ≈ 0,9196
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 11
Regresión y Correlación
f)
La varianza explicada σ 2x ⋅ R 2 =3,52 ⋅ 0,92 ≈ 9,9225
La varianza explicada σ2y ⋅ R 2 =2, 22 ⋅ 0,92 ≈ 3,9204
g)
2
2
2
0,81
R=
r=
0,9=
Es bastante fiable, pues explica el 81% de la variación entre las variables.
h)
 σ2x σ xy   4,84 6,93 
=
Σ =
 σ xy σ 2y   6,93 12, 25 


U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 12
Regresión y Correlación
6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable
1
4x + 2y =
2
1.
estadística (X,Y) son 
 y que la varianza marginal de la variable Y es σ y =
1
5x + 3y =
Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza
marginal de X ( σ2x ). d) el valor estimado para y sabiendo que x=0.
Solución:
Buscaremos los coeficientes de regresión despejando x e y:

y=
1 
4x + 2y =

⇒ 
1 
5x + 3y =
x=

1
− 2x
6
 3
2
⇒ r 2 = b xy ⋅ b yx =  −  ⋅ ( −2 ) = > 1
1 3
5
 5
− y
5 5
¡Imposible!
Entonces

x=
1 
4x + 2y =

⇒ 
1 
5x + 3y =
y=

1 1
− y
 1  5 5
4 2
⇒ r 2 = b xy ⋅ b yx =  −  ⋅  −  = < 1
1 5
 2  3 6
− x
3 3
a)
5
5
r 2 = ⇒ r =±
 -0,9128709291
6
6
Correlación inversa y muy fuerte
b)
1
4x + 2y =

⇒
1
5x + 3y =
1

X = 2

Y = − 1

2
c)
σ
σ
σ
3
1
1
−1/ 2
5
b xy = xy2 = xy =
− ⇒ σ xy =
− ⇒ b yx = xy2 = 2 =
− ⇒ σ 2x =
10
σy
1
2
2
σx
σx
3
d)
Debemos utilizar la recta de regresión de y sobre x para pode predecir el valor de y:
1
1 5
1 5
y= − x= − 0=
3
3 3
3 3
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 13
Regresión y Correlación
7.- Se han realizado 10 mediciones de distintas distancias (x) y se ha estimado el
correspondiente error (y), cuyos resultados vienen reflejados en la siguiente tabla de
doble entrada: a) Hallar la distancia media, el error medio. y las varianzas de las
variables distancias y errores. b) Hallar ambas rectas de regresión, los coeficientes de
regresión, las pendientes de las rectas de regresión y el coeficiente de correlación lineal.
Solución:
X\Y
0,1
3
1
0
0
0,01
0,02
0,03
0,04
n.j
Yjn.j
4
0,4
2
Yj n.j
0,2
0
1
1
0
0,3
0
0
2
0
0,4
0
0
0
1
2
2
1
3
2
3
2
0,4
0,6
0,4
0,04
0,05
0,08
0,05
0,18
0,06
0,16
0,04
0,25
0,04
0,71
0,24
0,005
0,01
0,018
0,016
0,02
0,07
0,024
0,23
m2
0,0007
0,071
0,000124
0,0181
2
m11
Xi2ni.
0,0003
0,0008
0,0027
0,0032
0,24
0,007
0,0069
σ xy
0,00138
0,92115
r
a) Distancia media
∑x n
i
10
2,3
Xini.
0,03
0,04
0,09
0,08
Y
m1
σ
m10= X=
ni.
1
0,50
RESULTADOS:
X
i
0,5
0
0
0
1
Error medio
i
0, 24
=
= 0, 024 ;
n
10
m 01= Y=
∑y n
i
i
n
i
=
2,3
= 0, 23
10
Varianzas:
( )
σ 2x =m 20 − X
( )
σ 2y =m 02 − Y
2
2
∑x n
=
2
i
n
∑y n
=
i
i
2
i
i
n
i
( )
− X
( )
− Y
2
0, 007
=
− 0, 0242 =0, 000124
10
2
0, 71
=
− 0, 232 =0, 0181
10
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 14
Regresión y Correlación
Covarianza:
σ xy = m11 − XY =
∑x y n
i
i
n
i
i
− XY =
0, 069
− 0, 024 ⋅ 0, 23 = 0, 00138
10
b) Rectas de regresión
Recta de regresión de y sobre x: y −=
Y
23)
( y − 0,=
σ2x
(x − X)
0, 00138
0, 024 ) ⇒ y 11,12903225·x − 0.03709677419
( x −=
0, 000124
Recta de regresión de x sobre y: x −=
X
=
( x − 0, 024
)
σ xy
σ xy
σ 2y
( y − Y)
0, 00138
0, 23) ⇒ x 0,07624309392 ⋅ y + 0.006464088397
( y −=
0, 0181
Los coeficientes de regresión
b=
yx
σ xy
= 11,12903225
σ2x
b=
xy
σ xy
= 0,07624309392
σ2y
Las pendientes:
b yx = tgα= 11.12903225 ⇒ α =84º 51'56 ''
b=
xy
1
= 0.07624309392 ⇒ β =85º 38' 24 ''
tgβ
El coeficiente de correlación lineal:
σ xy
0,92115 Correlación fuerte y directa
r=
± b yx ⋅ b xy = =
σx σy
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 15
Regresión y Correlación
8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como
se indica en la siguiente tabla:
x
6
9
24
38
46
48
52
75
118
196
y
1,2
1,8
3,3
7,2
7
9,1
11
14,5
22,9
36,3
La variable x representa la velocidad media en cientos de km/s, y la variable y, la
distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 años-luz, o sea, es la
distancia a la cual se ve el diámetro de la órbita terrestre bajo un ángulo de 1’.
Determinar el coeficiente de correlación lineal.
Solución:
x
y
x*y
6
1,2
7,2
9
1,8
16,2
24
3,3
79,2
38
7,2
273,6
46
7
322
48
9,1
436,8
52
11
572
75
14,5
1087,5
118
22,9
2702,2
196
36,3
7114,8
612
114,3
12611,5
61,2
11,43
1261,15
covarianza
561,634
coeficientes de regresión:
sumas
momentos
x2
36
81
576
1444
2116
2304
2704
5625
13924
38416
67226
6722,6
2977,16
2
y
1,44
3,24
10,89
51,84
49
82,81
121
210,25
524,41
1317,69
2372,57
237,257
106,6121
0,1886476 5,268013668
Medias:
=
X
∑x n
i
i
i
612
= = 61, 2 ;
n
10
=
Y
∑y n
i
i
i
=
n
114,3
= 11, 43
10
Varianzas:
( )
σ 2x =m 20 − X
( )
σ =m 02 − Y
2
y
2
2
∑x n
=
2
i
n
∑y n
=
i
i
2
i
i
n
i
( )
− X
( )
− Y
2
67226
=
− 61, 22 =2977,16
10
2
2372,57
=
− 11, 432 =106, 6121
10
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 16
Regresión y Correlación
Covarianza:
σ xy = m11 − XY =
∑x y n
i
i
i
n
i
− XY =
12611,5
− 61, 2 ⋅11, 43 = 561, 634
10
Los coeficientes de regresión:
b=
yx
σ xy 561, 634
=
= 0,1886476
σ2x 2977,16
b=
xy
σ xy 561, 634
=
= 5, 268013668
σ2y 106, 6121
Coeficiente de correlación lineal:
r=
± b yx ⋅ b xy =
0,1886476 ⋅ 5, 268013668 ≈ 0,996 .
La correlación lineal es directa y casi perfecta
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 17
Regresión y Correlación
9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas
relativas de los 12 puntos que se expresan en la tabla:
Estaca
X
Y
1
37
64
2
39
71
3
29
53
4
42
67
5
31
55
6
30
58
7
35
77
8
28
57
9
32
56
10
22
51
11
41
76
12
37
68
c) Hallar el intervalo X ± σX . ¿Qué tanto por ciento de valores en la variable X
quedan dentro de dicho intervalo?
Siendo la distribución conjunta (X, Y)
d) Calcular la matriz de covarianzas. c) El coeficiente correlación lineal.
Interpretarlo d) La recta de regresión de Y sobre X. e) Varianza residual. f) El
coeficiente de determinación. Interpretarlo.
Solución:
Y
64
XY
X2
Y2
2368
1369
4096
71
2769
1521
5041
53
1537
841
2809
67
2814
1764
4489
31
55
1705
961
3025
30
58
1740
900
3364
35
77
2695
1225
5929
28
57
1596
784
3249
56
1792
1024
3136
X
37
39
29
42
32
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 18
Regresión y Correlación
22
51
1122
484
2601
41
76
3116
1681
5776
37
68
2516
1369
4624
Sumas
403
753
25770
13923
48139
a) X ± σX
12
∑x
=
X
i
403
= 33,5833;
12
=
12
i =1
12
=
σ2x
∑x
i =1
n
2
i
( )
2
− X=
13923
2
− 33,58333
=
32, 4097222
12

σX , X + σX  33.58333333 − 32.4097222 , 33.58333333 + 32,
=
4097222 
 X −=
Resultan 9 de los 12 valores de X
22 28 29 30 31 32 35
37
37
39
41
[ 27.89,39.276]
42
Tenemos el 75% de los valores
12
∑y
b) =
σ2y
i =1
2
i
( )
n
− Y=
48139
2
− 62, 75
=
74, 0208333
12
− XY
=
25770
− 33,58333333 ⋅ 62,=
75 40,1458333
12
2
12
σ
=
xy
∑x y n
i =1
i
i
i
n
 σ2x σ xy   32, 4097222 40,1458333 
=
Σ =
 σ xy σ 2y   40,1458333 74, 0208333 


c)=
rxy
σ xy
=
σx σy
40,1458333
≈ 0,8196
32, 4097222 74, 0208333
por tanto, la relación lineal es directa y buena
d) Recta de regresión de y sobre x: y −=
Y
=
( y − 62, 75
)
σ xy
σ2x
(x − X)
40,146
y 21,15 + 1, 2387x
( x − 33,583) ⇒ =
32, 4097
e) La varianza residual o no explicada σ2r =σ2y (1 − R 2 ) =74, 0208 ⋅ (1 − 0,81962 ) ≈ 49, 729
f) R 2 = 0, 6718
67,18%
es el porcentaje de la variación total de las y que se explica mediante la relación con x
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 19
Regresión y Correlación
10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificación obtenida en
1 
 − x + 2y =
Estadística (Y) y como resultado obtenemos las rectas de regresión: 
 y que
1
 −5x + 3y =
1 . Se pide:
la varianza marginal de la variable Y es σ 2y =
a) El coeficiente de correlación lineal. b) Las medias marginales.c) La covarianza
d) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar?
Solución:
a) Buscaremos los coeficientes de regresión despejando x e y:
1 1

y=
+ x

1 
− x + 2y =
3  1 3
2 2
⇒ r 2 = b xy ⋅ b yx =   ⋅   =
<1

⇒ 
1 3
1 
5   2  10

−5x + 3y =
x =− + y

5 5
Entonces
3
3
r 2 = ⇒ r =±
 0,5477226<0,8
10
10
Correlación directa y muy débil. No se acepta el ajuste.
b)
1

=
X

1
− x + 2y =
7

⇒ 
1
−5x + 3y =
Y = 4

7
c) b=
xy
σ xy σ xy 3
σ xy 3 / 5 1
6
3
=
=
⇒ σ=
⇒ b=
=
=
⇒ σ 2x =
xy
yx
2
2
2
5
σy
1
5
5
σx
σx
2
d) No podemos predecir el valor de la Y.
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 20
Regresión y Correlación
11.-. La intensidad de corriente I, que se aprecia en un amperímetro varía con la fuerza
electromotriz aplicada E, de acuerdo con la tabla de datos experimentales adjunta:
E
5
10
1.5
20
25
30
I
-7
-2
1.0
4
10
12
Determinar:
a) La matriz de covarianzas.
b) El coeficiente de correlación lineal e interpretarlo.
c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz. ¿Cuál
será el valor estimado de la intensidad para una fuerza electromotriz de 20?
Solución:
La media para cada variable es:
=
E
E
∑=
15.25;=
I
I
∑
=
i
3
n
n
Para el cálculo de varianzas y covarianzas, podemos formar la tabla
I−I
( E − E) ( I − I) ( E − E) ( I − I)
-7 -10.25
-10
102.50
105.0625
100
10
-2 -5.25
-5
26.25
27.5625
25
1.5
1
-13.75
-2
27.50
189.0625
4
4.75
1
4.75
22.5625
1
25.0 10 9.75
+7
68.25
95.0625
49
30.0 12 14.75
+9
132.75
217.5625
81
91,5 18 0
0
362.00
656.8750
260
E
I
5
20.0 4
SUMAS
i
E−E
2
2

 σ2E σEI  109.4791 60.3 
= 
a) Para obtener la matriz de covarianza aplicamos 


2 
43.3 
 σEI σI   60.3
b) Para calcular el coeficiente de correlación aplicamos la siguiente ecuación:
σ EI
=
rEI =
0.876 ⇒ rEI2 = 0, 767 , por tanto, la correlación es positiva (a mayor
σE σI
fuerza electromotriz mayor intensidad, además es buena el modelo explica el 76,7%
σ xy
=
La recta de regresión de I/E es: I=
−I
E−E
⇒ I 0,5511E − 5, 4042
σ2E
c) Para un valor de E = 20 esperamos una intensidad de 0,5511·20 - 5.4042 = 5,6176
(
U. D. de Matemáticas de la ETSITGC
)
Asignatura: CÁLCULO Y ESTADÍSTICA 21
Regresión y Correlación
12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística
bidimensional (x,y).
x
5
4
3
2
1
0
y
6.2 5.6 3.4 2.3 1.9 1.2
c) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es
lógico adoptar un ajuste lineal.
d) Calcular:
b1) La matriz de covarianzas.
b2) El coeficiente de correlación lineal. Interpretarlo.
c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x = 4.
d) Calcular
d1) La varianza residual.
d2La varianza explicada por el ajuste lineal.
Solución:
a)
Los puntos parecen estar próximos a una
recta, por tanto, es lógico efectuar un ajuste
lineal.
b) En primer lugar calculamos las medias y varianzas marginales de la muestra, así como la
covarianza muestral.
X = 2.5; S2x = 3.5 ⇒ Sx ≈ 1.87; Y ≈ 3.43; S2y ≈ 4.19; Sy ≈ 2.05; Sxy ≈ 3.72
 S2x
La matriz de covarianzas viene dada por: 
S
 xy
Sxy   3.5 3.72 
=
S2y   3.72 4.19 
Sxy
3.72
=
≈ 0.97 . La relación entre X
Sx ·Sy 1.87·2.05
e Y es muy buena, además nos indica que a mayor valor de la variable X mayor valor
para la variable Y (correlación directa).
c) La ecuación de la recta de Y sobre X es:
Sxy
3.72
y 0.77 + 1.06x
y −=
Y
x − X ⇒ y − 3.43
=
( x − 2.5) ⇒=
2
Sx
3.5
El valor estimado para “y” cuando x = 4 es y = 0.77 + 1.06·4 = 5.01
d) En la recta de Y/X la varianza residual o no explicada es
S2r = S2y (1 − R 2 ) = 4.19(1 − 0.94) ≈ 0.24
La varianza explicada es igual a la varianza total menos la varianza no explicada.
2
Sexplicada
= S2y − Sr2 = 4.19 − 0.24 = 3.95 , o bien
El coeficiente de correlación lineal es=
rxy
(
)
2
2
2
Sexplicada
= S=
4.19·0.94 ≈ 3.95
y ·R
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 22
Regresión y Correlación
13.- Los siguientes datos representan los resultados, notas, de una determinada
asignatura (Y) y el número de horas de estudio semanales (X) de 16 alumnos.
∑x
i
i
= 96
∑y
∑x
= 64
i
i
i
∑x
⋅ y i = 492
i
2
i
= 657
i
∑y
2
i
= 526
i
Se pide:
e) Estimar el modelo de regresión simple que relaciona los resultados obtenidos
con el número de horas dedicadas al estudio.
f) Calcule una medida de la bondad del ajuste e interprete el resultado.
g) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el examen?
h) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para
superar la asignatura? Considerad que el 5 es el aprobado.
Solución:
a)
16
16
∑x
∑y
i
=i 1 =i 1
=
X
n
96
= 6; =
Y
16
=
n
i
=
64
= 4
16
16
∑x
=
σ
i =1
2
x
n
2
i
( )
2
− X=
657 2
=
-6 5, 0625
16
16
σ=
2
y
∑y
i =1
n
2
i
( )
526 2
− 4= 16,875
16
2
− Y=
16
σ xy=
∑x y n
i
i
i
i
492
− 6⋅=
4 6, 75
16
− XY=
n
La ecuación de la recta de Y sobre X es:
σ xy
6, 75
4
y −=
Y
x − X ⇒ y=
−4
y
x−4
( x − 6) ⇒ =
2
σx
5, 0625
3
σ xy
6,75
b)=
rxy =
≈ 0,7302967433
σx σy
5, 0625 16,875
por tanto, la relación lineal es directa y buena
4
c) Si x=8 horas, entonces y = ⋅ 8 − 4 ≈ 6, 6
3
σ xy
d) Recta de regresión de X sobre Y: x −=
X
y − Y e y=5
σ 2y
(
)
(
=
x-6
)
6,75
( 5 − 4 ) ⇒ x = 6, 4 horas
16,875
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 23
Regresión y Correlación
14.- La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura
(en ºC) en la ciudad durante 5 días,
temperatura 34
25
32
37
39
cerveza
123
198
232
267
187
a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos?
b) Hallar e interpretar el coeficiente de determinación.
c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura).
d) Predecir la cantidad de cerveza que se vendería en este bar un día con una
temperatura de 35ºC.
Solución:
(x − x ) (y − y)
x
y
169
177
20,25 1.17506
29913
164
172
90.25 15.3351
28208
2
2
xy
2
σ x = 23,44; σ y = 2321,04; σ xy = 226,44
2
=
r
σ xy
=
0,9708072925
σx σy
a) El coeficiente de correlación lineal es
174
177
0.25 1.17506
30798 muy próximo a 1, luego existe correlación
167
169
42.25 47.8311
28223 directa entre la temperatura y los litros de
177
180
12.25 16.6791
31860 cerveza vendidos.
162
172
132.25 15.3351
27864
182
177
72.25 1.17506
32214
172
169
2.25 47.8311
29068
177
185
12.25 82.5191
32745
174
174
0.25 3.67106
30276
179
177
30.25 1.17506
31683
185
182
132.25 37.0151
33670
2082 2111
547 270.917
366522
 σ xy
b) R =

 σx σy
2
2

0,97812 ≈ 0,9424667991 ⇒
 =

94, 25% se explica por el modelo.
c) En la recta de Y/X la varianza residual o
no explicada es
σ 2r =σ2y (1 − R 2 ) =2321,04(1 − 0,9425) ≈
133,52
d) Para predecir los litros de cerveza se utiliza la recta de regresión de y sobre x, es decir,
y =y + b yx (x − x) =201, 4 + 9, 66041(35 − 33, 4) =216,857
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 24
Regresión y Correlación
15.- Los neumáticos subinflados o sobreinflados pueden acelerar el desgaste de los
neumáticos y aumentar o disminuir el consumo. Se toma una muestra de tamaño 14
resultando:
L: libras por
pulg2
30
30
31
31
32
32
33
M : millas
29.5
30.2
32.1
34.5
36.3
35.0
38.2
L: libras por
pulg2
33
34
34
35
35
36
36
M : millas
37.6
37.7
36.1
33.6
34.2
26.8
27.4
a) Hallar la matriz de covarianzas.
b) Los coeficientes de correlación lineal (r) y de determinación (R2). Interpretarlos.
c) Calcular la recta de regresión de L/M
d) Calcular la varianza residual
Solución:
a) 2L  4 ;  2M  13.27 ;  LM  0.828
 13.27 0.828 
 M
.
4 
 0.828
 LM
 0.1137 la correlación lineal es mala y negativa como podemos observar en
L M
el diagrama de dispersión.
b) rLM 
Si ajustamos una recta R2 = 0.0129, la proporción de varianza explicada por la recta es muy
pequeño, deberíamos intentar otro tipo de ajuste.
c) La ecuación de la recta pedida es
y = 0.2071·x + 40.85
d) La varianza residual es  e   L 1  R 2   1.97 .
Diagrama de dispersión
y = ‐0,2071x + 40,35
R² = 0,0129
50
Millas
40
30
20
10
0
28
30
32
34
36
38
Libras
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 25
Regresión y Correlación
16.- Conocidas la media aritmética y la varianza de cada una de las variables
asociadas a una distribución bidimensional, X =3, Y =2, σ2x=6, σ2y=8 de la que se
conoce, además, la recta de regresión de Y sobre X, 2x+3y-12=0. Obtener el coeficiente
de correlación lineal y la recta de regresión de X sobre Y.
Solución:
Al ser la recta de regresión de Y sobre X despejamos:
σ
σ
2
2
y = − x + 4 ⇒ b yx = xy2 = xy = − ⇒ σ xy = −4
3
σx
6
3
σ
-4
1
rxy =xy =
=
−
≈ −0,57 correlación mala
σx σy
6 8
3
Recta de regresión de X sobre Y: x −=
X
x − 3 =−
σ xy
σ 2y
( y − Y)
4
1
− y+4
( y − 2) ⇒ x =
8
2
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 26
Regresión y Correlación
17.- Sea la distribución conjunta de la variable x = “número de habitaciones de un
piso” con respecto a la variable y = “precio de alquiler en euros”.
x\y 0-500
500-1000 1000- 1500
2
2
2
0
3
8
12
16
4
4
13
18
Se pide:
a) Distribuciones marginales de las variables x e y.
b) Moda y mediana de las variables x e y.
c) Centro de gravedad de la distribución conjunta.
d) Recta de regresión de x sobre y.
e) Coeficiente de correlación lineal.
f) Si disponemos de 600 euros ¿Cuál es el mayor número de habitaciones de un piso de
alquiler que podemos conseguir?
Solución:
x\y
xini. xi2ni.
250
750
1250 ni.
2
8
16
2
2
0 4
3
108 324
8
12
16 36
4
140 560
4
13
18 35
n.j
256 900
14
27
34 75
yjn.j
3500
20250
42500 66250
yj2n.j 875000
15187500 53125000 69187500
44
92
120 256
11000
69000
150000 230000
RESULTADOS:
X
Y
3,413333333 883,3333333
m1
12,00000
922500
m2
0,34916 142222,22222
varianzas
3066,666667
m11
covarianza 51,55555556
0,231356797
r
a) Distribución marginal de x:
x
ni.
4
2
36
3
35
4
Distribución marginal de y:
y
0-50 50-100 100-150
14
27
34
n.j
b) Moda (x) = 3; Moda (y) = (100,150)
Mediana (x)
x
ni.
Ni.
4
4
2
36
40
3
35
75
4
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 27
Regresión y Correlación
La mediana de x es 3
Mediana (y)
y
n.j
N.j
14
14
0-500
27
41
500-1000
34
75
1000-1500
La mediana es el valor que deja a su izquierda el 50% de la población, es decir,
N 75
= = 37,5 ∈ (14, 41) que no se corresponde con un valor de la columna de frecuencias
2
2
absolutas acumuladas y por tanto hay interpolar en el intervalo (50,100).
N

 75

 − N i −1  a
 − 14  ⋅ 500
2
2
 =

935,185
=
Me =
ei −1 + 
500 + 
ni
27
c) Centro de gravedad:
 256 66250   256 2650 
=
X, Y  =
,
,
 
 ≈ ( 3.41,883.3)
75   75
3 
 75
(
)
d) Recta de regresión de x sobre y: x −=
X
σ
=
xy
=
σ 2y
∑x y n
i
i
i
N
∑y n
2
i
i
N
i
i
− XY
=
( )
2
−=
Y
σ xy
σ 2y
( y − Y)
23000 256 2650
−
⋅ = 51,56
75
75
3
2
691875  2650 
− =
 142222, 22
75
 3 
2560
51,56
x −=
0.000036253125y+34,13211584
( y − 33,583) ⇒ x =
75
142222, 22
σ xy
51,56
=
≈ 0, 23 . El ajuste es “malo” por ser un valor
σx σy
0,3491 142222, 2
próximo a cero.
e)=
rxy
f)
g) No se puede predecir.
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 28
Regresión y Correlación
18.- A partir del diagrama de dispersión
Se pide: a) Coeficiente de correlación lineal. b) Recta de regresión de y sobre x. c)
Si y=2 ¿qué valor se puede estimar para la variable x? d) Representar las rectas de
regresión sobre el diagrama de dispersión.
Solución:
x y xy x2 y2
0
1
2
3
6
1 0 0 1
3 3 1 9
4 8 4 16
4 12 9 16
12 23 14 42
2
1
6
1
14
X=
x=
= 1,5 ; σ 2x =
x i2 − X =
− 1,52 = 1, 25
∑
∑
i
N i
4
N i
4
2
1
42 2
1
12
y 2j − Y =
− 3 = 1,5
Y
=
y=j = 3 ; σ 2y=
∑
∑
N j
4
N j
4
1
23
σ xy =
x i y j − XY =
− 1,5 ⋅ 3= 1, 25
∑∑
N i j
4
σ xy
1, 25
a)=
rxy =
≈ 0,9128709291 Ajuste directo y muy bueno.
σx σy
1, 25 1,5
b) La recta de regresión de Y sobre X:
σ xy
1, 25
y −=
Y
x − X ⇒ y=
−3
( x − 1.5) ⇒ ⇒ y= x + 1.5
2
σx
1, 25
c) La recta de regresión de x sobre y:
σ xy
1, 25
x −=
X
y − Y ⇒ x − 1.5
=
( y − 3) ⇒ ⇒ x= 5/6 y - 1
2
σy
1,5
(
(
)
)
Para un valor de y=2 se obtiene x= (5/6) 3-1=3/2
d)
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 29
Regresión y Correlación
18.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los
pesos y edades de los niños atendidos.
Peso
en kilos 0
0–4 2
4–8 4
8 – 12
12 – 16
16 - 20
Edad en años
1
2
3
2
8
1
2
9
2
4
7
8
14
1
a)
Obtener la mediana del peso en kilos.
b)
¿Qué distribución tiene mayor dispersión relativa?
c)
Si un niño tiene 2 años y pesa 10 kg, ¿qué percentil representa entre los niños de
2 años?
d)
Hallar el sesgo de la distribución de peso en kilos.
e)
Hallar el coeficiente de correlación lineal. Interpretarlo.
f)
Si un niño tiene un año ¿cuál será su peso estimado?
g)
Si un niño pesa 10 kilos ¿cuántos años se estima que tendrá?
Solución
x\y
0
2
2
6
4
1
2
3
xini.
xi2ni.
2
4
8
8
48
288
4 ni.
2
2
10
8
9
7
24
240
2400
14
1
2
8
14 25
350
4900
1 1
18
324
660
7920
18
n.j
6
11
13
15
15 60
yjn.j
0
11
26
45
60 142
yj2n.j
0
11
52
135 240 438
28 106 130
xiyjnij
182 214
546 856 1768
0 106 260
RESULTADOS:
X
m1
m2
Y
11 2,366667
132
7,3
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 30
Regresión y Correlación
σ2
11 1,698889
CV
0,301511 0,550738
m11
29,46667
σxy
3,433333
r
0,794213
a) Para obtener la mediana de la variable x escribimos la distribución marginal de x:
x
n/2=30;
b) Medias
ni.
Ni.
0–4
2
2
4–8
8 10
8 – 12
24 34
12 – 16
25 59
16 - 20
1 60
M=8+(30-10)*4/24=11,333
x=
660
1 5
= 11 ;
xi ni. =
∑
60
n i =1
y=
142
1 5
= 2,366667
y j n. j =
∑
60
n j =1
Varianzas
σ x2
=
7920
1 5 2
− 112= 11 ;
xi ni. − x 2=
∑
60
n i =1
2
438  142 
1 5 2
1, 698889
=
y j n. j − y 2 = − 
σ
∑
 =
n j =1
60  60 
2
y
Coeficiente de variación
σy
1,698889
11
≈ 0,55 . La edad de los niños.
y) =
=
≈ 0,30 ; CV (=
2,366667
y
11
x
c) La distribución de frecuencias acumuladas para el total de 13 niños con 2 años es:
CV (=
x)
σx
x
ni
0-4
Ni
0
4-8
2
2
8-12
9
11
12-16
2
13
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 31
Regresión y Correlación
Teniendo en cuenta que el peso de 10 kg es justamente la mitad del intervalo (8,12) le
corresponde la mitad de 9, es decir, la frecuencia absoluta acumulada es 2+9/2=6,5
sobre el total de 13. Justamente el 50%. Percentil 50 o mediana.

d) Sesgo o coeficiente de asimetría g1  33


(xi-media)3ni.
ni.
x
2
2
-1458
6
8
-1000
10
24
-24
14
25
675
18
1
343
sumatorio
-1464
μ3
-24,4

3
1
x i.  X n i.

24, 4

 0, 67 Asimétrica por la izquierda.
g1  N
3
3

11
 
e)  xy 
rxy 
x y n
i
i
i
 xy
N
x y

i
 XY 
1768
162
 11 
 3, 43
60
60
3, 43
 0, 79 . El ajuste es “bueno” y directo por ser un valor
11 1, 698889
superior a 0,7
f) La recta de regresión de x sobre y permite determinar los valores de x para valores

conocidos de y: x  X  xy2 y  Y
y

x  11 

3, 43 
162 
y
  x = 2,020907769·y + 6,21651131
1, 698889 
60 
Para y=1 se obtiene un peso de x= 2,020907769 + 6,21651131 = 8,23741907 kg
g) La recta de regresión dey sobre x permite determinar los valores de y para valores

conocidos de x: y  Y  xy2 x  X
x
162 3, 43
y

 x  11  y = 0,3121181818·x – 1,0663
60
11


Para x=10 se obtiene un peso de y = 0.3121181818·10 – 1,0663= 2,054545 años
U. D. de Matemáticas de la ETSITGC
Asignatura: CÁLCULO Y ESTADÍSTICA 32
Coeficiente de variación de Pearson
Es el cociente de la desviación típica y la media. CV 

X
Es siempre positivo y no existe si la media vale cero.
Es frecuente expresarlo en tanto por ciento.
Es independiente de la unidad que se utilice, pues no tiene unidades y por
tanto nos permite comparar la dispersión de dos distribuciones que tengan unidades
diferentes, o que tengan medias muy distintas.
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
27
Matriz de covarianzas
Llamamos matriz de covarianzas, a la matriz cuadrada simétrica que tiene en
la diagonal principal las varianzas marginales, y fuera de la diagonal principal
 S2x
las covarianzas, es decir   
 Syx
  2x  xy 


2
  xy  y 
Sxy 
 ; que es simétrica, pues S xy  S yx . O bien
S2y 
Se llama varianza generalizada al valor   S2xS2y  S2xy  0 y mide
aproximadamente el área ocupado por el conjunto de datos.
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
128
Coeficiente de correlación lineal
Coeficiente de correlación lineal es la media geométrica de los coeficientes de
regresión byx y bxy.
r  b yx b xy 
2
 xy  xy
 2x 2y

2xy
 2x 2y
r
 xy
x y
El coeficiente de correlación lineal es un número abstracto y es independiente de
las unidades utilizadas en las variables, cuyo signo es el de la covarianza, ya que las
varianzas son positivas, y comprendido entre -1 y +1.
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
27
http://www2.topografia.upm.es/...ero/Apuntes/Vademecum/Recta%20de%20regresi%f3n%20de%20y%20sobre%20x.JPG[26/02/2012 21:00:48]
Recta de regresión de x sobre y
Es el ajuste por mínimos cuadrados, a una recta.
x  a  by  x  X 
 xy
 2y
(y  Y) que es la ecuación de la recta de regresión de x
sobre y. Esta recta permite calcular, aproximadamente, los valores de x dados
los de y.
Interpretación geométrica.
x  Mv  (x1  a  by1 ) 2  ......  (x N  a  by N ) 2  e12  ......  e2N  MÍNIMA
2
como
ei  x i  a  byi  x i  x i 
error
horizontal
o
distancia
horizontal
(x i  teórico)
y
yj
xi
x*
j
x
Una vez construidas las rectas de regresión, la pendiente de la de x sobre y es
mayor que la correspondiente a la recta de regresión de y sobre x.
x=a+by
,
,
y=a +b x



y
x
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
168
Coeficiente de determinación
Es el porcentaje de varianza explicada por la recta de regresión y su valor siempre
estará entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlación. Es
una medida de la proximidad o de ajuste de la recta de regresión a la nube de
puntos. También se le denomina bondad del ajuste. 1-R2 nos indica qué porcentaje
de las variaciones no se explica a través del modelo de regresión.
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
27
Polígono de frecuencias
 Polígono de frecuencias de una variable discreta, sin agrupar: es una
línea que se obtiene uniendo los extremos superiores de las barras en el
diagrama de barras.
frecuencia (absoluta o relativa)
16
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
14
12
10
8
6
4
2
0
 Para variables estadísticas agrupadas en intervalos de clase.
El polígono de frecuencias es una línea que se obtiene uniendo los puntos
medios de las bases superiores (los techos) de cada rectángulo en el
histograma. De forma que empiece y acabe sobre el eje de abscisas, en el punto
medio del que sería el intervalo anterior al primero y el último
respectivamente.
xx x
0
1
x
i
x
k
x
k+1
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
158
Polígono de frecuencias acumuladas
 Para variables estadísticas sin agrupar en intervalos de clase.
Representamos en el eje de abscisas los distintos valores de la variable
estadística. Levantamos sobre cada uno de ellos un perpendicular cuya longitud
será la frecuencia (absoluta, Ni, o relativa, Fi) acumulada correspondiente a ese
valor. De esta forma aparece un diagrama de barras creciente. Trazando
segmentos horizontales de cada extremo de barra a cortar la barra situada a su
derecha se obtiene el diagrama o polígono de frecuencias acumuladas.
40
35
Ni
30
25
20
15
10
5
0
xi
 Para variables estadísticas agrupadas en intervalos de clase.
En el eje de abscisas representamos los distintos intervalos de clase de una
variable estadística que han de estar naturalmente solapados. Sobre el extremo
superior de cada intervalo se levanta una línea vertical de longitud equivalente
a la frecuencia (absoluta o relativa) acumulada del mismo. Se obtiene así un
diagrama de barras creciente, que uniendo sus extremos da lugar al polígono de
frecuencias acumuladas.
Alcanzará su máxima altura en el último intervalo, que tendrá de frecuencia N
ó 1 según se trate de frecuencias acumuladas absolutas o relativas.
N
Ni
e0 e1
ei
ei+1
ek
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
155
Distribución marginal
Distribución marginal de la variable "x" son los valores que toma dicha variable
con sus respectivas frecuencias en la distribución conjunta de la variable
bidimensional (x,y)
x
ni..
x1
n1.
x2
n2.
....
....
xi
ni.
....
....
xr
nr.
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
63
Mediana
Mediana de un triángulo es el segmento que une un vértice con el punto medio del lado
opuesto.
Mediana de un triángulo esférico es el arco de circunferencia máxima que une un vértice
con el punto medio del lado opuesto.
En Estadística:
La mediana es el valor de la variable que ocupa el lugar central, es decir, que la mitad
de la población es menor y la otra mitad es mayor que él.
La mediana es un valor M tal que F(M)=1/2, se define así como raíz de una ecuación.
 Para las variables estadísticas se ordenan en forma creciente, dejando igual número
de observaciones inferiores que superiores a ella.
a) En las distribuciones sin agrupar, en general, no tiene solución, puesto que la función F(x)
varía por saltos:
1) Si ningún valor posible x i corresponde a F( x i )=1/2 se conviene en considerar
1
como mediana el valor x i tal que: F( x i 1 )   F( x i )
2
1
2) Si uno de los valores xi corresponde a F( x i )  (lo que ocurre solamente si el
2
total N de la población es par) la mediana está indeterminada entre los valores xi y xi+1. El
intervalo (xi, xi+1) se denomina mediano, o bien llamamos mediana al punto medio de
dicho intervalo.
b) En las agrupadas pueden darse dos casos:
INTERVALO
xi
ni
Ni
e0 -- e1
x1
n1
N1
e1 -- e2
x2
n2
N2
............
...
...
....
ej-2 – ej-1
xj-1 Nj-1 Nj-1
ej-1 -- ej
xj
nj
Nj
............
...
...
...
ek-1 -- ek
xk
nk
N
N
1)
coincide con uno de los recogidos en la columna de frecuencias acumuladas,
2
por ejemplo Nj, en este caso la mediana es ej.
N
2)
está entre N j1 y N j . La mediana se encontrará en el intervalo ( e j1 , e j ) . La
2
mediana será M  e j1  h y por interpolación lineal se obtiene h.
Amplitud del intervalo: a = e j  e j-1
N
N
nj  a
(  N j 1 ) a
(  N j1 ) a
 h 2
 M  e j 1  2
N
nj
nj
 N j1  h
2
Cuantiles
Cuantil de orden  es un valor de la variable estadística que deja a su izquierda
una parte  de la población y a la derecha una parte 1-  de la población.
El Cuantil de orden  (0    1) es x  tal que F( x  )=. Siendo F la función de
distribución o la frecuencia relativa acumulada.
Los más utilizados son los cuartiles Q1, Q2 y Q3 que dejan a su izquierda
1/4, 1/2 y 3/4 de la población respectivamente.
Obsérvese que Q2 = M
(Mediana).
Los deciles D1, D2, ..... , D9 dejan a su izquierda 1/10, 2/10, ..., 9/10 de la
población respectivamente.
Los percentiles P1, P2, ........, P99 dejan a su izquierda 1/100, 2/100, .....
99/100 de la población respectivamente.
El cálculo de los mismos es similar al cálculo de la mediana.
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
33
Varianza residual
La varianza residual se define como la varianza de los errores o residuos
Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la
varianza de Y por (1-r2), siendo r el coeficiente de correlación lineal entre ambas
variables.
La varianza residual o no explicada 2r 
1
(yi *  y j )2 n ij  2y (1  r 2 )

n i, j
Siendo el valor ajustado o teórico= yi *
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
168
Varianza explicada
En la recta de regresión de la Y sobre X la varianza total de la variable Y puede
descomponerse en dos partes una parte explicada por la regresión (la varianza de la
regresión) y otra parte no explicada (la varianza residual). La varianza explicada,
será la obtenida por el producto de la varianza de Y por el coeficiente de
determinación R2.
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
201
Media aritmética
La media de una variable estadística es la suma ponderada de los valores
k
k
i 1
i 1
n
N
posibles por sus respectivas frecuencias: X   fi x i   i x i 
1 k
 ni xi
N i 1
x i = valores que toma la variable o marca de clase.
fi = frecuencias relativas.
n i = frecuencias absolutas.
N = número total de la población o muestra.
Relación entre las medias armónica, geométrica y aritmética: H  G  X
La media o esperanza matemática de una variable aleatoria es: m1  E    x  
E  =
n
 x P( X ) para una variable discreta y finita.
i
i 1
E  =



i
x.f (x).dx cuando la variable  es continua con función de
densidad f(x).
Media armónica
Medida de tendencia central de una variable estadística es el cociente entre el
tamaño de la muestra y la suma de los cocientes de las frecuencias por los
valores de las correspondientes de la variable: H 
N
ni

i 1 x i
k
x i = valores que toma la variable o marca de clase.
fi = frecuencias relativas.
n i = frecuencias absolutas.
N = número total de la población o muestra.
Relación entre las medias armónica, geométrica y aritmética: H  G  X
Media cuadrática
Medida de tendencia central de una variable estadística es la raíz cuadrada de
la suma ponderada de los cuadrados de los posibles valores de la variable
multiplicados por sus respectivas frecuencias:
MC 
k
f x
i 1
i
2
i

k
ni
 Nx
i 1
2
i
Media geométrica
Medida de tendencia central de una variable estadística que resulta de la raíz nésima del producto de los valores posibles de la variable, elevados a a sus
respectivas frecuencias: G  N x1n .x 2n ...x kn
x i = valores que toma la variable o marca de clase.
fi = frecuencias relativas.
n i = frecuencias absolutas.
N = número total de la población o muestra.
Relación entre las medias armónica, geométrica y aritmética: H  G  X
1
2
k
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
136
Varianza muestral o cuasivarianza
La varianza muestral viene dada por:
k
N
N
S2 
 2 , es decir: S2 
N 1
N 1
 ( x i  X) 2
i 1
N
k

 (x
i
 X) 2
i 1
N 1
Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy
pequeña.
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
207
Diagrama de cajas o Box-plot
Se construye sólo para variables cuantitativas.
Pasos a seguir:
•Se dibuja un rectángulo cuyos extremos son Q1 y Q3 y se indica la posición de la
mediana mediante una línea vertical. También se indica la media mediante una cruz
(+).
•Se dibuja una línea desde cada extremo del rectángulo hasta el valor más alejado
no atípico.
•Se calculan los límites de admisión (barreras o bigotes)
LI =Q1 -1,5 (Q3- Q1)
LS =Q3 +1,5 (Q3- Q1)
•Se marcan todos los datos considerados como atípicos (outliers) son los que
quedan fuera de los límites de admisión se indican mediante un círculo. Existen
otros valores atípicos más graves (atípicos extremos) que superen 3 veces el rango
intercuartilíco y se representan por cruces (x).
Si no hubiese ningún dato atípico las barreras llegarían hasta el valor mínimo y
máximo.
Q1
Q2 = M
Q3
+
Q1-1,5(Q3-Q1)
Q3+1,5(Q3-Q1)
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
56
Histograma
En un histograma se representan las frecuencias de una variable estadística
mediante áreas. De tal forma que un histograma es un conjunto de rectángulos que
tienen como base los intervalos de clase y cuya superficie son las frecuencias
(absolutas o relativas). Por tanto las alturas son proporcionales a las frecuencias, y
será el cociente entre la frecuencia y la amplitud del intervalo.
16
14
12
10
8
6
4
2
0
1
2
3
4
5
Donde cada rectángulo puede ser:
fi
ni
ai
ai
fi
ni
ei-1
ei
ei-1
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
ei
114
Varianza
Varianza o momento de segundo orden respecto de la media en una variable
estadística es la media de los cuadrados de las desviaciones a la media:
k
2  
i 1
( x i  X) 2 n i
N
x i = valores de la variable o marcas de clase.
La varianza de una variable aleatoria es el momento de segundo orden respecto a
2
la media:  2  2  E  x  x  

V   =
x
i 1


n
2
 x P(X i ) para una variable discreta y finita.
i
V  = 2  


 x  x  .f (x).dx cuando la variable  es continua con función de
2
densidad f(x).
Varianza explicada
En la recta de regresión de la Y sobre X la varianza total de la variable Y puede
descomponerse en dos partes una parte explicada por la regresión (la varianza de la
regresión) y otra parte no explicada (la varianza residual). La varianza explicada,
será la obtenida por el producto de la varianza de Y por el coeficiente de
determinación R2.
Varianza muestral o cuasivarianza
La varianza muestral viene dada por:
k
N
N
S2 
 2 , es decir: S2 
N 1
N 1
 ( x i  X) 2
i 1
N
k

 (x
i
 X) 2
i 1
N 1
Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy
pequeña.
Varianza residual
La varianza residual se define como la varianza de los errores o residuos
Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la
varianza de Y por (1-r2), siendo r el coeficiente de correlación lineal entre ambas
variables.
La varianza residual o no explicada 2r 
1
(yi *  y j )2 n ij  2y (1  r 2 )

n i, j
Siendo el valor ajustado o teórico= yi *
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
207
Coeficiente de regresión
El coeficiente de regresión de la variable y con respecto a la variable x, es la
pendiente de la recta de y sobre x, por consiguiente, el sentido de crecimiento o
decrecimiento, así como el grado de variación, viene determinado por el signo y el
valor del coeficiente de regresión b yx 
 xy
 2x
.
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
27
Covarianza
 xy recibe el nombre de covarianza, de gran importancia práctica, se define como
la media aritmética de los productos de las desviaciones de la variable x con
respecto a su media aritmética, X , por las desviaciones de la variable y con
respecto a la media aritmética, Y .
r
s
 xy  
i 1 j1
(x i  X)(y j  Y)n ij
N
De la misma forma que en el caso de la varianza, se define la covarianza
muestral por:
r
s ( x  X )( y  Y ) n
N
i
j
ij
siendo S xy 
 xy .
S xy   
N 1
N 1
i 1 j1
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
Moda
Moda es el valor de la variable que se presenta con más frecuencia dentro de la distribución.
En las distribuciones sin agrupar se observa directamente el valor de mayor
frecuencia.
En las agrupadas, definimos la clase modal como la que tiene mayor frecuencia.
NOTA: Algunas distribuciones pueden presentar varias modas. Cada moda corresponde a un
máximo absoluto del diagrama de barras o histograma.
 Para variables aleatorias
La moda es el máximo de la función de densidad o de la función de probabilidad
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
118
Centro de gravedad
Las dos rectas de regresión y  Y  b yx ( x  X) , x  X  b xy ( y  Y ) se cortan en un punto,
que es precisamente el ( X, Y) , llamado, por su naturaleza de promedio, centro de gravedad de
la distribución.
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
21
Diagrama de dispersión o nube de puntos
Las estadísticas de dos variables suelen representarse en un sistema de ejes cartesianos,
tomándose los valores de la variable "x" en el eje de abscisas y los de la variable "y" en el de
ordenadas y señalándose la confluencia en el plano con un punto. El conjunto de puntos así
obtenidos, en un número igual al de observaciones conjuntas efectuadas, recibe el nombre de
diagrama de dispersión o nube de puntos.
Diagrama de dispersión
55
y
y
j
x
i
x
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía
48
Sesgo
Para obtener una medida adimensional de la simetría de una variable
estadística, se define el coeficiente de asimetría o sesgo
Coeficiente de Asimetría de Pearson: As 
X  Mo
.

 Mide la asimetría respecto de la moda.
 Si As=0 es simétrica respecto de la moda. X  M0 .
 Si As>0 es asimétrica a la derecha de la moda. X  M0 .
 Si As<0 es asimétrica a la izquierda de la moda. X  M0 .
 Si la moda no es única, no está definido.
n x
1
k
Coeficiente de Asimetría de Fisher: g1 
3

3 n
i 1
i
i
X

3
3
 Es un coeficiente adimensional y mide la asimetría respecto de la media.
 Si g1=0 la distribución es simétrica o no sesgada.
 Si g1<0 la distribución es asimétrica o sesgada a la izquierda y
X  Me  Mo .
 Si g1>0 la distribución es asimétrica o sesgada a la derecha y Mo  Me  X .
El sesgo es la diferencia entre el valor esperado de un estimador y el verdadero
valor del parámetro: E(θ*) - θ
Descargar