Solución práctico 5

Anuncio
1
ESTADÍSTICA II
SOLUCIÓN-PRÁCTICA 1: ESTADÍSTICA DESCRIPTIVA
EJERCICIO 1
a)
b)
c)
d)
e)
Sección cruzada o corte transversal.
Serie temporal.
Serie temporal.
Sección cruzada.
Serie temporal.
EJERCICIO 2
a)
xi
ni
hi
F * ( xi )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
17
18
21
1
3
1
3
1
2
2
2
3
1
3
1
2
2
1
1
1
30
1/30
1/10
1/30
1/10
1/30
1/15
1/15
1/15
1/10
1/30
1/10
1/30
1/15
1/15
1/30
1/30
1/30
1
1/30
4/30
5/30
8/30
9/30
11/30
13/30
15/30
18/30
19/30
22/30
23/30
25/30
27/30
28/30
29/30
1
b) Las frecuencias relativas están dadas en la tabla anterior y su gráfica es la siguiente (se
supone que es un gráfico de bastones, no de barras):
0,12
0,1
0,08
0,06
0,04
0,02
0
1
3
5
7
9
11
13
15
17
19
21
2
c) Porcentaje de más de 8 años: 50%.
Porcentaje de menos de 13 años: 23/30=76,67%.
d)
F*(xi)
1
1
2 3
4
5 ………….. 14
17 18
21
e)
(xi′−1 , xi′ )
xi
ni
hi
[1, 5)
[5, 9)
[9, 13)
[13, 17)
[17, 21)
[21, 25)
3
7
11
15
19
23
8
7
8
4
2
1
30
8/30
7/30
8/30
4/30
2/30
1/30
1
HISTOGRAMA
8/30
15/30
23/30
27/30
29/30
1
hi
′
xi − xi′−1
2/30
7/120
2/30
1/30
3/120
f * ( xi ) =
F*(xi)
0,267
0,5
0,767
0,9
0,967
1
POLÍGONO DE FRECUENCIAS
f*(x)
1 5
F * ( xi )
F*(x)
9 13 17 21 25
x
Más de 8 años: 1 – F*(8) = 50%
−
Menos de 13 años: F*( 13 )= 76,67%
1
5
9……..
x
3
EJERCICIO 3
m
z=
∑
n
xi +
i =1
∑
n
m
yi
i =1
m+n
m.(
=
∑
xi / m) + n.(
i =1
∑ y / n)
i
i =1
m+n
=
m.x + n.y
m+n
=
m
n
x+
y
m+n
m+n
EJERCICIO 4
500 × 200 + 200 × 800
= 260.
1000
200 × (500 × 0,8) + (800 − 600) × (200 × 0,8)
En tiempo de depresión: xd =
= 280.
200 + (800 − 600)
En tiempo normal el salario promedio es x n =
El nuevo promedio aumenta, porque los que se mandan al seguro de paro son los obreros, que
son los que tienen los salarios más bajos.
Más adelante en el curso veremos que la media es muy sensible a valores extremos, es decir
que algún valor muy alto o muy bajo produce un corrimiento bastante importante de la media, lo
que no ocurre con la mediana (se dice que la mediana es “robusta”).
EJERCICIO 5 (PRIMERA REVISIÓN 1997)
1)
⎧0........si...x < 0
⎪
⎪⎪0,2......si...0 ≤ x < 1
*
FX ( x ) = ⎨0,5......si...1 ≤ x < 2
⎪0,9......si...2 ≤ x < 3
⎪
⎩⎪1.........si...x ≥ 3
2)
xi
FRECUENCIAS RELATIVAS
0
1
2
3
0,2
0,3
0,4
0,1
1
(Asúmase que el gráfico es de bastones, no de barras)
0,5
0,4
0,3
0,2
0,1
0
0
1
2
3
El porcentaje de días en que se vende 0 automóviles, es decir menos de un automóvil, es 0,2.
Por lo tanto el porcentaje de días en que se vende un automóvil o más es 0,8.
4
Nota: No confundir porcentaje o frecuencia relativa con probabilidad: el primero
corresponde al resultado de una muestra, el segundo es un parámetro poblacional.
EJERCICIO 6
Antes: min ( xi ) = 2 .
a) x =
Ahora
min ( xi ) = 1
10
10
1 n
1 10
xi ⇒ 4 = ∑ xi ⇒ 40 = ∑ xi ⇒ 38 = ∑ xi
∑
n i =1
10 i =1
i =1
i=2
⇒ Ahora
10
∑x
i =1
b)
x0,5 = 5
x=4
n=4
i
= 39 ⇒ x =
39
= 3,9
10
x0,5 = 5 porque la cantidad de observaciones antes de la mediana sigue siendo la misma.
EJERCICIO 7
Fábrica A
Fábrica B
x med = 25000
x = 27000
x = 25000
x med = 27000
Observaciones:
Para la fábrica A: si bien el promedio de duración es de 27000 Km, el 50% de las llantas
duraron menos de 25000 km.
Para la fábrica B: si bien el promedio de duración es de 25000 Km, el 50% de las llantas
duraron más de 27000 km.
Recomendaría la compra de la fábrica B (obsérvese los gráficos para comprobar que con
mayor frecuencia la Fábrica B proporciona neumáticos con rendimientos por encima de los
27.000 Km.
EJERCICIO 8 (EXAMEN 2/2000)
X = “Tiempo que transcurre desde la aplicación del insecticida hasta la muerte de un insecto”.
xi′
5
10
30
45
60
F * ( xi′ )
0,5
0,75
0,85
0,95
1
hi
xi
0,5
0,25
0,1
0,1
0,05
1
2,5
7,5
20
37,5
52,5
5
a) La afirmación es falsa. Dos minutos y medio es la marca de clase del primer intervalo,
pero no se puede afirmar que sea el modo.
b) Más de 30 minutos: 0,1 + 0,05 = 0,15
→ La afirmación es verdadera.
c) La afirmación es falsa. Sería verdadera si dijera antes del primer minuto.
5
d)
x=
∑ x h = 2,5(0,5) + 7,5(0,25) + 20(0,1) + 37,5(0,1) + 52,5(0,05)
i i
i =1
⇒ x = 11,5 ⇒ La afirmación es verdadera.
EJERCICIO 9
Las medidas de posición más útiles serían las siguientes.
1) Como el gerente de producción está interesado en el tamaño de envase que tiene que
fabricar en mayor cantidad debe observar en los pedidos aquel que tiene mayor frecuencia,
es decir está interesado en el modo o moda.
2) Para este otro gerente es importante la capacidad de ahorro de dichas regiones, por lo que
resulta conveniente conocer, por ejemplo, el tercer cuartil o el noveno decil de los ingresos
en cada región.
EJERCICIO 10
1)
x0(V,5) = 4000 ⇒ FX* (4000) = 0,5
)
*
y0( M
,5 = 3500 ⇒ FY (3500) = 0,5
*
FY* / (3500) ≤ FY* (4000), por ser F una función no decreciente.
Se cumple que:
⇒ FX* ( 4000) = 0,5 = FY* (3.500) < FY* ( 4.000) ⇒ FX* (4000) < F*Y(4.000)
2) Lo correcto es utilizar el coeficiente de variación, porque varianza y desviación estándar
están afectadas por la unidad de medida de las variables.
EJERCICIO 11
1) Verdadero, ya que sólo depende de la cantidad de observaciones y no tiene en cuenta su
magnitud.
2) Verdadero, sólo se obtiene una aproximación al tomar los puntos medios en los intervalos
3) Falso, el coeficiente de variación no depende de la unidad de medida de la variable.
EJERCICIO 12 (EXAMEN 3/2000)
NOTA: Este ejercicio tiene una leve variación en la tabla respecto del verdadero examen.
PARTE A.1) No, el 81,5% de los establecimientos más pequeños en el número de empleados, producen
el 13,3% del valor agregado industrial acumulado.
6
2) El porcentaje de establecimientos que tienen menos de 2500 empleados es, como se ve
en la tabla, 99,8%. Por lo tanto el 0,2% de los establecimientos tienen 2500 empleados o
más.
3) La participación de estos establecimientos es de 1 – 78,2 = 21,8% del v.a.
4.1) Los establecimientos que tienen hasta 49 empleados generan el 13,3% del v.a., por lo
tanto la respuesta es: 0,133 × 400.000.000 = 53.200.000
4.2)
Intervalo
[y’i-1, y’i)
[1-4]
[5-9]
[10-19]
[20-49]
Marca
yi
h(yi)
n(yi)
2,5
7
14,5
34,5
0,365
0,158
0,153
0,129
36.500
15.800
15.300
12.900
yi.n(yi)
91.250
110.600
221.850
445.050
868.750
La respuesta es entonces 868.750.
PARTE B.1) Algunos de los intervalos originales se colapsaron para formar cinco intervalos.
Intervalo
[y’i-1, y’i)
[1-5)
[5-10)
[10-50)
[50-250)
[250-4000)
Marca
h( y´i )
0,365
0,158
0,282
0,157
0,038
1
F* (y´i)
0,365
0,523
0,805
0,962
1
n(yi)
3
7,5
30
150
2125
yi.h(yi) f*(yi)
1,095 0,09125
1,185
0,0316
8,46
0,00705
23,55 0,00079
80,75
0
115,04
2) La mediana la hallamos mediante la fórmula:
10 − 5
(0.5 – 0.365) = 9,27
0.523 − 0.365
En variable discreta se define la mediana como un valor del recorrido, por lo que en ese caso
ymed = 10. (Obsérvese que la variable número de empleados es discreta).
3) Por lo expuesto en 2) el 50% de los establecimientos tienen hasta 10 empleados.
4) Con idem razonamiento que 2):
5 −1
y0,25 = 1 +
(0,25 – 0) = 3,74.
0.365 − 0
Como en 2) y0,25 debe ser un valor del recorrido, entonces y0,25 = 4.
50 − 10
5) y0,75 = 10 +
(0,75 – 0,523) = 42,19, entonces y0,75 = 43.
0.805 − 0.523
6) El 50% central de las observaciones se encuentran en un intervalo de amplitud 43 – 4 = 39.
7) Lo vemos en la quinta columna: es 115,04. La cantidad estimada de empleados en el total
del país es 115,04 × 100000 = 11.504.000
8) El intervalo modal es el que presenta el valor más alto de la función f*(y). En este caso es el
intervalo [1,5).
ymed = 5 +
7
EJERCICIO 13
Para los cálculos que se solicitan elaboramos el cuadro siguiente:
[y’i-1, y’i)
1000-2000
2000-3000
3000-5000
5000-7000
7000-10000
10000-15000
(yi - y ) 3.h(yi)
(yi-y)^3*h(yi)
-6696231771
-2852103125
-197863281,3
207049479,2
6092097917
36221519531
32774468750
yi
ni ó n(yi)
1500
2500
4000
6000
8500
12500
h(yi)
100
120
150
100
80
50
600
f*(y)
F*(yi)
0,1667
0,2
0,25
0,1667
0,1333
0,0833
1
0,166667
0,366667
0,616667
0,783333
0,916667
1
yi.h(yi)
(yi - y ) 2.h(yi)
0,000167
250
0,000200
500
0,000125 1000
0,000083 1000
0,000044 1133,33
0,000017 1041,67
4925
1955104,17
1176125,00
213906,25
192604,17
1704083,33
4781718,75
10023541,67
(yi - y ) 4.h(yi)
(yi-y)^4*h(yi)
2,29346E+13
6,91635E+12
1,83024E+11
2,22578E+11
2,17793E+13
2,74378E+14
3,26414E+14
1) La distribución de frecuencias relativas en el caso de variables continuas no se grafica. La
función que interesa graficar es f*:
f*(x)
1 2 3
5
7
10
15 y
2) La función de distribución acumulada de frecuencias relativas la tenemos calculada en la
quinta columna en los puntos extremos de intervalo. El gráfico es una poligonal que pasa por
dichos puntos y se completa con: F*(y) = 0 si y < 1000 y F*(y) = 1 si y > 15000.
3)
y = 4925
Intervalo modal = [2000, 3000), según puede observarse en el gráfico de f*.
5000 − 3000
ymed = y0,50 = 3000 +
(0,5 – 0,3667) = 4066,40
0,6167 − 0,3667
4)
S 2y = 10023541,67 y CVy = 0,6428.
5) asy = 1,.033 y ky = 0,248 . Por ello tiene “cola” a la derecha y es más “apuntada” que la
normal.
8
EJERCICIO 14 (EXAMEN SETIEMBRE 97)
A) Como x =
1
n
n
∑x
i
= 5,55
i =1
Entonces para corregir la media debemos cambiar un valor xk = 10 por xk = 15 con lo que nos
queda:
n
x* =
1
( x i − 10 + 15) = 5,55 – 10/100 + 15/100 = 5,60.
n i =1
∑
En el caso de la mediana, ésta no cambia, es decir xmed = x*med ya que estamos cambiando un
valor que está después de ella por otro que también es mayor (recordemos aquí que la
definición del Novales de mediana es aquel valor que deja la mitad de los datos por debajo de
él y la otra mitad por encima).
Piense qué sucedería con la mediana si cambiáramos un valor que está por debajo por otro
que también está por debajo y un valor que está por debajo por otro que está por encima.
Como S2x =
1
n
n
∑ (x − x)
i
i =1
2
⎛1
= ⎜
⎜n
⎝
n
∑x
i =1
⎞
2⎟
i ⎟
2
− x , entonces hay que corregir el segundo momento
⎠
ordinario y la media.
⎛ 152 10 2 ⎞
⎟⎟ + 5,55 2 − 5,60 2 = 16,6925
−
⎝ 100 100 ⎠
(
2
S correg = 16 + ⎜⎜
)
B) Llamemos X = préstamos del año pasado y Y = préstamos del año actual
Entonces, los coeficientes de variación son:
CVx =
CVy =
Sx
x
Sy
y
= 300/650 = 0,4615.
= 350/1000 = 0,35
Por lo tanto, los préstamos de este año mostraron menor variación relativa.
C) En el Ejercicio 9 vimos que la suma de las desviaciones de los datos respecto a la media
siempre da cero. Entonces, para que éstas no se compensen y resulten una medida de la
dispersión, se elevan al cuadrado en el caso de la desviación estándar o se toma valor
absoluto en el caso de la desviación media.
EJERCICIO 15
PARTE A
[xi′−1 , xi′ )
xi
[90, 790)
440
[790, 1490) 1140
[1490, 2190) 1840
[2190, 2540) 2365
TOTAL
ni
hi
F(*xi )
40
36
14
10
100
0,4
0,36
0,14
0,1
1
0,4
0,76
0,9
1
xi hi
176
410,4
257,6
236,5
1080,5
f (*xi )
0,4 / 700
0,36 / 700
0,14 / 700
0,1 / 350
xi2 hi
77.440
467.856
473.984
559.322,5
1.578.602,5
9
x = 1080,5
a)
dólares.
x0 ,5 =
b)
salario promedio anual aproximado de los 100 directores en miles de
0 ,5 − F * (790 )
0 ,5 − 0 , 4
+ 790 =
+ 790 = 984 , 44
*
0 ,36
f (1140 )
700
La mitad de los
directores ganan hasta 984,44 miles de dólares
x 0 , 25 =
c)
x 0 , 75 =
0 , 25 − F * ( 90 )
0 , 25 − 0
+ 90 =
+ 90 = 527 ,5
*
0,4
f ( 440 )
700
0 , 75 − F * ( 790 )
0 , 75 − 0 , 4
+ 790 =
+ 790 = 1470 ,55
*
0 ,36
f (1140 )
700
por lo tanto RI = x0, 75 − x0, 25 = 1470,56 − 527,5 = 943,06
El 50% central de los salarios se encuentran en un intervalo de amplitud 943,06. Es decir, el
50% de los empresarios que se encuentran en el centro de la distribución gana entre 437,5 y
1470,56 miles de dólares.
S2 =
d)
4
∑x
i =1
2
i
h i − x 2 = 1 . 578 . 602 ,5 − (1080 ,5 )
⇒ S = 411 . 122 , 25 ⇒ S =
2
2
S 2 = 641 ,1881549
PARTE B
a) Es el coeficiente de variación debido a que se trata de variables distintas.
641,1881549
= 0,59342
1080,5
6,2
=
= 0,101
61,6
b) CVsalarios =
CVedad
⇒ los salarios son más dispersos que las edades
c) No puede afirmarse que los menores de 61 años y 7 meses tengan salarios menores a
984,44 porque no se conoce la relación entre salario y edad. Por ejemplo, podría suceder que
el más joven gane el salario más alto. Si se supiera que a mayor edad mayor salario, entonces
sería correcto afirmarlo, pero esta información no surge de los datos.
EJERCICIO 16 (NOVALES 1.7)
y=
S2y =
1
n
n
∑
i =1
( y i − y )2 =
1
n
1
n
n
∑
yi =
i =1
1
n
n
∑
(ax i + b) = a
i =1
2
∑ [(ax + b) − (ax + b) ]
n
i
i =1
=
1
n
∑
1
n
xi +
1
n
n
∑ b = ax + b
i =1
n
n
1
∑ [a.( xi − x) ]2 = a2 ∑ ( xi − x)2 = a2S2y
i =1
n
i =1
10
En lo que respecta a la mediana y al modo distinguiremos tres casos:
a) a = 0. Entonces todos los valores son iguales a b y la demostración es trivial.
b) a > 0. En este caso la transformación Y = aX+b es una función que mantiene el orden y
donde F*(yi) = F*(xi) ∀i; por lo tanto, por como fue definida la mediana, ⎨mínimo xi del
recorrido; F*(xi) ≥ 0.50)⎬ o como es definida en el Novales y med = ax med + b . Asimismo en
este caso se mantienen las frecuencias relativas h(yi) = h(xi) y entonces
y mod o = ax mod o + b .
c) a < 0. Aquí nuestra transformación invierte el orden y por lo tanto en algún caso podría
haber un desplazamiento de la mediana ya que si bien se mantienen las frecuencias
relativas, no sucede lo mismo con las frecuencias relativas acumuladas. Es decir podría
suceder que si para algún i se cumple que xi = xmed, entonces ymed podría ser axi+1+b. Para
la definición del Novales la afirmación es cierta. No hay inconveniente para el modo ya que
es el valor de mayor frecuencia.
EJERCICIO 17
a) Para hallar la media y la varianza de los datos elaboramos el siguiente cuadro:
xi
n(xi)
h(xi)
F*(xi)
xi.h(xi)
(xi– x )2.h(xi)
10
11
12
13
14
50
150
100
80
20
400
0,125
0,375
0,25
0,2
0,05
1
0,125
0,5
0,75
0,95
1
1,25
4,125
3
2,6
0,7
11,675
0,3507
0,1709
0,0264
0,3511
0,2703
1,1694
Por lo tanto x = 11.675 y Var(X) = 1,1694.
b) Aplicando el cambio de variable:
Y = 1,23 × X deducimos que Y = 1,23 × x = 14,36 y S y = 1,232 × 1,1694 = 1,7692.
2
c) Aquí efectuamos otro cambio Z = X+1 y entonces: z = x + 1 = 12,675; la Var(Z) = Var (X)
= 1,1694 y para el modo y la mediana sólo hay que sumarle 1 a los correspondientes a X:
xmed = 11 (cuarta columna) y entonces zmed = 12
xmodo = 11 (segunda o tercera columna), luego zmodo = 12.
EJERCICIO 18 (EXAMEN 7/10/96)
Elaboramos el siguiente cuadro que muestra los cálculos para los datos originales y para los
dos posibles acuerdos:
Intervalo
[y’i-1, y’i)
14000-15000
15000-16000
16000-17000
17000-18000
18000-19000
19000-20000
20000-21000
21000-22000
Marca clase
yi
14500
15500
16500
17500
18500
19500
20500
21500
Ni ó n(yi)
5
7
8
6
5
4
3
2
40
h(yi)
0,125
0,175
0,2
0,15
0,125
0,1
0,075
0,05
1
F*(yi) yi.h(yi) (yi - y ) 2.h(yi)
0,125 1812,5 997578,125
0,3
2712,5 582859,375
0,5
3300
136125
0,65
2625
4593,75
0,775 2312,5 172578,125
0,875 1950
473062,5
0,95 1537,5 756046,875
1
1075
871531,25
17325
3994375
11
a)
y = 17325 (ver sexta columna).
b) M ( y ) = 0,8.M (U ) − 2000 ⇒ M (U ) =
M ( y ) + 2000 17.325 + 2000
= 24.156,25
=
0,8
0,8
*
c) Como se observa en la columna de F es:
F * (17.000) = 0,5 ⇒ ymediana = 17.000 ⇒ tmediana = 1,2 ymediana + 3000 = 23.400
d) Esto equivale a hallar el percentil 80 (p80). Para ello busco el primer intervalo donde F*(yi) ≥
0,80: es [19000, 20000). Entonces bajo la suposición razonable de que el ingreso en dicho
intervalo es uniforme puedo calcular fácilmente p80 recordando la fórmula de la ecuación
de una recta:
y − yo
y – y0 = 1
(x – x0)
x1 − x 0
donde:
y = 0,80; y0 = 0,775; y1 = 0,875
x0 = 19000; x1 = 20000
y la incógnita es x = p80.
Despejando nos queda:
0,875
0,80
0,775
20000 − 19000
= 19250.
19000
19250
20000
0,875 − 0,775
e) (F*(18000) = 0,65). Por lo tanto el porcentaje de personas que ganan 18000 o más es de
35%.
p80 = 19000 + (0,80 – 0,775)
f) V ( y ) = V (0,8U − 2000) = 0,82V (U ) ⇒ V (U ) =
g) CVu =
V ( y ) 3.994.375
=
= 6.241.211
0,82
0,64
Su
= 0,1034.
u
h) CVt = 0,1008.
ST2 = 1,2 2 SY2 = 5.751.900 ⇒ CVT =
5.751.900
= 0,1008
1,2 *17.325 + 3.000
EJERCICIO 19
xi
n(xi)
h(xi)
F* ( x i )
xi.h(xi)
0
1
2
3
4
5
6
7
10
11
14
20
13
14
11
7
100
0,1
0,11
0,14
0,2
0,13
0,14
0,11
0,07
1
0,1
0,21
0,35
0,55
0,68
0,82
0,93
1
0
0,11
0,28
0,6
0,52
0,7
0,66
0,49
3,36
(xi - x )2.h(xi)
⎮xi - x ⎮.h(xi)
1,12896
0,612656
0,258944
0,02592
0,053248
0,376544
0,766656
0,927472
4,1504
0,336
0,2596
0,1904
0,072
0,0832
0,2296
0,2904
0,2548
1,716
12
(xi - x )3.h(xi)
(xi - x )4.h(xi)
-3,7933056
-1,44586816
-0,35216384
-0,0093312
0,03407872
0,61753216
2,02397184
3,37599808
0,450912
12,7455068
3,41224886
0,47894282
0,00335923
0,02181038
1,01275274
5,34328566
12,288633
35,3065395
0
1 2
3 4
5 6
7
xi
0 1
2
3 4 5 6
7
1) En la tercera columna de la hoja de cálculo aparece la distribución de frecuencias relativas
graficada arriba con el título h(xi).
2)
La función de distribución de frecuencias relativas acumuladas aparece en la cuarta
columna y se grafica con el título F ( x ) .
*
3) x = 3,36 (la media muestral o promedio es la suma de la quinta columna).
x med = 3 (la mediana es definida como el ⎨mínimo xi del recorrido; F*(xi)≥0.50)⎬). Otra
definición: ver pág. 25 de Novales.
x mod o = 3 (el modo se define como el valor del recorrido que tiene mayor frecuencia
absoluta).
4) S2 = 4,1504; s2 = 4,19232 son la varianza y la cuasi-varianza muestrales. S2 aparece
n
S2 . Existen también otras medidas de dispersión
calculado en la sexta columna; s2 =
n −1
S
como la d.m = 1,716 (desviación media) calculada en la séptima columna y el c.v. =
=
x
0,60633 (coeficiente de variación).
5) a.s. = 0,0533 cuyo cálculo fundamental está hecho en la octava columna. Se definen
x − x med
x − x mod o
= 0,1767 y as2 =
=
también otros coeficientes de asimetría como as1 =
S
S
0,1767.
Por otra parte se calcula en la última columna y en su parte fundamental el coeficiente de
curtosis o apuntamiento k = -0,95037. Recordemos que en la fórmula que aparece en el
página 31 del Novales el término –3 corresponde a la comparación con una distribución
normal ya que ésta tiene su momento centrado de orden 4 igual a
3σ 4 .
13
6) Para la fábrica B los cálculos son los siguientes:
xi
n(xi)
h(xi)
F* ( x i )
xi.h(xi)
0
1
2
3
4
5
6
7
5
8
7
23
18
10
19
10
100
0,05
0,08
0,07
0,23
0,18
0,1
0,19
0,1
1
0,05
0,13
0,2
0,43
0,61
0,71
0,9
1
0
0,08
0,14
0,69
0,72
0,5
1,14
0,7
3,97
(xi - x )2.h(xi)
0,788045
0,705672
0,271663
0,216407
0,000162
0,10609
0,782971
0,91809
3,7891
⎮xi - x ⎮.h(xi)
0,1985
0,2376
0,1379
0,2231
0,0054
0,103
0,3857
0,303
1,5942
(xi - x )3.h(xi) (xi - x )4.h(xi)
-3,12853865
-2,09584584
-0,53517611
-0,20991479
4,86E-06
0,1092727
1,58943113
2,7818127
-1,488954
12,4202984
6,22466214
1,05429694
0,20361735
1,458E-07
0,11255088
3,22654519
8,42889248
31,6708636
x = 3,97; x med = 4 y x mod o = 3 .
S2 = 3,7891; s2 = 3.8274; dm = 1.5942; cv = 0,4903.
as = -0,2019; as1 = -0.0154; as2 = 0,4983.
k = -0,7941.
Observaciones:
Si bien las medidas de posición de la fábrica A son mejores que las de la B en el sentido que
en general “habría” menos defectuosas, todas las medidas de dispersión son peores. Además
en el primer caso la asimetría es positiva, es decir tiene cola a la derecha y en el segundo es al
revés (todo esto tiende a “emparejar las cosas”: téngase en cuenta que as2 proporciona una
idea muy relativa de la asimetría por su propia definición). Como si esto fuera poco, el k de la
fábrica A es menor que el de la B, lo que indica que la gráfica de esta última es más puntiaguda
que la primera y por ello los datos deberían estar menos dispersos.
Por último diremos que si bien las medidas de posición son mejores para la fábrica A que la B,
todos los otros indicadores tienden a disminuir dicha ventaja por lo que la calidad de
producción de ambas se emparejarían. Sin embargo la conclusión final queda en manos del
analista: en este caso Ud.
14
EJERCICIO 20
País
Haití
Guatemala
Nicaragua
El Salvador
Honduras
Bolivia
Brasil
Dominicana R.
Perú
Colombia
México
Ecuador
Panamá
Venezuela
Paraguay
Chile
Costa Rica
Cuba
Argentina
Uruguay
Barbados
Tasa de alfabetización
53
55
57
73
73
78
81
83
85
87
87
88
88
88
90
93
93
94
95
96
99
1) Tasa de alfabetización es una variable cuantitativa continua, pero en este caso las tasas se
toman sin decimales por lo que puede considerarse como discreta (como la edad en años
cumplidos).
2)
5
6
7
8
9
357
338
13577888
0334569
3) Q1 = 78 (primer cuartil)
Q2 = 87 (mediana)
Q3 = 93 (tercer cuartil)
4)
RiQ = 93 − 78 = 15 (recorrido intercuartílico)
1,5.RiQ = 22,5
3.RiQ = 45
Q1 − 1,5.RiQ = 55,5 (barrera interior inferior)
Q3 + 1,5.RiQ = 115,5 (barrera interior superior)
Q1 − 3.RiQ = 23 (barrera exterior inferior)
Q3 + 3.RiQ = 138 (barrera exterior superior)
Valores mínimo y máximo dentro de las barreras: 57 y 99 (bigotes)
Valores atípicos: 53 y 55
Valores atípicos extremos: no hay
15
5) La posición de la mediana y el largo de los bigotes indican asimetría negativa (con cola a la
izquierda), y que las tasas de alfabetización de Haití y Guatemala son atípicas (muy bajas) en
el conjunto de los países americanos.
EJERCICIO 21
1) El PBI per cápita es una variable cuantitativa continua (las categorías de respuesta son
números y entre dos valores cualesquiera siempre es posible, en teoría, encontrar un
país con un PBI per cápita entre aquellos dos).
2)
002
003
004
006
008
010
018
029
066
070
146
149
198
02 05 30 60 75
77
06
81
67
00
00
95
27
55
41
90
60
3) Q1 = 275
Q2 = 867
Q3 = 6627
4) RiQ = 6627 − 275 = 6352
El 50% de los valores centrales del PBI per cápita se encuentran en un intervalo de
amplitud U$$ 6352.
5) 1,5 RiQ = 9528
3RiQ = 19056
Q1 − 3RiQ = −18781
Q1 − 1,5QiQ = −9253
Q3 + 1,5RiQ = 16155
16
Q3 + 3RiQ = 25683
*
0
202
6)
275 867
6627
14990
16155
25683
19860
Países atípicos: sólo Japón, porque escapa a la barrera interior superior.
EJERCICIO 22
1) Falso. Si bien en la muestra no hay parejas con 7 hijos o más, de ello no se debe inferir
que en la población no lo haya. Este es un suceso tal vez poco probable pero no
imposible.
2) n(0) = 200;
n(4) = 20+20+20+20+10 = 90;
n(1) = 100+100 = 200;
n(5) = 10+10+10 = 30;
n(2) = 80+150+70 = 300; n(6) = 10;
El modo muestral es 2. En virtud de los resultados de la muestra es probable que en la
población el modo sea también 2.
3) La cantidad de descendientes varones en la muestra es 310+2×130+3×90+4×30 = 960 y la
de mujeres es 310+2×150+3×90+4×10 = 920, es decir que poco más del 51% son varones
y poco menos del 49% son mujeres y por lo tanto es cierta la afirmación.
4) El promedio de descendientes por pareja es (960 + 920) 1000 = 1,88 , por lo que la afirmación
es falsa.
EJERCICIO 23
1)
COMP
0
1
2
3
4
h(COMP )
∑
COMP 2 .h(COMP )
∑
0
0,24
0,92
2,07
2,88
= 6,11
0,12
0,24
0,23
0,23
0,18
=1
COMP.h(COMP )
∑
0
0,24
0,46
0,68
0,72
= 2,11 ⇒ media de COMP es 2,11
17
S comp = 6,11 − 2,112 = 1,29
h(CRED )
CRED
1
2
3
0,39
0,35
0,26
∑
=1
MODOCRED = 1
2)
COMP / CRED = 3
0
1
2
3
4
hi
1 / 26
3 / 26
6 / 26
8 / 26
8 / 26
∑
=1
(COMP / CRED = 3).hi
0
3 / 26
12 / 26
24 / 26
32 / 26
∑
= 71 / 26 = 2,73
3) Cuando se tiene una tarjeta, lo más frecuente es que se hagan pocas compras con tarjeta, y
a medida que aumenta el número de tarjetas aumenta la proporción de personas que realizan
más compras con tarjeta. Por lo tanto, existe cierta correlación positiva entre las variables, pero
no muy fuerte (la distribución no está concentrada en la diagonal principal de la matriz de la
distribución conjunta).
EJERCICIO 24
1-2-3) Distribución conjunta y marginales
OPINION
1
2
3
4
Marg. De EDAD
20 - 40
0,12
0,07
0,08
0,07
0,34
40 - 60
0,03
0,08
0,12
0,10
0,33
60 - 80
0,03
0,05
0,08
0,17
0,33
Marg. De OPINION
0,18
0,20
0,28
0,34
1
4) Media de EDAD = 30*0,34 + 50*0,33 + 70*0,33 = 49,8
Si se hacen las cuentas con las frecuencias absolutas se obtiene que la media de EDAD es
50. La diferencia se debe a la aproximación con dos decimales.
5) EDAD / OP=1
20 – 40
40 – 60
60 – 80
hi
12 / 18
3 / 18
3 / 18
∑
=1
18
hi
EDAD / OP=3
7 / 20
8 / 20
5 / 20
20 – 40
40 – 60
60 – 80
6) EDAD / OP=2
20 – 40
40 – 60
60 – 80
∑
=1
EDAD / OP=4
hi
20 – 40
40 – 60
60 – 80
7 / 34
10 / 34
17 / 34
∑
hi
8 / 28
12 / 28
8 / 28
∑
=1
=1
7) M (EDAD / OP = 1) = 30.
12
3
3
+ 50. + 70. = 22
18
18
18
8) M (EDAD / OP = 2 ) = 30.
5
8
7
+ 50. + 70. = 48
20
20
20
M (EDAD / OP = 3) = 30.
8
12
8
+ 50.. + 70. = 50
28
28
28
M (EDAD / OP = 4) = 30.
7
10
17
+ 50. + 70. = 55,9
34
34
34
9) El promedio de edades aumenta cuanto mayor el puntaje otorgado por los clientes. Este
resultado indica correlación positiva entre edades y puntajes.
EJERCICIO 25
a)
Y (ALTURA HIJO)
1,85
b) n = 12
12
1,8
1,75
1,7
1,65
1,6
1,5
∑ xi = 20,32
i =1
1,6
1,7
1,8
X (ALTURA PADRE)
12
∑y
i =1
i
= 20,61
1,9
19
12
12
∑ xi2 = 34,4634
∑y
i =1
2
i
i =1
= 35,4223
x = 1,693
S x2 = 0,0046976
S x = 0,0676
y = 1,7175
S y2 = 0,00205209
S y = 0,0453
S xy =
c) rxy =
1 12
1 12
34,925
(
)(
)
x
−
x
y
−
y
=
xi yi − x y =
− (1,693)(1,7175) = 0,0021724
∑
∑
i
i
n i =1
n i =1
12
S xy
SxS y
= 0,70941 . Existe correlación lineal positiva fuerte entre la estatura del padre y
la estatura del hijo mayor.
EJERCICIO 26 (NOVALES 1.14)
Como Y = a.X + b entonces tenemos que:
ρ XY = ρ X.( aX + b ) =
1
n
n
∑
( x i − x )( y i − y )
i =1
S x .S y
=
=
1
n
n
∑
( x i − x )((ax i + b) − (a x + b))
i =1
S x .Sax + b
a S 2x
= Sgn(a) que es
a S 2x
a
=
1
n
n
∑ ( x − x)(x − x)
i
i =1
a S x .S X
⎧+ 1...si...a > 0
⎨
⎩− 1...si...a < 0
EJERCICIO 27 (NOVALES 1.12)
El coeficiente de correlación había sido definido como:
n
1
( x i − x )( y i − y )
n i =1
ρ xy =
S xS y
∑
Por lo tanto, si multiplicamos tanto X como Y por constantes, obtenemos:
n
n
1
1
(αx i − α x )(βy i − β y )
( x i − x )( yi − y )
n
αβ n i =1
=
= Sgn(α).Sgn(β). ρ xy
ραxβy = i =1
α Sx β Sy
S xS y
αβ
∑
Luego:
si Sgn(α) = Sgn(β) entonces ραxβy = ρ xy
si Sgn(α) ≠ Sgn(β) entonces ραxβy = - ρ xy
Si, en cambio, sumamos constantes:
∑
i
=
20
ρα+x
β+y
1 n
∑ [ (α + x i ) − (α + x ) ][. ( β + y i ) − ( β + y )
n i =1
=
SxSy
]
= ρ xy .
Ya que aplicando el Ejercicio 23 para a = 0 resultan: Sα + x = S x y Sβ + y = S y .
Concluimos entonces que al sumar constantes a las variables originales, no se modifica el
coeficiente de correlación, independientemente del signo de dichas constantes.
Descargar