PRCTICA 13: PRUEBA DE HIPTESIS DE BONDAD DE AJUSTE E

Anuncio
1
PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E
INDEPENDENCIA
En ocasiones ocurre que el encargado de hacer un trabajo estadístico no está seguro de la
distribución de una determinada variable aleatoria. Para solucionar tales dificultades surgen los
llamados test de Bondad de Ajuste.
Uno de ellos es el denominado contraste chi-cuadrado y que consiste en comparar las
frecuencias observadas en la muestra con las que deberían haberse obtenido en una población
que perteneciese a una distribución de probabilidad específica. De allí determinamos si la
variable tiene la distribución postulada (o teórica) o si no la tiene. La prueba puede aplicarse
tanto a distribuciones discretas como continuas, aunque previamente el investigador debe
establecer una partición conveniente del espacio muestral en sucesos mutuamente
excluyentes: para el caso de las discretas, esta partición puede darse “naturalmente”; para las
continuas depende solamente del criterio del investigador.
La prueba entonces, quiere discernir si una población tiene o no una determinada distribución y
por lo tanto las hipótesis adecuadas son:
H0) FX = F0
H1) FX ≠ F0
donde FX es la verdadera distribución de la variable de interés X, y F0 es la distribución
postulada y que está totalmente especificada.
Supongamos, entonces, que establecimos una partición del espacio muestral en k sucesos
k
mutuamente excluyentes cada uno con probabilidad teórica pi y por lo tanto
∑ p = 1. De allí,
i
i =1
se compara la frecuencia esperada si la distribución postulada fuera cierta en cada intervalo
n pi (que es la probabilidad pi multiplicada por el tamaño muestral n), con la observada en cada
uno de ellos y que notamos ni, por medio del siguiente estadístico:
χk2−1 =
k
∑
i =1
( ni − n p i ) 2
n pi
con las siguientes propiedades:
k
a) como
∑
i =1
k
pi = 1 ⇒ n
∑
i =1
k
pi =
∑n p
i
=n
i =1
k
b) como los k sucesos son excluyentes:
∑n = n
i
i =1
Por medio del contrate de razón de verosimilitudes se puede demostrar que la distribución
asintótica (es decir, cuando n tiende a infinito) del mencionado estadístico es, como se puede
intuir a partir de su notación, una chi-cuadrado con (k – 1) grados de libertad.
Por lo tanto, y como el estadístico compara la frecuencia teórica con la observada, se rechaza
H0 cuando éste es “grande” y por ello, la región crítica para un nivel α nos queda:
ℜ = ⎨ χk2 −1 =
k
∑
i =1
( ni − n p i ) 2
≥ χk2 −1, 1− α ⎬
n pi
Observaciones:
a) Los grados de libertad corresponden a la cantidad de sucesos mutuamente
k
excluyentes menos uno, dado que la relación
∑ n = n implica que sólo k – 1 eventos
i
i =1
son independientes.
b) Como la distribución del estadístico es asintótica ello crea una dificultad en cuanto a
qué tamaño de muestra es aceptable. En general, se considera que la aproximación es
buena si las frecuencias esperadas para cada suceso son mayores o iguales a cinco
(npi ≥ 5, para todo i).
c) Si las frecuencias esperadas para algún suceso son menores que 5, se debe agrupar
con algún otro, reduciéndose en tal caso los grados de libertad: éstos son siempre un
grado menos que los sucesos finales considerados.
1
2
d) Si es necesario estimar algún parámetro, entonces el estadístico pierde un grado de
libertad por cada parámetro estimado,
e) La forma del estadístico es coherente con los que pretende medir. En primer lugar
(ni – n pi) evalúa qué tan lejos están las observaciones de los valores teóricos. Luego,
(ni – n pi)2 evita que las diferencias en más y en menos se compensen. Y por último la
división entre n pi, “estandariza” el cociente, de tal forma que diferencias en magnitud
tengan siempre la misma distribución.
EJERCICIO 1 (CANAVOS 10.2)
Sea X = Mes en que ocurre el nacimiento en un hospital
Queremos elegir entre:
H0) X ∼ Uniforme discreta (1,12)
H1) X no se distribuye Uniforme discreta (1,12)
Como la variable es una uniforme discreta y los sucesos posibles son k = 12, entonces cada
1
pi =
y como el tamaño total de nacimientos es n = 1200, entonces n pi = 100, para todo i.
12
2
El límite de la región crítica es, a un nivel α = 0,01: χk2 −1, 1− α = χ11
, 0,99 = 24,725.
El valor del estadístico lo calculamos:
χk2 −1 =
k
∑
i =1
( ni − n p i ) 2
n pi
=
(95 − 100 )2
100
+
(105 − 100 )2
100
+
(95 − 100 )2
100
+
(105 − 100 )2
100
+
(90 − 100 )2
(95 − 100 )2
(105 − 100 )2
(110 − 100 )2
(105 − 100 )2
(100 − 100 )2
+
+
+
+
+
+
100
100
100
100
100
100
(95 − 100 )2
(100 − 100 )2
+
=4
100
100
Por lo tanto como 4 < 24,725, entonces no caemos en la R.C. y por lo tanto no se rechaza H0 a
ese nivel.
Recordemos que el p-valor es la probabilidad de que el estadístico de prueba tome valores
peores, en el sentido de la región crítica, que el que tomó en la muestra. En este caso:
p-valor = P ( χk2 −1 ≥ 4) = 1 - 0,03 = 0.97
Observación: Si el p-valor es mayor que el nivel α, entonces no se rechaza H0 y si es mayor,
entonces se rechaza.
SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”:
#Ejer 1
x<-c(Ene=95,Feb=105,Mar=95,Abr=105,May=90,Jun=95,
Jul=105,Ago=110,Set=105,Oct=100,Nov=95,Dic=100)
chisq.test(x)
Chi-squared test for given probabilities
data: x
X-squared = 4, df = 11, p-value = 0.97
2
3
EJERCICIO 2 (SEGUNDA REVISIÓN DE 1998)
1) Sea X = cantidad de goles por partido en el mundial de fútbol de Francia 98
Las hipótesis que nos planteamos son:
H0) X tiene distribución Poisson
H1) X no tiene distribución Poisson
Como no conocemos el parámetro λ de la distribución de Poisson debemos estimarlo:
xi
n ( x i ) = ni
h ( xi )
xi h ( xi )
0
1
2
3
4
5
6
7
5
10
13
19
11
5
0
1
64
0,078125
0,15625
0,203125
0,296875
0,171875
0,078125
0
0,015625
1
0
0,15625
0,40625
0,890625
0,6875
0,390625
0
0,109375
2,640625
Entonces λˆ = x = 2,64.
Por otra parte, como las frecuencias esperadas en la primera y tres últimas categorías son
menores que 5 debemos reagrupar, para luego calcular sus probabilidades postuladas:
(n i − n pi )2
xi
pi
n pi
n ( x i ) = ni
n pi
0y1
2
3
4
5 y más
15
13
19
11
6
64
0.2596
0.2486
0.2189
0.1445
0.1284
1
16.6168
15.9131
14.0068
9.2467
8.2166
64
0.1573
0.5333
1.7800
0.3324
0.5980
3.4010
Como la cantidad de categorías finalmente utilizadas es de 6, y se estima un parámetro
entonces los grados de libertad del estadístico son cuatro. La región crítica a un nivel del 5%
queda:
ℜ = ⎨ χ 24 > χ 24, 0,95 = 9,48773⎬
y como χ 24 = 3,4010 < χ 24, 0,95 = 9,48773, no se rechaza H0 al nivel mencionado.
2) Como p-valor = P ( χ 24 > 3,4010) = 0,5060, es mayor que 0,10.
SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”:
#Ejer 2
GOLES<-c(0,1,2,3,4,5,6,7)
GOLES.O<-c(5,10,13,19,11,5,0,1)
n<-sum(GOLES.O)
mu<-sum(GOLES*GOLES.O)/n
GOLES.E<-c(dpois(GOLES[-8], mu),ppois(6,mu, lower.tail=FALSE))*n
chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE)
3
4
chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE ,simulate.p.value = TRUE)
Chi-squared test for given probabilities with simulated p-value (based
on 2000 replicates)
data: GOLES.O
X-squared = 5.2174, df = NA, p-value = 0.6262
#La diferencia entre los valores para p-value (0.6335 y 0.6262) para los datos originales
#y simulados no indican la necesidad de reagrupar.
#Sin embargo, si lo indica la regla (muy conservadora) ne >= 5. ¿Qué hace el R?
GOLES.E>=5
[1] FALSE TRUE TRUE TRUE TRUE FALSE FALSE FALSE
GOLES.O<-c(sum(GOLES.O[1:2]), GOLES.O[3:5], sum(GOLES.O[6:8]))
GOLES.E<-c(ppois(1,mu),dpois(GOLES[3:5], mu),ppois(4,mu, lower.tail=FALSE))*n
GOLES.E>=5
[1] TRUE TRUE TRUE TRUE TRUE
chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE)
Chi-squared test for given probabilities
data: GOLES.O
X-squared = 3.401, df = 4, p-value = 0.4931
EJERCICIO 3
PUNTAJE FRECUENCIAS MARCA
FREC. REL.
[ x i' , x i' +1 )
n ( x i ) = ni
xi
h ( xi )
[0, 10)
[10, 15)
[15, 20)
[20, 25)
[25, 30)
[30, 40)
[40, 50)
24
49
71
72
37
21
16
290
5
12,5
17,5
22,5
27,5
35
45
0,08275862
0,16896552
0,24482759
0,24827586
0,12758621
0,07241379
0,05517241
1
x i h ( x i ) ( x i − x )2 h ( x i )
0,4137931
2,11206897
4,28448276
5,5862069
3,50862069
2,53448276
2,48275862
20,9224138
20,9812354
11,9859161
2,86764501
0,61790356
5,51997134
14,3508521
31,9851121
88,3086356
Sea X = el puntaje de una prueba de un estudiante. Queremos elegir entre las hipótesis:
H0) X se distribuye normal
H1) X no se distribuye normal
En este caso hay que estimar los parámetros de la normal. Ello lo hacemos en el cuadro de
arriba y en él obtenemos: μˆ = x = 20,92 y σ̂ 2 = s2 = 88,9208. Con estas estimaciones
calculamos las probabilidades de cada intervalo si la distribución es normal y que denotamos
por pi, y los valores esperados n pi:
4
5
[ x i' , x i' +1 )
F( x i' +1 )
F( x i' )
pi
n pi
(n i − n pi )2
n pi
[0, 10)
[10, 15)
[15, 20)
[20, 25)
[25, 30)
[30, 40)
[40, 50)
0,1226783
0,26441684
0,46101677
0,6678712
0,83296727
0,97881098
1
0,01302273
0,1226783
0,26441684
0,46101677
0,6678712
0,83296727
0,97881098
0,1226783
0,14173854
0,19659994
0,20685443
0,16509607
0,14584371
0,02118902
1
35,5767059
41,104177
57,0139812
59,9877842
47,8778602
42,2946767
6,14481485
290
3,76707498
1,51673202
3,43089045
2,40537853
2,4714522
10,7215208
15,8059562
40,1190052
Como la cantidad de sucesos (en este caso intervalos) es 7, y se estimaron 2 parámetros los
χ 24, 0.99
grados de libertad del estadístico son 4 y por lo tanto el valor crítico es
valor que toma el estadístico es, como se ve en el cuadro, χ 24 = 40,119 >
= 13,2767. El
χ 24, 0.99
= 13,2767,
con lo que caemos en la R.C. y por lo tanto rechazamos H0 al nivel del 1%.
Nota: En el cuadro de arriba se toma como p1 = F (10) = P ( − ∞ ≤ X ≤ 10) en vez de F (10) –
k
F (0) y p7 = 1 – F (40) en vez de F (50) – F (40), a efectos de que
∑ p = 1, porque la Normal
i
i =1
puede tomar valores entre –∞ y +∞, y es necesario considerar esta discrepancia con la
muestra.
SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”:
#Ejer 3
Puntaje<-c("-Inf - 10","10 - 15","15 - 20","20 - 25","25 - 30","30 - 40","40 - +Inf")
Marca<-c(5,12.5,17.5,22.5,27.5,35,45)
Frecuencia.O<-c(24,49,71,72,37,21,16)
n<-sum(Frecuencia.O)
mu<-sum(Marca*Frecuencia.O/n)
sigma<-sqrt((1/(n-1))*(sum(Marca^2*Frecuencia.O)-n*mu^2))
x<-c(0,10,15,20,25,30,40,50)
z<-(x-mu)/sigma
Frecuencia.E<-(pnorm(c(z[2:7], +Inf))-pnorm(c(-Inf, z[2:7])))*n
Frecuencia.E>=5
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE
chisq.test(Frecuencia.O, p=Frecuencia.E, rescale.p = TRUE)
Chi-squared test for given probabilities
data: Frecuencia.O
X-squared = 40.0251, df = 6, p-value = 4.504e-07
tabla<-data.frame(Puntaje=Puntaje, Marca=Marca, O=Frecuencia.O, E=Frecuencia.E,
+ dif=(Frecuencia.O-Frecuencia.E)^2/Frecuencia.E)
5
6
tabla
Puntaje
1 -Inf - 10
2 10 - 15
3 15 - 20
4 20 - 25
5 25 - 30
6 30 - 40
7 40 - +Inf
Marca
5.0
12.5
17.5
22.5
27.5
35.0
45.0
O
24
49
71
72
37
21
16
E
35.659895
41.082459
56.939179
59.908510
47.851161
42.367070
6.191726
dif
3.812494
1.525894
3.472243
2.440457
2.460707
10.776098
15.537224
sum(tabla$dif)
[1] 40.02512
qchisq(0.99,4)
[1] 13.27670
EJERCICIO 4 (CANAVOS 10.6)
Sea X = número de personas que desarrollan alguna enfermedad cardíaca
Queremos discernir entre las hipótesis:
H0) X tiene distribución uniforme (en las cuatro categorías)
H1) X no tiene distribución uniforme
a) Como la cantidad de categorías son cuatro y no se estimó ningún parámetro los grados de
libertad del estadístico son tres. El valor de éste, con los datos de la muestra, es:
χ 23 =
(58 − 40)2
(54 − 40)2
(36 − 40)2
(12 − 40)2
+
+
+
= 33
40
40
40
40
Como el valor de tablas es
χ 23, 0.99
= 11,34488 y 33 > 11,34488, entonces se rechaza H0 y por
lo tanto a un nivel del 1%, existe evidencia estadística suficiente para afirmar que la variable no
es uniforme.
b) Advertirle al investigador médico que la distribución del estadístico es asintótica.
SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”:
#Ejer 4
x<-c(Agudo=58,Moderado=54,Ocasional=36,Nofuma=12)
chisq.test(x)
Chi-squared test for given probabilities
data: x
X-squared = 33, df = 3, p-value = 3.221e-07
EJERCICIO 5 (EXAMEN DE FEBRERO DE 1999)
1) Sea X = número de pacientes que atiende un odontólogo en una semana
1.1) H0) X se distribuye uniforme discreta
H1) X no se distribuye uniforme discreta
1.2) H0) X tiene una distribución con probabilidades p1 = p2 = p3 = 0,16 y p4 = p5 = 0,26
H1) X no tiene dicha distribución
2) En este caso no hay que estimar ningún parámetro y dado que la cantidad de categorías es
k = 5:
6
7
χk2 −1 =
k
∑
i =1
( ni − n p i ) 2
n pi
d
→ χ 24
3) La región crítica, a un nivel del 5%, es:
ℜ = ⎨ χ 24 > χ 24, 0,95 = 9,48773⎬
En la tabla siguiente se calcula el valor del estadístico:
DÍA
ni
pi
n pi
(n i − n pi )2
n pi
1
2
3
4
5
10
9
11
14
16
60
0,16
0,16
0,16
0,26
0,26
1
9,6
9,6
9,6
15,6
15,6
60
0,01666667
0,0375
0,20416667
0,16410256
0,01025641
0,43269231
Entonces, χ 24 = 0,43268 <
χ 24, 0,95 = 9,48773 y por lo tanto no rechazamos H0 al 5% de
significación: el odontólogo no tiene evidencia estadística suficiente para afirmar que, con los
nuevos horarios, la distribución de sus pacientes en los días de la semana, haya cambiado.
4) Cometemos un error de tipo II cuando no rechazamos H0 siendo H0 falsa. En este caso
sería sostener que la distribución no cambió, a pesar de la nueva estrategia de atención del
odontólogo, cuando en realidad sí lo hizo.
SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”:
#Ejer 5
O<-c(10,9,11,14,16)
n<-sum(O)
p<-c(0.16,0.16,0.16,0.26,0.26)
E<-p*n
E>=5
[1] TRUE TRUE TRUE TRUE TRUE
chisq.test(O,E)
Pearson's Chi-squared test
data: O and E
X-squared = 5, df = 4, p-value = 0.2873
Warning message:
In chisq.test(O, E) : Chi-squared approximation may be incorrect
#¿Por qué aparece un “Warning message:”?
7
8
EJERCICIO 6 (SEGUNDA REVISIÓN DE 1996)
X = la demanda total semanal de un producto en miles de Kg.
Para calcular las probabilidades de la muestra presentada en el cuadro, debemos hallar la
función de distribución:
a) si x ∈ [ 0, 1) ⇒ FX(x) =
b) si x ∈ [ 1, 2) ⇒ FX(x) =
∫
x t2
0
∫
2
1 t2
0
2
dt =
dt +
x3
6
∫
x
1
(
1
− 7 t3
− 7 t2
+ 10 t − 6) dt =
+ (
+ 5 t 2 − 6t )
6
6
2
x
1
=
1
7
14
− 7 x3
− 7 x3
+
+ 5 x2 − 6 x +
–5+6=
+ 5 x2 − 6 x +
6
6
6
6
6
1) La prueba tiene, entonces, las siguientes hipótesis:
H0) X tiene distribución FX
H1) X no tiene distribución FX
Como la cantidad de categorías de la muestra es 4 y no se estima ningún parámetro, los
grados de libertad son 3 y por lo tanto la región crítica a un nivel del 10% es:
ℜ = ⎨ χ 32 > χ 32, 0,90 = 6,25139⎬
En el siguiente cuadro calculamos el valor del estadístico:
[ x i' , x i' +1 )
[ 0; 0,5)
[0,5; 1)
[1; 1,5)
[1,5; 2)
ni
9
61
195
135
F( x i' )
F( x i' +1 )
pi
n pi
0,02083333
0
0,02083333 8,33333333
0,16666667 0,02083333 0,14583333 58,3333333
0,64583333 0,16666667 0,47916667 191,666667
1
0,64583333 0,35416667 141,666667
1
400
(n i − n pi )2
n pi
0,05333333
0,12190476
0,05797101
0,31372549
0,5469346
Entonces
0,54693 = χ 32 < χ 32, 0,90 = 6,25139 y por lo tanto no rechazamos H0 al 10%.
2) En ambas pruebas la decisión es no rechazar H0 porque no tengo evidencia estadística
suficiente para hacerlo. Esto significa, que a dicho nivel, no se puede hallar diferencias
sustanciales, con los datos de la muestra obtenida, entre las distribuciones postuladas y la real.
Lo que sucede en la realidad es que si no se rechazan dos distribuciones distintas, éstas no
deberían ser muy diferentes.
SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”:
#Ejer 6
f<-function(x)
{
ifelse(x<0,1,0)*0+
ifelse(x>=0 & x<1,1,0)*x^2/2+
ifelse(x>=1 & x<=2,1,0)*(-7*x^2/2+10*x-6)+
ifelse(x>2,1,0)*0
}
8
9
> integrate(f,-Inf,Inf)
1 with absolute error < 3.4e-06
p1E<-integrate(f,0, 0.5)$value; p1O<-9
p2E<-integrate(f,0.5, 1)$value; p2O<-61
p3E<-integrate(f,1,1.5)$value; p3O<-195
p4E<-integrate(f,1.5,2)$value; p4O<-135
datos<-data.frame(E=400*c(p1E, p2E, p3E, p4E), O=c(p1O, p2O, p3O, p4O))
chisq.test(datos$O, p=datos$E, rescale=TRUE)
Chi-squared test for given probabilities
data: datos$O
X-squared = 0.5469, df = 3, p-value = 0.9085
EJERCICIO 7 (CANAVOS 10.14)
En este ejercicio aplicaremos el Test de Ajuste de Kolmogorov-Smirnoff, el cual se diseñó
específicamente para determinar si una variable aleatoria continua tiene o no determinada
distribución.
A tales efectos, se utiliza la función de distribución empírica (vista en la Práctica 9, Ejercicio
12):
Fn* ( x ) =
1
n
n
∑ 1{
i =1
Xi ≤ x
}
la cual es, como vimos anteriormente, la función que vale 0, hasta el mínimo dato de la
1
2
muestra; vale
entre el mínimo y el segundo más chico;
entre el segundo y el tercero más
n
n
chico; ... y 1, del más grande en adelante.
Si llamamos X (1) al dato más chico de la muestra, X (2) al segundo más chico, ..., y X (n) al más
grande, podemos graficar la función de la siguiente manera:
1
2
n
1
n
X (1)
X (2)
X ( n)
9
10
En el Ejercicio 12 de la mencionada práctica 9, demostramos que Fn* ( x ) es un estadístico
consistente para estimar FX(x) = P (X ≤ x). Kolmogorov y Smirnoff demostraron que:
n
sup Fn* ( x ) − FX ( x ) ⎯⎯→
0
x
y que la distribución de cada uno los siguientes estadísticos no depende de la distribución de
X:
Dn+ = sup ( Fn* ( x ) − FX ( x ) ) , Dn− = sup ( FX ( x ) − Fn* ( x ) ) y Dn = sup Fn* ( x ) − FX ( x )
x
x
x
a condición de que la distribución de X sea continua.
Nótese que decir que la distribución de los estadísticos antedichos no depende de X, indica
que esa distribución es fija y que se puede tabular (de hecho están tabuladas en cualquier libro
de texto de Estadística).
La demostración del Teorema, en general, no aparece en los libros de texto y está fuera del
alcance de este curso: simplemente se quiere puntualizar que ella está basada en la conocida
propiedad de que la variable aleatoria Y = FX(X) ∼ U [ 0, 1] ( FX(X) es aplicar FX a la variable
aleatoria X) a condición de que X sea continua.
Estamos en condiciones, entonces, para contrastar las hipótesis:
H0) FX(x) = F0(x)
H1) FX(x) ≠ F0(x)
Si F0 es la verdadera distribución de X, entonces se debe cumplir que sup Fn* ( x ) − F0 ( x ) =
x
sup
x
Fn*
n
( x ) − FX ( x ) ⎯⎯→ 0 , se rechazará H0 si Dn ≥ K . Por lo tanto, para que el nivel de
significación sea α, la región crítica debe ser:
ℜ = ⎨ Muestras: Dn ≥ Dn, 1 − α⎬
Tres observaciones finales:
a) como el tamaño de muestra es n, finito, entonces: sup Fn* ( x ) − F0 ( x ) = máx Fn* ( x ) − F0 ( x )
x
b) máx Fn* ( x ) − F0 ( x ) = máx
x
1 ≤i ≤n
máx
x ∈ [ X ( i + 1) − X ( i ) )
x
Fn* ( x ) − F0 ( x ) (para encontrar el máximo se puede
tomar el máximo en cada intervalo, y de esos n máximos tomar el máximo)
c) En cada intervalo [ X ( i) − X ( i+1)), la función Fn* ( x ) es constante, y como F0(x) es creciente
(por ser X absolutamente continua), el
máx
x ∈ [ X ( i + 1) − X ( i ) )
Fn* ( x ) − F0 ( x ) se alcanza sólo en los
extremos.
Pasemos a la resolución del ejercicio:
10
11
x
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
38
41
45
50
F0(x)
0.033473
0.0487404
0.06833493
0.0926039
0.12170516
0.15558433
0.19397098
0.23639308
0.28220716
0.33064005
0.38083679
0.43191036
0.4829887
0.5332551
0.5819805
0.62854634
0.67245761
0.78520616
0.86772621
0.93658907
0.97770698
Fn*(x)
0.04
0.08
0.12
0.16
0.24
0.28
0.32
0.4
0.48
0.52
0.56
0.6
0.68
0.72
0.76
0.8
0.84
0.88
0.92
0.96
1
Fn*(x-ε )−F0(x) Fn*(x) −F0(x)
-0.033473
0.006527
-0.0087404 0.0312596
0.01166507 0.05166507
0.0273961 0.0673961
0.03829484 0.11829484
0.08441567 0.12441567
0.08602902 0.12602902
0.08360692 0.16360692
0.11779284 0.19779284
0.14935995 0.18935995
0.13916321 0.17916321
0.12808964 0.16808964
0.1170113 0.1970113
0.1467449 0.1867449
0.1380195 0.1780195
0.13145366 0.17145366
0.12754239 0.16754239
0.05479384 0.09479384
0.01227379 0.05227379
-0.01658907 0.02341093
-0.01770698 0.02229302
0.14935995 0.19779284
Notación: Los intervalos [ X ( i) − X ( i+1)) se definen naturalmente y son, a vía de ejemplo:
(−∞, 19), [19,20), ... . [45, 50), [50, +∞). La notación F0(x–ε) corresponde a evaluar F0 en el
extremo izquierdo de cada intervalo.
Si hallamos el máximo del valor absoluto de las columnas Fn* ( x ) −F0(x–ε) y Fn* ( x ) −F0(x),
obtenemos que Dn = 0.19779284 < 0.27 = Dn, 1 − α, con lo cual no tenemos evidencia estadística
necesaria para rechazar H0 al nivel del 5%.
SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”:
#Ejer 7
Edades<-c(24, 19, 20, 22, 50, 23, 23, 21, 25, 27, 45, 27, 26, 26, 35,
29, 28, 30, 31, 32, 31, 33, 34, 38, 41)
Edades<-Edades[order(Edades)]
ks.test(Edades, pgamma, 16, 0.5,
alternative = c("two.sided"))
One-sample Kolmogorov-Smirnov test
data: Edades
D = 0.1978, p-value = 0.2820
alternative hypothesis: two-sided
Warning message:
In ks.test(Edades, pgamma, 16, 0.5, alternative = c("two.sided")) :
cannot compute correct p-values with ties
#Investigar por que da un mensaje de alerta
11
12
EJERCICIO 8
En este ejercicio y en los posteriores de esta Práctica veremos las llamadas Pruebas de
Hipótesis de Independencia, las cuales aplicaremos a dos rasgos distintos de una misma
población (para más aspectos el razonamiento es relativamente similar). La idea consiste en
comparar, de manera similar al Test de Ajuste Chi-cuadrado, las frecuencias realmente
observadas en la muestra, para cada suceso, con las que teóricamente deberían haberse
observado en el caso de ser cierta las hipótesis nula de independencia.
Las hipótesis que se plantean entonces, son:
H0) X y Y son independientes
H1) X y Y no son independientes
Como la cantidad de categorías que se toman es un conjunto finito, si llamamos pi. a la
probabilidad marginal del i-ésimo suceso de la variable X y p.j al j-ésimo suceso de la variable
Y, las hipótesis anteriores son equivalentes a las siguientes:
H0) pi j = pi. x p.j, para todo i = 1, 2, …, r y todo j = 1, 2, ..., s (siendo r y s la cantidad de
posibles sucesos de las variables X y Y respectivamente)
H1) pi j ≠ pi. x p.j, para algún i y j.
Si pueden especificarse las probabilidades marginales pi. y p.j, entonces bajo la hipótesis nula,
la estadística:
r
s
( Nij − n pi. p . j )2
2
χrs
=
−1
n pi. p. j
i =1 j =1
∑∑
tiene una distribución asintótica chi-cuadrado con (r s – 1) grados de libertad
Sin embargo, la mayoría de las veces pueden no conocerse los valores de las probabilidades
marginales, por lo que se estiman en base a la muestra. Para ello se usan los estimadores de
máxima verosimilitud de pi. y p.j que son respectivamente:
ni .
n. j
y p̂. j =
p̂i . =
n
n
donde ni. y n.j son las frecuencias absolutas del i-ésimo suceso de la variable X y del j-ésimo
suceso de la variable Y.
Afortunadamente, la estadística chi-cuadrado permanece como la apropiada para la prueba,
siempre que se empleen los estimadores antedichos y se le reste un grado de libertad por cada
r
∑
parámetro estimado. Entonces como
s
pi . = 1 y
i =1
∑p
.j
= 1 , existen (r – 1) parámetros de la
i =1
variable X y (s – 1) parámetros de la variable Y a estimar y por lo tanto el número de grados de
libertad será (r s – 1 – (r – 1) – (s – 1) = (r – 1) (s – 1).
Al sustituir las probabilidades por los estimadores nos queda la estadística:
n i . n. j 2
)
( Nij −
r
s
n
χ 2(r −1) ( s −1) =
n i. n. j
∑∑
i =1
j =1
n
Si la hipótesis nula es cierta N ij está próximo a
por ello la región crítica a un nivel α nos queda:
ℜ=
⎨ χ 2(r −1) ( s −1)
=
r
s
i =1
j =1
∑∑
ni . n. j
n
( Nij −
y el estadístico toma valores pequeños, y
n i . n. j
n
n i. n. j
)2
≥ χ 2(r −1) ( s −1) , 1− α ⎬
n
Las hipótesis que nos planteamos en este ejercicio son:
H0) X y Y son independientes
H1) X y Y no son indepedientes
12
13
donde X = la categoría de la población económicamente activa (P:E:A.) y Y = la edad de la
P:E:A:
CUADRO DE VALORES OBSERVADOS
< 25
25 - 60
> 60
50
220
40
O.I.M.
60
150
20
O.C.
50
250
30
O.S
40
80
10
DESOC.
200
700
100
310
230
330
130
1000
Luego de calcular las probabilidades estimadas mediante las fórmulas antedichas, podemos
obtener un cuadro de valores esperados (multiplicando aquellas por el tamaño de la muestra):
CUADRO DE VALORES ESTIMADOS
< 25
25 - 60
> 60
62
217
31
O.I.M.
46
161
23
O.C.
66
231
33
O.S
26
91
13
DESOC.
Como el valor del estadístico es χ 26 = 25,6554 tiene probabilidad P( χ 26 >=25,6554) =
0,13967 = χ 26, 0,97 , entonces rechazamos H0 a un nivel del 3%: tenemos evidencia estadística
suficiente para rechazar la hipótesis de independencia entre ambas variables.
SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”:
#Ejer 8
O<-matrix(data=c(50,220,40,60,150,20,50,250,30,40,80,10),
nrow=4, ncol=3, byrow = TRUE)
chisq.test(O, rescale.p = TRUE)
Pearson's Chi-squared test
data: O
X-squared = 25.6554, df = 6, p-value = 0.0002581
EJERCICIO 9 (SEGUNDA REVISIÓN DE 1997)
1) Como en el cuadro de valores observados las tres primeras columnas dan 103, 93 y 94
respectivamente, lo mismo debe suceder con las de los valores esperados y por lo tanto:
α = 103 – (24,7 + 15,4 + 18,8 + 17,9) = 26,2
β = 93 – (22,3 + 13,9 + 16,9 + 16,2) = 23,7
γ = 94 – (22,6 + 14 + 17,1 + 16,3) = 24
2) H0) Hay independencia entre la marca de yogur comprada más frecuentemente
H1) No la hay
O equivalentemente, definiendo X = la marca de yogur más frecuentemente comprada y Y = la
característica principal del yogur y además p i. la probabilidad de que X sea la marca i-ésima y
p.j la probabilidad de que Y sea la característica j-ésima:
13
14
H0) pi j = pi. x p.j, para todo i = 1, 2, …, 5 y todo j = 1, 2, ..., 5
H1) pi j ≠ pi. x p.j, para algún i y j
3) Como no hay que estimar ningún parámetro el estadístico tiene 24 grados de libertad y
como χ 224 = 40,45 > 36,415 = χ 224, 0,95 , entonces rechazamos H0 a un nivel del 5%: tenemos
evidencia estadística suficiente para rechazar la hipótesis de independencia entre ambas
variables.
4) Recordamos que el p-valor es la probabilidad de que suceda lo que sucedió o algo peor en
el sentido de la región crítica, o sea:
p-valor = P ( χ 224 > 40,45)
Pero como:
P ( χ 224 > 40,45) < P ( χ 224 > 36,415) = α ⇒ p < α
SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”:
#Ejer 9
O<-matrix(data=c(30,30,20,15,28,
28,28,18,16,26,
15,10,15,23,9,
14,13,16,27,18,
16,12,25,24,7),
nrow=5, ncol=5, byrow = TRUE)
chisq.test(O, rescale.p = TRUE)
Pearson's Chi-squared test
data: O
X-squared = 40.4543, df = 16, p-value = 0.000668.
EJERCICIO 10
1. H0) Los atributos son independientes
H1) Los atributos no son independientes
α = 0,01
RC = {Muestras tales que
χ (2m −1).( q −1) > k }
Hay que hallar el cuadro de valores esperados para calcular el estadístico chi-cuadrado
CUADRO DE VALORES ESPERADOS
SI
N0
TOTAL
40
360
400
CÁNCER
960
8.640
9.600
OTRA
1.000
9.000
10.000
TOTAL
El valor del estadístico en la muestra es 740,74. El estadístico chi-cuadrado tiene, en
este caso, 1 grado de libertad. El valor de tablas que acumula 0,99 es 6,63 y, por tanto,
el valor de la muestra cae en la región típica. Conclusión: las variables no son independientes. Es fácil advertir que la asociación se da entre las categorías “ser fumador” y
“morir de cáncer de pulmón”.
14
15
2. P(Morir de cáncer de pulmón / Ser fumador) = 200 / 1.000 = 0,20
P(Morir de cáncer de pulmón / No ser fumador) = 200 / 9.000 = 0,022
Observación: en este ejercicio resulta que es 9 veces más probable morir de cáncer de
pulmón si se es fumador que si no se es. Los estudios realizados en la década del 50
(“Vejentud: humano tesoro” – Tálice) en EEUU mostraban que este coeficiente llegaba
a 19.
SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”:
#Ejer 10
O<-matrix(data=c(200,200,800,8800),
nrow=2, ncol=2, byrow = TRUE)
chisq.test(O, rescale.p = TRUE)
Pearson's Chi-squared test with Yates' continuity correction
#Quién es Yates?
data: O
X-squared = 736.1183, df = 1, p-value < 2.2e-16.
EJERCICIO 11 (CANAVOS 10.22)
Sea X = la marca de preferencia de un consumidor y Y = la región geográfica en la que habita.
Como en ejercicios anteriores, queremos probar:
H0) X y Y son independientes
H1) X y Y no son independientes
Elaboramos el cuadro:
CUADRO DE VALORES ESPERADOS ESTIMADOS
REGIÓN 1
REGIÓN 2
REGIÓN 3
39
48,75
29,25
MARCA A
39,25
MARCA B 52,33333333 65,41666667
51,5
MARCA C 68,66666667 85,83333333
160
200
120
117
157
206
480
El estadístico chi-cuadrado, en este caso, tiene cuatro grados y libertad y como dada la
muestra χ 24 = 3,76754 < χ 24, 0,95 = 9,48773, no rechazamos H0, es decir que no hay evidencia
necesaria suficiente para rechazar la hipótesis de independencia entre ambas variables.
En R:
#Ejer 11
O<-matrix(data=c(40,52,25,
52,70,35,
68,78,60),
nrow=3, ncol=3, byrow = TRUE)
chisq.test(O, rescale.p = TRUE)
Pearson's Chi-squared test
data: O
X-squared = 3.7675, df = 4, p-value = 0.4384
15
Descargar