Contrastes No Paramétricos

Anuncio
Contrastes No Paramétricos
Los contrastes no paramétricos son aquellos cuyas hipótesis
no involucran parámetros de las funciones de probabilidad o
densidad, sino otras cosas como la distribución de la
variable, la mediana, etc…
Los contrastes sobre la mediana se utilizan cuando las variables
son continuas, pero no tienen distribución normal
Test de Bondad de Ajuste de K-S
(para muestras pequeñas)
Variable de interés X.
Contraste
Muestra X1, X2, … Xn
H 0 : X sigue la distribución M ⇒ f ( X ) = f 0 ( X )
H 1 : X no sigue la distribución M ⇒ f ( X ) ≠ f 0 ( X )
F0 (Xi) = P(X ≤ Xi / M)
Estadístico del contraste
0 si Xi < x1
Dn = max S n ( X i ) − F0 ( X i )
≤ Xi ≤ xk+1 k = 1,...,n −1
n xk
1 si Xi ≥ xn
Sn (Xi ) = k
i
{Dn / Dn > Dn (α ) tabla}
R.C:
1
Tabla de K-S
Ejemplo de K-S
Úsese la estadística de Kolmogorov-Smirnov para probar la hipótesis nula de que los
siguientes datos se encuentran normalmente distribuidos con media 50 y desviación típica
10. Considere α = 0.05
SOLUCION:
38
63
25
49
58
35
33
36
48
44
58
53
32
42
44
Hipótesis:
H0: f(x) = N(50,10)
H1: f(x) ≠ N(50,10)
48
51
61
52
56
59
28
57
47
α = 0.05
n = 24
1/24 = 0.0417
Ver tabla siguiente
Dn= máx |Sn(x) - F0(x)| = 0.1767
D(tabla) = D 24, 0.05 = 0.27
R.C. : {Dn / Dn > D(tabla)} = {Dn / Dn > 0.27}
Como 0.1767 < 0.27 Î 0.1767 ∉ R.C. Î Se acepta H0
No existen indicios suficientes en la muestra como para suponer que la distribución
no sea la normal de media 50 y desviación típica 10
2
Ejemplo de K-S
Valores Ordenados
Sn(x)
F0(x)
|Sn(x) - F0(x)|
25
28
32
33
35
36
38
42
44
44
47
48
48
49
51
52
53
56
57
58
58
59
61
63
0.0417
0.0833
0.125
0.1667
0.2084
0.2501
0.2918
0.3335
0.3752
0.4169
0.4586
0.5003
0.542
0.5837
0.6254
0.6671
0.7088
0.7505
0.7922
0.8339
0.8756
0.9173
0.959
1.000
0.0062
0.0139
0.0359
0.0446
0.0668
0.0808
0.1151
0.2119
0.2743
0.2743
0.3821
0.4207
0.4207
0.4602
0.5398
0.5793
0.6179
0.7257
0.7580
0.7881
0.7881
0.8159
0.8643
0.9032
0.0355
0.0694
0.0891
0.1221
0.1416
0.1693
0.1767
0.1216
0.1009
0.1426
0.0765
0.0796
0.1213
0.1235
0.0856
0.0878
0.0909
0.0248
0.0342
0.0458
0.0875
0.1014
0.0947
0.0968
Test de Bondad de Ajuste Chi-Cuadrado
(para muestras grandes)
Variable de interés X.
Contraste
Muestra X1, X2, … Xn
H 0 : X sigue la distribución M ⇒ f ( X ) = f 0 ( X )
H1 : X no sigue la distribución M ⇒ f ( X ) ≠ f 0 ( X )
3
Test de Bondad de Ajuste Chi-Cuadrado
(para muestras grandes)
Limitaciones de la prueba:
‰ Es una prueba de naturaleza discreta. Se puede utilizar para distribuciones
continuas, siempre y cuando el tamaño de la muestra sea grande.
‰ Para poder aplicar correctamente este test, las frecuencias esperadas de las
diferentes clases debe ser >5. Para superar esta restricción tenemos dos
posibilidades:
9 Aumentar tamaño de la muestra
9 Combinar celdas adyacentes
‰ Como ventaja respecto a K-S la distribución a la que se pretende ajustar
puede no estar completamente especificada
Ejemplo Bondad Ajuste Chi-Cuadrado
El gerente de una planta industrial pretende determinar si el número de empleados que
asisten al consultorio médico de la planta se encuentra distribuido, en forma equitativa,
durante los cinco días de trabajo de la semana. Con base a una muestra aleatoria de
cuatro semanas completas de trabajo, se observó el siguiente número de consultas:
Lunes
Martes
Miércoles
Jueves
Viernes
49
35
32
39
45
Con α = 0.05, ¿existe alguna razón para creer que el número de empleados que asisten
al consultorio médico, no se encuentra distribuido en forma uniforme durante los días de
trabajo de la semana?.
SOLUCIÓN:
Hipótesis:
H0: f(X) = U(1/5)
pi = 1/k = 1/5 = 0.2
i=1, 2, ...,5
H1: f(X) ≠ U(1/5)
ei = n * pi = 1/5 * 200 = 40
i=1, 2,..., 5
Dado que el tamaño de la muestra es n = 200, la frecuencia esperada para cada día es
n*pi = 40. Entonces, el valor de la estadística de prueba es
5
χ2 = ∑
i =1
(oi − ei ) 2 ( 49 − 40) 2 (35 − 40) 2 (32 − 40) 2 (39 − 40) 2 ( 45 − 40) 2 196
=
+
+
+
+
=
= 4.9
ei
40
40
40
40
40
40
Para k = 5 clases, se observa que el valor crítico es χ20.95,4= 9.49.
Ya que χ2 = 4.9 < χ20.95,4= 9.49, no puede rechazarse la hipótesis nula.
4
Ejemplo Bondad Ajuste Chi-Cuadrado
Pruébese la hipótesis de que la distribución de frecuencias de las duraciones de las
baterías dadas en la siguiente tabla, puede aproximarse por una distribución normal con
media µ = 3.5 y σ = 0.7
Intervalo de clase
o
e
i
SOLUCION:
Hipótesis:
i
< 1.95
2
0.5
1.95 - 2.45
1
2.1
2.45 - 2.95
4
5.9
2.95 - 3.45
15
10.3
3.45 - 3.95
10
10.7
3.95 - 4.45
5
7
> 4.45
3
3.5
H0: f(X) = N(3.5, 0.7)
H1: f(X) ≠ N(3.5, 0.7)
Las pi se calcularían usando las áreas bajo la curva normal que caen entre los límites
de clase. Para el primer y último intervalos de clase, se considera el área normal a la
izquierda de 1.95 y a la derecha de 4.45 respectivamente. Para los otros:
z1 =
2.95 − 3.5
= −0.79
0.7
z2 =
3.45 − 3.5
= −0.07
0.7
Ejemplo Bondad Ajuste Chi-Cuadrado
De la tabla normal: Area = pi = P(-0.79 < z < -0.07) = P(z < -0.07) - P(z< -0.79) = 0.4721
- 0.2148 = 0.2573
La frecuencia esperada de la 4ª clase será por tanto: ei = n * pi = 0.2573 * 40 = 10.3
v = 3 g. de l.
5
(o − e ) 2 (7 − 8.5) 2 (15 − 10.3) 2 (10 − 10.7) 2 (8 − 10.5) 2
χ2 = ∑ i i =
+
+
+
= 3.05
i =1
ei
8 .5
10.3
10.7
10.5
χ2
α= 0.05
0.95, 3 = 7.815
R.C. = {χ2 / χ2 > χ2 1-α,n-1} = {χ2 / χ2 > χ2 0.95, 3 } = {χ2 / χ2 > 7.815}
Como 3.05 < 7.815 Î 3.05 ∉ R. C. Î Se acepta H0
Esto nos indica que, con base a esa muestra, no existe suficiente evidencia, a ese nivel
de significación, como para rechazar la hipótesis de que la duración de las baterías se
distribuye normalmente con aquella media y desviación típica.
OBSERVACION: Tenemos 3 g. de l. porque conocemos µ y σ. Si estos dos valores los
hubiesemos tenido que estimar en la muestra, hubieramos perdido otros 2 g. de l.
5
Test de Independencia de Caracteres
Ejemplo de Independencia de Caracteres
Los resultados de una encuesta realizada con el fin de determinar si la edad de los
individuos influye a la hora de contraer una enfermedad fueron los siguientes:
EDAD
Contraen la enfermedad
SI
NO
menos de 15 años
38 (31.775)
44 (50.225)
82
15 - 30
45 (28.2875)
28 (44.7125)
73
30 - 45
30 (32.55)
54 (51.45)
84
45 - 60
22 (32.55)
62 (51.45)
84
más de 60 años
20 (29.8375)
57 (47.1625)
77
155
245
400
¿Se puede admitir la hipótesis de que el número de individuos que contraen la
enfermedad es independiente de la edad?
SOLUCION:
Hipótesis:
H0: facilidad contraer enfermedad es indep. de la edad
H1: facilidad contraer la enfermedad no es indep. de la edad
6
Ejemplo de Independencia de Caracteres
Bajo la hipótesis nula (la edad no tiene importancia para contraer la enfermedad),
cabría esperar las frecuencias teóricas que recogemos en la tabla anterior, entre
paréntesis.
82 * 155
e(<15) = 400 = 31.775
v = (5-1)*(2-1) = 4*1 = 4 g. de l.
α= 0.05
5
(oij − eij )2
= 29.316
eij
j =1
2
χ 2 = ∑∑
i =1
χ2 0.95, 4 = 9.49
R.C. = {χ2 / χ2 > χ2 1-α,(r-1)*(k-1) } = {χ2 / χ2 > χ2 0.95, 4 } = {χ2 / χ2 > 9.49}
Como 29.316 > 9.49 Î 29.316 ∈ R. C. Î Se rechaza H0
Esto nos indica que existen suficientes evidencias en la muestra como para aceptar
que el número de personas que contraen la enfermedad no es independiente de la
edad.
Ejemplo de Independencia de Caracteres
Vamos a medir si existe independencia entre los colores de los ojos y el color del pelo.
Observados
rubio
castaño
negro
rojo
Sumas
Esperados
Rubio
castaño
negro
rojo
azul
1768
807
189
47
2811
azul
1169,4587
1088,02235
505,566618
47,9523529
gris o verde
946
1387
746
53
3132
gris o verde
1303,0041
1212,26824
563,299412
53,4282353
pardo
115
438
288
16
857
pardo
356,53721
331,709412
154,133971
14,6194118
2829
2632
1223
116
6800
χ2 =306,340 + 72,585 +198,222 + 0,019 + 97,814 + 25,185 + 59,257 + 0,003 +
163,630 + 34,059 +116,263 + 0,130 = 1073,508
v = 6 g. de l.
χ2 0,95;6 = 2,447
Como 1073,508 > 2,447 se rechaza la hipótesis nula.
Conclusión: No hay independencia entre el color de los ojos y el color del pelo.
7
Test de la Chi-Cuadrado
(Homogeneidad de proporciones)
Viene a ser un caso particular de independencia, cuando una de las variables solo
admite dos posibilidades (valor B o no-B).
Ejemplo de Homogeneidad de proporciones
La Asignatura de Bioestadística es impartida por 4 profesores diferentes. Se
seleccionaron 180 alumnos del profesor A, 181 del profesor B, 200 del profesor C y
189 del profesor D para comprobar si la proporción de estudiantes aprobados y
suspendidos por los 4 profesores era la misma. Una vez entregadas las actas, los
resultados fueron:
Prof. A
Prof. B
Prof. C
Prof. D
TOTAL
Aprobados
150 (146.64)
141 (147.46)
168 (162.94)
152 (153.98)
611
Suspensos
30 (33.36)
40 (33.54)
32 (37.06)
37 (35.02)
139
TOTAL
180
181
200
189
750
Probar la hipótesis a un nivel de significación del 5%.
SOLUCION:
Hipótesis:
H0: proporciones de aprob/susp homogéneas por profesores
H1: proporciones de aprob/susp no homogéneas por profesores
8
Ejemplo de Homogeneidad de proporciones
Bajo la hipótesis nula, cabría esperar las frecuencias teóricas que recogemos en la
tabla anterior, entre paréntesis.
e(prof.A, aprob.) =
611 * 180
= 146.64
750
v = (4-1)*(2-1) = 3*1 = 3 g. de l.
χ2 =
2,4
(oij − eij ) 2
i , j =1
eij
∑
= 2.928
α = 0.05 χ2 0.95, 3 = 7.81
R.C. = {χ2 / χ2 > χ2 1-α,(r-1)*(k-1) } = {χ2 / χ2 > χ2 0.95, 3 } = {χ2 / χ2 > 7.81}
Como 2.928 < 7.81 Î 2.928 ∉ R. C. Î Se acepta H0
Esto nos indica que no existen suficientes evidencias en la muestra como para
rechazar la hipótesis de que la proporción de aprobados y suspensos es la misma
para los cuatro profesores.
Contrastes No Paramétricos
Para una muestra (Prueba de los signos)
9
Contrastes No Paramétricos
Para una muestra (Prueba de los signos)
Los siguientes datos representan el tiempo (en horas) en vuelos de entrenamiento que
reciben 18 estudiantes para piloto, por parte de un cierto instructor, antes de realizar su
primer vuelo:
9 12 18 14 12 14
12 10 16 11 9 11
13 11 13 15 13 14
Realice la prueba de los signos, al nivel de significación de 0.02 para probar la
afirmación del instructor de que la mediana de tiempo requerido antes de que los
estudiantes realicen un vuelo por ellos mismos es de 12 horas de entrenamiento.
SOLUCION:
Hipótesis:
- 0 + + 0 +
0 - + - - + - + + + +
H0: Me = 12
H1: Me ≠ 12
N+=9 N-=6
n = 18 Î 3 empates Î n = 15
B(15, 0.5)0.01= 3
R.C= [0, 3]
Como 6 > 3, no pertenece a la región crítica y por tanto, no existen suficientes
evidencias en la muestra como para rechazar la afirmación del instructor de que los
alumnos necesitan una mediana de 12 horas de entrenamiento antes de volar solos.
Contrastes No Paramétricos
dos muestras relacionadas (Prueba de los signos)
10
Contrastes No Paramétricos
dos muestras independientes (Prueba de Man-Whitney)
Contrastes No Paramétricos
dos muestras independientes (Prueba de Man-Whitney)
Tomamos dos muestras de cables fabricados con dos aleaciones distintas I y II y
queremos decidir, al nivel de significación de 0.05, si hay o no diferencia en la resistencia
de los cables fabricados con las distintas aleaciones. Los datos tomados de las muestras
fueron los siguientes:
Aleación I
Aleación II
18.3 16.4 22.7 17.8
18.9 25.3 16.1 24.2
12.6 14.1 20.5 10.7 15.9
19.6 12.9 15.2 11.8 14.7
SOLUCION:
Hipótesis:
n1 = 8
R1 = 106
n2 = 10
R2 = 65
H0: µ1 - µ2 = 0 (µ1 = µ2)
H1: µ1 - µ2 ≠ 0 (µ1 ≠ µ2)
α = 0.05
n (n + 1)
8*9
U 1 = n1 * n2 + 1 1
− R1 = 8 *10 +
− 106 = 10
2
2
10.7
11.8
12.6
12.9
14.1
14.7
15.2
15.9
16.1
16.4
17.8
18.3
18.9
19.6
20.5
22.7
24.2
25.3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
U(tabla) = 17 R.C. = {U / U ≤ U(tabla)} = {U / U ≤ 17} Como 10 < 17 Î Se rechaza H0
Esto nos indica que existen suficientes evidencias en la muestra como para pensar que la
resistencia de los cables fabricados con las distintas aleaciones es diferente.
11
Descargar