Contrastes No Paramétricos Los contrastes no paramétricos son aquellos cuyas hipótesis no involucran parámetros de las funciones de probabilidad o densidad, sino otras cosas como la distribución de la variable, la mediana, etc… Los contrastes sobre la mediana se utilizan cuando las variables son continuas, pero no tienen distribución normal Test de Bondad de Ajuste de K-S (para muestras pequeñas) Variable de interés X. Contraste Muestra X1, X2, … Xn H 0 : X sigue la distribución M ⇒ f ( X ) = f 0 ( X ) H 1 : X no sigue la distribución M ⇒ f ( X ) ≠ f 0 ( X ) F0 (Xi) = P(X ≤ Xi / M) Estadístico del contraste 0 si Xi < x1 Dn = max S n ( X i ) − F0 ( X i ) ≤ Xi ≤ xk+1 k = 1,...,n −1 n xk 1 si Xi ≥ xn Sn (Xi ) = k i {Dn / Dn > Dn (α ) tabla} R.C: 1 Tabla de K-S Ejemplo de K-S Úsese la estadística de Kolmogorov-Smirnov para probar la hipótesis nula de que los siguientes datos se encuentran normalmente distribuidos con media 50 y desviación típica 10. Considere α = 0.05 SOLUCION: 38 63 25 49 58 35 33 36 48 44 58 53 32 42 44 Hipótesis: H0: f(x) = N(50,10) H1: f(x) ≠ N(50,10) 48 51 61 52 56 59 28 57 47 α = 0.05 n = 24 1/24 = 0.0417 Ver tabla siguiente Dn= máx |Sn(x) - F0(x)| = 0.1767 D(tabla) = D 24, 0.05 = 0.27 R.C. : {Dn / Dn > D(tabla)} = {Dn / Dn > 0.27} Como 0.1767 < 0.27 Î 0.1767 ∉ R.C. Î Se acepta H0 No existen indicios suficientes en la muestra como para suponer que la distribución no sea la normal de media 50 y desviación típica 10 2 Ejemplo de K-S Valores Ordenados Sn(x) F0(x) |Sn(x) - F0(x)| 25 28 32 33 35 36 38 42 44 44 47 48 48 49 51 52 53 56 57 58 58 59 61 63 0.0417 0.0833 0.125 0.1667 0.2084 0.2501 0.2918 0.3335 0.3752 0.4169 0.4586 0.5003 0.542 0.5837 0.6254 0.6671 0.7088 0.7505 0.7922 0.8339 0.8756 0.9173 0.959 1.000 0.0062 0.0139 0.0359 0.0446 0.0668 0.0808 0.1151 0.2119 0.2743 0.2743 0.3821 0.4207 0.4207 0.4602 0.5398 0.5793 0.6179 0.7257 0.7580 0.7881 0.7881 0.8159 0.8643 0.9032 0.0355 0.0694 0.0891 0.1221 0.1416 0.1693 0.1767 0.1216 0.1009 0.1426 0.0765 0.0796 0.1213 0.1235 0.0856 0.0878 0.0909 0.0248 0.0342 0.0458 0.0875 0.1014 0.0947 0.0968 Test de Bondad de Ajuste Chi-Cuadrado (para muestras grandes) Variable de interés X. Contraste Muestra X1, X2, … Xn H 0 : X sigue la distribución M ⇒ f ( X ) = f 0 ( X ) H1 : X no sigue la distribución M ⇒ f ( X ) ≠ f 0 ( X ) 3 Test de Bondad de Ajuste Chi-Cuadrado (para muestras grandes) Limitaciones de la prueba: Es una prueba de naturaleza discreta. Se puede utilizar para distribuciones continuas, siempre y cuando el tamaño de la muestra sea grande. Para poder aplicar correctamente este test, las frecuencias esperadas de las diferentes clases debe ser >5. Para superar esta restricción tenemos dos posibilidades: 9 Aumentar tamaño de la muestra 9 Combinar celdas adyacentes Como ventaja respecto a K-S la distribución a la que se pretende ajustar puede no estar completamente especificada Ejemplo Bondad Ajuste Chi-Cuadrado El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido, en forma equitativa, durante los cinco días de trabajo de la semana. Con base a una muestra aleatoria de cuatro semanas completas de trabajo, se observó el siguiente número de consultas: Lunes Martes Miércoles Jueves Viernes 49 35 32 39 45 Con α = 0.05, ¿existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido en forma uniforme durante los días de trabajo de la semana?. SOLUCIÓN: Hipótesis: H0: f(X) = U(1/5) pi = 1/k = 1/5 = 0.2 i=1, 2, ...,5 H1: f(X) ≠ U(1/5) ei = n * pi = 1/5 * 200 = 40 i=1, 2,..., 5 Dado que el tamaño de la muestra es n = 200, la frecuencia esperada para cada día es n*pi = 40. Entonces, el valor de la estadística de prueba es 5 χ2 = ∑ i =1 (oi − ei ) 2 ( 49 − 40) 2 (35 − 40) 2 (32 − 40) 2 (39 − 40) 2 ( 45 − 40) 2 196 = + + + + = = 4.9 ei 40 40 40 40 40 40 Para k = 5 clases, se observa que el valor crítico es χ20.95,4= 9.49. Ya que χ2 = 4.9 < χ20.95,4= 9.49, no puede rechazarse la hipótesis nula. 4 Ejemplo Bondad Ajuste Chi-Cuadrado Pruébese la hipótesis de que la distribución de frecuencias de las duraciones de las baterías dadas en la siguiente tabla, puede aproximarse por una distribución normal con media µ = 3.5 y σ = 0.7 Intervalo de clase o e i SOLUCION: Hipótesis: i < 1.95 2 0.5 1.95 - 2.45 1 2.1 2.45 - 2.95 4 5.9 2.95 - 3.45 15 10.3 3.45 - 3.95 10 10.7 3.95 - 4.45 5 7 > 4.45 3 3.5 H0: f(X) = N(3.5, 0.7) H1: f(X) ≠ N(3.5, 0.7) Las pi se calcularían usando las áreas bajo la curva normal que caen entre los límites de clase. Para el primer y último intervalos de clase, se considera el área normal a la izquierda de 1.95 y a la derecha de 4.45 respectivamente. Para los otros: z1 = 2.95 − 3.5 = −0.79 0.7 z2 = 3.45 − 3.5 = −0.07 0.7 Ejemplo Bondad Ajuste Chi-Cuadrado De la tabla normal: Area = pi = P(-0.79 < z < -0.07) = P(z < -0.07) - P(z< -0.79) = 0.4721 - 0.2148 = 0.2573 La frecuencia esperada de la 4ª clase será por tanto: ei = n * pi = 0.2573 * 40 = 10.3 v = 3 g. de l. 5 (o − e ) 2 (7 − 8.5) 2 (15 − 10.3) 2 (10 − 10.7) 2 (8 − 10.5) 2 χ2 = ∑ i i = + + + = 3.05 i =1 ei 8 .5 10.3 10.7 10.5 χ2 α= 0.05 0.95, 3 = 7.815 R.C. = {χ2 / χ2 > χ2 1-α,n-1} = {χ2 / χ2 > χ2 0.95, 3 } = {χ2 / χ2 > 7.815} Como 3.05 < 7.815 Î 3.05 ∉ R. C. Î Se acepta H0 Esto nos indica que, con base a esa muestra, no existe suficiente evidencia, a ese nivel de significación, como para rechazar la hipótesis de que la duración de las baterías se distribuye normalmente con aquella media y desviación típica. OBSERVACION: Tenemos 3 g. de l. porque conocemos µ y σ. Si estos dos valores los hubiesemos tenido que estimar en la muestra, hubieramos perdido otros 2 g. de l. 5 Test de Independencia de Caracteres Ejemplo de Independencia de Caracteres Los resultados de una encuesta realizada con el fin de determinar si la edad de los individuos influye a la hora de contraer una enfermedad fueron los siguientes: EDAD Contraen la enfermedad SI NO menos de 15 años 38 (31.775) 44 (50.225) 82 15 - 30 45 (28.2875) 28 (44.7125) 73 30 - 45 30 (32.55) 54 (51.45) 84 45 - 60 22 (32.55) 62 (51.45) 84 más de 60 años 20 (29.8375) 57 (47.1625) 77 155 245 400 ¿Se puede admitir la hipótesis de que el número de individuos que contraen la enfermedad es independiente de la edad? SOLUCION: Hipótesis: H0: facilidad contraer enfermedad es indep. de la edad H1: facilidad contraer la enfermedad no es indep. de la edad 6 Ejemplo de Independencia de Caracteres Bajo la hipótesis nula (la edad no tiene importancia para contraer la enfermedad), cabría esperar las frecuencias teóricas que recogemos en la tabla anterior, entre paréntesis. 82 * 155 e(<15) = 400 = 31.775 v = (5-1)*(2-1) = 4*1 = 4 g. de l. α= 0.05 5 (oij − eij )2 = 29.316 eij j =1 2 χ 2 = ∑∑ i =1 χ2 0.95, 4 = 9.49 R.C. = {χ2 / χ2 > χ2 1-α,(r-1)*(k-1) } = {χ2 / χ2 > χ2 0.95, 4 } = {χ2 / χ2 > 9.49} Como 29.316 > 9.49 Î 29.316 ∈ R. C. Î Se rechaza H0 Esto nos indica que existen suficientes evidencias en la muestra como para aceptar que el número de personas que contraen la enfermedad no es independiente de la edad. Ejemplo de Independencia de Caracteres Vamos a medir si existe independencia entre los colores de los ojos y el color del pelo. Observados rubio castaño negro rojo Sumas Esperados Rubio castaño negro rojo azul 1768 807 189 47 2811 azul 1169,4587 1088,02235 505,566618 47,9523529 gris o verde 946 1387 746 53 3132 gris o verde 1303,0041 1212,26824 563,299412 53,4282353 pardo 115 438 288 16 857 pardo 356,53721 331,709412 154,133971 14,6194118 2829 2632 1223 116 6800 χ2 =306,340 + 72,585 +198,222 + 0,019 + 97,814 + 25,185 + 59,257 + 0,003 + 163,630 + 34,059 +116,263 + 0,130 = 1073,508 v = 6 g. de l. χ2 0,95;6 = 2,447 Como 1073,508 > 2,447 se rechaza la hipótesis nula. Conclusión: No hay independencia entre el color de los ojos y el color del pelo. 7 Test de la Chi-Cuadrado (Homogeneidad de proporciones) Viene a ser un caso particular de independencia, cuando una de las variables solo admite dos posibilidades (valor B o no-B). Ejemplo de Homogeneidad de proporciones La Asignatura de Bioestadística es impartida por 4 profesores diferentes. Se seleccionaron 180 alumnos del profesor A, 181 del profesor B, 200 del profesor C y 189 del profesor D para comprobar si la proporción de estudiantes aprobados y suspendidos por los 4 profesores era la misma. Una vez entregadas las actas, los resultados fueron: Prof. A Prof. B Prof. C Prof. D TOTAL Aprobados 150 (146.64) 141 (147.46) 168 (162.94) 152 (153.98) 611 Suspensos 30 (33.36) 40 (33.54) 32 (37.06) 37 (35.02) 139 TOTAL 180 181 200 189 750 Probar la hipótesis a un nivel de significación del 5%. SOLUCION: Hipótesis: H0: proporciones de aprob/susp homogéneas por profesores H1: proporciones de aprob/susp no homogéneas por profesores 8 Ejemplo de Homogeneidad de proporciones Bajo la hipótesis nula, cabría esperar las frecuencias teóricas que recogemos en la tabla anterior, entre paréntesis. e(prof.A, aprob.) = 611 * 180 = 146.64 750 v = (4-1)*(2-1) = 3*1 = 3 g. de l. χ2 = 2,4 (oij − eij ) 2 i , j =1 eij ∑ = 2.928 α = 0.05 χ2 0.95, 3 = 7.81 R.C. = {χ2 / χ2 > χ2 1-α,(r-1)*(k-1) } = {χ2 / χ2 > χ2 0.95, 3 } = {χ2 / χ2 > 7.81} Como 2.928 < 7.81 Î 2.928 ∉ R. C. Î Se acepta H0 Esto nos indica que no existen suficientes evidencias en la muestra como para rechazar la hipótesis de que la proporción de aprobados y suspensos es la misma para los cuatro profesores. Contrastes No Paramétricos Para una muestra (Prueba de los signos) 9 Contrastes No Paramétricos Para una muestra (Prueba de los signos) Los siguientes datos representan el tiempo (en horas) en vuelos de entrenamiento que reciben 18 estudiantes para piloto, por parte de un cierto instructor, antes de realizar su primer vuelo: 9 12 18 14 12 14 12 10 16 11 9 11 13 11 13 15 13 14 Realice la prueba de los signos, al nivel de significación de 0.02 para probar la afirmación del instructor de que la mediana de tiempo requerido antes de que los estudiantes realicen un vuelo por ellos mismos es de 12 horas de entrenamiento. SOLUCION: Hipótesis: - 0 + + 0 + 0 - + - - + - + + + + H0: Me = 12 H1: Me ≠ 12 N+=9 N-=6 n = 18 Î 3 empates Î n = 15 B(15, 0.5)0.01= 3 R.C= [0, 3] Como 6 > 3, no pertenece a la región crítica y por tanto, no existen suficientes evidencias en la muestra como para rechazar la afirmación del instructor de que los alumnos necesitan una mediana de 12 horas de entrenamiento antes de volar solos. Contrastes No Paramétricos dos muestras relacionadas (Prueba de los signos) 10 Contrastes No Paramétricos dos muestras independientes (Prueba de Man-Whitney) Contrastes No Paramétricos dos muestras independientes (Prueba de Man-Whitney) Tomamos dos muestras de cables fabricados con dos aleaciones distintas I y II y queremos decidir, al nivel de significación de 0.05, si hay o no diferencia en la resistencia de los cables fabricados con las distintas aleaciones. Los datos tomados de las muestras fueron los siguientes: Aleación I Aleación II 18.3 16.4 22.7 17.8 18.9 25.3 16.1 24.2 12.6 14.1 20.5 10.7 15.9 19.6 12.9 15.2 11.8 14.7 SOLUCION: Hipótesis: n1 = 8 R1 = 106 n2 = 10 R2 = 65 H0: µ1 - µ2 = 0 (µ1 = µ2) H1: µ1 - µ2 ≠ 0 (µ1 ≠ µ2) α = 0.05 n (n + 1) 8*9 U 1 = n1 * n2 + 1 1 − R1 = 8 *10 + − 106 = 10 2 2 10.7 11.8 12.6 12.9 14.1 14.7 15.2 15.9 16.1 16.4 17.8 18.3 18.9 19.6 20.5 22.7 24.2 25.3 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 U(tabla) = 17 R.C. = {U / U ≤ U(tabla)} = {U / U ≤ 17} Como 10 < 17 Î Se rechaza H0 Esto nos indica que existen suficientes evidencias en la muestra como para pensar que la resistencia de los cables fabricados con las distintas aleaciones es diferente. 11