CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS 1 Contrastes de hipótesis no paramétricos ¿POR QUÉ SE LLAMAN CONTRASTES NO PARAMÉTRICOS? A diferencia de lo que ocurría en la inferencia paramétrica, ahora, el desconocimiento de la población que vamos a estudiar no se reduce al valor de un parámetro poblacional, sino que es mucho más amplio. Las hipótesis que contrastaremos no hacen referencia a parámetros poblacionales. 2 Contrastes de hipótesis no paramétricos TESTS c2 Su nombre se debe a que el estadístico que se usará para realizar el contraste tendrá, aproximadamente, una distribución c2 de Pearson. 1. Bondad del ajuste (Caso I y Caso II) 2. Test de Homogeneidad 3. Test de Independencia 3 Contrastes de hipótesis no paramétricos CONTRASTE DE BONDAD DEL AJUSTE (I) SITUACIÓN: X es una variable aleatoria poblacional con distribución desconocida. Extraemos una m.a.s. de la población (X1,…,Xn). A la vista de la muestra, ¿es razonable admitir que X sigue la distribución F0? H0: X sigue la distribución F0 Ha: X no sigue la distribución F0 Distribución teórica 4 Contrastes de hipótesis no paramétricos PASOS A SEGUIR: PASO 1: Hacer una partición (arbitraria) del espacio muestral (posibles valores de X) en k clases A1,…,Ak. PASO 2: Calcular las siguientes frecuencias absolutas para i=1,…,k. Oi = frecuencia observada en Ai = número de elementos de la m.a.s (x1,…,xn) que se han situado en la clase Ai ei = frecuencia esperada en Ai si H0 es cierta = nP(Ai) A1 Oi (ei) O1 (e1) ….. Ak Ok (ek) n ei es la esperanza de una B(n,P(Ai)) 5 Contrastes de hipótesis no paramétricos PASO 3: Utilizar el estadístico l de Pearson nº de clases si n es grande y H0 es cierta Mide la discrepancia entre las frecuencias observadas y las esperadas, si se supone cierta H0 Observación: Si H0 es cierta, es de esperar que las frecuencias observadas y las esperadas sean parecidas, por lo que si efectivamente H0 es cierta, el estadístico l debería de tomar valores próximos a cero. 6 Contrastes de hipótesis no paramétricos Consecuencia: Rechazaremos la hipótesis nula cuando los valores del estadístico l de Pearson sean “grandes”, y la aceptaremos cuando sean “pequeños”. La separación entre valores “grandes” y “pequeños” viene dada por la elección de un nivel de significación a. Región crítica: C = {l>c2k-1,a} Nota: Por comodidad, normalmente se usa la siguiente expresión, equivalente a la ya dada, para calcular el valor de l: 7 Contrastes de hipótesis no paramétricos EJEMPLO 1: Para comprobar si un dado está o no cargado, se lanzó 600 veces, con los siguientes resultados: Oi 1 2 3 4 5 6 Total 103 98 89 109 100 101 600 A la vista de estos datos, ¿podemos afirmar si el dado está cargado o no? H0: El dado no está cargado Ha: El dado está cargado P(Ai)=1/6 Ai={i}, i=1,…,6 8 Contrastes de hipótesis no paramétricos 1 Oi (ei) 2 3 4 5 6 Total 103 98 89 109 100 101 (100) (100) (100) (100) (100) (100) 600 n nP(Ai) Tomamos a = 0.05 Aceptamos H0 con un nivel de significación 0.05, es decir, a la vista de estos datos, no podemos afirmar que el dado esté cargado. Confirma la decisión de aceptar H0 9 Contrastes de hipótesis no paramétricos EJEMPLO 2: Se quiere averiguar si el número de hijos por matrimonio, X, en cierta población sigue una distribución binomial de parámetros 3 y 0.5. Para ello se encuestó a 100 matrimonios obteniéndose los siguientes resultados: X 0 1 2 3 Oi 22 42 28 8 100 ¿Qué podemos afirmar a la vista de estos datos? H0: X sigue una B(3,0.5) Ha: X no sigue una B(3,0.5) Ai={i-1}, i=1,…,4 P(X=0)=0.125 P(X=1)=0.375 P(X=2)=0.375 P(X=3)= 0.125 10 Contrastes de hipótesis no paramétricos X Oi (ei) 0 1 2 3 22 42 28 8 (12.5) (37.5) (37.5) (12.5) 100 Rechazamos que X siga una binomial de parámetros 3 y 0.05 11 Contrastes de hipótesis no paramétricos BONDAD DEL AJUSTE:CASO 2 En ocasiones queremos averiguar si los datos se ajustan a un determinado tipo de distribución pero sin precisar los valores de los parámetros que la caracterizan. Así por ejemplo, para realizar muchos de los contrastes del tema anterior, necesitamos saber si la variable poblacional sigue una distribución normal. Por lo tanto, debemos contrastar la normalidad de los datos, pero sin precisar la media y la varianza poblacionales. 12 Contrastes de hipótesis no paramétricos DOS DIFERENCIAS Trabajamos con los estimadores de máxima verosimilitud. Calculamos las frecuencias esperadas si los estimadores fueran los autenticos CUIDADO: Si usamos los mismos datos muestrales para estimar r parámetros poblacionales desconocidos y para realizar el contraste de bondad del ajuste, el estadístico l de Pearson se aproxima a una c2k-1-r en lugar de a una c2k-1. 13 Contrastes de hipótesis no paramétricos EJEMPLO 3: Al digitalizar 300 imágenes se ha obtenido la siguiente distribución de frecuencias absolutas del tamaño en Kb del fichero correspondiente: X 36-38 38-40 40-42 42-44 44-46 46-48 48-50 50-52 52-54 54-56 Oi 6 9 33 48 54 57 45 30 12 6 300 ¿Podemos afirmar, a la vista de estos datos, que X sigue una distribución normal? ˆ 3.88 H0: X sigue una N Ha: X no sigue una N 14 Contrastes de hipótesis no paramétricos X <38 38-40 40-42 42-44 44-46 46-48 48-50 50-52 52-54 54 Oi (ei) 6 (5.9) 9 (12.3) 33 (27.3) 48 (45) 54 (59.5) 57 (59.5) 45 (45) 30 (27.3) 12 (12.3) 6 (5.9) P(X<38)=P(Z<(38-46)/3.88)=P(Z<-2.06)=0.0197 c 2 7,0.01 300 e1=0.0197*300=5.9 12.017 10-1-2=7 Aceptamos al nivel 0.01 15 Contrastes de hipótesis no paramétricos CONSIDERACIONES ADICIONALES PRIMERA: - Para que l se aproxime a una c2, además de que el tamaño muestral sea grande, las frecuencias esperadas no pueden ser muy pequeñas. - Por norma se requiere que ei 5 para el 20% de las clases i=1,…,k 16 Contrastes de hipótesis no paramétricos SEGUNDA: -Cuando ni la estructura del problema, ni la agrupación de las observaciones muestrales, nos sugieran las clases A1,…,Ak más adecuadas para dividir el espacio muestral, lo más conveniente es elegirlas de forma que P(Ai)=1/k para i=1,…,k, con k<n/5. - De esta forma conseguimos una mejor aproximación de la distribución del estadístico l a una distribución c2 , y que las frecuencias esperadas no sean pequeñas. 17 Contrastes de hipótesis no paramétricos CONTRASTE DE HOMOGENEIDAD DE POBLACIONES SITUACIÓN: X es una característica común a r poblaciones independientes. Extraemos m.a.s. de cada población con A la vista de las muestras, ¿es razonable admitir que las poblaciones son homogéneas, es decir, que todas ellas siguen la misma distribución? H0: Las poblaciones son homogéneas Ha: Las poblaciones no son homogéneas 18 Contrastes de hipótesis no paramétricos PASOS A SEGUIR: PASO 1: Hacer una partición (arbitraria) del espacio muestral (que es común a todas las poblaciones) en k clases A1,…,Ak. PASO 2: Calcular las siguientes frecuencias absolutas para i=1,…,k y j=1,…,r . Oij = frecuencia observada en Ai con la muestra jésima= número de elementos de la muestra j-ésima que se han situado en la clase Ai eij = frecuencia esperada en Ai con la muestra j-ésima si H0 es cierta = njP(Ai) eij es la esperanza de una B(nj,P(Ai)) 19 Contrastes de hipótesis no paramétricos ... Muestra j ... Muestra r mj A1 O11 (e11) ... ... O1j (e1j) ... ... O1r (e1r) m1 ... ... ... ... ... ... ... Ai Oi1 (ei1) ... ... Oij (eij) ... ... Oir (eir) mi ... ... ... ... ... ... ... Ak Ok1 (ek1) ... ... Okj (eki) ... ... Okr (ekr) mk ni n1 ... nj ... nr n Desconocido Frecuencias marginales Muestra 1 Tamaños muestrales Suponiendo cierta H0 20 Contrastes de hipótesis no paramétricos PASO 3: Utilizar el estadístico l de Pearson nº de clases nº de muestras si n es grande y H0 es cierta Mide la discrepancia entre las frecuencias observadas y las esperadas, si se supone cierta H0 Demostración: Para la muestra j-ésima, Sumando los r estadísticos que tenemos,como las poblaciones son independientes, tenemos que Pero como no conocemos la distribución que siguen las poblaciones, hemos tenido que estimar k-1 probabilidades para estimar los eij, por lo tanto 21 Contrastes de hipótesis no paramétricos Observación: Si H0 es cierta, es de esperar que las frecuencias observadas y las esperadas sean parecidas, por lo que si efectivamente H0 es cierta, el estadístico l debería de tomar valores próximos a cero. Consecuencia: Rechazaremos la hipótesis nula cuando los valores del estadístico l de Pearson sean “grandes”, y la aceptaremos cuando sean “pequeños”. La separación entre valores “grandes” y “pequeños” viene dada por la elección de un nivel de significación a. Región crítica: C = {l>c2(k-1) (r-1),a} 22 Contrastes de hipótesis no paramétricos EJEMPLO 5: Un estudio sobre tabaquismo en las comunidades de Galicia, Madrid y Cataluña proporcionó los siguientes resultados: Comunidad Fumadores No fumadores Total Galicia 13 87 100 Madrid 17 83 100 Cataluña 18 82 100 ¿Pueden considerarse homogéneas las tres poblaciones en cuanto a sus hábitos fumadores? H0: Las poblaciones son homogéneas Ha: Las poblaciones no son homogéneas 23 Clases Comunidad Madrid Cataluña Muestras r=3 c 2 2,0.1 No fumadores 87 (84) 83 (84) 82 (84) 252 Total 100 100 100 Tamaños muestrales Galicia Fumadores 13 (16) 17 (16) 18 (16) 48 k=2 Contrastes de hipótesis no paramétricos 300 Frecuencias marginales 4,605 Aceptamos que las poblaciones son homogéneas 24 Contrastes de hipótesis no paramétricos CONTRASTE DE INDEPENDENCIA DE CARACTERES SITUACIÓN: X e Y son dos características de una misma población. Extraemos una m.a.s. de la población ((X1, Y1),…, ((Xn, Yn) ). A la vista de la muestra, ¿es razonable admitir que las características son independientes? H0: Las características son independientes Ha: Las características no son independientes 25 Contrastes de hipótesis no paramétricos PASOS A SEGUIR: PASO 1: Hacer una partición (arbitraria) del espacio muestral (posibles valores de X e Y) en k x r clases A1 x B1,…, Ai x Bj ,...,Ak x Br. PASO 2: Calcular las siguientes frecuencias absolutas para i=1,…,k y j=1,…,r . Oij = frecuencia observada en Ai x Bj = número de elementos de la muestra j-ésima que se han situado en la clase Ai x Bj eij = frecuencia esperada en Ai x Bj si H0 es cierta = n P(Ai) P(Bj) eij es la esperanza de una B(n,P(Ai)P(Bj)) 26 Contrastes de hipótesis no paramétricos Tabla de contingencias k x r ... Bj ... Br ni. A1 O11 (e11) ... ... O1j (e1j) ... ... O1r (e1r) n1. ... ... ... ... ... ... ... Ai Oi1 (ei1) ... ... Oij (eij) ... ... Oir (eir) ni. ... ... ... ... ... ... ... Ak Ok1 (ek1) ... ... Okj (eki) ... ... Okr (ekr) nk. n.j n.1 ... n.j ... n.r n Desconocido Frecuencias marginales B1 Frecuencias marginales 27 Contrastes de hipótesis no paramétricos PASO 3: Utilizar el estadístico l de Pearson si n es grande y H0 es cierta Mide la discrepancia entre las frecuencias observadas y las esperadas, si se supone cierta H0 Demostración: Como el número de clases es rk, Pero como no conocemos las distribuciones que siguen las dos variables poblacionales, hemos tenido que estimar k-1+r-1 probabilidades para estimar los eij, por lo tanto 28 Contrastes de hipótesis no paramétricos Observación: Si H0 es cierta, es de esperar que las frecuencias observadas y las esperadas sean parecidas, por lo que si efectivamente H0 es cierta, el estadístico l debería de tomar valores próximos a cero. Consecuencia: Rechazaremos la hipótesis nula cuando los valores del estadístico l de Pearson sean “grandes”, y la aceptaremos cuando sean “pequeños”. La separación entre valores “grandes” y “pequeños” viene dada por la elección de un nivel de significación a. Región crítica: C = {l>c2(k-1) (r-1),a} 29 Contrastes de hipótesis no paramétricos EJEMPLO 6: Para averiguar si existe relación entre el peso y la altura de los segovianos, se extrajo una m.a.s. con los siguientes resultados: 50-60 60-70 70-80 80-90 1.55-1.65 1.65-1.75 1.75-1.85 1.85-1.95 10 6 2 0 8 14 8 4 2 6 18 6 1 2 5 8 ¿Qué conclusión podemos extraer de estos datos? H0: El peso y la altura son independientes Ha: El peso y la altura no son independientes 30 Contrastes de hipótesis no paramétricos Altura Peso 1.55-1.65 1.65-1.75 1.75-1.85 1.85-1.95 50-60 10 (3.78) 8 (7.14) 2 (6.72) 1 (3.36) 21 60-70 6 (5.04) 14 (9.52) 6 (8.96) 2 (4.48) 28 70-80 2 (5.94) 8 (11.22) 18 (10.56) 5 (5.28) 33 80-90 0 (3.24) 4 (6.12) 6 (5.76) 8 (2.88) 18 18 34 32 16 100 3.78=28*18/100 K=3=r l 39,459 2 c3*3,0.1 21,66 ¡Rechazo H_0| 31 32