Contrastes de hipótesis estadísticas En la primera parte de la inferencia estadística se ha abordado el problema de la estimación de parámetros, en ella se ha visto cómo construir estimadores de parámetros poblacionales, se ha insistido en el carácter de variable aleatoria que tienen los estimadores y se ha estudiado la distribución de algunos de ellos, lo que se ha denominado distribución en el muestreo, lo cual ha permitido la estimación por intervalos de confianza. La segunda parte de la inferencia estadística aborda un problema diferente, que se plantea cuando se pretende comprobar la veracidad de alguna afirmación que afecta a un fenómeno aleatorio. En un caso como este, no es posible acometer una prueba irrefutable, pues el fenómeno a estudiar produce resultados que, por ser aleatorio, son impredecibles. Gracias a la teoría de la probabilidad se podrá definir un conjunto de resultados más probables en el caso de que fuese cierta la afirmación que se pretende comprobar y plantear algún procedimiento para obtener observaciones de aquél fenómeno; si se obtienen respuestas de entre aquellas que se han identificado como muy poco probables, se podrá concluir la falsedad de la afirmación sometida a prueba, asumiendo un margen de error cuya probabilidad de ocurrir podrá ser también cuantificada. Los principales conceptos relativos a la teoria de contraste serán introducidos con la ayuda de algunos ejemplos. Contraste sobre la media de una distribución Normal de varianza conocida Ejemplo: Supongamos que del censo de 1990 sabemos que la talla media de los estudiantes 2 de la Universidad de Córdoba es de 170 cm y que su varianza es de 500 cm . Puesto que el censo es antiguo, ¿Podríamos afirmar que la talla media ha cambiado? Se trata, por tanto de contrastar las siguientes hipótesis: Hipótesis nula Ho: µ = 170 Hipótesis alternativa H1: µ<>170 Supuesto inicial: La variable X de que se trata, talla de los estudiantes de la Universidad de Córdoba en el curso actual, sigue una distribución Normal de media µ desconocida y varianza 2 2 σ conocida, pues supondremos que será la misma que en el censo de 1990: 500 cm Metodología: para realizar el contraste, tomamos una muestra de tamaño n y estimamos en ella µ con la media muestral. La media muestral es una variable aleatoria que, por proceder de una distribución Normal 2 2 N(µ; σ ), sigue una distribución Normal N(µ; σ /n) = N(µ; 500/n) Tipificando la media muestral, el estadístico Z= x −µ σ2 n → N ( 0 ; 1) Si es cierta la hipótesis nula, el estadístico: Contraste de Hipótesis, pág 1 Z exp = x − 170 500 n → N ( 0 ; 1) , también llamado estadísti co experimental Regiones crítica y de aceptación: Concluiré rechazando la hipótesis nula si la media muestral es un valor que contradice claramente dicha hipótesis: si obtengo una media muestral mucho más pequeña o mucho mayor que 170. En otro caso, diré que no hay evidencias en contra de la hipótesis nula. Si la media es 170, valores muy alejados de 170 son muy improbables, pero no imposibles, existirá una probabilidad de encontrar tales valores, aún siendo cierta la hipótesis nula. Si nos encontramos con uno de estos casos y rechazamos la hipótesis nula cometemos un error, es el error tipo I. La probabilidad de cometer ese error se fija de antemano, es el nivel de significación, α = P(rechazar Ho/Ho es cierta) Puesto que la media muestral tipificada sigue una distribución N(0;1), puedo encontrar dos abcisas que definan un intervalo de probabilidad 1-α. En realidad estas dos abcisas pueden ser cualesquiera que cumplan la condición de que el área bajo la curva de densidad sea 1-α, pero debido a la simetría de la Normal, se toman Z1-α/2 ; Zα/2, o lo que es lo mismo: - Zα/2 ; Zα/2 Si, elegida una muestra, obtenemos un Zexp fuera de ese intervalo, rechazaremos la hipótesis nula. Región crítica o de rechazo: Región de aceptación: Cr = ( −∞ ; −Zα / 2 ) ∪ ( Zα / 2 ; ∞) Co = ( −Z α / 2 ; Zα / 2 ) C0 Aplicación:La siguiente serie de datos es una muestra de tamaño n=10 de una N(170;500) 172; 178; 148; 145; 188; 193; 186; 199; 187; 177 la media es:177,3 La región de aceptación, para un nivel de significación del 10% es (-1,64 ; 1,64) El estadístico experimental es:1,032 que está comprendido en la región de aceptación, por eso se concluye que no se puede rechazar la hipótesis nula. Contraste de Hipótesis, pág 2 Error de tipo II Es el que se comete al aceptar la hipótesis nula siendo falsa, o sea, cuando se rechaza la hipótesis alternativa siendo cierta. Un contraste como el planteado: Hipótesis nula Ho: µ = 170 Hipótesis alternativa H1: µ<>170 contempla infinitas posibles hipótesis alternativas, basta con que la media no sea 170. Pero en todos los casos la hipótesis nula es la misma, y la región de aceptación para un α del 10% siempre será (-1,64 ; 1,64). Supongamos que en realidad, la talla actual ha crecido y que ahora 2 la media no es 170 sino 180 cm, con una varianza de 500 cm Ahora la lista siguiente es una muestra procedente de una variable N(180;500) 190; 199; 170; 189; 179; 221; 175; 193; 150; 209 la media es:187,5 El estadístico experimental es: 2,475 que NO está comprendido en la región de aceptación, por eso se concluye (correctamente) que hay evidencias para rechazar la hipótesis nula. En casos como este decimos que el contraste resultó significativo. Sin embargo, si los valores obtenidos hubieran sido los siguientes, que también proceden de una variable N(180;500) 184; 204; 173; 188; 189; 190; 146; 157; 184; 198 la media es:181,3 La región de aceptación, para un nivel de significación del 10% es (-1,64 ; 1,64) El estadístico experimental es:1,598 que está comprendido en la región de aceptación, por eso se concluye (incorrectamente) que no se puede rechazar la hipótesis nula. Pero sabemos que la media es 180, al aceptar la hipótesis nula cometemos un error, es el error de tipo II y ocurre cuando se acepta la hipótesis nula siendo falsa. La probabilidad de cometer error de tipo II se representa como β = P(aceptar Ho/Ho es falsa) Errores de tipo I y II Para ver la relación existente entre los dos tipos de errores, lo haremos con otro ejemplo: Hipótesis nula, la media es:170, XàN(170;500) Distribución media muestral bajo Ho y H1 b = P(error tipo II) 0.06 0.05 H0 H1 0.04 0.03 0.02 C0 α/2 0.01 0 150 160 170 α/2 β 180 190 200 210 Contraste de Hipótesis, pág 3 Un caso concreto de hipótesis alternativa, la media es185, XàN(185;500) La varianza es, en ambos casos, 500 Se pueden representar las funciones de densidad de la media muestral bajo ambas hipótesis y ver que el área delimitada por densidad correspondiente a H1 (distribución que hay que considerar cuando H1 sea cierta) y la región de aceptación (valores de la media muestral que me hacen decir que H1 es falso) es lo que denominamos β = probabilidad de error de tipo II. Con la ayuda de este gráfico se puede ver que para reducir el error tipo II se puede hacer más pequeña la región de aceptación, pero entonces aumenta el error tipo I. Solo se puede disminuir ambos errores de modo simultáneo aumentando el tamaño de la muestra, pues así la varianza de la media muestral es menor, las curvas Ho y H1 son más estrechas y, para la misma región de aceptación, disminuyen el área correspondiente a α y β. Contrastes unilaterales y bilaterales: En casos como el visto hasta ahora, rechazaremos la hipótesis nula siempre que la muestra extraída contradiga claramente esa hipótesis, en nuestro ejemplo, siempre que la media muestral sea significativamente mayor menor que la propuesta como hipótesis nula. Contrastes del tipo: Ho: µ = µ0 H1: µ< µ0 Darán resultado significativo solo si la media muestral es menor que la propuesta como hipótesis nula y se denominan contrastes unilaterales. El contraste se plantea y se resuelve del mismo modo, pero como solo aceptamos H1 si la media muestral es claramente menor que 175, la región crítica es: C1 =(−∞; −Zα) y la región de aceptación es: C0 = (−Zα; ∞) En el caso de que la hipótesis alternativa sea de sentido contrario al anterior: Ho: µ = µ0 H1: µ > µ0 Las regiones crítica y de aceptación son: C1 = (Zα; ∞) y C0 = (−∞; Zα) Valor crítico o P- valor de un contraste Se ha visto que se puede construir la región de aceptación y la región crítica de un contraste antes de tomar la muestra, basta saber cuál es el estadístico de contraste, su distribución, conocer si el contraste es unilateral o bilateral y el nivel de significación deseado. Todo ello no requiere el conocimiento de los datos de la muestra. De hecho, habria que proceder así para evitar que el conocimiento de la muestra pudiese modificar el planteamiento inicial del test. No obstante, los programas estadísticos proceden de otro modo, como ellos pueden calcular la probabilidad asociada a cualquier intervalo de valores correspondientes a la distribución del estadístico de contraste, pueden informar sobre cómo de “raro” , desde el punto de vista de la hipótesis nula, es el valor obtenido. En realidad nos informan sobre la probabilidad de obtener valores tan raros o más que el obtenido, a esta probabilidad se le denomina valor crítico o Pvalor del test. Veámoslo con un ejemplo: Sea el contraste unilateral sobre la talla media de los alumnos de la Universidad de Córdoba en 2 el año 2000, que suponemos que sigue una distribución N( µ ; σ = 500) Ho: µ = 170 H1: µ > 170 Contraste de Hipótesis, pág 4 Supongamos que se ha extraido la m.a.s. de tamaño 10 , que resulta ser la siguiente: 184; 204; 173; 188; 189; 190; 146; 157; 184; 198 cuya media es:181,3 El estadístico experimental es : Z exp = x − 170 500 n → N ( 0 ; 1) Sustituyendo y operando, se obtiene Zexp = 1,598 . Desde el punto de vista de la hipótesis nula, valores tan “raros” o más que este serán aquellos que hagan aceptar H1 , es decir, aquellas muestras cuya media sea claramente mayor que 170, tanto o más que la muestra actual, o , lo que es lo mismo, que produzcan un valor de Zexp ≥ 1,598, de ser cierta la hipótesis nula, esa probabilidad se puede calcular, pues la distribución de Zexp es una N(0;1): Z → N (0;1) P( Z ≥ Z exp ) = P( Z ≥ 1.598) = 0.05501 El P-valor del contraste será, por lo tanto, 0.05501. Ahora podemos afirmar que, si la hipótesis nula es cierta, valores tan raros como el que proporciona la muestra actual o aún más favorables a la hipótesis alternativa, ocurren solo 5.5 de cada 100 veces que se obtenga una muestra, por lo que podremos aceptar o rechazar la hipótesis nula conociendo el riesgo a error que se corre. En el ejemplo actual, se puede rechazar H0 , pues el estadístico de contraste proporciona un valor de los que podríamos calificar de “raros”. No obstante, si se rechaza la hipótesis nula, el riesgo a errar es del 5.5%. En definitiva, se puede definir e valor crítico o P-valor de un contraste como el riesgo que se asume a equivocarse por rechazar la hipóteis nula. Si el riesgo a errar es grande, no la rechazaré, mientras que si este riesgo es pequeño, podré rechazarla. En general, si el P-valor es menor que α , se rechaza H0 , y si es mayor se acepta. También se puede contemplar el P-valor como el nivel de significación que debe tener un test para que el estadístico de contraste sea justamente la frontera entre la región crítica y la región de aceptación. Con esta definición se puede comprender que, cuando el contraste es bilateral, el P-valor sea el doble que para el mismo contraste unilateral. Si se realiza el contraste: Ho: µ = 170 H1: µ ≠ 170 y se obtiene la muestra anterior, el estadístico de contraste vuelve a ser Zexp = 1,598, pero ahora, la región crítica ha de ser bilateral, como se basa en una N(0;1), será además simétrica. Si se desea que Zexp sea frontera de esta región se tendrá: Cr = ( −∞ ; − Z exp ) U ( Z exp ; ∞ ) C0 = ( − Z exp ; Z exp ) P − valor = P ( Z ∈ Cr / Z → N (0;1) ) P − valor = P ( Z ≤ −Zexp U Z ≥ Zexp ) = P ( Z ≤ −Z exp ) + P ( Z ≥ Zexp ) P − valor = 2P ( Z ≤ −Zexp ) = 0.11 Contraste de Hipótesis, pág 5 Generalmente este es el resultado que proporcionan los programas estadísticos, si se desea saber el P-valor correspondiente a un contraste unilateral, basta dividir el que proprocione el programa entre dos. En el caso de contrastes unilaterales, si el P-valor que se conoce es el correspondiente a un contraste bilateral, solo se rechazará H0 cuando la cantidad experimental esté del lado de H1 y si el P-valor calculado dividiendo entre dos el que proporcione el programa, así lo aconseja. Contraste sobre la media de una distribución Normal de varianza desconocida Hasta ahora se ha supuesto que la varianza poblacional era conocida, lo que es poco verosímil si la media poblacional es desconocida. Un caso más real será aquél en que se desee efectuar un contraste sobre la media de una distribución normal de varianza desconocida: Ho: µ = µ0 H1: µ ≠ µ0 La media muestral es una variable aleatoria que, por proceder de una distribución Normal 2 2 N(µ;σ ), sigue una distribución Normal N(µ; σ /n). Si es cierta la hipótesis nula, la media 2 muestral seguirá una distribución N(µ0 ; σ /n) Tipificando la media muestral, el estadístico Z= x − µ0 → N ( 0 ; 1) σ2 n Pero ahora no es posible calcularlo, pues la varianza poblacional es desconocida. No obstante, podemos estimarla con la cuasivarianza. La variable así tipificada no sigue una distribución Normal, sino una t de Student con n-1 grados de libertad, por lo que la región de aceptación para el contraste bilateral con un nivel de significación α, se construye a partir de la t de Student C0 = (-tα/2 ; tα/2) y con ella se compara la cantidad experimental: t exp = x − µ0 s2 n Ejemplo 2: se desea realizar el contraste visto en el primer ejemplo: Ho: µ = 170 H1: µ ≠ 170 Pero ahora suponiendo que se desconoce la varianza poblacional. Para realizar el contraste, se obtiene una muestra, sea la muestra de tamaño n=10 de una N(175;500) que hemos utilizado ya : 186; 175; 185; 172; 174; 178; 178; 188; 165; 172 En esta muestra estimamos la media poblacional con la muestral:177,3 y estimamos la varianza poblacional con la cuasivarianza, que es: 325.789 La región de aceptación, para un nivel de significación del 10% y 9 grados de libertad es C0 = (-tα/2 ; tα/2) = (-1,833 ; 1,833) El estadístico experimental es: Contraste de Hipótesis, pág 6 t exp = 177.3 − 170 = 1.279, que está comprendido en la región de aceptación, por eso se 325.789 10 concluye que no se puede rechazar la hipótesis nula. Contrastes unilaterales Cuando el contraste no sea bilateral, la región crítica se sitúa en un solo extremo de la t de Student, de modo coherente con la hipótesis alternativa de que se trate: Hipótesis Ho: µ = µ0 H1: µ > µ0 Ho: µ = µ0 H1: µ < µ0 Región crítica Región de aceptación C1 = (t α ; ∞) C0 = (−∞ ; tα) C1 = (−∞ ; −tα ) C0 = (−tα ; ∞) Contraste sobre la media de una variable aleatoria que no siga la distribución Normal. Cuando no se pueda asumir la Normalidad de la variable de partida, tendremos que recurrir a algún contraste No paramétrico, que no se verán aquí. No obstante, si la muestra es suficientemente grande, se puede aplicar el T.C.L. y realizar el contraste basándonos en la distribución normal, la tabla siguiente resume los contrastes y las condiciones de aplicabilidad. Contraste Varianza poblacional 2 Ho: µ = µ0 H1: µ ≠ µ0 σ conocida n>30 2 σ desconocida, estimada con s2 2 Ho:µ = µ0 H1: µ > µ0 σ conocida σ desconocida, s2 2 σ conocida estimada con s2 Z exp = Z exp = n>30 Z exp = n>60 Z exp = n>30 Z exp = 2 σ desconocida, Estadístico experimental n>60 2 estimada con Ho: µ = µ0 H1: µ < µ0 Tamaño muestral * n>60 Z exp = Región de aceptación x − µ0 σ 2 /n x − µ0 C0 = (−Ζα/2 ; Ζα/2 ) s2/n x − µ0 σ 2 /n x − µ0 C0 = (−∞ ; Ζα) s2/n x − µ0 σ 2 /n x − µ0 C0 = (−Ζα ; ∞) s2/n *: es el tamaño de muestra mínimo requerido para que se pueda aplicar el T.C.L., con suficiente garantía de aproximación. Contraste de Hipótesis, pág 7 Ejemplo: Supóngase que el nivel medio de contaminación atmosférica sobre núcleos urbanos medido en cierta escala no deba superar las 15 unidades, que para controlar este nivel se hayan elegido aleatoriamente cien puntos de control sobre una ciudad y que estas medidas proporcionen un valor medio de 15.53 con una cuasivarianza de 4.82. Contrástese la hipótesis nula de que no se supera el máximo nivel medio admitido. Se tratará de efectuar el contraste: Ho:µ = 15 H1: µ ≥ 15 Como no se conoce la distribución de esta variable (de hecho no se indica cuál es el procedimiento ni las unidades de medida), en principio no se podría plantear el contraste habitual sobre la media de una distribución Normal, no obstante, como el tamaño muestral, n=100 es suficientemente grande, se puede admitir la aproximación Normal de la distribución de la media muestral y resolver el contraste. El estadístico de contraste es: Z exp = x − µ0 2 s n = 15.53 − 15 = 2.4141 4.82 100 La región de aceptación, para un nivel de significación del 5% es: C0 = (-∞ ; Z0.05) = (-∞ ;1.64) Conclusión: Habría evidencias para afirmar que se ha superado el nivel máximo admisible. Contraste sobre una proporción. En gran cantidad de ocasiones la variable que se mide es categórica, en esos casos, el parámetro que más habitualmente se usa para caracterizar las distintas categorías de dicha variable es la proporción. Cuando solo interese una de las posibles categorías frente a las demás, será aplicable el modelo de distribución de variable aleatoria binaria, en la que se identifica como "éxito" al conjunto de resultados que muestran la categoría que es de interés y como "fracaso" a todos los demás. En este tipo de situaciones es posible plantear contrastes sobre el parámetro p de la distribución binomial que, como se vio en el tema 7, se podrán y resolver usando la distribución en el muestreo de la variable X = número de éxitos, pues, como se sabe, es binomial de parámetros n y p. No obstante, en este punto se seguirá una metodología distinta, aplicando la aproximación Normal, cuando esto sea posible. Contrastes del tipo: Ho: p = p0 H1: p ≠ p0 Pueden ser asimilados a uno sobre la media de una variable que no sigue la distribución Normal, pues al tomar una muestra y estimar en ella la proporción de "éxitos", dicho estimador puede ser considerado la media de una variable binaria en la que asimilamos 1 a "éxito" y 0 a "fracaso": n pˆ = a = n ∑x n i = x , donde na es el número de éxitos de la muestra y xi solo toma valores 0 ó 1. En tal caso, se considera que la muestra es suficientemente grande si np0 y nq0 son ambos mayores que 5. Contraste de Hipótesis, pág 8 Si H0 es cierta, la varianza poblacional no hay que estimarla, pues es la de una variable binaria 2 de parámetro p0 : σ = p 0 q 0 El contraste se resuelve calculando: Z exp = p̂ − p 0 p0q0 n y comparándolo con una región de aceptación bilateral: C0 = (−Ζα/2 ; Ζα/2 ) De modo similar se procede para los contrastes unilaterales. Contraste Ho:p = p0 H1: p> p0 Región de aceptación Varianza, bajo H0 Población Estimador de p Tamaño muestral Estadístico experimental C0 = (−∞ ; Ζα) 2 σ =p0q0 Ho:p = p0 H1: p< p0 pq σ = 0 0 n 2 p̂ n p0 >5 y nq0>5 C0 = (−Ζα ; ∞) Z exp = p̂ − p 0 p0q0 n Ejemplo: De una determinada asignatura se comenta que se produce un número excesivo de suspensos, para comprobar la sospecha, se han elegido aleatoriamente 50 alumnos de entre los que se han presentado al primer parcial, y se ha encontrado que 30 de ellos están suspensos, pero el profesor afirma que eso no quiere decir que la proporción de suspensos sea mayor que el 50%, ¿Es eso cierto?. Es posible que el profesor tenga razón, pues la información que se posee es la de una muestra, que se supone representativa de todos sus alumnos, para comprobar la veracidad de su afirmación, se tendrá que efectuar un contraste sobre la proporción de suspensos. Si se supone la “inocencia” del profesor, el contraste se planteará: H0 : p = 0.5 H1 : p > 0.5 Como 50×0.5 = 25 >5, se puede aplicar la aproximación normal. Para un nivel de significación α = 0,01, C0 = (-∞; Z0.01) = (-∞ ; 2.326) y el estadístico de contraste: Z exp 30 − 0.5 pˆ − p 0 = = 50 = 1.4142 p0q0 0.5 ⋅ 0.5 n 50 Conclusión: No se puede rechazar que la proporción de suspensos es inferior o igual al 50% Contraste sobre la Varianza de una variable aleatoria que sigue una distribución Normal. Contrastes del tipo: 2 2 Ho: σ = σ 0 2 2 H1: σ ≠ σ 0 Contraste de Hipótesis, pág 9 Se pueden realizar siempre que la variable de partida siga una distribución Normal, pues, en tal caso, sabemos que: si X → N (µ ;σ 2 ) entonces: ( n −1) s 2 ns 2 = 2 σ2 σ → χ 2 (n − 1) Para resolver el contraste hay que suponer cierta la hipótesis nula, entonces el estadístico de contraste es: 2 χ exp = ( n −1) s 2 ns 2 = 2 σ 02 σ0 y se comparará con la región de aceptación: C 0 = ( χ 12− α / 2; χ α2 / 2 ) , bilateral por el tipo de χ 12−α / 2 es la abcisa de una distribución Chi-cuadrado con n-1 2 grados de libertad que deja a su derecha un área 1-α α /2 , y χ α / 2 es la que deja a su derecha contraste planteado, donde un área α /2 Para el caso unilateral, el estadístico de contraste es el mismo y las regiones de aceptación se construyen de modo que la región crítica sea coherente con la hipótesis alternativa. La tabla siguiente resume los contrastes sobre la varianza: Región crítica Contraste 2 2 2 2 2 2 Ho: σ = σ 0 2 2 H1: σ ≠ σ 0 Ho: σ = σ 0 2 2 H1: σ > σ 0 Ho: σ = σ 0 2 2 H1: σ < σ 0 Región de aceptación Estadístico de contraste 2 2 C1 = (0; χ 12−α / 2 ) U ( χ α2 / 2 ; ∞) C 0 = ( χ 1− α / 2; χ α / 2 ) 2 χ exp = C1 = ( χ α2 ; ∞) C 0 = (0; χ α2 ) C1 = (0; χ 12−α ) C 0 = ( χ 12−α ; ∞) ( n −1) s 2 ns 2 = 2 σ 02 σ0 Ejemplo: Supongamos la primera muestra de diez alumnos matriculados en la Universidad de Córdoba durante el año 2000, sus tallas son: 190; 199; 170; 189; 179; 221; 175; 193; 150; 209 Suponiendo que los datos procedan de una distribución Normal, contrástese la hipótesis nula 2 de que la varianza sea 500 cm contra la alternativa de que tenga otro valor, con un nivel de significación del 10%. 2 2 Ho: σ = σ 0 2 2 H1: σ ≠ σ 0 La media de este conjunto de datos es 187.5 La cuasivarianza de este conjunto de datos es 410.722. Supuesto Normalidad, la región de aceptación, basada en la distribución Chi-cuadrado con 9 grados de libertad es: 2 2 C 0 = ( χ 12−α / 2; χ α2 / 2 ) = ( χ 0.95 ; χ 0.05 ) = (3.325;16.919) y el estadístico de contraste: 2 χ exp = ( n −1) s 2 9 ⋅ 410.722 = = 7.393 σ 02 500 Conclusión: Se aceptará la hipótesis nula. Contraste de Hipótesis, pág 10 Contraste de Normalidad de Kolmogorov-Smirnov. La mayoría de los contrastes paramétricos que se han visto se basan en la Normalidad de los datos de la muestra. El contraste actual permite concluir si un conjunto de datos procede o no de una distribución Normal. El planteamiento es el siguiente: Ho: Los datos proceden de una Normal H1: Los datos no proceden de una Normal Existen varios contrastes específicos de Normalidad, el que veremos aquí sirve para cualquier tipo de distribución, no solamente la Normal, por este motivo, no es el más potente entre todos los contrastes de Normalidad disponibles. El contraste de Kolmogorov-Smirnov se basa en la idea de que si un conjunto de datos sigue un modelo de distribución, la tabla de frecuencias relativas acumuladas ( función de distribución empírica) de los datos debe aproximarse a la función de distribución teórica propuesta. Si la diferencia entre ambas distribuciones no es muy grande, las diferencias pueden ser atribuidas al azar y concluiremos que los datos siguen la ley propuesta. Si las diferencias son grandes, entonces no podremos atribuirlas al azar, sino al hecho de que los datos no siguen el modelo de distribución propuesto. Para realizar el contraste hay que comparar la frecuencia relativa acumulada con la función de distribución teórica, se calcula la diferencia entra ambas distribuciones punto a punto y el estadístico de contraste es la mayor de todas las diferencias en valor absoluto. La función de distribución empírica es escalonada y muestra un salto en cada uno de los valores observados, por ello hay que considerar dos posibles diferencias, una por cada uno de los valores de la función de distribución empírica inmediatamente antes y después de cada uno de los puntos observados, ambas diferencias calculadas respecto del valor de la función de distribución teórica en ese punto. Se toman las diferencias en valor absoluto, el estadístico de contraste es la máxima diferencia entre todas ellas. El estadístico así calculado se compara con la mínima diferencia significativa para el nivel de significación considerado, proporcionada por la tabla de Kolmogorov-Smirnov, y si es menor, concluimos que no se puede rechazar la hipótesis de Normalidad. Test de Kolmogorov Normal Frecuencia acumulada 1 d2 0.75 d1 0.5 0.25 0 130 150 170 190 210 Ejemplo La siguiente serie de datos es la muestra de tamaño n=10 de una N(175;500) que hemos utilizado en el primer ejemplo: 172; 178; 148; 145; 188; 193; 186; 199; 187; 177 Contraste de Hipótesis, pág 11 ¿Se podrá aceptar, con un nivel de significación del 5% que este conjunto de datos procede de una distribución Normal? El gráfico anterior puede aclarar la situación, pues muestra las distribuciones empírica y teórica del conjunto de datos. Para calcular la función de distribución teórica hay que conocer los dos parámetros de la 2 distribución Normal, la media (µ ), y la varianza (σ ) , si ambos son desconocidos se estimarán con la media ( x = 177.3 ) y cuasivarianza de la muestra ( s 2 = 325.789 ). El contraste se plantea entonces como: Ho: Los datos proceden de una Normal ( de media 177.3 y de varianza 325.789) H1: Los datos proceden de otra distribución (o de una Normal con otros parámetros) La función de distribución teórica es P(X ≤ x) y para calcular esta probabilidad teórica hay que tipificar los datos, pues hay que calcular probabilidades asociadas a intervalos de una variable Normal, y solo tenemos tabla de la N(0;1) Para tipificar: Media = 177.3; Cuasivarianza = 325.789 La tabla siguiente contiene los cálculos precisos para realizar el contraste: z = datos Probad1 d2 dmax tipifibilidad cados P(Z≤z) 145 145 1 1 0.1 -1.79 0.0368 0.0368 0.0632 0.0632 148 148 1 2 0.2 -1.62 0.0523 0.0477 0.1477 0.1477 172 172 1 3 0.3 -0.29 0.3845 0.1845 0.0845 0.1845 177 177 1 4 0.4 -0.02 0.4934 0.1934 0.0934 0.1934 178 178 1 5 0.5 0.04 0.5155 0.1155 0.0155 0.1155 186 186 1 6 0.6 0.48 0.6851 0.1851 0.0851 0.1851 187 187 1 7 0.7 0.54 0.7045 0.1045 0.0045 0.1045 188 188 1 8 0.8 0.59 0.7233 0.0233 0.0767 0.0767 193 193 1 9 0.9 0.87 0.8078 0.0078 0.0922 0.0922 199 199 1 10 1 1.20 0.8854 0.0146 0.1146 0.1146 (*) en este caso no hay datos repetidos, por eso esta columna y la anterior coinciden y las frecuencias absolutas son todas 1. Si hubiese datos repetidos esta columna contendrá solo los valores diferentes, y se anotará en la columna de frecuencias absolutas el nº de veces que se repiten. Datos en (*) datos Frec. Frec. ac. Frec. ac. orden distintos Abs. Abs. Rel. El estadístico de contraste es D = 0.1934 De la tabla de Kolmogorov, para n =10 y α = 0.05, el valor máximo de D es Dn = 0.410 Como D < Dn, concluimos que no se puede rechazar la hipótesis de normalidad. Nota: al estimar los parámetros poblacionales con los muestrales, las diferencias entre la distribución teórica y la empírica tienden a ser menores que las que se obtendrían si se conociesen estos parámetros y se producen menos resultados significativos que los que realmente debieran producirse. Por ello, para un caso como este se recomienda usar la tabla de Lilliefors que da valores inferiores de las diferencias significativas que las proporcionadas por la tabla de Massey, que es la que se ha proporcionado en la colección de tablas. No se ha proporcionado esta segunda tabla para no complicar más los posibles casos a considerar. Contraste de Hipótesis, pág 12