Tests de Hipótesis. Métodos no paramétricos ESTADÍSTICA (Q) Dra. Diana Kelmansky 148 Algunas consideraciones sobre las inferencias sobre la media de una población Normal 1. Los tests e intervalos de confianza para la media de una población Normal utilizan un estadístico que tiene distribución t (o una distribución Normal cuando la varianza es conocida). Ésta es la distribución correcta siempre y cuando los datos efectivamente provengan de una distribución Normal. Generalmente no se conoce cual es la distribución subyacente a los datos. Si el histograma de los mismos es aproximadamente simétrico en forma acampanada y el box-plot no muestra datos atípicos, la distribución Normal será una buena aproximación. 2. Si falla el supuesto de normalidad pero la muestra tiene tamaño suficientemente grande entonces, por el Teorema Central del Límite, se pueden utilizar los tests con nivel aproximado basados en la distribución Normal. 3. El supuesto de que las observaciones son independientes es muy difícil de verificar. Depende del diseño de la investigación y del procedimiento de recolección de los datos. Cuando este supuesto no se cumple no son válidos los métodos presentados ni los que vamos a presentar. Es posible evaluar un tipo de dependencia asociada al orden en que fueron obtenidos los datos, cuando este fue registrado. Para ello se procede de la siguiente manera: • primero se calcula el llamado “residuo de cada dato”: residuo = dato – media del grupo, luego • se grafican los residuos versus el orden en que fueron obtenidos los datos. Si las observaciones fueran independientes (del orden en que fueron tomadas), el gráfico no debería presentar estructura ni tendencia. En el ejercicio 2 ( temperatura de sublimación del iridio y del rodio ) de la práctica 1, la estructura de los datos cambiaba con el orden por no haberse estabilizado la reacción. Sólo eliminando las primeras observaciones era posible suponer que los errores eran independientes pues en las primeras observaciones los residuos eran notablemente más grandes. Una situación similar suele ocurrir cuando la realización de las mediciones requiere la adquisición de habilidad para realizarlas. Al comienzo las observaciones pueden presentar mayor variabilidad para luego estabilizarse (ejemplo 2 sección 4.4 datos Newcomb, clases teóricas). En las próximas secciones presentaremos procedimientos que se utilizan cuando los datos muestran un alejamiento importante de la distribución normal y el tamaño de la muestra no permite utilizar el Teorema Central del Límite (es decir que las muestras son pequeñas). Se seguirá requiriendo el supuesto de independencia. 22. TESTS NO PARAMÉTRICOS El modelo que especifica la Normalidad de los datos es un modelo paramétrico pues está unívocamente determinado mediante el conocimiento de los parámetros, μ y σ. También lo es un modelo que establezca que los datos provienen de una distribución Tests de Hipótesis. Métodos no paramétricos ESTADÍSTICA (Q) Dra. Diana Kelmansky 149 exponencial o cualquier otra distribución que quede completamente determinada con el conocimiento de una cantidad finita de parámetros. En lo que sigue veremos métodos que no requieren que los datos tengan una distribución paramétrica específica, son los llamados métodos no paramétricos. Ejemplo 1. Se midió el TIEMPO (seg.) que tarda la concentración de un compuesto reducirse a la mitad durante una reacción. Se realizaron 28 repeticiones de la reacción en condiciones independientes e idénticas. Resultados obtenidos, ordenados por columna de menor a mayor. Tiempo Tiempo Tiempo Tiempo 617.2 617.2 617.3 617.4 617.4 617.5 617.6 617.6 617.6 617.7 617.7 617.7 617.7 617.8 617.8 617.8 618.0 618.0 618.2 618.5 619.9 621.9 623.7 626.7 628.1 632.6 648 652.7 Box-plot y el gráfico de probabilidad Normal de los valores de la tabla anterior. El box-plot y el gráfico de probabilidad Normal muestran que la distribución de los datos correspondientes a la variable TIEMPO es fuertemente asimétrica a derecha. Mediante el test de Shapiro Wilk se rechaza la hipótesis de que la distribución de la variable es normal. Si se desea resumir la distribución de esta variable mediante un parámetro de la posición de su centro, es preferible utilizar la mediana , en vez de la media, ya que la interpretación de esta medida no depende de la forma de la distribución. Estimaremos la mediana poblacional θ, con la mediana muestral, med = 617.80 22.1 TEST DEL SIGNO El test del signo es uno de los tests más antiguos utilizados en estadística. Ya fue utilizado en 1710 por el médico británico John Arbuthnot. Puede aplicarse tanto para una muestra como para dos muestras apareadas (veremos esto más adelente). Tests de Hipótesis. Métodos no paramétricos ESTADÍSTICA (Q) Dra. Diana Kelmansky 150 En el caso de una muestra, el test del signo permite decidir si la mediana de la distribución de la variable en la población de la cual provienen los datos coincide o no con cierto valor, Hipótesis nula: H0: θ = θ0 Este test, únicamente requiere el supuesto de independencia de las observaciones. Test del signo para una muestra Modelo X1, ... , Xn una muestra aleatoria de una distribución cualquiera con mediana θ. Una consideración intuitiva: Si el valor de la mediana fuera igual valor θ0, que llamamos “valor nulo” por estar especificado en la hipótesis nula se deberían observar, aproximadamente, la misma cantidad de observaciones en la muestra por encima y por debajo de θo. ¿Por qué? Definimos una nueva variable “diferencia”: Di = Xi – θ0 , i=1,2, ....,n Hipótesis nula: H0: θ = θ0 Si H0: θ = θ0 es verdadera, la variable aleatoria Di tiene la misma probabilidad de tomar valores positivos que negativos es decir: P(Di > 0) = P(Di < 0) = 0,5 (suponiendo que P(Xi = θ0)=0). Definimos ahora otra nueva variable aleatoria. Sn = cantidad de la cantidad de diferencias positivas ( o negativas) en la muestra Sn ~ Bi (n,p), n = tamaño de muestra y p es la probabilidad de que ocurra una diferencia positiva (o negativa). Cuando H0 es verdadera p = 1/2. Estadístico del test: Sn ~ Bi (n,1/2) bajo H0 El estadístico del test está basado en las variables Di = Xi – θo que suponemos independientes e igualmente distribuidas Hipótesis alternativas posibles a) Ha: θ ≠ θ0 b) Ha: θ < θ0 c) Ha: θ > θ0 Tests de Hipótesis. Métodos no paramétricos ESTADÍSTICA (Q) Dra. Diana Kelmansky 151 Regiones de rechazo de nivel α a) Ha: θ ≠ θ0 Sn ≥ n-k ó Sn ≤ k donde P(Bi(n,1/2)≤ k)=α/2 Ha: θ < θ0 Sn ≤ k donde P(Bi(n,1/2)≤ k)=α b) c) Ha: θ > θ0 Sn ≥ n-k donde P(Bi(n,1/2)≤ k)=α p-valor a) Ha: θ ≠ θ0 Sn obs < n/2 Sn obs > n/2 p-valor = 2 P( Bi(n,1/2) ≤ Sn obs ) p-valor = 2 P( Bi(n,1/2) ≥ n - Sn obs ) b) Ha: θ < θ0 p-valor = P( Bi(n,1/2) ≤ Sn obs ) c) Ha: θ > θ0 p-valor = P(Bi(n,1/2) ≥ n - Sn obs ) donde Sn obs = valor observado del estadístico del test. Observaciones • La distribución del estadístico del test bajo H0 es Bi(n,1/2) y el p-valor puede calcularse exactamente utilizando la distribución binomial. Si el tamaño de la muestra es suficientemente grande también puede utilizarse la aproximación de la binomial por la Normal. • Si muchas diferencias son positivas (o negativas) tendremos evidencia en contra de la hipótesis nula. Las diferencias iguales a 0 se ignoran y se trabaja con las diferencias distintas de cero, tanto positivas como negativas. • El test únicamente tiene en cuenta el signo de las diferencias y no su magnitud. • Las diferencias iguales a cero se ignoran. • El test NO REQUIERE SUPUESTOS acerca de la FORMA de la distribución de la variable subyacente a los datos, únicamente sobre la INDEPENDENCIA de las observaciones. • Para realizar el test del signo para una muestra con el Statistix es necesario usar un artificio, generando una nueva variable que tome el valor θ0. Tests de Hipótesis. Métodos no paramétricos ESTADÍSTICA (Q) • Dra. Diana Kelmansky 152 El p-valor que calcula Statistix es a una cola. Para obtener el p-valor de una hipótesis bilateral, el p-valor de la salida se duplica. Ejemplo 1 cont. X= tiempo que tarda la concentración de un compuesto en caer a la mitad durante una reacción. Hipótesis nula: H0: θ = 620 seg Hipótesis alternativa Ha: θ < 620 segundos. 1) Generamos la variable VALORNU = 620 Data -> Transformations Transformation Expression: valornu = 620 2) Statistics->One, Two, Multi-sample tests -> Sign Test Movemos a la casilla Sample Variables la variable que contiene los datos “TIEMPO” y la variable “VALORNU” que indica el valor nulo propuesto en H0. Salida: SIGN TEST FOR TIEMPO - VALORNU NUMBER OF NEGATIVE DIFFERENCES NUMBER OF POSITIVE DIFFERENCES NUMBER OF ZERO DIFFERENCES (IGNORED) PROBABILITY OF A RESULT AS OR MORE EXTREME THAN OBSERVED A VALUE IS COUNTED AS A ZERO IF ITS ABSOLUTE VALUE IS LESS THAN 0.00001 CASES INCLUDED 28 Conlusión MISSING CASES 0 21 7 0 0.0063 ◄- p-valor (una cola) Tests de Hipótesis. Métodos no paramétricos ESTADÍSTICA (Q) Dra. Diana Kelmansky 153 Hay más diferencias negativas (7 positivas vs 21 negativas) que las esperadas debido al azar, rechazamos la hipótesis nula y concluimos que la mediana del tiempo de vida del compuesto es significativamente menor que 620 minutos con un p-valor = 0.0063. 22.2 TEST DE RANGOS SIGNADOS DE WILCOXON El test del signo solamente tiene en cuenta si las observaciones son mayores o menores que la mediana propuesta en H0. El siguiente test no paramétrico compara las mismas hipótesis que el test del signo, tiene en un poco más en cuenta la magnitud de las observaciones pero requiere el supuesto de SIMETRÍA. Modelo: X1, X2, . . . , Xn son observaciones independientes provenientes de una distribución continua simétrica con mediana θ. Hipótesis nula: H0: θ = θ0 a) Ha: θ ≠ θ0 Hipótesis alternativas posibles b) Ha: θ < θ0 c) Ha: θ > θ0 Construcción del Estadístico del test: - Di = Xi − θo - Se ordenan Di sin tener en cuenta su signo (es decir, se ordenan los valores absolutos de las diferencias) y se le asigna a cada una un rango. - La suma de los rangos de las diferencias positivas (o negativas) es el ESTADÍSTICO del test. Este valor se lo denota por W p-valor Statistix calcula el p-valor y el estadístico del test automáticamente. Para calcular el p-valor del test debemos conocer la distribución del estadístico. Esta distribución no es simple y se encuentra tabulada para n ≤ 25. Para muestras grandes la distribución se aproxima a una Normal con media μ = n(n + 1) y varianza n(n + 1)(2n + 1) . σ = 24 4 2 Si la hipótesis nula es verdadera, la suma de rangos positivos será aproximadamente igual a la mitad de la suma de rangos totales. Pero si H0 es falsa, la suma de rangos positivos será notablemente mayor o menor que la mitad de la suma total. Ejemplo 2 Supongamos que interesa decidir entre las hipótesis: Tests de Hipótesis. Métodos no paramétricos ESTADÍSTICA (Q) Es decir que θ0 = 100. H0 θ = 100 vs Dra. Diana Kelmansky 154 H0 θ ≠ 100 La tabla siguiente ejemplifica los cálculos previos para obtener el valor del estadístico del test Datos ordenados (X) 35 85 96 140 180 200 240 289 360 400 Diferencias –75 –15 –4 40 80 100 140 189 260 300 Diferencias absolutas 75 15 4 40 80 100 140 189 260 300 Rangos 4 2 1 3 5 6 7 8 9 10 Suma rangos de diferencias negativas = 4 + 2 + 1 = 7 Suma rangos de diferencias positivas = 3 + 5 + 6 + 7 + 8 + 9 + 10 = 48 Son diferentes!! pero debemos calcular la probabilidad de encontrar estos valores cuando H0 s verdadera. Lo haremos inmediatamente con Statistix. ¿Cómo hacer el test de Wilcoxon usando Statistix? Igual que con el test del signo, por ser otra opción para muestras apareadas, es necesario generar una variable artificial que tome el valor θo. 1) Generamos la variable artificial VALNUL = 100 Data ->Transformations Transformation Expression: VALNUL = 100 2) Statistics -> One, Two, Multi-sample tests -> Wilcoxon Signed Rank Test Indicamos la variable que contiene los datos (X) y la variable artificial que indica el valor propuesto en Ho. WILCOXON SIGNED RANK TEST FOR X - VALNUL SUM OF NEGATIVE RANKS SUM OF POSITIVE RANKS -7.0000 48.000 EXACT PROBABILITY OF A RESULT AS OR MORE EXTREME THAN THE OBSERVED RANKS (1 TAILED P-VALUE) 0.0186 NORMAL APPROXIMATION WITH CONTINUITY CORRECTION TWO TAILED P-VALUE FOR NORMAL APPROXIMATION 2.039 0.0415 Tests de Hipótesis. Métodos no paramétricos ESTADÍSTICA (Q) Dra. Diana Kelmansky 155 La suma de rangos positivos y negativos coincide con los calculados más arriba. Como el test es a dos colas p = 2 * 0.0186 = 0.0372 (p-valor basado en la distribución exacta). Si aplicamos el test del signo a estos datos obtenemos el siguiente resultado: SIGN TEST FOR X - VALNUL NUMBER OF NEGATIVE DIFFERENCES NUMBER OF POSITIVE DIFFERENCES NUMBER OF ZERO DIFFERENCES (IGNORED) PROBABILITY OF A RESULT AS OR MORE EXTREME THAN OBSERVED 3 7 0 0.1719 ◄- p = 2*0.172 = 0.344 A VALUE IS COUNTED AS A ZERO IF ITS ABSOLUTE VALUE IS LESS THAN 0.00001 El test del signo no rechaza H0, mientras que el test de Wilcoxon sí rechaza H0. Esto se debe a que el estadístico W no sólo tiene en cuenta la cantidad de datos mayores que el “valor nulo” para la mediana propuesta en H0 sino además el orden de las diferencias expresada a través de los rangos. ¿Qué supuestos deben cumplir los datos para poder aplicar el test de rangos de Wilcoxon? La distribución debe ser simétrica. En este caso, no parece haber alejamientos groseros de la simetría (ver histograma), por lo que concluimos que es válido usar este test. 3 Frequency 2 1 0 0 50 100 150 200 X 250 300 350 400 Tests de Hipótesis. Métodos no paramétricos ESTADÍSTICA (Q) Dra. Diana Kelmansky 156 ¿Cómo se asignan los rangos si hay observaciones repetidas? El test asigna el rango promedio a las observaciones repetidas. Modificamos el ejemplo para ilustrar el procedimiento, ahora el 140 aparece 2 veces Datos ordenados (X) 35 85 96 Diferencias –75 –15 –4 Diferencias absolutas 75 15 4 Posición 5 2 1 Rangos asignados 5 2 1 140 140 180 200 240 289 360 400 40 40 80 100 140 189 260 300 40 40 80 100 140 189 260 300 3 4 6 7 8 9 10 11 3.5 3.5 6 7 8 9 10 11 Suma rangos negativos = 5 + 2 + 1 = 8 Suma rangos positivos = 3.5+ 3.5 + 6 + 7 + 8 + 9 + 10+11 = 58 Diferencias absolutas ordenadas 4 15 40 40 75 Posición 1 2 3 4 5 Rangos asignados 1 2 3.5 3.5 5 Realizamos nuevamente el test con el Statistix y obtenemos: WILCOXON SIGNED RANK TEST FOR X - VALNUL SUM OF NEGATIVE RANKS -8.0000 SUM OF POSITIVE RANKS 58.000 EXACT PROBABILITY OF A RESULT AS OR MORE EXTREME THAN THE OBSERVED RANKS (1 TAILED P-VALUE) 0.0122 NORMAL APPROXIMATION WITH CONTINUITY CORRECTION TWO TAILED P-VALUE FOR NORMAL APPROXIMATION 2.178 0.0294 TOTAL NUMBER OF VALUES THAT WERE TIED 2 NUMBER OF ZERO DIFFERENCES DROPPED 0 MAX. DIFF. ALLOWED BETWEEN TIES 0.00001 CASES INCLUDED 11 MISSING CASES 0 80 6 6 .............. ............. .............