Estadística (Q) 1 Resumen de los tests de la práctica 6 Test para la media de una población normal Sean X1 ; : : : ; Xn N ; 2 una muestra aleatoria (v.a.i.i.d. variables aleatorias independientes idénticamente distribuidas). Se quiere testear H0 : = H1 : 1.1 0 versus alguna de las alternativas siguientes 6= H1 : 0 > 0 H1 : < 0 Caso varianza conocida Estadístico del test X q 0 N (0; 1) 2 " bajo H0 n Las instrucciones del R para hacer este test. library(BSDA) z.test(x = datos, alternative = c("two.sided", "less", "greater"), mu = mucero, sigma.x = desvio.conocido, conf.level = 0.95) La instrucción z.test hace el test recién descripto. En estos tests y los restantes hay que completar lo siguiente: en datos el vector con los valores observados en la muestra, mucero = 0 y desvio.conocido = : En alternative, poner la hipótesis alternativa de interés: "two.sided" para 6= 0 , "less" para < 0 , o "greater" para > 0 : En conf.level, completar el nivel de con…anza deseado para el intervalo de con…anza. Para calcular la potencia del test: power.t.test. 1.2 Caso varianza desconocida Estadístico del test X q 0 S2 tn " bajo H0 n donde S2 = 1 n 1 n X (Xi 1 X)2 (1) i=1 es la varianza muestral de las observaciones. Instrucciones para el R: t.test(x = datos, alternative = c("two.sided", "less", "greater"), mu = mucero, conf.level = 0.95) Asumimos que en el vector datos se guardan las observaciones. Donde dice alternative, hay que poner entre comillas cuál opción de hipótesis alternativa del test es la que se desea: "two.sided": H1 : 6= 0 ; o sea test a dos colas, "less" si uno quiere H1 : < 0 o "greater" si uno quiere H1 : > 0 : En mucero se anota el valor de 0 propuesto. Por default, el nivel de con…anza con el que se construyen los intervalos de con…anza es 0.95, pero se puede cambiar. 2 Test para la varianza de una población normal Sean X1 ; : : : ; Xn N ; 2 una muestra aleatoria (v.a.i.i.d. variables aleatorias independientes idénticamente distribuidas). Se quiere testear H0 : = H1 : 0 versus alguna de las alternativas siguientes 6= 0 H1 : > 1 0 H1 : < 0 y la media poblacional es desconocida. Estadístico del test (n 1) S2 2 0 2 n 1 " bajo H0 donde S 2 es la varianza muestral de…nida en (1). Instrucciones de R: library(TeachingDemos) sigma.test(x = datos.x, sigma = sigma_0, alternative = c("two.sided", "less", "greater"), conf.level = 0.95) Completar con el vector de datos en datos.x y el valor sigma_0 = 0 de la hipótesis nula. 3 Test asintótico (o aproximado) para la media de una población Sean X1 ; : : : ; Xn F una muestra aleatoria donde F es una distribución no necesariamente normal y n es un número su…cientemente grande. Sea = E (X1 ) : Se quiere testear H0 : = H1 : 0 versus alguna de las alternativas siguientes 6= H1 : 0 > H1 : 0 < 0 Estadístico del test X q aprox 0 S2 N (0; 1) " bajo H0 n donde S 2 es la varianza muestral de…nida en (1). Instrucciones para el R: t.test, se completa igual que en el Test 1.2. 4 Test asintótico para una proporción poblacional Sean X1 ; : : : ; Xn Bi (1; p) una muestra aleatoria con n su…cientemente grande. Se quiere testear H0 : p = p0 versus alguna de las alternativas siguientes H1 : p 6= p0 Estadístico del test H1 : p > p 0 pb q p0 H1 : p < p 0 aprox p0 (1 p0 ) n N (0; 1) " bajo H0 donde pb = X es la proporción de éxitos en la muestra. Instrucciones en el R prop.test(x = cantidad.de.exitos, n = cantidad.de.intentos, p = p.cero, alternative = c("two.sided", "less", "greater"), conf.level = 0.95, correct = TRUE) Completar con los valores cantidad.de.exitos, cantidad.de.intentos, p.cero, alternative, conf.level de interés. La opción correct = TRUE indica que se utilice corrección por continuidad, FALSE indica que no se utilice. 5 Test para comparar medias de dos poblaciones normales independientes Sean X1 ; : : : ; Xn1 testear N 1; 2 1 ; e Y1 ; : : : ; Yn2 H0 : 1 H1 : 2 1 = N 2; 2 2 dos muestras aleatorias independientes entre sí. Se quiere versus alguna de las alternativas siguientes 2 6= H1 : 1 2 2 > H1 : 1 2 < 5.1 Caso varianzas conocidas Estadístico del test X q Y 2 1 + n1 N (0; 1) 2 2 " bajo H0 n2 Instrucciones para el R: z.test(x = datos.x, y = datos.y, alternative = "two.sided", mu = delta, sigma.x = sigma1, sigma.y = sigma2, conf.level = 0.95) Completar como antes, pero en datos.x, y datos.y completar con los dos vectores de datos, delta = ; sigma1 = 1 ; sigma2 = 2 : 5.2 Caso varianzas desconocidas pero iguales Estadístico del test X r Sp2 Y 1 n1 + tn1 +n2 " bajo H0 1 n2 2 donde 1) + S22 (n2 1) n1 + n2 2 n2 n1 X X 1 = (Xi X)2 + (Yi n1 + n2 2 i=1 i=1 Sp2 = S12 (n1 2 Y) ! ; S12 y S22 son las varianzas muestrales de las Xs y las Y s respectivamente, es decir S12 = S22 = 1 n1 1 1 n2 1 n1 X i=1 n2 X (Xi X)2 (2) (Yi Y )2 (3) i=1 Instrucciones para el R: t.test(x = datos.x, y = datos.y, alternative = c("two.sided", "less", "greater"), mu = delta, paired = FALSE, var.equal = TRUE, conf.level = 0.95) Completar como antes, además: var.equal = TRUE para que asuma que las varianzas son iguales, paired = FALSE porque se trata de dos muestras independientes. 5.3 Caso varianzas desconocidas y no necesariamente iguales En este caso tenemos el test de Welch que tiene nivel aproximado. Estadístico del test X q donde y S12 Y S12 n1 + 2 S22 6 K=6 4 aprox S22 n2 S12 n1 2 S1 n1 tK " bajo H0 + 2 n1 1 + S22 n2 2 2 S2 n2 2 n2 1 3 7 7 5 y están de…nidos en (2) y (3) respectivamente. Las instrucciones del R son las mismas que para el test anterior, pero en la opción var.equal completar con var.equal = FALSE. 3 6 Test para comparar varianzas de dos poblaciones normales independientes Sean X1 ; : : : ; Xn1 testear N 1; 2 1 ; e Y1 ; : : : ; Yn2 N 2 2 2; H0 : H1 : Estadístico del test S12 S22 dos muestras aleatorias independientes entre sí. Se quiere 2 1 2 1 " bajo H0 2 2 2 2 = 6= Fn1 1 ;n2 1 donde S12 y S22 están de…nidos en (2) y (3) respectivamente. Instrucciones del R para este test: var.test(x = datos.x, y = datos.y, ratio = 1, alternative = c("two.sided", "less", "greater"), conf.level = 0.95) 7 Test asintótico (o aproximado) para comparar las medias de dos poblaciones Sean X1 ; : : : ; Xn1 v.a.i.i.d. y sean 1 = E (X1 ) y 12 = V ar (X1 ) ; e Y1 ; : : : ; Yn2 v.a.i.i.d. independientes de las anteriores y sean 2 = E (Y1 ) y 22 = V ar (Y1 ) ; donde n1 y n2 son números su…cientemente grandes. Se quiere testear H0 : 1 H1 : 2 = 1 versus alguna de las alternativas siguientes 2 6= H1 : 1 2 > H1 : 1 2 < Estadístico del test X q Y S12 n1 + aprox S22 n2 N (0; 1) " bajo H0 donde S12 y S22 son las varianzas muestrales de las X 0 s y las Y 0 s respectivamente y están dadas en (2) y (3). Instrucciones para el R: t.test, se completa igual que en el Test 1.2. 8 Test asintótico (o aproximado) para comparar dos proporciones poblacionales Sean X1 ; : : : ; Xn1 Bi (1; p1 ) v.a.i.i.d. e Y1 ; : : : ; Yn2 Bi (1; p2 ) v.a.i.i.d. independiente de las anteriores, con n1 y n2 su…cientemente grandes. muestra aleatoria con n su…cientemente grande. Se quiere testear H 0 : p1 p2 = H 1 : p1 versus alguna de las alternativas siguientes p2 6= Estadístico del test q pb1 H 1 : p1 pb2 p b1 (1 p b1 ) n1 + p2 > aprox p b2 (1 p b2 ) n2 H1 : p1 p2 < N (0; 1) " bajo H0 donde pb1 = X y pb2 = Y son, respectivamente, las proporciones de éxitos en la primer y segunda muestra. Instrucciones en el R prop.test(x = c(cantidad.de.exitos1,cantidad.de.exitos2), n = c(n1,n2), alternative = c("two.sided", "less", "greater"), conf.level = 0.95, correct = TRUE) Completar con los valores cantidad.de.exitos1 = pb1 n1 , cantidad.de.exitos2 = pb2 n2 , n1 = n1 ;n2 = n2 , alternative, conf.level de interés. La opción correct = TRUE indica que se utilice corrección por continuidad, FALSE indica que no se utilice. 4 9 Test para comparar medias de dos muestras apareadas Sean (X1 ; Y1 ) ; : : : ; (Xn ; Yn ) una muestra aleatoria de los resultados de dos mediciones realizadas sobre la misma unidad experimental (o que puede considerarse la misma unidad experimental). Supongamos que las diferencias Di = Xi Yi 2 N D; D independientes entre sí. Se quiere testear H0 : D H1 : = versus alguna de las alternativas siguientes D 6= H1 : D q 2 SD n D > H1 : D < Estadístico del test = X Y q 2 tn SD n " bajo H0 1 donde SD es el desvío estándar de las Di ; es decir 2 SD = 1 n 1 n X (Di D)2 : i=1 Instrucciones para el R: iguales que las del Test 5.2, pero con la opción paired = TRUE. Otra posibilidad es construir un nuevo vector con las diferencias Di y usar el t.test para una muestra. 10 10.1 Tests no paramétricos para una y dos muestras Test del signo para la mediana de una población Sea X1 ; : : : ; Xn Sean Di = Xi F una muestra aleatoria donde F es una distribución continua. Sea e la mediana de F: Se quiere testear H0 : e = m0 H1 : e 6= m0 m0 : El estadístico del test es U = la cantidad de Di positivos. U Bi n " bajo H0 k; 1 2 : donde k es la cantidad de Di iguales a cero que hay en la muestra. Instrucciones en R: library(BSDA) sign.test(x = datos, md = m_0, alternative = c("two.sided", "less", "greater"), conf.level = 0.95) Completar el vector de datos, m_0 = m0 y la hipótesis alternativa de interés. 10.2 Test de rangos signados de Wilcoxon para la mediana de una población Sea X1 ; : : : ; Xn testear F una muestra aleatoria y F una distribución continua y simétrica. Sea e la mediana de F: Se quiere H0 : e = m0 versus alguna de las alternativas siguientes Sean Di = Xi H1 : e 6= m0 H1 : e > m0 H1 : e < m0 m0 : Luego se ordenan en orden creciente las observaciones jDi j y se las ranquea. El estadístico del test es W = suma de los rangos de las Di positivas Puede calcularse (con la tabla apropiada) el p-valor exacto de este test. Por default, el R calcula el p-valor exacto cuando el tamaño de muestra es menor a 50 y no hay observaciones repetidas. En caso contrario, calcula el p-valor aproximado. La instrucción de R: wilcox.test(x = datos, alternative = c("two.sided", "less", "greater"), mu = m_0, paired = FALSE, exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95) 5 Como siempre, en datos va el vector con las observaciones, m_0 = m0 ; y hay que completar con el tipo de hipótesis alternativa de interés, exact = TRUE indica que compute el p-valor exacto, correct = TRUE indica que use una corrección por continuidad en el cálculo del p-valor aproximado. Cuando se tiene una muestra apareada (X1 ; Y1 ) ; : : : ; (Xn ; Yn ) para testear si las medianas de ambas poblaciones coinciden se puede aplicar el test de rangos signados de Wilcoxon o el test del signo sobre las Di = Xi Yi : 10.3 Test de Mann-Whitney-Wilcoxon para dos muestras independientes Sean X1 ; : : : ; Xn1 F1 ; e Y1 ; : : : ; Yn2 F2 dos muestras aleatorias independientes entre sí, donde F1 y F2 son dos distribuciones continuas no necesariamente normales. Se quiere testear H 0 : F1 = F2 H1 : F1 6= F2 : Para construir el estadístico se juntan ambas muestras y se ranquean las observaciones, a esos números se los llaman rangos de las observaciones. El estadístico del test es la suma de los rangos del grupo correspondiente al grupo con menor . cantidad de observaciones (digamos m observaciones, que será n1 o n2 , el menor de ambos) menos la cantidad m(m+1) 2 Puede calcularse (con la tabla apropiada) el p-valor exacto de este test, por default el R lo hace si n1 + n2 es menor a 50 y no hay observaciones empatadas. Si no calcula el p-valor aproximado. Instrucciones de R: wilcox.test(x = datos.x, y = datos. y, alternative = c("two.sided", "less", "greater"), paired = FALSE, exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95) 11 Test de normalidad para una muestra Sean X1 ; : : : ; Xn F v.a.i.i.d. Se quiere testear H0 : F = N ; 2 para algún valor H1 : no existe ningún valor 2Ry 2Ry > 0: > 0 para los que valga F = N ; 2 Un test posible para decidir entre estas hipótesis es el Test de Shapiro Wilk. La instrucción de R: shapiro.test 6