Resumen de tests con R practica 6

Anuncio
Estadística (Q)
1
Resumen de los tests de la práctica 6
Test para la media de una población normal
Sean X1 ; : : : ; Xn
N ; 2 una muestra aleatoria (v.a.i.i.d. variables aleatorias independientes idénticamente distribuidas). Se quiere testear
H0 :
=
H1 :
1.1
0
versus alguna de las alternativas siguientes
6=
H1 :
0
>
0
H1 :
<
0
Caso varianza conocida
Estadístico del test
X
q
0
N (0; 1)
2
"
bajo H0
n
Las instrucciones del R para hacer este test.
library(BSDA)
z.test(x = datos, alternative = c("two.sided", "less", "greater"), mu = mucero,
sigma.x = desvio.conocido, conf.level = 0.95)
La instrucción z.test hace el test recién descripto. En estos tests y los restantes hay que completar lo siguiente: en
datos el vector con los valores observados en la muestra, mucero = 0 y desvio.conocido = : En alternative, poner
la hipótesis alternativa de interés: "two.sided" para 6= 0 , "less" para
< 0 , o "greater" para > 0 : En
conf.level, completar el nivel de con…anza deseado para el intervalo de con…anza.
Para calcular la potencia del test: power.t.test.
1.2
Caso varianza desconocida
Estadístico del test
X
q
0
S2
tn
"
bajo H0
n
donde
S2 =
1
n
1
n
X
(Xi
1
X)2
(1)
i=1
es la varianza muestral de las observaciones.
Instrucciones para el R:
t.test(x = datos, alternative = c("two.sided", "less", "greater"), mu = mucero, conf.level = 0.95)
Asumimos que en el vector datos se guardan las observaciones. Donde dice alternative, hay que poner entre comillas
cuál opción de hipótesis alternativa del test es la que se desea: "two.sided": H1 : 6= 0 ; o sea test a dos colas, "less"
si uno quiere H1 : < 0 o "greater" si uno quiere H1 : > 0 : En mucero se anota el valor de 0 propuesto. Por
default, el nivel de con…anza con el que se construyen los intervalos de con…anza es 0.95, pero se puede cambiar.
2
Test para la varianza de una población normal
Sean X1 ; : : : ; Xn
N ; 2 una muestra aleatoria (v.a.i.i.d. variables aleatorias independientes idénticamente distribuidas). Se quiere testear
H0 :
=
H1 :
0
versus alguna de las alternativas siguientes
6=
0
H1 :
>
1
0
H1 :
<
0
y la media poblacional
es desconocida. Estadístico del test
(n
1)
S2
2
0
2
n 1
"
bajo H0
donde S 2 es la varianza muestral de…nida en (1).
Instrucciones de R:
library(TeachingDemos)
sigma.test(x = datos.x, sigma = sigma_0, alternative = c("two.sided", "less", "greater"), conf.level =
0.95)
Completar con el vector de datos en datos.x y el valor sigma_0 = 0 de la hipótesis nula.
3
Test asintótico (o aproximado) para la media de una población
Sean X1 ; : : : ; Xn
F una muestra aleatoria donde F es una distribución no necesariamente normal y n es un número
su…cientemente grande. Sea = E (X1 ) : Se quiere testear
H0 :
=
H1 :
0
versus alguna de las alternativas siguientes
6=
H1 :
0
>
H1 :
0
<
0
Estadístico del test
X
q
aprox
0
S2
N (0; 1)
"
bajo H0
n
donde S 2 es la varianza muestral de…nida en (1). Instrucciones para el R: t.test, se completa igual que en el Test 1.2.
4
Test asintótico para una proporción poblacional
Sean X1 ; : : : ; Xn
Bi (1; p) una muestra aleatoria con n su…cientemente grande. Se quiere testear
H0 : p = p0 versus alguna de las alternativas siguientes
H1 : p 6= p0
Estadístico del test
H1 : p > p 0
pb
q
p0
H1 : p < p 0
aprox
p0 (1 p0 )
n
N (0; 1)
"
bajo H0
donde pb = X es la proporción de éxitos en la muestra. Instrucciones en el R
prop.test(x = cantidad.de.exitos, n = cantidad.de.intentos, p = p.cero,
alternative = c("two.sided", "less", "greater"), conf.level = 0.95, correct = TRUE)
Completar con los valores cantidad.de.exitos, cantidad.de.intentos, p.cero, alternative, conf.level de
interés. La opción correct = TRUE indica que se utilice corrección por continuidad, FALSE indica que no se utilice.
5
Test para comparar medias de dos poblaciones normales independientes
Sean X1 ; : : : ; Xn1
testear
N
1;
2
1
; e Y1 ; : : : ; Yn2
H0 :
1
H1 :
2
1
=
N
2;
2
2
dos muestras aleatorias independientes entre sí. Se quiere
versus alguna de las alternativas siguientes
2
6=
H1 :
1
2
2
>
H1 :
1
2
<
5.1
Caso varianzas conocidas
Estadístico del test
X
q
Y
2
1
+
n1
N (0; 1)
2
2
"
bajo H0
n2
Instrucciones para el R:
z.test(x = datos.x, y = datos.y, alternative = "two.sided", mu = delta, sigma.x = sigma1,
sigma.y = sigma2, conf.level = 0.95)
Completar como antes, pero en datos.x, y datos.y completar con los dos vectores de datos, delta = ; sigma1
= 1 ; sigma2 = 2 :
5.2
Caso varianzas desconocidas pero iguales
Estadístico del test
X
r
Sp2
Y
1
n1
+
tn1 +n2
"
bajo H0
1
n2
2
donde
1) + S22 (n2 1)
n1 + n2 2
n2
n1
X
X
1
=
(Xi X)2 +
(Yi
n1 + n2 2 i=1
i=1
Sp2 =
S12 (n1
2
Y)
!
;
S12 y S22 son las varianzas muestrales de las Xs y las Y s respectivamente, es decir
S12
=
S22 =
1
n1
1
1
n2
1
n1
X
i=1
n2
X
(Xi
X)2
(2)
(Yi
Y )2
(3)
i=1
Instrucciones para el R:
t.test(x = datos.x, y = datos.y, alternative = c("two.sided", "less", "greater"), mu = delta, paired =
FALSE, var.equal = TRUE, conf.level = 0.95)
Completar como antes, además: var.equal = TRUE para que asuma que las varianzas son iguales, paired = FALSE
porque se trata de dos muestras independientes.
5.3
Caso varianzas desconocidas y no necesariamente iguales
En este caso tenemos el test de Welch que tiene nivel aproximado. Estadístico del test
X
q
donde
y
S12
Y
S12
n1
+
2
S22
6
K=6
4
aprox
S22
n2
S12
n1
2
S1
n1
tK
"
bajo H0
+
2
n1 1
+
S22
n2
2
2
S2
n2
2
n2 1
3
7
7
5
y
están de…nidos en (2) y (3) respectivamente.
Las instrucciones del R son las mismas que para el test anterior, pero en la opción var.equal completar con var.equal
= FALSE.
3
6
Test para comparar varianzas de dos poblaciones normales independientes
Sean X1 ; : : : ; Xn1
testear
N
1;
2
1
; e Y1 ; : : : ; Yn2
N
2
2
2;
H0 :
H1 :
Estadístico del test
S12
S22
dos muestras aleatorias independientes entre sí. Se quiere
2
1
2
1
"
bajo H0
2
2
2
2
=
6=
Fn1
1 ;n2 1
donde S12 y S22 están de…nidos en (2) y (3) respectivamente.
Instrucciones del R para este test:
var.test(x = datos.x, y = datos.y, ratio = 1, alternative = c("two.sided", "less", "greater"), conf.level
= 0.95)
7
Test asintótico (o aproximado) para comparar las medias de dos poblaciones
Sean X1 ; : : : ; Xn1 v.a.i.i.d. y sean 1 = E (X1 ) y 12 = V ar (X1 ) ; e Y1 ; : : : ; Yn2 v.a.i.i.d. independientes de las anteriores
y sean 2 = E (Y1 ) y 22 = V ar (Y1 ) ; donde n1 y n2 son números su…cientemente grandes. Se quiere testear
H0 :
1
H1 :
2
=
1
versus alguna de las alternativas siguientes
2
6=
H1 :
1
2
>
H1 :
1
2
<
Estadístico del test
X
q
Y
S12
n1
+
aprox
S22
n2
N (0; 1)
"
bajo H0
donde S12 y S22 son las varianzas muestrales de las X 0 s y las Y 0 s respectivamente y están dadas en (2) y (3). Instrucciones
para el R: t.test, se completa igual que en el Test 1.2.
8
Test asintótico (o aproximado) para comparar dos proporciones poblacionales
Sean X1 ; : : : ; Xn1
Bi (1; p1 ) v.a.i.i.d. e Y1 ; : : : ; Yn2
Bi (1; p2 ) v.a.i.i.d. independiente de las anteriores, con n1 y n2
su…cientemente grandes. muestra aleatoria con n su…cientemente grande. Se quiere testear
H 0 : p1
p2 =
H 1 : p1
versus alguna de las alternativas siguientes
p2 6=
Estadístico del test
q
pb1
H 1 : p1
pb2
p
b1 (1 p
b1 )
n1
+
p2 >
aprox
p
b2 (1 p
b2 )
n2
H1 : p1
p2 <
N (0; 1)
"
bajo H0
donde pb1 = X y pb2 = Y son, respectivamente, las proporciones de éxitos en la primer y segunda muestra. Instrucciones
en el R
prop.test(x = c(cantidad.de.exitos1,cantidad.de.exitos2), n = c(n1,n2),
alternative = c("two.sided", "less", "greater"), conf.level = 0.95, correct = TRUE)
Completar con los valores cantidad.de.exitos1 = pb1 n1 , cantidad.de.exitos2 = pb2 n2 , n1 = n1 ;n2 = n2 ,
alternative, conf.level de interés. La opción correct = TRUE indica que se utilice corrección por continuidad,
FALSE indica que no se utilice.
4
9
Test para comparar medias de dos muestras apareadas
Sean (X1 ; Y1 ) ; : : : ; (Xn ; Yn ) una muestra aleatoria de los resultados de dos mediciones realizadas sobre la misma unidad
experimental (o que puede considerarse la misma unidad experimental). Supongamos que las diferencias Di = Xi Yi
2
N D; D
independientes entre sí. Se quiere testear
H0 :
D
H1 :
=
versus alguna de las alternativas siguientes
D
6=
H1 :
D
q
2
SD
n
D
>
H1 :
D
<
Estadístico del test
=
X
Y
q 2
tn
SD
n
"
bajo H0
1
donde SD es el desvío estándar de las Di ; es decir
2
SD
=
1
n
1
n
X
(Di
D)2 :
i=1
Instrucciones para el R: iguales que las del Test 5.2, pero con la opción paired = TRUE. Otra posibilidad es construir un
nuevo vector con las diferencias Di y usar el t.test para una muestra.
10
10.1
Tests no paramétricos para una y dos muestras
Test del signo para la mediana de una población
Sea X1 ; : : : ; Xn
Sean Di = Xi
F una muestra aleatoria donde F es una distribución continua. Sea e la mediana de F: Se quiere testear
H0 : e = m0
H1 : e 6= m0
m0 : El estadístico del test es U = la cantidad de Di positivos.
U
Bi n
"
bajo H0
k;
1
2
:
donde k es la cantidad de Di iguales a cero que hay en la muestra. Instrucciones en R:
library(BSDA)
sign.test(x = datos, md = m_0, alternative = c("two.sided", "less", "greater"), conf.level = 0.95)
Completar el vector de datos, m_0 = m0 y la hipótesis alternativa de interés.
10.2
Test de rangos signados de Wilcoxon para la mediana de una población
Sea X1 ; : : : ; Xn
testear
F una muestra aleatoria y F una distribución continua y simétrica. Sea e la mediana de F: Se quiere
H0 : e = m0 versus alguna de las alternativas siguientes
Sean Di = Xi
H1 : e 6= m0
H1 : e > m0
H1 : e < m0
m0 : Luego se ordenan en orden creciente las observaciones jDi j y se las ranquea. El estadístico del test es
W = suma de los rangos de las Di positivas
Puede calcularse (con la tabla apropiada) el p-valor exacto de este test. Por default, el R calcula el p-valor exacto cuando
el tamaño de muestra es menor a 50 y no hay observaciones repetidas. En caso contrario, calcula el p-valor aproximado.
La instrucción de R:
wilcox.test(x = datos, alternative = c("two.sided", "less", "greater"), mu = m_0, paired = FALSE, exact
= NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95)
5
Como siempre, en datos va el vector con las observaciones, m_0 = m0 ; y hay que completar con el tipo de hipótesis
alternativa de interés, exact = TRUE indica que compute el p-valor exacto, correct = TRUE indica que use una corrección
por continuidad en el cálculo del p-valor aproximado.
Cuando se tiene una muestra apareada (X1 ; Y1 ) ; : : : ; (Xn ; Yn ) para testear si las medianas de ambas poblaciones
coinciden se puede aplicar el test de rangos signados de Wilcoxon o el test del signo sobre las Di = Xi Yi :
10.3
Test de Mann-Whitney-Wilcoxon para dos muestras independientes
Sean X1 ; : : : ; Xn1
F1 ; e Y1 ; : : : ; Yn2
F2 dos muestras aleatorias independientes entre sí, donde F1 y F2 son dos
distribuciones continuas no necesariamente normales. Se quiere testear
H 0 : F1 = F2
H1 : F1 6= F2 :
Para construir el estadístico se juntan ambas muestras y se ranquean las observaciones, a esos números se los llaman
rangos de las observaciones. El estadístico del test es la suma de los rangos del grupo correspondiente al grupo con menor
.
cantidad de observaciones (digamos m observaciones, que será n1 o n2 , el menor de ambos) menos la cantidad m(m+1)
2
Puede calcularse (con la tabla apropiada) el p-valor exacto de este test, por default el R lo hace si n1 + n2 es menor a 50
y no hay observaciones empatadas. Si no calcula el p-valor aproximado. Instrucciones de R:
wilcox.test(x = datos.x, y = datos. y, alternative = c("two.sided", "less", "greater"), paired = FALSE,
exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95)
11
Test de normalidad para una muestra
Sean X1 ; : : : ; Xn
F v.a.i.i.d. Se quiere testear
H0 : F = N
;
2
para algún valor
H1 : no existe ningún valor
2Ry
2Ry
> 0:
> 0 para los que valga F = N
;
2
Un test posible para decidir entre estas hipótesis es el Test de Shapiro Wilk. La instrucción de R: shapiro.test
6
Descargar