Document

Anuncio
OTROS CONTRASTES NO PARAMETRICOS
Bibliografia:
-
Manzano Arrondo, V.; Inferencia estadística. Aplicaciones con SPSS/PC.
Ra-ma. 1995
-
Martinez Almecija, Alfredo y otros.. .: "Inferencia estadística: un enfoque
clasico" ; Pirámide, 1993
INTRODUCCION.Como Uds. saben en el tema anterior vimos lo que eran los rangos y como
trabajamos con las parejas de rangos según su clasificación en concordancias,
discordancias y empates (de tres tipos). Ahora vamos a ver lo que son RACHAS.
En una determinada secuencia de sucesos observables la
interacción entre elementos iguales lo denominaremos
como racha. El nº de elementos de una racha se llama
longitud
Por Ejemplo.
Tengamos la secuencia: aaa bb a bb aa aquí existen 5 rachas, de dos
sucesos a y b de longitudes (3) ; (2) ; (1) ; (2); (2)
En muchas ocasiones se esta interesado en la aleatoriedad de una
secuencia de sucesos donde en ocasiones la aparición, en una muestra, de un
elemento condiciona la aparición de otro. Si ocurre esto la muestra no es
aleatoria, incumpliendo así una de las hipótesis básicas de los procedimientos de
inferencia.
El Test de Rachas contrasta la aleatoriedad de una secuencia de
eventos a partir del nº de rachas R de la misma.
Variables Dicotómicas
Variables Cuantitativas
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
Variables Dicotómicas:
Tengamos por ejemplo la sucesión de eventos: aaa bb a bb aa
•
•
•
•
•
•
Llamamos R1j al nº de rachas del elemento 1 (a) de longitud j
Llamaremos N1 nº de veces que aparece el elemento 1 (a) en la muestra
Llamamos R2j al nº de rachas del elemento 2 (b) de longitud j
Llamaremos N1 nº de veces que aparece el elemento 2 (b) en la muestra
El total de la muestra será: n = N1+ N2
a El total de rachas será: Rexp = R1j+ R2j
Según lo visto, en nuestro ejemplo:
1 (a)
R11 = 1 ; R13 =1 ; R12 = 1 ;
N1 = 1x1+3x1+2x1 =6
R1 =3
N1 =6
•
•
2 (b)
R22 = 2 ;
N2 = 2x2 =4
RExp =5
n = 10
R2 =2
N2 =4
Si suponemos que la muestra es aleatoria, el estadístico R que tomara
valores 2 , 3 , ... N1+ N2 tiene una probabilidad P [ R=r ] y la distribución
asintotica de R es una NORMAL con:
2⋅ N1 ⋅ N 2 + n
n
2 ⋅ N 1 ⋅ N 2 (2 ⋅ N 1 ⋅ N 2 − n )
Var [R ] =
n 2 ⋅ (n − 1)
E [R ] =
Bajo H0 : Existe aleatoriedad , los valores de R no deben ser excesivamente
pequeños ni grandes, por lo que a nivel de significación α se rechaza la H0 si:
Rexp ≤ r α /2 ó Rexp ≥ r 1-α /2
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
•
Para valores pequeños de Ni ≤ 20 utilizaremos una tabla donde para cada
nivel de significación vienen dados los valores críticos RI = r α /2 ó
RS = r 1-α /2 . Si nuestro valor no pertenece a esa región critica se aceptara la
Hipótesis Nula (Existencia de aleatoriedad)
•
Para valores de Ni > 20 Rechazaremos la H0 si Zexp ≥ Z1-α /2 donde Z sigue
una N(0,1) siendo:
Zexp =
Rexp − E[R] − 0'5
σR
EJERCICIO 19.Se supone que obtenemos una muestra de 50 elementos como observación de
un evento que tiene dos posibilidades a y b. Siendo la sucesión la siguiente:
aaa bb a b aaaaa bbbbbb aa bbb aaaa bbbbb a b a b a
bb aaa bbbb aaa b
1 (a)
R11 = 4 ; R12 =1 ; R13 = 3 ; R14 =1; R15 =1
N1 = 1x4+2x1+3x3 +4x1+5x1=24
R1 =10
N1 =24
•
•
2 (b)
RExp =5
n = 50
R21 = 4 ; R22 =2 ; R23 = 1 ; R24 =1; R25 =1; R26 =1 R2 =10
N2 = 1x4+2x2+3x1+4x1+5x1+6x1 =26
N2 =26
Como Ni > 20 Rechazaremos la H0 si Zexp ≥ Z1-α /2 donde Z sigue una N(0,1)
siendo:
Z exp =
Rexp − E [R ] − 0 '5
σR
Obteniendo:
2 ⋅ 24 ⋅ 26 + 50
= 25'96
50
2 ⋅ 24 ⋅ 26(2 ⋅ 24 ⋅ 26 − 50)
Var[R ] =
= 12'20493⇒ σ Rexp = 3'4935
502 ⋅ (50 − 1)
E[R] =
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
Luego:
Zexp =
20 − 25'96 − 0'5
=1'56
3'4935
Se acepta la Hipotesis nula de existencia de aleatoriedad.
EJERCICIO 20.Una empresa pretende enviar 59 empleados a realizar unos cursillos de
formación en el extranjero y para ello decide escoger entre sus trabajadores a 59
empleados entre ambos sexos. Siendo la sucesión de sexos la siguiente:
HHHH MM H M H M HH MMM HH MMMM H MMM HH MM H M H M
HHH MMMMM HHHH MM H M HHHHH MMMM
Contrastar si el procedimiento seguido ha sido aleatorio para un nivel del
5%
Variables Cuantitativas:
Cuando los datos son cuantitativos hay que realizar un proceso para llegar
a aplicar el test de rachas:
El proceso es el siguiente:
1. Se calcula la mediana muestral
2. Se obtiene la diferencia entre cada valor y la mediana,
asignándole el signo correspondiente.
3. Se eliminan los valores 0
4. Se procede igual que en el apartado anterior tomando la
sucesión de signos + ó EJERCICIO 21.-
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
Contrastar si los 10 elementos que constituyen la muestra, pueden considerarse
aleatorios a un nivel de significación del 10%.
498 490 510 505 495 496 497 501 502 520
(-) (-) (+) (+) (-) (-) (-) (+) (+) (+)
ordenándolos:
490 495 496 497 498 501 502 505 510 520
499'5
1 (-)
R12 = 1 ; R13 =1
N1 = 2x1+3x1=5
R1 =2
N1 =5
•
•
2 (+)
R22 =1 ; R23 = 1
N2 = 2x1+3x1 =5
RExp =4
n = 10
R2 =2
N2 =5
Buscando en la tabla a un nivel del 10% y un N1 =5 , N2 =5 obtenemos la región
critica C = [Rexp ≤ 3] ∪ [Rexp ≥ 9]
Como R =4 no pertenece a la región critica se acepta la Hipótesis Nula de
existencia de aleatoriedad.
TEST DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE
Es un Test alternativo a la Chi-cuadrado. Tiene el mismo objetivo:
contrastar la Hipótesis Nula de que X sigue una distribución especifica F(x) frente
a la Hipótesis Alternativa de que no la siga.
Debe utilizarse si:
•
•
Modelo propuesto es de tipo continuo
Tamaño muestral es pequeño
El fundamento del contraste radica en comparar la distribución de las
Frecuencias observadas ( F o) con la distribución propuesta bajo la Ho: F(x) y si
esta comparación revela diferencias significativas se rechazara la Ho
Comparar las Fo y las FE bajo la Ho: de que estas ultimas siguen
una determinada distribución F(x)
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
Fo
FE
F. Acum. Relat.
D. NORMAL
D.UNIFORME
D.POISSON
Ni / N
FE=p(Z)
Z=(x i-x)/σ
FE=(x-min) / (max - min)
FE=e -λλ i/i!
Si es cierta la Ho las diferencias entre las Fo (x) y las FE (x) para una
muestra suficientemente grande no serán significativas y el Test de K-S a través
de su estadístico D estudiara las desviaciones verticales entre Fo y las FE
D = max {D 1 ; D 2}
Donde:
D1 = Fo ( xi ) − Fe ( xi )
D2 = Fo ( xi −1 ) − Fe ( xi )
Una vez definido el estadístico D, construimos el contraste para la Ho: F(x)
Fijado el nivel de significación buscamos en la tabla los valores críticos (del Test
de K-S ) el valor D que depende de α y de N de manera que :
P (D i>D) < α
Rechazamos la Ho (las desviaciones entre la muestra
y la población son significativas) Di>D
P (D i>D) > α
Aceptamos la Ho (las desviaciones entre la muestra y
la población no son significativas) Di<D
EJERCICIO 23
Realizar un test de K-S para un α =0'1para saber si los datos procedentes
de una muestra de tamaño 10 siguen una distribución Normal de media 10'84 y
desviación 3'5.
{10'5; 8; 15; 12'1; 4'1; 12'1; 8; 10'5; 16; 12'1}
Xi
ni
Ni
Fo
Fe
4'1
8
10'5
1
2
2
1
3
5
0'1
0'3
0'5
0'027
0'209
0'464
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
12'1
15
16
3
1
1
10
8
9
10
0'8
0'9
1
0'641
0'882
0'929
Las frecuencias esperadas se calculan como:
Fe ( x1 ) → Z1 =
4'1 − 10'84
= −1'93 → P (z ) → 0'027
3'5
⋅
Fe ( x6 ) → Z 6 =
16 − 10'84
= 1'47 → P( z ) → 0'929
3'5
Las diferencias serán:
Fo (xi) - Fe(xi)
D1
Fo (xi-1) - Fe(xi)
D2
0'1 - 0'027
0'3 - 0'209
0'5 - 0'464
0'8 - 0'641
0'9 - 0'882
1 - 0'929
0'073
0'091
0'036
0'159
0'018
0'07
0 - 0'027
0'1 - 0'209
0'3 - 0'464
0'5 - 0'641
0'8 - 0'882
0'9 - 0'929
-0'027
-0'109
-0'164
-0'141
-0'082
-0'029
Max D1 = 0'159
Max D2 = -0'164
El máximo en valor absoluto
es 0'164
D = 0'164
CONTRASTES PARA COMPARAR DOS MUESTRAS INDEPENDIENTES
Vamos a ver dos pruebas no paramétricas similares al contraste t-Student-Fisher
de comparación de dos distribuciones observadas con datos independientes.
TEST DE RACHAS DE WALD-WOLFOWITZ
Este Test contrasta si dos muestras con datos independientes proceden de
poblaciones de la misma distribución. Si esto es así lógicamente los parámetros
poblacionales de ambas muestras son los mismos.
Sean dos muestras independientes de tipo continuo que siguen una
determinada distribucion F(x) F(y):
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
x1
x2 ⋅ ⋅ xn1
y1
y2 ⋅ ⋅
yn 2
Se trata de contrastar la Hipotesis de:
H0: F(x) = F(y)
H1: F(x) ≠ F(y )
Prueba de dos colas
Este test se basa en la prueba de rachas. Consiste en ordenar todos los
casos de ambos grupos de forma conjunta, dispuestos en orden, se cuentan las
rachas pertenecientes al mismo grupo. Si existen muy pocas rachas, existe
diferencia entre ambos grupos. Con muchas rachas (posiciones muy
entrelazadas) no existe diferencia entre los grupos.
Ejercicio 26.Se dispone de las siguientes dos muestras de dos poblaciones A y B
independientes.
A
B
6'4
6'5
3'7
3'5
2'0
2'1
4'1
7'1
5'5
4'3
5'0
9'0
7'5
7'2
8'5
3'4
Realizar un test de W-W con un nivel de significación del 5% , para
contrastar si las poblaciones tienen distribuciones idénticas.
2'0 2'1 3'4 3'5 3'7 4'1 4'3 5'0 5'5 6'4 6'5 7'1 7'2 7'5 8'5 9'0
A
B
B
B
A
A
B
A
A
A
B
B
B
B
B
B
Una vez ordenado de menor a mayor y sabiendo en ese orden a que muestra
pertenece, procedemos a obtener las rachas.
1 (A)
2(B)
R1 = 3
R2 = 3
N1 = 6
N2 = 10
R=6
N = 16
Como ni N1 N2 son iguales o mayores de 20, procedemos a buscar en la
tabla con un nivel de significación del 0'05 y N1 =6 N2 = 10 y obtenemos dos
valores RI RS 4 - 13 que constituyen la frontera de la región critica.
Como R = 6 ∉ a la región critica
Se acepta la hipótesis Nula
Si el valor de N1 N2 son mayores de 20 al igual que haciamos en el test de
rachas lo aplicariamos aquí. El estadístico R que tomara valores 2 , 3 , ... N1+ N2
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
tiene una probabilidad P [ R=r ] y la distribución asintotica de R es una
NORMAL con:
2 ⋅ N1 ⋅ N 2 + n
n
2 ⋅ N 1 ⋅ N 2 (2 ⋅ N 1 ⋅ N 2 − n )
Var [R ] =
n 2 ⋅ (n − 1)
E [R ] =
Bajo H0 : Existe aleatoriedad , los valores de R no deben ser excesivamente
pequeños ni grandes, por lo que a nivel de significación α se rechaza la H0 si:
Rexp ≤ r α /2 ó Rexp ≥ r 1-α /2
•
Rechazaremos la H0 si Zexp ≥ Z1-α /2 donde Z sigue una N(0,1) siendo:
Zexp =
Rexp − E[R] − 0'5
σR
PRUEBA U DE MANN-WHITNEY
Esta prueba esta diseñada para determinar si dos muestras se han
obtenido de la misma población. Es decir, para encontrar si dos muestras
independientes proceden de poblaciones simétricas que tienen la misma media o
mediana.
La prueba se usa cuando no se puede verificar la suposición de dos
poblaciones normales con varianzas iguales. Los datos deben estar medidos al
menos en una escala ordinal, haciendo que esta prueba sea útil para datos
ordinales o categóricos.
La U de M-W trabaja con rangos, en lugar de las puntuaciones originales.
Básicamente, consiste en comprobar lo superior que es la suma de los rangos de
un grupo frente a la suma de los rangos del otro.
Supongamos que se dispone de dos muestras (x) e (y). La hipótesis nula
será: La probabilidad de obtener en la primera un resultado de x menor que y es
igual a la probabilidad de obtener un resultado mayor.
Si el p-valor asociado al estadístico de contraste es menor que el nivel de
significación, se rechazara la hipótesis nula a dicho nivel.
El procedimiento es:
•
Se establecen los rangos como si los datos de las muestras
pertenecieran a un solo grupo
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
•
•
Si las medias de dos poblaciones son iguales, los rangos altos y
bajos deben tener una distribución bastante pareja en las dos
muestras.
Si las medias no son iguales, una muestra tendera a tener rangos
mas altos o rangos mas bajos que la otra.
El análisis se concentra en la suma de los rangos de una de las muestras y
la compara con la suma que se esperaria si las medias de la poblacion
fueran iguales.
Ejercicio 27.A
B
5
13
10
6
3
14
2
8
Vamos a contrastar si proporcionan suficiente evidencia, a nivel de
significación 0'1 que existe diferencia entre las distribuciones.
La muestra conjunta es:
2
A
1º
3
A
2º
5
A
3º
6
B
4º
8
B
5º
10
A
6º
13
B
7º
14
B
8º
En este caso N1 = N2 = 4 .
Considerando la primera de las dos muestras la suma de los valores de los
rangos R= 1+2+3+6 = 12
Buscando en la tabla para N1 =4 N2 = 4 y 0'1 nivel de significacion obtenemos
que:
12∉ C =[R<11] ∪ [R>25]
Si Ni > 20 se utiliza el estadístico U de M-W que es:
U = N1 ⋅ N 2 +
N1( N1 + 1)
− R1
2
Si las dos muestras son de diferentes tamaños. La muestra 1 debe representar la
que tiene menor nº de observaciones.
Como decíamos si Ni > 20 la distribución muestral se aproxima a la distribución
normal de:
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
N1 ⋅ N2
2
N1N2 (n + 1)
σU =
12
µU =
Por lo que tipificando el valor U obtenemos la región critica de aceptación o
rechazo a un nivel de significación dado.
Ejercicio 28.Dos dependientes A y B trabajan en el Departamento de niños de una
tienda. El gerente piensa ampliar el negocio a otros locales y escoger uno de ellos
para dirigir el nuevo local en vista a las ventas realizadas por los dos
dependientes.
La H0: µ1 = µ2
µ1 - µ2 = 0
ó
ó
F(1) = F(2) 2
Para un nivel de significación del 5% a cual de los dos dependientes escogemos?
A
B
197
190
194
180
188
175
185
172
182
167
173
166
169
160
169
157
Unificando las dos muestras tenemos:
157 160 166 167 169 169 172 173 175 180 182 185 188 190 194 197
B
B
B
B
A
A
B
A
B
B
A
A
A
B
A
A
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º 12º 13º 14º 15º 16º
2'5º
2'5º
2'5º
2'5º
5'5º
5'5º
7º
8º
9'5º
9'5º
12º
12º
12º
La suma de los rangos de A = 86 y la suma de los rangos de B =50
Análisis de Datos en Economía – Prof: Salvador Carrasco Arroyo
14º
15'5
15'5
Descargar