CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Anuncio
CONTRASTES DE
HIPÓTESIS NO
PARAMÉTRICOS
1
Contrastes de hipótesis no paramétricos
¿POR QUÉ SE LLAMAN
CONTRASTES NO
PARAMÉTRICOS?
A diferencia de lo que ocurría en la inferencia
paramétrica, ahora, el desconocimiento de la
población que vamos a estudiar no se reduce al valor
de un parámetro poblacional, sino que es mucho más
amplio.
Las hipótesis que contrastaremos no hacen
referencia a parámetros poblacionales.
2
Contrastes de hipótesis no paramétricos
TESTS c2
Su nombre se debe a que el estadístico que se usará para
realizar el contraste tendrá, aproximadamente, una
distribución c2 de Pearson.
1. Bondad del ajuste (Caso I y Caso II)
2. Test de Homogeneidad
3. Test de Independencia
3
Contrastes de hipótesis no paramétricos
CONTRASTE DE BONDAD
DEL AJUSTE (I)
SITUACIÓN: X es una variable aleatoria
poblacional con distribución desconocida.
Extraemos una m.a.s. de la población (X1,…,Xn).
A la vista de la muestra, ¿es razonable admitir que X
sigue la distribución F0?
H0: X sigue la distribución F0
Ha: X no sigue la distribución F0
Distribución teórica
4
Contrastes de hipótesis no paramétricos
PASOS A SEGUIR:
PASO 1: Hacer una partición (arbitraria) del espacio
muestral (posibles valores de X) en k clases A1,…,Ak.
PASO 2: Calcular las siguientes frecuencias absolutas
para i=1,…,k.
Oi = frecuencia observada en Ai = número de
elementos de la m.a.s (x1,…,xn) que se han situado en la
clase Ai
ei = frecuencia esperada en Ai si H0 es cierta = nP(Ai)
A1
Oi
(ei)
O1
(e1)
…..
Ak
Ok
(ek)
n
ei es la esperanza
de una B(n,P(Ai))
5
Contrastes de hipótesis no paramétricos
PASO 3: Utilizar el estadístico l de Pearson
nº de clases
si n es grande
y H0 es cierta
Mide la discrepancia entre las frecuencias
observadas y las esperadas, si se supone cierta H0
Observación: Si H0 es cierta, es de esperar que las
frecuencias observadas y las esperadas sean parecidas,
por lo que si efectivamente H0 es cierta, el estadístico l
debería de tomar valores próximos a cero.
6
Contrastes de hipótesis no paramétricos
Consecuencia: Rechazaremos la hipótesis nula cuando
los valores del estadístico l de Pearson sean “grandes”,
y la aceptaremos cuando sean “pequeños”.
La separación entre valores “grandes” y “pequeños”
viene dada por la elección de un nivel de significación a.
Región crítica: C = {l>c2k-1,a}
Nota: Por comodidad, normalmente se usa la
siguiente expresión, equivalente a la ya dada, para
calcular el valor de l:
7
Contrastes de hipótesis no paramétricos
EJEMPLO 1: Para comprobar si un dado está o no
cargado, se lanzó 600 veces, con los siguientes
resultados:
Oi
1
2
3
4
5
6
Total
103
98
89
109
100
101
600
A la vista de estos datos, ¿podemos afirmar si el dado
está cargado o no?
H0: El dado no está cargado
Ha: El dado está cargado
P(Ai)=1/6
Ai={i}, i=1,…,6
8
Contrastes de hipótesis no paramétricos
1
Oi
(ei)
2
3
4
5
6
Total
103
98
89
109 100 101
(100) (100) (100) (100) (100) (100)
600
n
nP(Ai)
Tomamos a = 0.05
Aceptamos H0 con un nivel de significación 0.05, es decir, a la vista
de estos datos, no podemos afirmar que el dado esté cargado.
Confirma la decisión
de aceptar H0
9
Contrastes de hipótesis no paramétricos
EJEMPLO 2: Se quiere averiguar si el número de hijos
por matrimonio, X, en cierta población sigue una
distribución binomial de parámetros 3 y 0.5. Para ello se
encuestó a 100 matrimonios obteniéndose los siguientes
resultados:
X
0
1
2
3
Oi
22
42
28
8
100
¿Qué podemos afirmar a la vista de estos datos?
H0: X sigue una B(3,0.5)
Ha: X no sigue una B(3,0.5)
Ai={i-1}, i=1,…,4
P(X=0)=0.125
P(X=1)=0.375
P(X=2)=0.375
P(X=3)= 0.125
10
Contrastes de hipótesis no paramétricos
X
Oi
(ei)
0
1
2
3
22
42
28
8
(12.5) (37.5) (37.5) (12.5)
100
Rechazamos que X siga una binomial de parámetros 3 y 0.05
11
Contrastes de hipótesis no paramétricos
BONDAD DEL AJUSTE:CASO 2
En ocasiones queremos averiguar si los datos se ajustan a
un determinado tipo de distribución pero sin precisar los
valores de los parámetros que la caracterizan.
Así por ejemplo, para realizar muchos de los contrastes
del tema anterior, necesitamos saber si la variable
poblacional sigue una distribución normal. Por lo tanto,
debemos contrastar la normalidad de los datos, pero sin
precisar la media y la varianza poblacionales.
12
Contrastes de hipótesis no paramétricos
DOS DIFERENCIAS
Trabajamos con los estimadores de máxima
verosimilitud. Calculamos las frecuencias esperadas si
los estimadores fueran los autenticos
CUIDADO: Si usamos los mismos datos muestrales
para estimar r parámetros poblacionales desconocidos y
para realizar el contraste de bondad del ajuste, el
estadístico l de Pearson se aproxima a una c2k-1-r en
lugar de a una c2k-1.
13
Contrastes de hipótesis no paramétricos
EJEMPLO 3: Al digitalizar 300 imágenes se ha
obtenido la siguiente distribución de frecuencias
absolutas del tamaño en Kb del fichero correspondiente:
X
36-38
38-40
40-42
42-44
44-46
46-48
48-50
50-52
52-54
54-56
Oi
6
9
33
48
54
57
45
30
12
6
300
¿Podemos afirmar, a la vista de estos datos, que X sigue
una distribución normal?
ˆ  3.88
H0: X sigue una N
Ha: X no sigue una N
14
Contrastes de hipótesis no paramétricos
X
<38
38-40
40-42
42-44
44-46
46-48
48-50
50-52
52-54
54
Oi
(ei)
6
(5.9)
9
(12.3)
33
(27.3)
48
(45)
54
(59.5)
57
(59.5)
45
(45)
30
(27.3)
12
(12.3)
6
(5.9)
P(X<38)=P(Z<(38-46)/3.88)=P(Z<-2.06)=0.0197
c
2
7,0.01
300
e1=0.0197*300=5.9
 12.017
10-1-2=7
Aceptamos al nivel 0.01
15
Contrastes de hipótesis no paramétricos
CONSIDERACIONES ADICIONALES
PRIMERA:
- Para que l se aproxime a una c2, además de que el
tamaño muestral sea grande, las frecuencias esperadas no
pueden ser muy pequeñas.
- Por norma se requiere que ei  5 para el 20% de las
clases i=1,…,k
16
Contrastes de hipótesis no paramétricos
SEGUNDA:
-Cuando ni la estructura del problema, ni la agrupación
de las observaciones muestrales, nos sugieran las clases
A1,…,Ak más adecuadas para dividir el espacio muestral,
lo más conveniente es elegirlas de forma que
P(Ai)=1/k para i=1,…,k, con k<n/5.
- De esta forma conseguimos una mejor aproximación
de la distribución del estadístico l a una distribución c2 ,
y que las frecuencias esperadas no sean pequeñas.
17
Contrastes de hipótesis no paramétricos
CONTRASTE DE HOMOGENEIDAD
DE POBLACIONES
SITUACIÓN: X es una característica común a r
poblaciones independientes.
Extraemos m.a.s. de cada población
con
A la vista de las muestras, ¿es razonable admitir que
las poblaciones son homogéneas, es decir, que todas
ellas siguen la misma distribución?
H0: Las poblaciones son homogéneas
Ha: Las poblaciones no son homogéneas
18
Contrastes de hipótesis no paramétricos
PASOS A SEGUIR:
PASO 1: Hacer una partición (arbitraria) del espacio
muestral (que es común a todas las poblaciones) en k
clases A1,…,Ak.
PASO 2: Calcular las siguientes frecuencias absolutas
para i=1,…,k y j=1,…,r .
Oij = frecuencia observada en Ai con la muestra jésima= número de elementos de la muestra j-ésima que
se han situado en la clase Ai
eij = frecuencia esperada en Ai con la muestra j-ésima
si H0 es cierta = njP(Ai)
eij es la esperanza
de una B(nj,P(Ai))
19
Contrastes de hipótesis no paramétricos
...
Muestra j
...
Muestra r
mj
A1
O11
(e11)
...
...
O1j
(e1j)
...
...
O1r
(e1r)
m1
...
...
...
...
...
...
...
Ai
Oi1
(ei1)
...
...
Oij
(eij)
...
...
Oir
(eir)
mi
...
...
...
...
...
...
...
Ak
Ok1
(ek1)
...
...
Okj
(eki)
...
...
Okr
(ekr)
mk
ni
n1
...
nj
...
nr
n
Desconocido
Frecuencias marginales
Muestra 1
Tamaños muestrales
Suponiendo cierta H0
20
Contrastes de hipótesis no paramétricos
PASO 3: Utilizar el estadístico l de Pearson
nº de clases
nº de muestras
si n es grande
y H0 es cierta
Mide la discrepancia entre las frecuencias
observadas y las esperadas, si se supone cierta H0
Demostración: Para la muestra j-ésima,
Sumando los r estadísticos que tenemos,como las poblaciones son
independientes, tenemos que
Pero como no conocemos la distribución que siguen las poblaciones,
hemos tenido que estimar k-1 probabilidades para estimar los eij, por lo
tanto
21
Contrastes de hipótesis no paramétricos
Observación: Si H0 es cierta, es de esperar que las
frecuencias observadas y las esperadas sean parecidas,
por lo que si efectivamente H0 es cierta, el estadístico l
debería de tomar valores próximos a cero.
Consecuencia: Rechazaremos la hipótesis nula cuando
los valores del estadístico l de Pearson sean “grandes”,
y la aceptaremos cuando sean “pequeños”.
La separación entre valores “grandes” y “pequeños”
viene dada por la elección de un nivel de significación a.
Región crítica: C = {l>c2(k-1) (r-1),a}
22
Contrastes de hipótesis no paramétricos
EJEMPLO 5: Un estudio sobre tabaquismo en las
comunidades de Galicia, Madrid y Cataluña
proporcionó los siguientes resultados:
Comunidad Fumadores No fumadores Total
Galicia
13
87
100
Madrid
17
83
100
Cataluña
18
82
100
¿Pueden considerarse homogéneas las tres poblaciones
en cuanto a sus hábitos fumadores?
H0: Las poblaciones son homogéneas
Ha: Las poblaciones no son homogéneas
23
Clases
Comunidad
Madrid
Cataluña
Muestras
r=3
c
2
2,0.1
No fumadores
87
(84)
83
(84)
82
(84)
252
Total
100
100
100
Tamaños muestrales
Galicia
Fumadores
13
(16)
17
(16)
18
(16)
48
k=2
Contrastes de hipótesis no paramétricos
300
Frecuencias marginales
 4,605
Aceptamos que las poblaciones
son homogéneas
24
Contrastes de hipótesis no paramétricos
CONTRASTE DE INDEPENDENCIA DE
CARACTERES
SITUACIÓN: X e Y son dos características de una
misma población.
Extraemos una m.a.s. de la población
((X1, Y1),…, ((Xn, Yn) ).
A la vista de la muestra, ¿es razonable admitir que las
características son independientes?
H0: Las características son independientes
Ha: Las características no son independientes
25
Contrastes de hipótesis no paramétricos
PASOS A SEGUIR:
PASO 1: Hacer una partición (arbitraria) del espacio
muestral (posibles valores de X e Y) en k x r clases
A1 x B1,…, Ai x Bj ,...,Ak x Br.
PASO 2: Calcular las siguientes frecuencias absolutas
para i=1,…,k y j=1,…,r .
Oij = frecuencia observada en Ai x Bj = número de
elementos de la muestra j-ésima que se han situado en
la clase Ai x Bj
eij = frecuencia esperada en Ai x Bj si H0 es cierta =
n P(Ai) P(Bj)
eij es la esperanza de
una B(n,P(Ai)P(Bj))
26
Contrastes de hipótesis no paramétricos
Tabla de contingencias k x r
...
Bj
...
Br
ni.
A1
O11
(e11)
...
...
O1j
(e1j)
...
...
O1r
(e1r)
n1.
...
...
...
...
...
...
...
Ai
Oi1
(ei1)
...
...
Oij
(eij)
...
...
Oir
(eir)
ni.
...
...
...
...
...
...
...
Ak
Ok1
(ek1)
...
...
Okj
(eki)
...
...
Okr
(ekr)
nk.
n.j
n.1
...
n.j
...
n.r
n
Desconocido
Frecuencias marginales
B1
Frecuencias marginales
27
Contrastes de hipótesis no paramétricos
PASO 3: Utilizar el estadístico l de Pearson
si n es grande
y H0 es cierta
Mide la discrepancia entre las frecuencias
observadas y las esperadas, si se supone cierta H0
Demostración: Como el número de clases es rk,
Pero como no conocemos las distribuciones que siguen las dos variables
poblacionales, hemos tenido que estimar k-1+r-1 probabilidades para
estimar los eij, por lo tanto
28
Contrastes de hipótesis no paramétricos
Observación: Si H0 es cierta, es de esperar que las
frecuencias observadas y las esperadas sean parecidas,
por lo que si efectivamente H0 es cierta, el estadístico l
debería de tomar valores próximos a cero.
Consecuencia: Rechazaremos la hipótesis nula cuando
los valores del estadístico l de Pearson sean “grandes”,
y la aceptaremos cuando sean “pequeños”.
La separación entre valores “grandes” y “pequeños”
viene dada por la elección de un nivel de significación a.
Región crítica: C = {l>c2(k-1) (r-1),a}
29
Contrastes de hipótesis no paramétricos
EJEMPLO 6: Para averiguar si existe relación entre el
peso y la altura de los segovianos, se extrajo una m.a.s.
con los siguientes resultados:
50-60
60-70
70-80
80-90
1.55-1.65
1.65-1.75
1.75-1.85
1.85-1.95
10
6
2
0
8
14
8
4
2
6
18
6
1
2
5
8
¿Qué conclusión podemos extraer de estos datos?
H0: El peso y la altura son independientes
Ha: El peso y la altura no son independientes
30
Contrastes de hipótesis no paramétricos
Altura
Peso
1.55-1.65
1.65-1.75
1.75-1.85
1.85-1.95
50-60
10
(3.78)
8
(7.14)
2
(6.72)
1
(3.36)
21
60-70
6
(5.04)
14
(9.52)
6
(8.96)
2
(4.48)
28
70-80
2
(5.94)
8
(11.22)
18
(10.56)
5
(5.28)
33
80-90
0
(3.24)
4
(6.12)
6
(5.76)
8
(2.88)
18
18
34
32
16
100
3.78=28*18/100
K=3=r
l  39,459
2
c3*3,0.1
 21,66
¡Rechazo
H_0|
31
32
Descargar