Inferencia estadística. Contrastes de hipótesis

Anuncio
Unidad 14: INFERENCIA ESTADÍSTICA:
CONTRASTES DE HIPÓTESIS
INTRODUCCIÓN
En 1710, el médico inglés John Arbuthnot estudió el sexo de
las criaturas nacidas en una cierta localidad durante los 82
años anteriores y advirtió que la proporción de hombres fue
siempre superior a la de mujeres. Con ello rebatió la creencia
de que es igualmente probable que nazca un hombre o una
mujer, argumentando del siguiente modo: “El resultado no
puede ser casual, ya que haciendo corresponder HOMBRE y
MUJER a CARA y CRUZ de una moneda, es absurdo pensar
que exista tal exceso de hombres”.
Aunque planteado de forma matemáticamente insuficiente,
puede considerarse éste el primer test de hipótesis de la
historia.
En un test de hipótesis se emite una afirmación estadística
(relativa al valor de un parámetro de una población) y
mediante una muestra se estudia si dicha afirmación
(hipótesis) es compatible con el resultado de la experiencia
(contraste).
Los test de hipótesis fueron creados por Neyman y E.
Pearson hacia 1940 y desarrollados posteriormente por
Abraham Wald.
1
14.1.- HIPÓTESIS ESTADÍSTICAS
Empecemos analizando dos casos concretos.
CASO 1
Tenemos un dado que suponemos correcto. Lo lanzamos 100
veces y obtenemos 25 “cincos”. ¿Podemos dar por válida la
suposición (el dado es correcto) o debemos rectificarla a la
vista de los resultados?
En este ejemplo se duda sobre si el parámetro
p ( "obtener un 5 ") = p toma el valor de 1/6. Para salir de
dudas, se puede realizar, a partir del resultado de los 100
lanzamientos, un test estadístico.
Un test estadístico es u procedimiento para, a partir de una
muestra aleatoria y significativa, extraer conclusiones que
permitan aceptar o rechazar una hipótesis previamente
emitida sobre el valor de un parámetro desconocido de esa
población.
CASO 2
Hace cinco años se realizó una prueba de conocimiento a la
totalidad de los soldados de un reemplazo. El resultado fue
una media µ = 102 puntos y una desviación típica σ = 11. Este
año se les ha pasado el mismo test a una muestra de 400
soldados y la media ha sido x = 101 puntos.
¿Podemos suponer que no ha habido cambio en los
conocimientos de los soldados en estos cinco años y que, por
tanto, la diferencia observada es fruto del azar?
En ambos ejemplos hay una hipótesis de partida y unos
resultados, obtenidos a partir de una muestra, que difieren
2
de la hipótesis. Y nos preguntamos si la diferencia es
atribuible al azar.
La hipótesis emitida se designa por H0 y se llama hipótesis
nula. La hipótesis contraria se designa por H1 y se llama
hipótesis alternativa.
En los dos casos concretos que estamos analizando,
tendríamos que:
CASO 1 (dado):
H0: p = 0,167 ,
CASO 2 (soldados): H0: µ = 102 ,
H1: p ≠ 0,167
H1: µ ≠ 102
14.2.- CONTRASTE DE HIPÓTESIS
Para dilucidar si una hipótesis estadística es o no cierta se
dan una serie de pasos que vamos a estudiar. Empezaremos
resolviendo uno de los dos ejemplos presentados en el
apartado anterior.
CASO 2:
¿Podemos suponer que la variable “conocimiento de los
soldados” tiene los parámetros µ = 102 puntos, σ = 11,
teniendo en cuenta que la media de 400 de ellos es x = 101
puntos?
Si la hipótesis es cierta, la población de partida tiene
µ = 102 , σ = 11 .
A esta hipótesis la llamaremos hipótesis nula
H0: µ = 102 (hipótesis nula)
H1: µ ≠ 102 (hipótesis alternativa)
3
Para poder contrastar la hipótesis nula tenemos una muestra
de 400 soldados en la que x = 101 .
Para contrastar la media poblacional µ = 102 tomaremos la
media muestral X , que llamaremos estadístico del
contraste. Este estadístico, como ya se vio en unidades
anteriores, es una variable aleatoria que sigue una
σ 

distribución normal N  µ ,
.
n


En nuestro caso, tendremos:
σ 
11 


X es N  µ ,
=
N
102,


 = N (102, 0, 55 )
n
400



Para cada muestra, el estadístico del contraste X toma un
valor particular; en nuestro caso; x = 101 .
La diferencia 101 − 102 , puede ser debida al azar, en cuyo
caso se dice que no es significativa, o puede ser debida a
otras causas, en cuyo caso diremos que es significativa.
¿Cómo saber cuándo es significativa o no?
Para ello fijaremos un nivel de confianza, por ejemplo,
1 − α = 0, 95 , y entonces aceptaremos la hipótesis nula si el
estadístico del contraste, una vez tipificado, cae dentro del


intervalo  −zα , zα  , es decir, ( −1, 96, 1, 96 ) , que llamaremos
 2 2
región de aceptación.
En caso contrario rechazaremos la hipótesis nula, ya que, una
vez tipificado, el estadístico de contraste caerá en la región
contraria, que llamaremos región crítica o región de
rechazo.
4
En nuestro caso:
σ 
11 


X es N  µ ,
 = N  102,
 = N (102, 0, 55 )
n
400 



Si tipificamos la variable anterior, tendremos:
Z=
X − 102
es N(0,1)
0, 55
Sustituyendo el valor particular de la media muestral
x = 101 , se obtiene:
101 − 102
= −1, 81
0, 55
∈ ( −1, 96, 1, 96 ) , aceptaremos la hipótesis nula.
Como −1, 81
Es decir, la muestra es realmente compatible con la
población en el 95% de los casos. O también, a partir de los
datos muestrales se acepta la hipótesis de que la media de la
variable “conocimiento de los soldados” es 102, con un nivel
de confianza del 95%.
En este caso hemos realizado lo que se conoce con el nombre
de contraste bilateral, ya que la región crítica está formada
por dos conjuntos disjuntos.
5
También se pueden hacer contrastes unilaterales cuando la
región crítica está formada por un solo conjunto de puntos.
El siguiente cuadro ilustra esta idea:
Contraste unilateral
derecho
Contraste
bilateral
Contraste unilateral
izquierdo
H0 : µ ≤ 102
H1 : µ > 102
H0 : µ = 102
H1 : µ ≠ 102
H0 : µ ≥ 102
H1 : µ < 102
En resumen:
Contraste de hipótesis: procedimiento estadístico mediante
el cual se investiga la verdad o falsedad de una hipótesis
acerca de una población o poblaciones.
Hipótesis nula H0: es la hipótesis que se formula y que se
quiere contrastar; es, por tanto, la hipótesis que se acepta o
se rechaza como consecuencia del contraste.
Hipótesis alternativa H1: cualquier otra hipótesis que
difiera de la formulada y que nos sitúe frente a H0, de forma
que si se rechaza H0 se acepta H1 y si se acepta H0 se
rechaza H1.
6
Estadístico del contraste: es una función de los valores
muestrales. Es una variable aleatoria que sigue una
distribución en el muestreo. Toma un valor para cada
muestra.
Nivel de significación de una hipótesis, α : es el valor
complementario del nivel de confianza de una estimación.
1 − α.
Región de aceptación: la formada por el conjunto de puntos
tales que los valores del estadístico del contraste nos llevan
a aceptar la hipótesis nula.
Región crítica o de rechazo: la formada por el conjunto de
puntos tales que los valores del estadístico del contraste nos
llevan a rechazar la hipótesis nula.
Contraste bilateral: cuando la región crítica está formada
por dos conjuntos de puntos disjuntos.
Contraste unilateral: cuando la región crítica está formada
por un solo conjuntos de puntos.
Pasos para efectuar un contraste de hipótesis
1)
Se formulan la hipótesis nula H0 y la hipótesis
alternativa H1.
2)
Se elige el nivel de significación α deseado.
3)
Se elige el estadístico de contraste cuya distribución
en el muestreo es conocida.
4)
Con arreglo a α se determina la región de aceptación.
7
5)
Se toma una muestra, se calcula un valor particular
del estadístico de contraste y se efectúan los
cálculos.
6)
Se acepta o se rechaza la hipótesis nula según que el
estadístico calculado caiga dentro o fuera de la
región de aceptación. Finalmente, se interpreta esta
decisión.
Posibles errores en el contraste de hipótesis
La metodología usual del contraste de la hipótesis nula
frente a una alternativa, en base a la información
suministrada por la muestra, puede conducir a dos tipos de
errores, debidos a la aleatoriedad del muestreo.
Hay ocasiones en las que es cierta la hipótesis nula, pero,
como a la vista de la información muestral es muy poco
probable, nuestra decisión puede ser rechazarla. En estos
casos cometemos un error. El error consistente en rechazar
la hipótesis nula cuando es verdadera se denomina error de
tipo I.
Puede ocurrir que, basándonos en la información muestral,
decidamos aceptar H0 siendo falsa, que sería lo mismo que
rechazar H1 siendo verdadera. En estas situaciones se
comete un error denominado error de tipo II.
Cuando se comete uno u otro tipo de error en un contraste
de hipótesis, éstos conducen a situaciones inadecuadas.
Podemos resumir las decisiones correctas y erróneas que se
pueden producir en el contraste, mediante el siguiente
cuadro:
8
DECISIONES
SITUACIÓN
H0 verdadera
H1 verdadera
Rechazar H0
Decisión incorrecta
Error de tipo I
Decisión correcta
Aceptar H0
Decisión correcta
Decisión incorrecta
Error de tipo II
14.3.- CONTRASTES DE HIPÓTESIS PARA LA MEDIA
DE UNA POBLACIÓN NORMAL CON DESVIACIÓN
TÍPICA CONOCIDA
Supongamos que partimos de una distribución normal
N ( µ , σ ) , donde σ es conocida, y queremos contrastar el
valor µ = µ 0 . Para ello, fijado un determinado nivel de
significación α , elegimos una muestra de tamaño n para la
cual la media muestral es x . Entonces se tiene:
Hipótesis Hipótesis
Estadístico
Tipo de
nula
alternativa
del
contraste
H0
H1
contraste
µ = µ0
µ ≠ µ0
bilateral
z=
µ ≤ µ0
µ > µ0
unilateral
x − µ0
σ
n
Región de
aceptación


 −zα , zα 
 2 2
( −∞ , zα )
sigue una
N(0,1)
µ ≥ µ0
µ < µ0
unilateral
( −zα , + ∞ )
9
Ejercicio resuelto 1 (pág. 316)
El peso de los pollos de una granja es normal con media 2,6
kg y desviación típica 0,5. Se experimenta un nuevo tipo de
alimentación con 50 crías. Cuando se hacen adultos, se les
pesa y se obtiene una media de 2,78 kg. Vamos a contrastar
con un nivel de significación del 1% la hipótesis de que el
peso medio de la población no aumenta.
H0 : µ ≤ 2, 6
H1 : µ > 2, 6
z=
α = 0, 01
x − µ0
σ
n
α = 0, 01 ⇒ zα = 2,33
Como se trata de un contraste unilateral, la región de
aceptación para α = 0, 01 es ( −∞ , 2,33) .
x = 2, 78
µ 0 = 2, 6
z=
n = 50
σ = 0, 5
x − µ 0 2, 78 − 2, 6
=
= 2, 55
σ
0, 5
n
50
2, 55 ∉ ( −∞ , 2,33) ⇒ Se rechaza la hipótesis nula.
La población aumentará de peso con el nuevo tipo de
alimentación con un nivel de significación de 0,01.
10
Ejercicio 9 pág. 324
14.4.- CONTRASTES DE HIPÓTESIS PARA LA MEDIA
DE UNA POBLACIÓN CON DESVIACIÓN TÍPICA
DESCONOCIDA (tamaños muestrales grandes n>30)
Para tamaños muestrales grandes (n > 30 ) , procedentes de
una población, sea o no normal, de media µ y desviación típica
σ desconocida, se pueden utilizar los mismos procedimientos
de contraste desarrollados para la población normal con
desviación típica conocida. Basta sustituir σ por la
desviación típica muestral s.
Ejemplo:
El presidente de un grupo de agencias de viaje asegura que
durante el último mes obtuvieron unas ventas medias de 3
millones de euros. Con el fin de contrastar este dato, se
toma una muestra al azar de 100 sucursales y se obtienen
unas ventas medias de 2,9 millones de euros y una desviación
típica de 0,35 millones de euros. ¿Se acepta a un nivel de
significación del 10% la afirmación del presidente del grupo?
H0 : µ = 3
H1 : µ ≠ 3
z=
α = 0,10
x − µ0
s
n
α = 0,10 ⇒ zα = 1, 645
2
11
Como se trata de un contraste bilateral, la región de
aceptación para α = 0,10 es ( −1, 645, 1, 645 ) .
x = 2, 9
µ0 = 3
z=
n = 100
s = 0,35
x − µ 0 2, 9 − 3
=
= −2, 86
s
0,35
n
100
−2, 86 ∉ ( −1, 645, 1, 645 ) ⇒ Se rechaza la hipótesis nula.
Por tanto, se rechaza la afirmación del presidente sobre las
ventas medias mensuales del grupo, a un nivel de
significación del 10%.
Ejercicios: 11 y 12 pág. 324
14.5.- CONTRASTES
PROPORCIÓN
DE
HIPÓTESIS
PARA
LA
En la proporción de elementos de una población que poseen
determinada característica, a veces ocurre que hay una
población que sigue una distribución binomial.
Consideremos, pues, una población que sigue una distribución
binomial.
12
p: proporción poblacional
p : proporción muestral
Sabemos que cuando el tamaño de la muestra es grande
(n > 30 ) , la distribución de las proporciones muestrales, p ,

pq 
se aproxima a una distribución normal N  p,
 . Y, por
n


p − p
∼ N(0,1) .
tanto, Z =
pq
n
Supongamos que la hipótesis nula es que la proporción
poblacional es igual a un valor determinado, es decir:
H0 : p = p0
Entonces, dada una muestra aleatoria de tamaño n, se utiliza
la proporción muestral p para decidir si la hipótesis nula es
verdadera. Si p está suficientemente próxima a p0 , se
tenderá a aceptar la hipótesis nula. Para determinar ese
p − p
grado de proximidad se utiliza el estadístico z =
que
pq
n
tiene aproximadamente una distribución N(0,1) cuando la
hipótesis nula es cierta.
Las regiones crítica y de aceptación dependerán del tipo de
contraste y del nivel de significación α . Veamos los distintos
casos en una tabla similar a la utilizada para los contrastes
de hipótesis de la media:
13
Hipótesis Hipótesis
Estadístico
Tipo de
nula
alternativa
del
contraste
H0
H1
contraste
p = p0
p ≠ p0
bilateral
z=
p ≤ p0
p > p0
unilateral
p − p0
p0q0
n
Región de
aceptación


 −zα , zα 
 2 2
( −∞ , zα )
sigue una
N(0,1)
p ≥ p0
p < p0
( −zα , + ∞ )
unilateral
Ejercicio propuesto 1 (pág. 318)
Respecto a un cierto dado, A opina que p ( "6") = 0,15 , B opina
que p ( "6") ≤ 0,15 y C opina que p ( "6") ≥ 0,15 . Contrasta las
tres hipótesis con un nivel de significación de 0,10, sabiendo
que se arrojó el dado 1000 veces y se obtuvo 183 veces el
“6”.
p = p ( "obtener un 6")
Escribamos los tres contrastes de hipótesis:
Para A
Para B
Para C
H0 : p = 0,15
H0 : p ≤ 0,15
H0 : p ≥ 0,15
H1 : p ≠ 0,15
H1 : p > 0,15
H1 : p < 0,15
α = 0,10
p − p0
z=
p0 q0
n
14
zα = 1, 645
α = 0,10 ⇒  2
zα = 1,28
183
p =
= 0,183
1000
n = 1000
p0 = 0,15
q0 = 0, 85
p − p0
0,183 − 0,15
=
= 2, 92
z=
p0 q0
0,15 ⋅ 0, 85
n
1000
Estadístico
tipificado
Zonas de
aceptación
Decisión
A
B
C
z = 2, 92
z = 2, 92
z = 2, 92
( −1, 645 , 1, 645 )
( −∞ , 1,28)
( −1,28 , + ∞ )
Se rechaza H0
Se rechaza H0
Se acepta H0
Ejercicios: 14 pág 324, 17 y 18 pág. 325
15
14.6.- CONTRASTES DE
DIFERENCIA DE MEDIAS
HIPÓTESIS
PARA
LA
En el caso de contrastes de hipótesis para la diferencia de
medias partimos de la suposición a priori de que las medias
de las dos poblaciones son iguales, µ1 = µ2 .
Las distintas formas en las que se puede plantear la
hipótesis alternativa o de investigación son:
H1 : µ1 ≠ µ2
H1 : µ1 > µ2
H1 : µ1 < µ2
Los pasos a seguir en el contraste son los ya conocidos.
El estadístico del contraste (ya tipificado) será:
z=
(x
1
− x2 ) − ( µ1 − µ2 )
σx1 − x2
µ1 : media de la población 1
σ1 : desviación típica de la población 1
µ2 : media de la población 2
σ2 : desviación típica de la población 2
n1 : tamaño de la muestra de la población 1
n2 : tamaño de la muestra de la población 2
x1 : media de la muestra de la población 1
x2 : media de la muestra de la población 2
σx1 −x2 =
σ12 σ22
+
n1
n2
16
Hipótesis Hipótesis
Tipo de
nula
alternativa
contraste
H0
H1
µ1 = µ2
µ1 ≠ µ2
Estadístico del
contraste


 −zα , zα 
 2 2
bilateral
x − x ) − (µ − µ )
(
z=
1
µ1 = µ2
µ1 > µ2
Región de
aceptación
unilateral
2
1
σ x −x
1
2
( −∞ , zα )
2
sigue una N(0,1)
µ1 = µ2
µ1 < µ2
unilateral
( −zα , + ∞ )
Ejemplo:
Estudiamos dos muestras de ciudadanos de dos Comunidades
Autónomas (A y B), de 80 miembros cada una para conocer el
sentimiento nacionalista. Sobre una escala de 1 a 10, la
primera alcanzó una media de 7,2 con una desviación típica
de 3,1, mientras que la segunda alcanzó una media de 8,1 con
una desviación típica de 4,2. Nuestra hipótesis de
investigación es que la comunidad B tiene un sentimiento
nacionalista mayor que la comunidad A. Comprueba la
hipótesis para un nivel de significación del 0,01.
H0 : µ1 = µ2
H1 : µ1 < µ2
17
z=
α = 0, 01
(x
1
− x2 ) − ( µ1 − µ2 )
σx1 − x2
α = 0, 01 ⇒ zα = 2,33
La región de aceptación para α = 0, 01 es ( −2,33, + ∞ ) .
n1 = 80
n2 = 80
σx1 −x2 =
x1 = 7,2
x2 = 8,1
s1 = 3,1
s2 = 4,2
σ12 σ22
3,12 4,22
+
≅
+
= 0, 58
n1
n2
80
80
(Como no conocemos las desviaciones típicas de las poblaciones,
utilizamos las desviaciones típicas de las muestras)
z=
(x
1
− x2 ) − ( µ1 − µ2 )
σx1 − x2
=
( 7,2 − 8,1 ) − 0
0, 58
= −1, 55
−1, 55 ∈ ( −2,33, + ∞ ) ⇒ Se acepta la hipótesis nula.
No existen diferencias significativas en
sentimiento nacionalista en los dos colectivos.
cuanto
al
18
Ejercicio:
Una empresa fabrica neumáticos mediante un proceso A. Un
segundo proceso B, de reciente descubrimiento, se sospecha
que puede dar lugar a un menor consumo de caucho. Para
contrastar esta hipótesis, se hace uso de una muestra
formada por 10 neumáticos fabricados por el procedimiento
A y 15 fabricados por el procedimiento B, midiéndose en
ambos casos la cantidad de caucho utilizado por neumático.
Los resultados obtenidos fueron:
xA = 5000 g
sA = 11 g
xB = 4980 g
sB = 12 g
Bajo los supuestos de normalidad en la distribución de los
consumos de caucho, contrasta al nivel de significación del
5% la hipótesis de igualdad de consumo en ambos
procedimientos, frente a la alternativa de menor consumo en
el procedimiento B.
19
Descargar