Objetivos 1. Intervalos de Confianza y test de hipótesis

Anuncio
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Tema 7: Intervalos de Conanza
y Contrastes de Hipótesis
Objetivos
Aplicar los procedimientos de intervalos de conanza y test de hipótesis para medias y proporciones.
Interpretar convenientemente los resultados
Comparar dos medias o dos proporciones muestrales y analizar posibles diferencias
signicativas.
1. Intervalos de Conanza y test de hipótesis
En el tema que nos ocupa el objetivo que queremos resolver es de estimación de
parámetros desconocidos de la población, como una media de una población que puede
ser representada por una variable normal, o una proporción de un modelo de Bernoulli.
Son dos los procedimientos que se usarán para estimar dichos parámetros desconocidos: intervalos de conanza y contrastes de hipótesis. Además, siempre dispondremos
de una muestra aleatoria simple extraída de la población de interés que nos aportará
información necesaria para poder ejecutar los procedimientos anteriores, como medias o
desviaciones típicas muestrales.
Un intervalo de conanza es un rango de valores
(l1 , l2 ), calculado a partir de la mues-
tra y que contiene el verdadero valor del parámetro con una probabilidad determinada
de antemano
se le llamará
1 − α, llamada nivel de conanza. A la semiamplitud de dicho intervalo
error de estimación.
Un contraste de hipótesis es un problema de decisión donde se formulan dos hipótesis
acerca del valor que puede tomar el parámetro desconocido, denominadas hipótesis nula
(denotada por
H0 )
e hipótesis alternativa (denotada por
una de dichas hipótesis. La hipótesis
H0
H1 )
y habrá que decidir entre
es la hipótesis que se acepta por defecto a no ser
que la información muestral acerca del parámetro muestre una discrepancia con
H0
tan
grande que no pueda ser atribuida al azar y tenga que ser rechazada ésta para aceptar
la hipótesis alternativa
llamado
H0
H1 .
En los contrastes que se realicen, se jará de antemano el
nivel de signicación que se denota por α
y es la probabilidad de rechazar
cuando ésta es en realidad cierta.
1.1. Construcción de intervalos de conanza
A continuación damos un esquema de construcción de intervalos de conanza para
la media de una población normal.
X ∼ N (µ, σ) con µ desconocida. El siguiente esquema muestra cómo construir un intervalo (l1 , l2 ), de forma que
dicho intervalo contenga el parámetro µ con probabilidad 1 − α.
Sea
(X1 , ..., Xn )
una m.a.s. de tamaño
n,
procedente de
Sin embargo no es objetivo de este curso construir tales intervalos sino aplicarlos e
interpretarlos en situaciones concretas.
Tema 7
Página: 1
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Intervalo de conanza para la media µ de una población normal con σ conocida
Consideramos el estadístico:
Z=
Sabiendo que
X̄ − µ
√σ
n
Z ∼ N (0, 1) podemos encontrar dos valores simétricos respecto a cero que
−z1− α2 y z1− α2 tal que
denotaremos mediante
P
donde
1 − α2 .
z1− α2
−z1− α2 ≤
X̄ − µ
√σ
n
!
≤ z1− α2
=1−α⇔
es la abscisa de la distribución normal que deja a su izquierda un área de
σ
σ
P −z1− α2 √ ≤ X̄ − µ ≤ z1− α2 √
=1−α⇔
n
n



σ
σ 


α
α
P X̄ − z1− 2 √ ≤ µ ≤ X̄ + z1− 2 √  = 1 − α

n
n
|
{z
}
|
{z
}
l1
l2
Ejemplo 1.1 Dada X ∼ N (µ, 00 1) y {X1 , . . . , X16 } con X̄ = 180 063 calcular un intervalo de conanza al 95 % para el parámetro desconocido µ.
σ
00 1
0
0
IC = X̄ ± z1− α2 √
= (18.014, 18.112)
= 18 063 ± 1 96 √
n
16
Ejemplo 1.2 Dada X ∼ N (µ, 00 1) y {X1 , . . . , X16 } con X̄ = 180 063, de forma que el
intervalo de conanza para µ resulta ser (17.9985, 18.1275). Calcula el nivel de conanza
con el que ha sido construido.
El error de estimación (semiamplitud del intervalo) es 18.1275 − 180 0630 = 0.0645
, es decir, z1− α2 = 2.58, por lo que 1 − α2 = 0.995
por lo tanto, 0.0645 = z1− α2 √σn = z1− α2 0.1
4
y 1 − α = 0.99.
2. Determinación del tamaño de muestra
Vamos a considerar cómo se puede jar el tamaño de la muestra en los casos de
estimación por intervalos cuando deseamos acotar el error de estimación, es decir, la
semiamplitud del intervalo, que denotaremos por
Por ejemplo, cuando estimamos
queremos
lo que conseguimos haciendo
Tema 7
µ con σ
e.
conocida y jado el nivel de conanza
1 − α,
σ
z1−α/2 √ < e
n
σ
n > (z1−α/2 )2
e
Página: 2
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
En el caso de no conocer la varianza podemos aproximarla por una estimación o una
cota de la misma
Ejemplo 2.1 Supongamos que deseamos conocer el tamaño de muestra n para que la
media muestral X diste de la media poblacional µ menos de 0.05, con probabilidad 0.95
y suponiendo que σ = 0.25. Queremos que sea
σ
z1−α/2 √ < e
n
basta que sea
σ
n > (z1−α/2 )2
e
es decir
n > (1.96
0.25 2
) = 96.04
0.05
o lo que es igual
n ≥ 97
3. Resumen de Intervalos más frecuentes (una sola
muestra)
En la siguiente tabla se recoge la expresión de los intervalos de conanza de los
parámetros más conocidos.
Parámetro
Población
Intervalo de conanza
µ
Normal con
µ
No normal con
σ
conocida (n
µ
No normal con
σ
desconocida (n
p
Bernoulli (n
λ
Poisson (n
σ
conocida
≥ 30)
≥ 30)
≥ 30)
≥ 30)
σ
x ± z1−α/2 √
n
σ
x ± z1−α/2 √
n
S
x ± z1−α/2 √
n
r
pb(1 − pb)
pb ± z1−α/2
n
r
x
x ± z1−α/2
n
4. Caso de dos muestras
En ocasiones es necesario contrastar la homogeneidad de dos muestras para pronosticar si proceden de la misma población o no.
Es decir, se trata de resolver alguna de las siguientes cuestiones:
¾Son dos muestras normales procedentes de una población con igual media?
Tema 7
Página: 3
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
¾Son dos muestras de Bernoulli procedentes de una población con la misma probabilidad de éxito?.
En principio este objetivo lo llevaremos a cabo con intervalos de conanza y más
tarde lo resolveremos mediante test de hipótesis.
¾Cómo podemos interpretar los resultados de un intervalo de conanza para desvelar
una cuestión como la anterior?.
Aunque las muestras provengan de la misma población es razonable que al observar
dos muestras de ella se obtengan medias muestrales distintas y estas diferencias se atribuyen al azar. Esto se va a traducir en que al calcular el intervalo de conanza para la
diferencia de dos medias o proporciones, éste contendrá el valor cero. Por el contrario, si
el intervalo de conanza para la diferencia de medias o proporciones no contiene al cero
decimos que
la diferencia de medias muestrales es signicativa y sería lo mismo
que concluir que las medias teóricas son diferentes.
Parámetros
µ1 − µ2
Intervalo de
Poblaciones
conanza
Normales indep.,
σ1
y
σ2
conocidas
σ1 , σ2 desconocidas
n1 > 30, n2 > 30
Normales apareadas,
µ1 − µ2
p1 − p2
D = X1 − X2
n ≥ 30
Bernoulli, indep.,
(n1
≥ 30, n2 ≥ 30)
σ12 σ22
+
n1 n2
r
S12 S22
+
n1
n2
x1 − x2 ± z1−α/2
No Normales indep.,
µ1 − µ2
r
x1 − x2 ± z1−α/2
SD
D ± z1−α/2 √
n
r
pb1 − pb2 ± z1−α/2
pb1 (1 − pb1 ) pb2 (1 − pb2 )
+
n1
n2
5. Elementos básicos en un contraste de hipótesis paramétrico
Supongamos que desconocemos el valor de un parámetro y formulamos dos posibles
hipótesis acerca del valor que éste puede tomar.
Por ejemplo, pensemos que
X
sea el contenido en gramos de proteínas, en 100 g de un
nuevo producto lácteo y del que desconocemos la media
lácteo estándar contiene por término medio
µ = 5.2
µ.
Pongamos que un producto
g. de proteínas si bien éste nuevo
que se quiere lanzar al mercado se presenta enriquecido en varios tipos de nutrientes.
Para contrastar si el nuevo producto presenta enriquecimiento en proteínas, formulamos
las hipótesis:
Hipótesis Nula
Hipótesis Alternativa
La Hipótesis Nula
H0
H0 : µ = 5.2g
H1 : µ > 5.2g
es siempre una hipótesis conservadora que recoge información
histórica acerca del parámetro, mientras que la Hipótesis Alternativa
H1
es la hipóte-
sis de trabajo, que recoge información reciente sobre el parámetro y progresista porque
suele informar de un cambio respecto al comportamiento histórico del parámetro. La
Tema 7
Página: 4
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
metodología es asumir
H0
Universidad de Murcia
y únicamente rechazarla si se maniestan discrepancias sig-
nicativas, no atribuibles al azar; es decir, si el apoyo de
H0
ocurrido sucesos de probabilidad muy baja. La aceptación de
signica asumir que han
H0
signicará que no ha
habido conclusión estadística o que los datos aportados por la investigación empírica no
han sido concluyentes. Por el contrario, el rechazo de
H0
para aceptar
H1
signicará que
los datos proporcionados por la investigación empírica están en franco desacuerdo con
la hipótesis histórica y diremos entonces que los datos son concluyentes y la hipótesis de
trabajo es aceptada.
En la aceptación o en el rechazo de
H0
podemos cometer dos tipos de errores.
Decisión que se toma
Aceptar
H0
HA
Hipótesis
Cierta
H0
Rechazar
H0
Correcto
Error (tipo I)
Error (tipo II)
Correcto
Aunque el error de tipo I, rechazar
H0
cuando
H0
es cierta, tiene más importancia
H0 cuando H0 es falsa. Si llamamos α a la probabilidad
de cometer un error de tipo I y β a la probabilidad de cometer un error de tipo II, lo
anterior signica que supuesto que nunca será α = β = 0 (a no ser de que observemos
que el error de tipo 2, aceptar
a toda la población y con ello nunca nos equivocaremos), deberíamos de llevar a cabo
contrastes con
α
controlado y pequeño.
Ejemplo 5.1 En un juicio tendremos que decidir entre dos hipótesis: o el acusado es
inocente o el acusado es culpable. Puesto que todos somos inocentes, salvo que se demuestre lo contrario, (H0 es la hipótesis apoyada por defecto), el test que debemos plantear es:
H0 :
H1 :
El acusado es inocente
El acusado es culpable
En este caso es:
α = P (Condenar al acusado, siendo éste inocente)
β = P (absolver al acusado, siendo éste culpable)
Con el ejemplo anterior vemos que el error tipo 1, con probabilidad
α,
tiene más tras-
cendencia que el error de tipo 2, por lo que lo tenemos bajo control, jando dicha
probabilidad de antemano. A dicho valor prejado
cación.
α
se le denomina
nivel de signi-
6. Test de hipótesis para la media de una población
normal
El siguiente esquema muestra cómo proceder para el contraste de una media en la
situación de ser
σ
para el parámetro
Tema 7
desconocida y muestras de tamaño grande. Para otras situaciones o
p
de una distribución de Bernouilli, la forma de proceder es análoga.
Página: 5
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Test de hipótesis para la media µ de una población normal
supuesto σ desconocida y muestras de tamaño grande
1. Planteamiento de las hipótesis a contrastar. Tres tipos de test:
Test a.-
H0 : µ = µ0
H1 : µ 6= µ0
Hipótesis Nula
Hipótesis Alternativa
Test b.-
H0 : µ = µ0
H1 : µ > µ0
Hipótesis Nula
Hipótesis Alternativa
Test c.-
H0 : µ = µ0
H1 : µ < µ0
Hipótesis Nula
Hipótesis Alternativa
2. Si
H0
es cierta (µ
= µ0 ),
la función
Z=
X − µ0
√S
n
∼aprox N (0, 1)
α y observamos el valor de z
x − µ0
decir z =
.
S
3. Fijamos el nivel de signicación
(X1 , ..., Xn ) = (x1 , ..., xn ),
4. Construimos una
es
√
de
Z
cuando
n
Región de Rechazo, (RR),
jado
α, en base a
Z . La regla
distribución de probabilidad del estadístico de contraste
rechazar
H0
si
z ∈RR
y aceptar
H0
la
es
en caso contrario. En este caso:
Test a.- RR=(−∞, −z1− α2 ) ∪ (z1− α2 , +∞)
Test b.- RR=(z1−α , +∞)
Test c.- RR=(−∞, −z1−α )
5. Alternativamente, puede llegarse a la misma conclusión usando el
valor. La regla e decisión es la siguiente:
Rechazar
Aceptar
H0
H0
si
P − valor < α
en caso contrario.
6. La tercera alternativa para decidir aceptar o rechazar
intervalos de conanza de nivel
H0
P-
(1 − α).
H0
es mediante
La regla de decisión es rechazar
si:
Test a.- µ0 ∈/ (x ± z1−α/2 √Sn )
Test b.- µ0 ∈/ (x − z1−α √Sn , ∞)
Test c.- µ0 ∈/ (−∞, x + z1−α √Sn )
y aceptar
Tema 7
H0
en caso contrario.
Página: 6
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
En los problemas realizados a mano solemos utilizar la regla de decisión indicada
en el punto 4, mientras que los casos llevados a cabo con ordenador se resuelven a través
del P-valor o mediante los intervalos de conanza, criterios indicados en los puntos 5 y
6.
Ejemplo 6.1 Una proceso de elaboración de lácteos nalizaba con un producto de 5.2 g
de contenido medio de proteínas por 100 g de producto. En la actualidad, dicho proceso
se ha modicado mediante concentración del producto, para producir lácteos de mayor
contenido en proteínas. Para contrastar si el proceso se ha modicado adecuadamente,
se realiza periódicamente una inspección. En una de estas inspecciones una muestra de
tamaño 25 arrojó una media muestral de 5.7. y una cuasidesviación típica 1.3 mm.
¾Debemos concluir que el proceso se ha modicado correctamente para producir lácteos
enriquecidos en proteínas o por el contrario la media muestral observada no presenta
diferencias signicativas respecto a los valores medios tradicionales?.
Hipótesis Nula (proceso no modicado) H0 : µ = 5.2
Hipótesis Alternativa (proceso modicado) H1 : µ 6= 5.2
El estadístico
Z=
X̄ − 5.2
√S
n
∼aprox N (0, 1),
si
H0
es
cierta
Dicho estadístico es observado y toma el valor
z=
5.7 − 5.2
1.3
√
25
= 1.92
Si jamos el nivel de signicación como α = 0.05, la región de rechazo es RR=(−∞, −z0.975 )∪
(z0.975 , +∞) = (−∞, −1.96) ∪ (1.96, +∞). Como z = 1.92 ∈
/ RR, aceptamos H0 , es decir, debemos concluir que NO hay suciente evidencia estadística y debemos de aceptar
que el proceso produce lácteos de contenido medio en proteínas no signicativamente
distinto a 5.2.
En el ejemplo anterior se ha optado por un test bilateral, pero si el parámetro
µ
puede moverse en una sola dirección, el planteamiento anterior es inadecuado. Si esto es
conocido, es más razonable hacer un test unilateral pues estamos teniendo en cuenta esta
información y puede haber evidencia estadística donde antes no la había. Evidentemente,
en el caso de usar un test unilateral, hay que recordar que la hipótesis de trabajo ha de
estar en la hipótesis alternativa.
Ejemplo 6.2 En el caso del ejemplo anterior, si descartamos la posibilidad de que el
contenido medio en proteínas de los lácteos disminuya puesto que el proceso está preparado para enriquecerlos, es inadecuado el planteamiento anterior y resulta mejor el
siguiente:
Hipótesis Nula (proceso no modicado)
H0 : µ = 5.2
Hipótesis Alternativa (proceso modicado) H1 : µ > 5.2
El estadístico
Tema 7
Página: 7
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Z=
X̄ − 5.2
√S
n
∼aprox N (0, 1),
Universidad de Murcia
si
H0
es
cierta
Dicho estadístico es observado y toma el valor
z=
5.7 − 5.2
1.3
√
25
= 1.92
Si jamos el nivel de signicación como α = 0.05, la región de rechazo es RR=(z0.95 , +∞) =
(1.64, +∞). Como z = 1.92 ∈ RR, debemos concluir que SI hay suciente evidencia y
debemos de rechazar H0 para aceptar que el proceso elabora lácteos enriquecidos en proteínas.
7. Contrastes paramétricos más frecuentes
Al igual que en el tema de intervalos de conanza, resolvemos test de hipótesis para
un solo parámetro mediante una muestra cuya población depende de dicho parámetro
desconocido y para dos parámetros a partir de dos muestras.
Para cada parámetro o pareja de parámetros tenemos tres opciones de test: uno
bilateral o de dos colas y dos unilaterales o de una sola cola.
Los test bilaterales producen resultados cuyas conclusiones son completamente equivalentes a las que se producirían de haberse construido el correspondiente intervalo de
conanza.
Sin embargo en los test unilaterales es posible restringir el espacio paramétrico, si este
hecho es conocido de antemano, tal y como se ha visto en el ejemplo anterior, suponiendo
que el parámetro sólo puede moverse en una sola dirección a partir de un valor histórico
dado.
De poder plantear un test unilateral (no siempre es posible hacer el supuesto de que el
parámetro se mueve en una sola dirección), la región de rechazo se concentra en una sola
cola y eso puede suponer apreciar diferencias signicativas cuando no se apreciaban en
un test bilateral. De ahí la importancia de seleccionar en cada situación el test oportuno.
A modo de resumen, diremos que hay conclusión estadística sólo en el caso del rechazo
de la hipótesis nula
aceptar
H0
H0
para aceptar nuestra hipótesis de trabajo
H1 .
En el caso de
y puesto que ésta es una hipótesis débil porque es la que se considera por
defecto por razones históricas o por desconocimiento de la actualidad, diremos que no hay
conclusión estadística o que los datos no son concluyentes respecto a nuestra hipótesis
de trabajo.
En la última página de este documento se adjunta una tabla con los contrastes más
básicos.
8. Bibliografía
1. Temas 5 y 6 del texto Estadística para Ciencias Agropecuarias. Autor: Di Riezo,
J. A.
Tema 7
Página: 8
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
2. Tema 3 y Tema 4 del texto
Universidad de Murcia
Probabilidad y Estadística para Ciencias e Ingenierías.
Rosario Delgado de la Torre. Editorial Delta.
3. Capítulos 5 y 6 del texto
Estadística para ingenieros y cientícos. William Navidi.
Editorial McGraw-Hill.
Tema 7
Página: 9
Tema 7
6= 0
>0
<0
6= 0
>0
<0
6= 0
>0
<0
≥ 30)
≥ 30)
y
σ2
conocidas
(n1
≥ 30, n2 ≥ 30)
Bernoulli, indep.,
D = X1 − X2
n > 30
Normales apareadas,
σ1 , σ2 desconocidas
n1 > 30, n2 > 30
No Normales indep.,
σ1
≥ 30)
≥ 30)
desconocida (n
Normales indep.,
Poisson (n
Bernoulli (n
σ
No normal con
conocida (n
conocida
σ
σ
No normal con
Normal con
Poblaciones
N (0, 1)
pb − p0
q
con
N (0, 1)
x − µ0
√
S/ n
pb1 − pb2
q
;
( n11 + n12 )p0 (1 − p0 )
n1 pb1 + n2 pb2
p0 =
n1 + n2
SD
√
n
D
x −x
q 12 2 2
S1
S2
n1 + n2
x −x
q 12 2 2
σ1
σ2
n1 + n2
x − λ0
p
λ0 /n
aprox.
N (0, 1)
N (0, 1)
N (0, 1)
aprox.
aprox.
N (0, 1)
N (0, 1)
N (0, 1)
x − µ0
√
σ/ n
p0 (1−p0 )
n
N (0, 1)
Distribución
x − µ0
√
σ/ n
Estadístico
(−∞, −z1− α2 ) ∪ (z1− α2 , +∞)
(z1−α , +∞)
(−∞, −z1−α )
(−∞, −z1− α2 ) ∪ (z1− α2 , +∞)
(z1−α , +∞)
(−∞, −z1−α )
(−∞, −z1− α2 ) ∪ (z1− α2 , +∞)
(z1−α , +∞)
(−∞, −z1−α )
(−∞, −z1− α2 ) ∪ (z1− α2 , +∞)
(z1−α , +∞)
(−∞, −z1−α )
(−∞, −z1− α2 ) ∪ (z1− α2 , +∞)
(z1−α , +∞)
(−∞, −z1−α )
(−∞, −z1− α2 ) ∪ (z1− α2 , +∞)
(z1−α , +∞)
(−∞, −z1−α )
(−∞, −z1− α2 ) ∪ (z1− α2 , +∞)
(z1−α , +∞)
(−∞, −z1−α )
(−∞, −z1− α2 ) ∪ (z1− α2 , +∞)
(z1−α , +∞)
(−∞, −z1−α )
(−∞, −z1− α2 ) ∪ (z1− α2 , +∞)
(z1−α , +∞)
(−∞, −z1−α )
Rechazo
Región de
Grado en Ciencia y Tecnología de los Alimentos
p1 − p2 =
6 0
p1 − p2 > 0
p1 − p2 < 0
µ 6= µ0
µ > µ0
µ < µ0
µ 6= µ0
µ > µ0
µ < µ0
µ 6= µ0
µ > µ0
µ < µ0
p 6= p0
p > p0
p < p0
λ 6= λ0
λ > λ0
λ < λ0
µ1 − µ2
µ1 − µ2
µ1 − µ2
µ1 − µ2
µ1 − µ2
µ1 − µ2
µ1 − µ2
µ1 − µ2
µ1 − µ2
H1
M. Iniesta
Universidad de Murcia
Página: 10
Descargar