2. Fórmulas para calcular los estadísticos de prueba

Anuncio
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
PRUEBAS DE HIPÓTESIS
DE DOS POBLACIONES
P. Reyes
Septiembre 2007
1
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
CONTENIDO
1. Experimentos de comparaciones simples
2. Fórmulas para calcular los estadísticos de prueba
3. Ejemplos de pruebas de hipótesis de dos poblaciones
4. Ejercicios adicionales
2
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Pruebas de hipótesis de dos poblaciones
En esta sección se analizan ciertos experimentos que se usan para
comparar condiciones (a menudo llamadas tratamientos). A menudo, se
denominan experimentos de comparación simples.
Ejemplo 2.1: La resistencia adhesiva a la tensión del cemento es una
característica importante del producto. Se desea probar la resistencia de
una fórmula modificada, a la que se han agregado emulsiones de
polímeros de látex durante el mezclado, contra la resistencia de la
argamasa
hecha
con
la
fórmula
no
modificada.
Se
hacen
10
observaciones de la resistencia de la fórmula modificada y otras 10 de la
fórmula no modificada. Los datos aparecen en la Tabla 1.
Tabla 1
Cemento j Cemento
modificado original
J
Y1j
Y2j
1
16.85
17.50
2
16.40
17.63
3
17.21
18.25
4
16.35
18.00
5
16.52
17.86
6
17.04
17.75
7
16.96
18.22
8
17.15
17.90
9
16.59
17.96
10
16.57
18.15
Las dos fórmulas pueden considerarse como dos tratamientos, o dos niveles
de las formulaciones de factor.
3
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
A primera vista, estos datos dan la impresión de que la resistencia del
cemento original es mayor que la del modificado, se refuerza al comparar
los valores medios de la resistencia a la tensión, es decir, Y1  16.76 kgf/cm2
del cemento modificado contra Y2  17.92 kgf/cm2 del cemento original.
Una técnica de inferencia estadística llamada prueba de hipótesis
(algunos prefieren denominarla pruebas de significación), puede servir
para ayudar al experimentador al comparar estas dos fórmulas.
Inferencias sobre la diferencia de medias, diseños aleatorizados
Ahora se analizan los datos de este experimento de comparación simple,
usando procedimientos de prueba de hipótesis y de intervalos de
confianza, para comparar las medias de los dos tratamientos.
Prueba de Hipótesis
Una hipótesis estadística es una afirmación acerca de los parámetros de
una población. Por ejemplo, en el problema del cemento puede pensarse
que el nivel medio de la resistencia a la tensión de ambas formulas es
similar. Esto lo podemos expresar, formalmente, de la siguiente manera:
H0 : μ1  μ2
H1 : μ1  μ2
En donde 1 es el valor medio de la resistencia a la tensión del cemento
modificado, mientras que 2 es el valor medio de la resistencia a la tensión
del cemento original. La afirmación H0 se conoce como hipótesis nula,
mientras que H1 se conoce como hipótesis alterna. La hipótesis alterna
4
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
propuesta en este ejemplo es una hipótesis alterna bilateral, ya que puede
ser verdadera sí 1 < 2 o bien sí 1, > 2.
Para probar una hipótesis hay que diseñar un procedimiento para tomar
una muestra aleatoria y calcular un estadístico de prueba apropiada con
objeto de rechazar o no la hipótesis nula H0. Parte de este procedimiento
consiste en especificar el conjunto de valores del estadístico de prueba
que conduzcan al rechazo de H0. Este conjunto de valores se denomina
región crítica o región de rechazo de la prueba.
Al efectuar pruebas de hipótesis pueden cometerse dos tipos de error.
Ocurre un error de tipo I cuando la hipótesis nula es rechazada siendo
verdadera. Si la hipótesis nula no es rechazada cuando es falsa se comete
un error de tipo II. Las probabilidades de cometer estos errores reciben un
símbolo especial.
 = P(error tipo I) = P(rechazar H0H0 es verdadera)
 = P(error tipo II) = P(no rechazar H0H0 es falsa)
En ocasiones, es más conveniente trabajar con la potencia de la prueba,
donde Potencia = 1 -  P(rechazar H0 H0 es falsa)
El procedimiento general de la prueba de hipótesis consiste en especificar
un valor para , la probabilidad de error tipo I, llamado a menudo, nivel de
significación de la prueba, para después diseñar un procedimiento que
asegure un valor pequeño para la probabilidad de error tipo II.
5
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Supongamos que puede aceptarse que poseen el mismo valor las
variancias en ambas fórmulas de cemento. Una estadística de prueba
apropiada para usarse en la comparación del nivel medio de los dos
tratamientos en un diseño completamente aleatorizado es:
to 
Y1  Y2
1 1
Sp

n1 n2
Donde Y1 y Y2 son las medias muéstrales, n1 y n2 el tamaño de las muestras,
Sp2 es una estimación de la variancia común 12 = 22 = 2 calculado
mediante:
Sp
2

n1  1S12  n2  1S22

n1  n2  2
S12 y S22 son las dos variancias muéstrales individuales. Hay que comparar
t0 con respecto a la distribución t con n1 + n2 - 2 grados de libertad, para
decidir si se rechaza H0: 1 = 2. Se debe rechazar H0 y concluir que el nivel
medio de la resistencia a la tensión para las dos fórmulas de mortero de
cemento Pórtland difieren si to > to/2, n1 + n2 –2, donde to/2, n1 + n2 –2 es el
punto porcentual /2 superior de la distribución t con n1 + n2 -2 grados de
libertad.
Este procedimiento se justifica de la siguiente manera: Si se realiza el
muestreo de dos poblaciones normales independientes, la distribución de
Y1  Y2
es N{1 - 2, 2(1/n1+ 1/n2)}.
6
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
En este caso, si 2 es conocida, y sí, además, H0: 1 = 2 resulta verdadera,
la distribución de:
Zo 
Y1  Y 2
1 1
σ

n1 n2
Será NID(0,1 ). Sin embargo, al reemplazar  por Sp en la Ecuación anterior
se cambia la distribución Zo de la normal estándar a t con n1 + n2 -2 grados
de libertad. Ahora bien, si H0 es verdadera, t0 en la Ecuación de la prueba
de to tiene una distribución tn1 + n2 -2 y, en consecuencia, se espera que el
100(1 -) por ciento de los valores de t0 se encuentren entre t/2, n1 + n2- 2
y t/2,
n1 + n2- 2.
Una muestra que produzca un valor de to fuera de estos
límites es inusual si la hipótesis nula es verdadera, y constituye una
evidencia de que Ho debe ser rechazada. Nótese que  es la probabilidad
del error tipo I para la prueba.
En algunos problemas el experimentador puede estar interesado en
rechazar Ho sólo si una media es mayor que la otra. En este caso se
especifica la hipótesis alterna unilateral Ho: 1 > 2 y se rechaza Ho sólo sí
to > t, n1 + n2- 2. Si se desea rechazar Ho cuando 1 es menor que 2 solo si
menor que 1,
la hipótesis alterna será H1: 1 < 2
debe rechazar sí H sí to < -t,n1 + n2 -2.
7
y el experimentador
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
Del ejemplo, con los datos de la tabla 2.1, se tiene:
1
16.85
17.50
2
16.40
17.63
3
17.21
18.25
4
16.35
18.00
5
16.52
17.86
6
17.04
17.75
7
16.96
18.22
8
17.15
17.90
9
16.59
17.96
10
16.57
18.15
Media
D.E.
Var.
16.764
17.922
0.316
0.248
0.100
0.061
Cemento modificado:
Y1  16.76kfg/cm 2
S1 2  0.100
S1  0.316
n  10
Cemento original::
Y 2  17.92kf g / cm2
S12  0.061
S1  0.247
n  10
Y
Sp 2 
n1  1S12  n2  1S22
n1  n2  2
9(0.100)  9(0.061)

 0.081
10  10  2
Sp  0.284
8
P. Reyes/Sept. 2007
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Nótese que no es razonable concluir que las variancias poblacionales son
iguales por el hecho de que las variancias muéstrales sean similares. La
estadística de prueba es:
Y1  Y 2

1 1
Sp

n1 n2
16.76  17.92
to 
0.284 1 10  1 10
 9.13
Ahora bien, el punto porcentual superior de 2.5 de la distribución t con n 1 +
n2 – 2 = 10 + 10 – 2 = 18 grados de libertad, es t.025,18 = 2.101. Como to=
9.13 > t025,18 = 2.101, debe rechazarse Ho y concluir que existe diferencia en
el nivel medio de la resistencia a la tensión de las dos clases de mortero.
9
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
2. Fórmulas para calcular los estadísticos utilizados en las
pruebas de Hipótesis de 2 poblaciones.
Fórmulas para Intervalos de confianza para parámetros de dos
poblaciones
a) Intervalo de confianza para la diferencia entre dos medias
poblacionales (1-2) con muestras grandes (n >= 30 ) y cuando ya se
cuenta con historial, o sea que  es conocida:
IC para ( 1   2 )  ( X 1  X 2 )  Z  / 2
 12
n1

 22
n2
Si las  poblacionales no se conoce entonces se usan las S de las muestras
en su lugar:
IC para ( 1   2 )  ( X 1  X 2 )  Z  / 2
S12 S 22

n1 n2
b) Intervalo de confianza para estimar la diferencia entre dos medias
poblacionales (1-2) con muestras pequeñas (n < 30; gl  n1  n2  2 ). Con
varianzas iguales (1=2) desconocidas:
S p2 S p2
S12 (n1  1)  S 22 (n2  1)
S 
IC para( 1   2 )  ( X 1  X 2 )  t / 2, gl

n1  n2  2
n1 n2
2
p
c) Intervalo de confianza para estimar la diferencia entre dos medias
poblacionales (1-2) con muestras pequeñas (n < 30; grados de libertad =
gl. Con varianzas desiguales (1  2): desconocidas:
( S12 / n1  S 22 / n2 ) 2
gl  2
( S1 / n1 ) 2 /(n1  1)  ( S 22 / n2 ) 2 /(n2  1)
IC para ( 1   2 )  ( X 1  X 2 )  t ' / 2, gl
S12 S 22

n1 n2
d) Intervalo de confianza para la diferencia de medias con observaciones
pareadas (gl = n-1):
10
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
d
d 
n
i
; Sd 
d
2
i
 nd 2
n 1
; IC para d  d  t / 2, gl
P. Reyes/Sept. 2007
Sd
n
e) Intervalo de confianza para estimar la diferencia de proporciones
poblacionales (1- 2):
S p1 p 2 
p1 (1  p1 ) p2 (1  p2 )

; IC para( 1   2 )  ( p1  p2 )  Z / 2 S p1 p 2
n1
n2
Fórmulas para calcular los estadísticos utilizados en las pruebas de
Hipótesis de 2 pob.
f) Estadístico Zc para probar la diferencia entre 2 medias poblacionales
con muestras grandes
(n >= 30):
Zc 
( X 1  X 2 )  ( 1   2 )
S12 S 22

n1 n2
Lo normal es que. Ho : 1   2  0 o 1   2
g) Estadístico Fc para probar la igualdad de varianzas
Fc 
S12
S 22
Seleccionar que S1 sea la mayor.
11
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
h) Estadístico tc para probar la diferencia de medias de 2 poblaciones con
muestras pequeñas
(n < 30) y donde se asume que las 1 y 2 son iguales pero desconocidas:
S p2 
S12 (n1  1)  S 22 (n2  1)
( X  X 2 )  ( 1   2 )
; tc  1
n1  n2  2
S p2 S p2

n1 n2
i) Estadístico tc para probar la diferencia entre 2 medias poblacionales con
muestras pequeñas
(n < 30) y se asume que las 1 y 2 son desiguales y desconocidas:
t 'c 
( X 1  X 2 )  ( 1   2 )
S12 S 22

n1 n2
j) Estadístico tc para probar la igualdad de dos medias poblacionales para
observaciones pareadas:
d
d 
n
i
;
Sd 
d
2
i
 nd 2
n 1

d  ( 1   2 )
; tc 
Sd
n
k) Estadísico Zc para probar la diferencia de dos proporciones
poblacionales:
S p1 p 2 
p1 (1  p1 ) p 2 (1  p 2 )
( p  p 2 )  ( 1   2 )

; Zc  1
n1
n2
S p1 p 2
12
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
A continuación se presentan ejemplos de cada caso:
a) Estadístico Zc para probar la diferencia entre 2 medias
poblacionales con muestras grandes
(n >= 30):
Zc 
( X 1  X 2 )  ( 1   2 )
S12 S 22

n1 n2
Lo normal es que. Ho : 1   2  0 o 1   2
Estadístico de tablas Zalfa o Zalfa/2 en Excel =DISTR.NORM.ESTAND.INV(alfa
o alfa/2)
Estadístico de tablas Zalfa o Zalfa/2 en Minitab >Calc >Probability
distributions> Normal:
Inverse Cummulative prob; Mean = 0; Std. Dev. = 0; Input constant = Alfa o
alfa/2
Intervalo de confianza para la diferencia entre dos medias poblacionales
(1-2) con muestras grandes (n >= 30 ) y cuando ya se cuenta con
historial, o sea que  es conocida:
IC para ( 1   2 )  ( X 1  X 2 )  Z  / 2
 12
n1

 22
n2
Si las  poblacionales no se conoce entonces se usan las S de las muestras
en su lugar:
13
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
IC para ( 1   2 )  ( X 1  X 2 )  Z  / 2
P. Reyes/Sept. 2007
S12 S 22

n1 n2
El valor p de probabilidad correspondiente al estadístico Zc se determina
como sigue:
P value en Excel =DISTR.NORM.ESTAND(Zc)
P value en Minitab >Calc >Probability distributions> Normal:
Cummulative prob; Mean = 0; Std. Dev. = 0; Input constant = Zc
Prueba Minitab
>Stat >Basic statistics > 2- Sample t
Summarized data
Sample size Mean
Standar deviation
First
60
587
145
Second
50
512
125
º! Assume equal variances
Options: Confidence level
98%
Test difference
0.0
Alternate
Not equal
OK
14
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Criterios de rechazo de Ho:
Si Zc cae en la zona de rechazo
El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza
El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2
(dos colas).
b) Estadístico Fc para probar la igualdad de varianzas
S12
Fc  2
S2
Seleccionar que S1 sea la mayor.
Estadístico de tablas Falfa/2 en Excel = DISTR.F.INV(Alfa/2, gl. n1-1, gl. n2-1)
El valor p de probabilidad correspondiente a Fc en Minitab se determina
como sigue:
P value en Excel =DISTR.F(Fc, gl. n1-1, gl. n2-2)
P value en Minitab >Calc >Probability distributions> F:
Cummulative prob; Numerator degrees of freedom = n1- 1;
denominator degrees of freedom = n2-1; Input constant = Fc
15
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Prueba Minitab
>Stat >Basic statistics > 2- Variances
Summarized data
Sample size Variance
First
60
21025
Second
50
15625
Number of trial 500
Number of events 225
Options: Confidence level 98%
OK
Resultados
Test for Equal Variances
98% Bonferroni confidence intervals for standard deviations
Sample N
Lower StDev
Upper
1 60 116.937
145 188.881
2 50 98.928
125 167.622
F-Test (normal distribution)
Test statistic = 1.35, p-value = 0.287
16
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Criterios de rechazo de Ho:
Si Fc cae en la zona de rechazo
El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza
El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2
(dos colas).
c) Estadístico tc para probar la diferencia de medias de 2
poblaciones con muestras pequeñas (n < 30) y donde se asume
que las 1 y 2 son iguales pero desconocidas:
S p2 
S12 (n1  1)  S 22 (n2  1)
( X  X 2 )  ( 1   2 )
; tc  1
n1  n2  2
S p2 S p2

n1 n2
Estadístico de tablas Talfa o Talfa/2 en Excel =DISTR.T.INV(2*alfa o alfa,
grados de libertad n1+n2-2)
Estadístico de tablas Talfa o Talfa/2 en Minitab >Calc >Probability
distributions> :
Inverse Cummulative prob; Degrees of freedom = n1+n2-2; Input constant =
Alfa o alfa/2
Intervalo de confianza para estimar la diferencia entre dos medias
poblacionales (1-2) con muestras pequeñas (n < 30; gl  n1  n2  2 ). Con
varianzas iguales (1=2) desconocidas:
17
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
S p2 
P. Reyes/Sept. 2007
S12 (n1  1)  S 22 (n2  1)
n1  n2  2
IC para( 1   2 )  ( X 1  X 2 )  t / 2, gl
S p2
n1

S p2
n2
El valor p de probabilidad correspondiente al estadístico Tc se determina
como sigue:
P value en Excel =DISTR.T(Tc, grados de libertad = n1 + n2 - 2, 1 o 2 colas)
P value en Minitab >Calc >Probability distributions> T:
Cummulative prob; Degrees of freedom = n1 + n2 - 2; Input constant
= Tc
Criterios de rechazo de Ho:
Si Tc cae en la zona de rechazo
El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza
El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2
(dos colas).
18
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Prueba Minitab
>Stat >Basic statistics > 2- Sample t
Summarized data
Sample size Mean
Standar deviation
First
60
587
145
Second
50
512
125
º! Assume equal variances
Options: Confidence level
98%
Test difference
0.0
Alternate
Not equal
OK
Resultados
Two-Sample T-Test and CI
SE
Sample
N
Mean
StDev
Mean
1
60
587
145
19
2
50
512
125
18
Difference = mu (1) - mu (2)
Estimate for difference:
75.0000
19
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
98% CI for difference:
P. Reyes/Sept. 2007
(13.3739, 136.6261)
Si en el IC no se encuentra el 0 se rechaza la Hipótesis nula.
T-Test of difference = 0 (vs not =): T-Value = 2.87 P-Value = 0.005 DF = 108
Both use Pooled StDev = 136.2901
d) Estadístico tc para probar la diferencia entre 2 medias
poblacionales con muestras pequeñas (n < 30) y se asume que
las 1 y 2 son desiguales y desconocidas:
t 'c 
( X 1  X 2 )  ( 1   2 )
S12 S 22

n1 n2
Estadístico de tablas Talfa o Talfa/2 en Excel =DISTR.T.INV(2*alfa o alfa,
grados de libertad calculados)
Estadístico de tablas Talfa o Talfa/2 en Minitab >Calc >Probability
distributions> :
Inverse Cummulative prob; Degrees of freedom =calculados; Input
constant = Alfa o alfa/2
gl 
(S12 / n1  S22 / n2 ) 2
(S12 / n1 ) 2 /(n1  1)  (S22 / n2 ) 2 /(n2  1)
Intervalo de confianza para estimar la diferencia entre dos medias
poblacionales (1-2) con muestras pequeñas (n < 30; grados de libertad =
gl. Con varianzas desiguales (1  2): desconocidas:
20
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
IC para( 1   2 )  ( X 1  X 2 )  t ' / 2, gl
P. Reyes/Sept. 2007
S12 S 22

n1 n2
El valor p de probabilidad correspondiente al estadístico Tc se determina
como sigue:
P value en Excel =DISTR.T(Tc, grados de libertad =calculados, 1 o 2 colas)
P value en Minitab >Calc >Probability distributions> T:
Cummulative prob; Degrees of freedom = calculados; Input constant = Tc
Criterios de rechazo de Ho:
Si Tc cae en la zona de rechazo
El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza
El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2
(dos colas).
e) Estadístico tc para probar la igualdad de dos medias
poblacionales para observaciones pareadas:
d
d 
n
i
;
Sd 
d
2
i
 nd 2
n 1

d  ( 1   2 )
; tc 
Sd
n
Estadístico de tablas Talfa o Talfa/2 en Excel =DISTR.T.INV(2*alfa o alfa,
grados de libertad
= n-1)
21
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Estadístico de tablas Talfa o Talfa/2 en Minitab >Calc >Probability
distributions> :
Inverse Cummulative prob; Degrees of freedom = n – 1; Input constant =
Alfa o alfa/2
Intervalo de confianza para la diferencia de medias con observaciones
pareadas (gl = n-1):
d
d 
n
i
; Sd 
d
2
i
 nd 2
n 1
; IC para d  d  t / 2, gl
Sd
n
El valor p de probabilidad correspondiente al estadístico Tc se determina
como sigue:
P value en Excel =DISTR.T(Tc, grados de libertad = n – 1, 2 colas)
P value en Minitab >Calc >Probability distributions> T:
Cummulative prob; Degrees of freedom = n - 1; Input constant = Tc
22
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Prueba en Minitab
>Stat >Basic statistics > Paired t
Summarized data (differences)
Sample size
81
Mean
36.5
Standar deviation
29.1
Options: Confidence level
Test difference
99%
0.0
Alternate
Not equal
OK
Resultados
Paired T-Test and CI
Difference
N
Mean
StDev
SE Mean
81
36.5000
29.1000
3.2333
99% CI for mean difference: (27.9682, 45.0318)
T-Test of mean difference = 0 (vs not = 0): T-Value = 11.29
P-Value = 0.000
23
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Criterios de rechazo de Ho:
Si Tc cae en la zona de rechazo
El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza
El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2
(dos colas).
f) Estadísico Zc para probar la diferencia de dos proporciones
poblacionales:
S p1 p 2 
p1 (1  p1 ) p 2 (1  p 2 )
( p  p 2 )  ( 1   2 )

; Zc  1
n1
n2
S p1 p 2
Estadístico de tablas Zalfa o Zalfa/2 en Excel =DISTR.NORM.ESTAND.INV(alfa
o alfa/2)
Estadístico de tablas Zalfa o Zalfa/2 en Minitab >Calc >Probability
distributions> Normal:
Inverse Cummulative prob; Mean = 0; Std. Dev. = 0; Input constant = Alfa o
alfa/2
Intervalo de confianza para estimar la diferencia de proporciones
poblacionales (1- 2):
S p1 p 2 
p1 (1  p1 ) p2 (1  p2 )

; IC para( 1   2 )  ( p1  p2 )  Z / 2 S p1 p 2
n1
n2
24
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
El valor p de probabilidad correspondiente al estadístico Zc se determina
como sigue:
P value en Excel =DISTR.NORM.ESTAND(Zc)
P value en Minitab >Calc >Probability distributions> Normal:
Cummulative prob; Mean = 0; Std. Dev. = 0; Input constant = Zc
Prueba Minitab
>Stat >Basic statistics > 2- Proportion
Summarized data
First
Trials
Events
120
83
Second 150
109
Confidence level 95% Test differenca 0.0
Alternative Not equal
º! Use pooled estimate of p for test
OK
Resultados
Test and CI for Two Proportions
25
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
Sample
X
N
Sample p
1
83
120
0.691667
2
109
150
0.726667
P. Reyes/Sept. 2007
Difference = p (1) - p (2)
Estimate for difference:
95% CI for difference:
-0.035
(-0.144150, 0.0741499)
Test for difference = 0 (vs not = 0):
Z = -0.63
P-Value =
0.528
Si Zc cae en la zona de rechazo
El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza
El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2
(dos colas).
26
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
3.
P. Reyes/Sept. 2007
Ejemplos de pruebas de hipótesis de dos poblaciones
Prueba Z de 2 colas
Problema 1
Se toman muestras de tamaño n2=50 y n1=60, revelan medias y
desviaciones estándar X2=512, s2 =125, X1=587, s1=145 respectivamente. A
un nivel del 2% pruebe la hipótesis de que las medias de ambas
poblaciones son iguales.
Solución
a) Prueba de igualdad de varianzas
Solución
1) Ho: σ12 = σ22
Ho: σ12 ≠ σ22
2) Fc = 145*145 / 125*125 = 1.3456
3) F0.02/2,59,49 = distr.f.inv(0.01, 59, 49) = 1.92
4) Dado que Fc= 1.34 es menor que Ft= 1.92 la Ho no se rechaza a un
nivel de alfa del 2%. Indicando que las varianzas son iguales:
5) El valor P correspondiente a Fc es: =distr.f(1.34, 59,49) = 0.1467
27
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Prueba Minitab
>Stat >Basic statistics > 2- Variances
Summarized data
Sample size Variance
First
60
21025
Second
50
15625
Number of trial 500
Number of events 225
Options: Confidence level 98%
OK
RESULTADOS Y CONCLUSIONES……
Las varianzas son iguales
b) Prueba de la igualdad de medias
1) Ho: μ1 = μ2
Ho: μ1 ≠ μ2
2) S= √ (125)2 / 50 + (145) 2 / 60 = √ 312.5 + 350.42 = 25.75
Zc= (512 -587) – 0 / 25.75 = -75 / 25.75 = -2.91
3) α= 2%
0.02/2 = 0.01
Z de tablas para 0.01 = -2.32
28
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
4) Dado que Zc= -2.91 es menor a Zt=-2.32 la Ho se rechaza a un nivel
alfa del 2%.
Las medias de las poblaciones no son iguales
5) Valor P correspondiente a Zc es 0.0018 con =distr.norm.estand(-2.91)
Prueba Minitab
>Stat >Basic statistics > 2- Sample t
Summarized data
Sample size Mean
Standar deviation
First
60
587
145
Second
50
512
125
º! Assume equal variances
Options: Confidence level
98%
Test difference
0.0
Alternate
Not equal
OK
RESULTADOS Y CONCLUSIONES……
Problema 2
Se toman muestras de tamaño n2=64 y n1=81, revelan medias y
desviaciones estándar X2=65.2 s2=21.2 X1=58.6, s1=25.3 respectivamente.
A un nivel del 5% pruebe la hipótesis de que las varianzas y después de que
las medias de ambas poblaciones son iguales.
29
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Solución
a) Prueba de igualdad de varianzas
1) Ho: σ12 = σ22
Ho: σ12 ≠ σ22
2) Fc = 25.3*25.3/ 21.2*21.2 = 1.424
3) F0.05/2,80,63 = distr.f.inv(0.025, 80, 63) = 1.61
4) Dado que Fc= 1.424 es menor que Ft= 1.61 la Ho no se rechaza a un
nivel de alfa del 5%. Indicando que las varianzas son iguales:
El valor P correspondiente a Fc para media cola es: =distr.f(1.424, 80, 63) =
0.072
Prueba con Minitab: RESULTADOS Y CONCLUSIONES……
b) Prueba de igualdad de medias
1) Ho: μ1 = μ2
Ho: μ1 ≠ μ2
2) S= √ (21.2)2 / 64 + (25.3) 2 / 81 = √ 7.02 + 7.90 = 3.86
Zc= (65.2 -58.6) – 0 / 3.86 = 1.71
3) α= 5%
0.05/2=0.025
Z de tablas para 0.025 = 1.95
30
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
4) Dado Zc= 1.71 menor a Zt=1.95 la Ho no se rechaza a un nivel de
confianza del 5%.
Indicando que las medias poblacionales no son diferentes
5) Valor P de la prueba para Zc = 1.71
=distr.norm.estand(-1.71) =
0.0436
Este valor es mayor que alfa/ 2 = 0.025 por tanto se rechaza Ho.
Prueba con Minitab: RESULTADOS Y CONCLUSIONES……
Problema 3
Determinar a un 90% de nivel de confianza si hay diferencia entre las
varianzas y las medias de los tiempos que se tarda en arreglar una cocina y
una recámara:
A) Prueba de igualdad de dos varianzas
Cocina Recamara
25.2
18.0
17.4
22.9
22.8
26.4
21.9
24.8
19.7
26.9
23.0
17.8
19.7
24.6
23.0
21.0
B) Prueba de igualdad de dos medias
19.7
16.9
21.8
23.6
31
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Prueba con Minitab: RESULTADOS Y CONCLUSIONES……
Problema 4
Probar si hay diferencia entre los métodos actual y nuevo para la
realización de una tarea, a un 95% de nivel de confianza:
Los datos de los tiempos de respuesta para ambos métodos se muestran a
continuación:
Actual Nuevo
300
276
280
222
344
310
385
338
372
200
360
302
288
317
321
260
376
320
290
312
301
334
283
265
A) Probar la igualdad de las varianzas
B) Probar la igualdad de las medias
Prueba con Minitab: RESULTADOS Y CONCLUSIONES……
32
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Prueba Z de dos colas para proporciones
Problema 5
Muestras de tamaño n1=120 y n2=150 produjeron proporciones de p1=0.69
y p2=0.73. Pruebe la igualdad de las proporciones de las poblaciones a un
nivel del 5%.
1) Ho: π1 = π2
Ho: π1 ≠ π2
2) s= √(0.69)(1-0.69) / 120 + (0.73)(1-0.73)/150 = √0.00178 + 0.00131= 0.056
Zc= 0.69 – 0.73 / 0.056 = -0.714
3) 0.05/2 = 0.025
Z de tablas para 0.025= -1.95
4) Dado que Zc=- 0.714 es mayor que Zt=-1.95 la Ho no se rechaza a un
nivel de confianza del 5%.
5) El valor P correspondiente a la Zc es 0.2376 con =distr.norm.estand(Zc
= -0.714
Prueba Minitab
>Stat >Basic statistics > 2- Proportion
Summarized data
Trials
Events
First
120
83
Second
150
109
Confidence level 95% Test differenca 0.0
º! Use pooled estimate of p for test
OK
33
Alternative Not equal
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
RESULTADOS Y CONCLUSIONES……
Problema 6
Yahoo hizo una encuesta para determinar el porcentaje de personas que
usaban Internet en el trabajo:
En México se encontró que el 40% de los adultos usa Internet de una
muestra de 240.
En Monterrey el 32% de los adultos usaba Internet de una
muestra de 250.
¿Es mayor la proporción que usa Internet en México que
en Monterrey para un 95% de nivel de confianza?
34
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
4. Ejercicios adicionales:
1. Se toman 200 muestras de dos segmentos normales de clientes
identificando su preferencia en los productos de la empresa, los datos
obtenidos son: Media 1 = 6.40, Sigma 1 = 2.19, Media 2 = 6.80, Sigma 2 =
2.42.
Probar a un 95% de nivel de confianza si no hay diferencia en las medias.
2. Los resultados para dos diferentes equipos se muestran a continuación:
A
60.0 56.0 68.8 77.0 74.4 72.0 57.6 64.2 75.2 58.0 60.2 56.6
B
55.2 44.4 62.0 67.6 40.0 60.4 63.4 52.0 64.0 62.4 66.8 53.0
Probar a un 95% de nivel de confianza si:
a) Si no hay diferencia en las varianzas de los segmentos.
b) Si no hay diferencia en las medias de los segmentos.
3. Los tiempos de llamadas a dos servicios de Call centres en minutos son
los siguientes:
A
2.95
3.16
3.12
3.45
3.2
3.22
3.5 3.22
2.98
3.75
3.38
3.45
3.48
3.9
B
3.22
3.3
3.34
3.28
3.29
3.25
3.3 3.27
3.38
3.34
3.35
3.19
3.35
3.05
Probar a un 80% de nivel de confianza si hay diferencia:
35
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
a) Entre las varianzas de los dos Call Centers.
b) Entre las medias de los dos Call Centers.
4. A dos grupos de inspectores se les pidió que indicaran el porcentaje de
rechazo en dos líneas de producción:
Línea A: Lotes inspeccionados 50
Lotes rechazados 21
Línea B: Lotes inspeccionados 65
Lotes rechazados 26
Probar a un Nivel de Confianza del 98% se hay diferencia de calidad en las
dos líneas productivas.
5. Determinar a un nivel de confianza del 90% si hay diferencia entre las
medias de dos poblaciones.
Cocina
25.2 17.4 22.8 21.9 19.7 23.0 19.7 23.0 19.7 16.9 21.8 23.6
Recamara 18.0 22.9 26.4 24.8 26.9 17.8 24.6 21.0
6. Se toman muestras aleatorias de 15 mujeres sindicalizadas y 20 no
sindicalizadas con los siguientes: salarios por hora:
22.4 18.9
Sind.
16.7
14.1 16.2 20.0 16.1 16.3 19.1 16.5 18.5 19.8 17.0 14.3 17.2
No sind.
17.6 14.4
16.6
15.0 17.7 15.0 17.6 13.3 11.2 15.9 19.2 11.9 16.7 145.2 15.3
17.0 15.1
14.3
13.9 14.5
36
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
7. Los tiempos de terminación del programa y estadísticos del estudio de
prueba del programa se muestran a continuación:
Tecnología actual: 300 280
376
290
301
312
334
385
372
360
288
321
310
338
200
302
317
260
283
Nuevo programa: 276 222
320
344
265
8. Los tiempos de terminación para la tarea con un método mejorado y
actual son, para el mismo empleado:Pareadas
Método 1
6.0
5.0
7.0
6.2
6.0
6.4
Método 2
5.4
5.2
6.5
5.9
6.0
5.8
9. Un comprador califica un producto antes y después de ver un
comercial: pareadas
Antes
5
4
7
3
5
8
5
6
Después
6
6
7
4
3
9
7
6
10. A dos grupos de personas se les pidió que indicaran el porcentaje de
recordatorio de dos comerciales:
Comercial Lo vieron
Lo recordaron
A
150
63
B
200
60
37
PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES
P. Reyes/Sept. 2007
Probar a un 5% si son iguales los dos grupos
11. Yahoo hizo una encuesta para determinar el porcentaje de personas
que usaban Internet en el trabajo:
En México se encontró que el 40% de los adultos usa Internet de una
muestra de 240.
En Monterrey el 32% de los adultos usaba Internet de una muestra de 250.
¿Es mayor la proporción que usa Internet en México que en Monterrey?
12. Los tiempos de respuesta en días de dos procesos de atención al
cliente se muestran a continuación:
Proceso
A
2.95 3.16 3.12 3.45 3.2 3.22 3.5 3.22 2.98 3.75 3.38 3.45 3.48 3.9
3.7
3.26 3.36 3.34 3.33 3.25 3.18 3.2 3.28 3.35 3.12
3.22
3.3
Proceso
B
3.34 3.28 3.29 3.25 3.3 3.27 3.38 3.34 3.35 3.19 3.35 3.05
3.36 3.258 3.3 3.28 3.3
3.3
3.2 3.16 3.33
Probar a un 95% de confianza si hay diferencia entre las varianzas de las
dos muestras.
38
Descargar