Práctica 7 CONTRASTES DE HIPÓTESIS _________________________________________________________________

Anuncio
1
Práctica 7. Contrastes de hipótesis
Práctica 7
CONTRASTES DE HIPÓTESIS
_________________________________________________________________
Objetivos:
Utilizar los contrastes de hipótesis para decidir si un parámetro de la distribución de unos datos
objeto de estudio cumple o no una cierta condición. Análisis de las relaciones entre contrastes
de hipótesis e intervalos de confianza.
Uso del SPSS para el análisis de una y dos muestras: contrastes de hipótesis sobre la media
poblacional.
Índice:
1. Construcción de contrastes de hipótesis.
2. Análisis de una y dos muestras con el SPSS.
3. Ejercicios.
Práctica 7. Contrastes de hipótesis
2
1. Construcción de contrastes de hipótesis.
Algunas investigaciones se realizan para decidir si un parámetro de una cierta distribución
verifica o no cierta condición. Esta condición se denomina hipótesis nula y se representa por
H0 mientras que la suposición contraria se llama hipótesis alternativa y se denota H1. Un
contraste de hipótesis trata de dar un mecanismo para decidir si se rechaza o no la hipótesis
nula en favor de la alternativa usando la información proporcionada por una muestra cuyo
comportamiento depende del parámetro.
Se suele hablar sólo de rechazar o aceptar (no rechazar) H0. Se pueden cometer dos tipos de
errores:
1. Rechazar H0 siendo cierta (error de tipo I)
2. Aceptar H0 siendo falsa (error de tipo II)
Lo ideal sería minimizar las probabilidades de cometer ambos tipos de error. En la práctica, lo
que se hace es fijar la cota para la probabilidad de cometer un error de tipo I en un valor 
(tamaño del test o nivel de significación) pequeño e intentar que la probabilidad de cometer el
error de tipo II sea lo menor posible.
Resumiendo, el problema consiste en decidir si se rechaza o no la hipótesis nula a partir de los
datos proporcionados por una muestra. Al igual que en la construcción de intervalos de
confianza se busca un buen estimador del parámetro (que resuma la información proporcionada
por la muestra) y se construye un test o prueba basado en dicho estimador de forma que si el
valor del estimador cumple una cierta condición se rechaza la hipótesis nula y si no la verifica
se acepta. Esta condición se expresa por medio de un cierto subconjunto de posibles valores
para el estimador llamado región crítica. Si el estimador toma un valor perteneciente a esta
región crítica se rechaza H0 y en caso contrario, se acepta.
La región crítica R se construye de forma que la probabilidad de cometer el error de tipo I sea
como mucho y, dentro de lo posible, minimizar la probabilidad de cometer el error de tipo II.
3
Práctica 7. Contrastes de hipótesis
2. Análisis de una y dos muestras con el SPSS
2.1. Prueba t para una muestra
Sea una muestra de una distribución N(

H :    0
Para el contraste  0
(con desconocida)
 H1 :    0

Un buen estimador para  es la media muestral X y para es la cuasivarianza muestral S.
X  0
Entonces T =
sigue una distribución t de Student con n-1 grados de libertad.
S/ n
La región crítica R se construye de la forma R = {|T| > x}. Intuitivamente, el contraste establece
que si la media muestral X difiere mucho del valor se debe rechazar la hipótesis nula.
Para que se verifique que P(rechazar H0 | H0 cierta) sea como mucho esto es, P( |T| > x) = .
el valor x tiene que ser tn-1;  por seguir T una distribución tn-1.
 X   0

 t n -1, /2 
La región crítica queda entonces R = 
 S / n

Ejemplos
1. La duración de una determinada componente electrónica sigue una distribución normal.
Los resultados de una muestra aleatoria de esta clase de componentes son: 1200, 1350, 1275,
890, 1125, 1520, 1100 horas. Realizar con  = 0.05 el contraste de hipótesis:
H 0 :   1100

 H1 :   1100
1. Abrir el fichero de datos EJEMPLO1.SAV
2. Seleccionar el procedimiento Prueba T para una muestra, eligiendo el menú
Analizar/Comparar medias/Prueba T para una muestra.
3. Seleccionar la variable ‘duracion’ e introducir el valor 1100 en la ventana
correspondiente a ‘Valor de prueba’
4. Pulsar ‘Aceptar’
4
Práctica 7. Contrastes de hipótesis
Estadísticos para una muestra
N
DURACION
7
Media
1208,5714
Desviación
típ.
200,7219
Error típ. de
la media
75,8658
Prueba para una muestra
Valor de prueba = 1100
DURACION
t
1,431
gl
6
Sig. (bilateral)
,202
Diferencia
de medias
108,5714
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-77,0654
294,2082
Para interpretar el contraste de hipótesis hay que usar el valor que aparece en la casilla ‘Sig.
(bilateral)’. En esta casilla está representada la significación o p-valor. En este caso este
p-valor es la probabilidad de que |T| > t = 1,431. La interpretación se resume en lo siguiente: Si
el p-valor es menor que el tamaño del test  es porque el valor del estimador usado para el
contraste pertenece a la región crítica y, por tanto, se rechaza la hipótesis nula. Si, por el
contrario, el p-valor es mayor que dicho valor no está en la región crítica y se acepta la
hipótesis nula.
En este ejemplo, se debe aceptar la hipótesis nula.
Relación entre intervalos de confianza y contrastes de hipótesis
La región de aceptación (complementario de la región crítica) de un contraste de hipótesis
para un parámetro con tamaño coincide con un intervalo de confianza para al
(1-x100 %.
En el caso del contraste visto anteriormente, la región de no rechazo (o aceptación) es:
 X   0

 t n -1, /2  =
WC = {|T| ≤ tn-1;  
 S / n

S
S 

   X  t n -1 , /2
 X  t n -1 , /2

n
n

Otra forma de interpretar el contraste es ver si el 0 está contenido en el intervalo de confianza al
95% para la diferencia de medias, que también lo proporciona el programa. Si esto es así (como
en el ejemplo) se acepta la hipótesis nula y se rechaza en caso contrario.
La prueba T es válida siempre que el tamaño muestral sea suficientemente grande o, en caso
contrario, cuando la muestra provenga de una población con distribución normal.
5
Práctica 7. Contrastes de hipótesis
2.2. Prueba t para dos muestras independientes
Ahora se tienen dos muestras: una provenie de una distribución N(y otra de una
N(

H :    2
Para el contraste  0 1
(con desconocidas)
 H1 : 1   2
 X  Y

 t m , /2 
se obtiene la siguiente región crítica R = {|T|> tm;  
*
 S

Dependiendo de si las desviaciones típicas son iguales o diferentes se tienen diferentes valores
 H 0 :  12   22
*
para m y S . Para distinguir entre ambos casos se hace un contraste previo 
.
2
2
 H1 :  1   2
H :  2 /  2  1
En realidad el que se hace es  0 12 22
 H1 :  1 /  2  1
Este se resuelve usando la región crítica R = { F  ( Fn1 1,n2 1;1 / 2 , Fn1 1,n2 1; / 2 )}
siendo F 
S12
que sigue una distribución F de Fisher-Snedecor con n1-1 y n2-1 grados de
S 22
libertad. (n1 y n2 son los tamaños muestrales correspondientes y S12 , S 22 las respectivas
cuasivarianzas muestrales)
Si las varianzas son iguales m = n1 + n2 – 2 y S* =
1 1
Sp

n1 n2
(n1  1) S12  (n2  1) S 22
n1  n2  1
En caso contrario m se estima mediante una expresión un poco


2
2
2


S2 S2
( S1 / n1  S 2 / n2 )
 y S*= 1  2
(Smith-Satterhwaite) m = 
n1 n 2
 1 (S 2 / n ) 2  1 (S 2 / n ) 2 
2
2
 n1  1 1 1

n2  1


siendo Sp =
complicada
6
Práctica 7. Contrastes de hipótesis
Ejemplos
2. Se quiere comparar la calidad de dos máquinas que fabrican un cierto componente
eléctrico. Se han tomado datos sobre la cantidad de componentes estropeados en diferentes
lotes obteniéndose para la máquina 1 los siguientes datos: 15, 16, 17, 12, 13, 15, 16, 13, 17,
15, 16, 17, 15, 13 y para la máquina 2: 8, 9, 5, 7, 9 , 11, 15, 13, 9, 8.
Contrastar la igualdad de medias con 0,05
Para poder efectuar la prueba T para muestras independientes, SPSS necesita una columna en el
editor de datos que contenga los valores de la variable cuyas medias en las dos poblaciones se
desea comparar, y otra que indica la población o grupo a que pertenece cada individuo.
1. Abrir el fichero EJEMPLO2.SAV. Aparecen en el archivo las columnas ‘fallos’ y
‘maquina’.
2. Seleccionar Analizar/Comparar medias/Prueba T para muestras independientes.
3. Seleccionar la variable numérica ‘fallos’ y situarla en la ventana de Contrastar
variables. A continuación, seleccionar la variable de agrupación ‘maquina’ y pulsar
Definir grupos.
4. Especificar los dos valores de la variables de agrupación que definen cada máquina:
Usar valores especificados. Escribir un valor para el Grupo 1 y otro para el Grupo 2.
Los casos con otros valores (si existen) quedarán excluidos.
Punto de corte. Escribir un número que divida los valores de la variable de
agrupación en dos conjuntos. Todos los códigos menores que el punto de corte forman
un grupo y los mayores o iguales que el punto de corte forman el otro grupo.
5. Pulsar ‘Aceptar’
Estadísticos de grupo
FALLOS
MAQUINA
1,00
2,00
N
14
10
Desviación
típ.
1,6641
2,9136
Media
15,0000
9,4000
Error típ. de
la media
,4447
,9214
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
varianzas
F
FALLOS
Se han asumido
varianzas iguales
No se han asumido
varianzas iguales
2,303
Sig.
,143
Prueba T para la igualdad de medias
t
gl
Sig. (bilateral)
Diferencia
de medias
Error típ. de
la diferencia
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
5,984
22
,000
5,6000
,9359
3,6591
7,5409
5,474
13,187
,000
5,6000
1,0231
3,3930
7,8070
7
Práctica 7. Contrastes de hipótesis
Para la interpretación de este contraste, primero se observa la columna ‘Prueba de Levene para
la igualdad de varianzas’. En este caso, con 0,05 se acepta que las varianzas son iguales.
Posteriormente, en la fila inferior aparecen los dos contrastes sobre la igualdad de medias para
la variable ‘fallos’: uno con varianzas iguales y otro con diferentes. En este caso, hay que
fijarse en la fila correspondiente a varianzas iguales. El p-valor es menor que 0,05, por lo que
se rechaza la hipótesis nula.
Esta prueba T es válida siempre que los tamaños muestrales sean suficientemente grandes o
cuando las muestras provengan de poblaciones con distribuciones normales.


2.3. Prueba t para dos muestras dependientes
En este caso, se tienen dos distribuciones normales apareadas. Esto ocurre, por ejemplo, cuando
se miden dos variables sobre una muestra de individuos.
Se tiene una variable D = X-Y que sigue una distribución N(D, D)
El contraste a efectuar es
H 0 :  D  0

 H1 :  D  0
 X  Y

 t n -1, /2 
Se obtiene la siguiente región crítica R = {|T|> tn-1;  
 S D / n

Ejemplos
3. Se quiere comparar la rapidez de dos programas informáticos A y B para la resolución de
cierta clase de problemas de ingeniería hidráulica. Para ello se analizan 9 casos utilizando
tanto el programa A como el B. Los tiempos obtenidos para resolver estos casos fueron:
Caso
Programa A
Programa B
1
11.5
12.3
2
13.2
12.9
3
15.7
13.1
4
9.8
10.9
5
12.6
11.2
6
10.5
12.1
7
11.3
9.9
8
12.6
11.8
9
14.1
12.3
Contrastar con 0,05 si la diferencia de los tiempos medios de resolución es 0.
Para efectuar la Prueba T para muestras emparejadas, a diferencia de las muestras
independientes, se necesita una columna en los datos para cada una de las variables a comparar.
1. Abrir EJEMPLO3.SAV
2. Seleccionar Analizar/Comparar medias/Prueba T para muestras relacionadas
8
Práctica 7. Contrastes de hipótesis
3. Seleccionar las dos variables en cuya diferencia estamos interesados. Al hacer la
primera selección en la columna de variables, esta aparece en el recuadro selecciones
actuales como variable 1, y al realizar la segunda selección aparecerá como variable
2. En ese momento, ya seleccionadas las dos es cuando se pueden introducir en la
columna variables relacionadas.
4. Pulsar Aceptar.
Estadísticos de muestras relacionadas
Par 1
Media
12,3667
11,8333
PROGRAMA
PROGRAMB
N
9
9
Desviación
típ.
1,8330
1,0161
Error típ. de
la media
,6110
,3387
Prueba de muestras relacionadas
Diferencias relacionadas
Media
Par 1
PROGRAMA PROGRAMB
,5333
Desviación
típ.
1,4361
Error típ. de
la media
,4787
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-,5706
1,6372
t
1,114
gl
Sig. (bilateral)
8
,298
Se observa el p-valor en la columna ‘Sig. (bilateral)’. Como es mayor que 0,05 se acepta la
igualdad de medias.
Esta prueba T es válida siempre que el tamaño muestral sea suficientemente grande o cuando
las muestra provenga de poblaciones con distribución normal.
Ejercicios
1. Durante los últimos 5 años el número de ordenadores qu evende por semana cierta
empresa informática es aproximadamente normal N(). En una muestra aleatoria
simple de 10 semanas de los últimos 5 años, dicha empresa vendió 175, 168, 171, 169,
183, 165, 188, 177, 167 y 180 ordenadores. Contrastar si el valor medio de las ventas es
200 con 0,1
2. Contrastar si el peso medio de un cierto tipo de piezas mecánicas difiere según sean
fabricados en dos lugares diferentes A y B con un nivel de significación igual a 0,01. Los
datos obtenidos son los siguientes: A: 80, 97, 85, 73, 92, 97, 100, 94 B: 99, 92, 85, 79,
91, 96, 105.
3. Estudiar si un cierto tipo de componente mecánico es simétrico o no en base a la medida
de sus lados izquierdo y derecho con un nivel de significación 0,05. Los datos que se han
obtenido en las medidas son:
Pieza
1
2
3
4
5
Izquierdo
11.5
13.2
15.7
9.8
12.6
Derecho
12.3
12.9
13.1
10.9
11.2
Descargar