contrastes de hipóteses - Departamento de Estadística e

Anuncio
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
CONTRASTES DE HIPÓTESES
1. Contraste de hipótesis
2. Contrastes de tipo paramétrico
2.1 Contraste T para una muestra
2.2 Contraste T para dos muestras independientes
2.3 Análisis de la varianza
3. Contrastes de tipo no paramétrico
3.1 El contraste de independencia para datos categóricos
3.2 Contraste de normalidad
3.3 Contraste para dos muestras independientes
3.4 Contraste para k muestras independientes
M. Carmen Carollo Limeres
Página 1
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
1. Contraste de hipótesis
En cualquier contraste de hipótesis hay que fijar lo que se conoce como hipótesis nula y
su alternativa.
H 0 : hipótesis nula
H1 : hipótesis alternativa
En todo el proceso estadístico se supone que la hipótesis nula es cierta y sólo la
rechazamos cuando existan evidencias estadísticas para ello, es decir cuando lo que
observamos en la muestra tenga una probabilidad muy pequeña de ocurrir de ser cierta
dicha hipótesis. Por ello, en cualquier contraste debemos fijar un nivel de significación
(es decir, la mayor probabilidad de decidir que la hipótesis es falsa cuando realmente es
cierta). En la práctica se suele fijar un nivel de significación del 5% (α= 0.05)
Cuando observamos un estadístico le asignamos su significación ó P-valor
(probabilidad de que el estadístico tome un valor mayor que el encontrado en la
muestra). Si ésta es menor que 0.05 decidimos rechazar la hipótesis nula.
Base de datos
Vamos a trabajar con la base de datos "vino.sav".
En ella disponemos de distintas variables como son: zona, contenido en alcohol,
acmalico, magnes, etc,..
2. Contraste de tipo paramétrico
En muchos de los estudios que realizamos en la práctica suele ser de interés contrastar
hipótesis acerca de los parámetros de una ó varias poblaciones normales
independientes. Por ejemplo, nos puede interesar contrastar si la media de dos
poblaciones es la misma; o un caso más sencillo, si la media de una población toma un
determinado valor.
2.1. Contraste T para la media de una población normal
H 0 : µ = µ0
H1 : µ ≠ µ 0
Ejemplo 1: La experiencia de los investigadores dice que el contenido en alcohool del
vino de la Ribeira Sacra es del 13% ¿Podemos aceptar esta hipótesis con la muestra de
la que disponemos?
H o : µ = 13
H a : µ ≠ 13
Analizar / Comparar medias / Prueba T para una muestra.
Variable a contrastar: alcohol
Valor de pueba 13
M. Carmen Carollo Limeres
Página 2
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
El paquete nos devuelve la siguiente tabla:
Prueba para una muestra
Valor de prueba = 13
95% Intervalo de confianza para
la diferencia
Diferencia de
t
alcohol
12,379
gl
Sig. (bilateral)
58
medias
,000
Inferior
,74475
Superior
,6243
,8652
Observamos que el valor del estadístico t de la prueba es 12,379 con un p-valor= 0,000
muy pequeño, por lo que rechazamos la afirmación. y concluimos que el contenido
en alcohol es distinto al 13%.
En la tabla obtenida tenemos también la diferencia de medias (diferencia entre la
correspondiente media muestral del contenido en alcohol y el valor de referencia 13).
También obtenemos un intervalo de confianza para esta diferencia.
De la tabla, podemos concluír también que:
 la diferencia entre la media del alcohol y 13 estará en el intervalo
(0,6243,0.8652) con un 95% de probabilidad.
Parece entonces que la media es mayor que 13.
Si contrastamos:
H o : µ ≤ 13
H a : µ > 13
El valor del estadístico del contraste sigue siendo t=12,379 su p-valor = 0,000/2 =
0,000 y rechazamos pues la hipótesis nula y concluimos que el contenido en alcohol es
mayor del 13%.
2.2. Contraste T para las medias de dos poblaciones normales independientes
H 0 : µ 2 = µ3
H1 : µ 2 ≠ µ3
La manera natural de proceder sería la siguiente. Tomaríamos una muestra de la primera
población y una muestra de la segunda población de forma que los elementos de una y
otra muestra no estén relacionados, es decir, que las muestras sean independientes.
La media, como ya se comentó en clases anteriores, es una medida de centralización y
éstas siempre deben ir acompañadas de una medida de dispersión, para que sean
informativas. Es por eso por lo que, cando nos disponemos a comprobar si la media de
dos poblaciones es la misma, deberemos contrastar primero si sus varianzas son iguales
ó distintas.
M. Carmen Carollo Limeres
Página 3
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
Ejemplo 2: Vamos a comparar el contenido en alcohol del vino de la Ribera de Duero
con el de La Rioja, suponiendo que dicho contenido sigue aproximadamente una
distribución normal. Antes de realizar el contraste hacemos un resumen descriptivo.
Analizar/Comparar medias
Lista de dependientes: alcohol
Lista de independientes: zona.
Analizar/Comparar medias/Prueba T para muestras independientes.
Contrastar variables: alcohol
Variables de agrupación: zona.
Definir grupos (2,3)
Informe descriptivo (alcohol)
zona
Media
N
Desv. típ.
Ribeira Sacra
13,7447
59
,46213
Ribera del Duero
12,2787
71
,53796
Rioja
13,1538
48
,53024
Total
13,0006
178
,81183
Prueba de
Levene
para
la
igualdad de
varianzas
F
alcohol
Varianzas
.318
iguales
No
varianzas
iguales
Sig.
.574
t
Sig.
(bil.)
Diferencia Error típ. 95% Intervalo de
de
de
la confianza para la
medias
diferencia
diferencia
Inf.
Sup.
-8.75
.000
-.87502
.09995
-1.073
-.6771
-8.77
.000
-.87502
.09967
-1.073
..6773
El estadístico del contraste de igualdad de varianzas (prueba de Levene) tiene un valor
de 0.318, con una significación igual a 0.574 > 0,05. Por lo tanto, podemos asumir que
las varianzas en el contenido en alcohol son las mismas para las zonas 2 y 3. Nos
quedamos entonces con los resultados de la primera fila.
El estadístico t para el contraste de igualdad de medias vale -8.75 y tiene una
significación de 0.000 Entonces, debemos rechazar la hipótesis de que el contenido
medio en alcohol es el mismo en la Ribera del Duero que en la Rioja. También
obtenemos intervalos de confianza para la diferencia de las medias. El intervalo tiene
M. Carmen Carollo Limeres
Página 4
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
los dos extremos negativos lo cual sugiere que el contenido en la Ribera del Duero es
menor que en La Rioja.
Si contrastamos:
H o : µ 2 ≥ µ3
H a : µ 2 < µ3
El valor del estadístico del contraste sigue siendo t = -8.75 su p-valor =0,000/2 = 0,000
y debemos rechazar pues la hipótesis nula y concluimos que el contenido en alcohol es
menor en los vinos la Ribera del Duero que en los de la Rioja.
2.3. Contraste para las medias de k poblaciones normales independientes
El análisis de la varianza (ANalysis Of Variance: ANOVA) sirve para comparar dos o
más grupos en cuanto a una variable cuantitativa continua. Se puede entender como una
generalización del contraste T para dos muestras independientes al caso de diseños con
k muestras también independientes.
La variable cualitativa (ó categórica) que define los grupos que deseamos comparar se
denomina variable independiente (VI) ó factor. La variable cuantitativa en la que
deseamos comparar los grupos se denomina variable dependiente (VD).
ANOVA de un factor
Cando hacemos un ANOVA de un factor, suponemos que las medias de las k
poblaciones que queremos comparar son iguales. Es decir, que los grupos no difieren en
la variable dependiente y que, por lo tanto, el factor es independiente de la VD.
H 0 : µ1= µ2= ...= µk
H1 : no todas las medias son iguales
.
Ejemplo 3 :Vamos a comprobar si el contenido en alcohol es el mismo en las tres
zonas, suponiendo que el alcohol sigue aproximadamente una distribución normal.
H 0 : µ=
µ=
µ3
1
2
H1 : no todas las medias son iguales
Analizar / Comparar medias / ANOVA de 1 factor.
Var dependiente: alcohol
Factor: zona
En Opciones podemos pedirle la "prueba de homogeneidad de varianzas"
El procedimiento nos muestra los siguientes cuadros:
M. Carmen Carollo Limeres
Página 5
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
Prueba de homogeneidad de varianzas
alcohol
Estadístico de
Levene
gl1
,605
gl2
2
Sig.
,547
175
El estadístico de Levene, para contrastar la igualdad de varianzas en los tres grupos,
toma el valor 0,605 con un p-valor = 0,547 y por lo tanto aceptamos la hipótesis de
igualdad de varianzas. Tiene sentido entonces utilizar el F-test.
ANOVA
alcohol
Suma de
cuadrados
Media
gl
cuadrática
Inter-grupos
70,795
2
35,397
Intra-grupos
45,859
175
,262
116,654
177
Total
F
135,078
Sig.
,000
La tabla ANOVA más sencilla proporciona el valor del estadístico F (135.078) junto
con su significación (0.000). Como ésta es menor que 0.05, rechazamos la hipótesis de
que las medias en las tres poblaciones sean iguales.
Dado que no todas son iguales podemos hacer subgrupos homogéneos (las zonas del
mismo subgrupo tiene la misma media). Para ello:
Analizar/comparar medias/ANOVA de 1 factor.
Var dependiente: alcohol
Factor: zona
Post-hoc / Scheffe
M. Carmen Carollo Limeres
Página 6
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
alcohol
zona
Subconjunto para alfa = 0.05
N
Scheffé
a,b
1
Ribera del Duero
71
Rioja
48
Ribeira Sacra
59
2
3
12,2787
13,1537
13,7447
Dado que hay tres subconjuntos homogéneos, con un coeficiente de confianza del 95%,
podemos concluir que las tres medias son distintas entre sí.
3. Contrastes de tipo no paramétrico
Este tipo de contrastes no imponen ninguna condición a la población o poblaciones
3.1. El contraste de independencia para datos categóricos
Cando trabajamos con variables categóricas no podemos medir su dependencia a
través del coeficiente de correlación.
En este caso ordenamos los datos en tablas de doble entrada ( tablas de contingencia), y
usamos alguna medida de su asociación con su correspondiente prueba de significación
(contraste). El Chi-cuadrado es un estadístico que permite contrastar la hipótesis de
que las dos variables (ó criterios de clasificación utilizados) son independientes.
Ejemplo 4: Se quiere saber si el rendimiento en una plantación de maíz depende del
tipo de cereal utilizado. Para ello se sembraron parcelas con los dos tipos de cereal (tipo
A y tipo B). Los datos aparecen en la tabla que se muestra a continuación.
CEREAL
A
B
Malo
6
8
RENDIMIENTO
Bueno
Muy bueno
14
10
10
8
Para trabajar con el SPSS introducimos adecuadamente los datos, como hemos visto en
la práctica de estadística descriptiva.
Construimos luego la tabla de contingencia de cereal frente a rendimiento.
Analizar / Estadísticos descriptivos / Tablas de contingencia.
También podemos construir una tabla que contenga las frecuencias observadas y las
esperadas de suponer que hay independencia.
M. Carmen Carollo Limeres
Página 7
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
Analizar / Estadísticos descriptivos / Tablas de contingencia / Casillas
En esta opción controlamos el contenido de las casillas de la tabla.
Podemos obtener también una representación gráfica. para ello
Activamos: Mostrar los gráficos de barras agrupados
A la vista de la tabla y la gráfica es difícil decidir si existe o no relación entre las dos
variables. Debemos realizar un contraste de hipótesis.
H 0 : el rendimiento y el tipo de cereal son independientes
H1 : el rendimiento y el tipo de cereal no son independientes
Debemos obtener el estadístico chi-cuadrado:
Analizar / Estadísticos descriptivos / Estadísticos
Aquí marcamos la opción del Chi-cuadrado.
En la ventana del editor de resultados podemos ver:
M. Carmen Carollo Limeres
Página 8
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
Tabla de contingencia fila * columna
rendimiento
Malo
cereal A
Recuento
Total
M. Bueno
Total
6
14
10
30
7,5
12,9
9,6
30,0
8
10
8
26
Frecuencia esperada
6,5
11,1
8,4
26,0
Recuento
14
24
18
56
14,0
24,0
18,0
56,0
Frecuencia esperada
B
Bueno
Recuento
Frecuencia esperada
Pruebas de chi-cuadrado
Sig. asintótica
Valor
gl
(bilateral)
a
2
,640
Razón de verosimilitudes
,893
2
,640
Asociación lineal por lineal
,429
1
,512
,893
Chi-cuadrado de Pearson
N de casos válidos
56
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La
frecuencia mínima esperada es 6,50.
En la tabla anterior vemos que la significación del estadístico es 0,640 > 0,05 por lo que
no tenemos evidencias de que el rendimiento dependa del tipo de cereal. Con todo,
debemos de tener cuidado cuando apliquemos este estadístico ya que, para que su
utilización sea válida, el número de casillas con una frecuencia esperada inferior a 5 no
debe superar el 20% (en este caso ese número es el 0 %).
3.2 El contraste de normalidad
Una de las hipótesis básicas que debemos contrastar en la práctica es ver si las variables
que estudiamos siguen una distribución normal, ya que las técnicas paramétricas que
conocemos necesitan la normalidad en los datos para su correcta aplicación.
H 0 : los datos son normales
H1 : los datos no son normales
Ejemplo 5: En el archivo de datos del vino, ¿la variable cenizas, sigue una distribución
normal?
Analizar / Estadísticos descriptivos /Explorar. Lista de dependientes: cenizas
Dentro de este procedimiento, en el apartado de Gráficos, pedimos los gráficos con
pruebas de normalidad.
M. Carmen Carollo Limeres
Página 9
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
Pruebas de normalidad
Kolmogorov-Smirnov
sacar
Estadístico
.058
gl
178
Shapiro-Wilk
Sig.
.200
Estadístico
.984
gl
178
Sig.
.039
Para contrastar la hipótesis de que los datos que observamos provienen de una
distribución normal, el procedimiento utilizado proporciona dos estatísticos de
contraste: Kolmogorov-Smirnov (K-S) y Shapiro-Wilk (S-W). Este último es el
recomendable cuando la muestra es pequeña (n < 30). La tabla anterior nos proporciona
los valores observados de ambos estadísticos (0.058 para K-S y 0.984 para S-W), junto
con el valor de la correspondiente significación. No tenemos evidencias claras de que la
variable cenizas no se distribuya según una ley normal o de Gauss.
3.3 Contraste para dos muestras independientes
Ejemplo 6. Vamos a comparar el contenido medio en magnesio del vino de la Ribeira
Sacra y el vino de la Ribera del Duero. Para ver si podemos utilizar un test paramétrico
comprobamos antes la hipótesis de normalidad.
3.4 Contraste para k muestras independientes
Vamos a comparar el contenido medio en magnesio del vino en las tres zonas. Para ver
si podemos utilizar un test paramétrico comprobamos antes la hipótesis de normalidad.
Vemos que los datos de la Ribera del Duero se alejan mucho de la normalidad.
Debemos utilizar entonces un test de tipo no paramétrico.
Analizar /Pruebas no paramétricas / Cuadros de diálogo antiguos / 2 muestras
independientes
Contrastar variables: magnes
variable de agrupación: zona (1,2)
Aceptar
M. Carmen Carollo Limeres
Página 10
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
El programa nos devuelve los siguientes cuadros:
Prueba de Mann-Whitney
Rangos
zona
N
magnes
Rango
Suma de
promedio
rangos
Ribeira Sacra
59
87,31
5151,50
Ribera del Duero
71
47,37
3363,50
Total
130
Estadísticos de contraste
a
magnes
U de Mann-Whitney
W de Wilcoxon
Z
807,500
3363,500
-6,023
Sig. asintót. (bilateral)
,000
a. Variable de agrupación: zona
El valor del estadístico del contraste es 807,5 con una significación de 0,000.
Rechazamos la hipótesis nula y concluimos que el contenido en magnesio es distinto
las dos zonas consideradas.
3.4 Contraste para k muestras independientes
Ejemplo 7. Vamos a comparar el contenido medio en magnesio del vino en las tres
zonas.
Ya sabemos que no debemos utilizar un test de tipo paramétrico ya que al menos los
datos de la Ribera del Duero se alejan mucho de la hipótesis de normalidad. Utilizamos
pues una prueba de tipo no paramétrico.
Analizar /Pruebas no paramétricas / Cuadros de diálogo antiguos / k muestras
independientes
Contrastar variables: magnes
variable de agrupación: zona
Aceptar
M. Carmen Carollo Limeres
Página 11
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
El programa nos devuelve los siguientes cuadros:
Prueba de Kruskal-Wallis
Rangos
zona
Rango
N
alcohol
promedio
Ribeira Sacra
59
137,32
Ribera del Duero
71
43,32
Rioja
48
99,03
Total
178
Estadísticos de
a,b
contraste
magnes
40,576
Chi-cuadrado
gl
2
,000
Sig. asintót.
a. Prueba de Kruskal-Wallis
b. Variable de agrupación:
zona
El valor del estadístico del contraste es 40,576 con una significación de 0,000.
Rechazamos pues la hipótesis nula y concluimos que el contenido en magnesio
depende de la zona.
EJERCICIOS:
1. En la práctica I has trabajado con la siguiente tabla de contingencia:
Tabla de contingencia cereal * rendimiento
rendimiento
Muy
malo
Bueno
bueno
cereal A
B
Total
6
8
14
14
10
24
10
8
18
Total
30
26
56
A la vista de los datos, ¿Crees que el rendimiento depende del tipo de cereal?
M. Carmen Carollo Limeres
Página 12
Estadística. FBA I . 2011-2012
Práctica "Contrastes de hipótesis"
2. Se viene afirmando que el contenido medio en cenizas de los vinos es 2. ¿Cómo
es el contenido en cenizas, en los vinos de nuestra base de datos, en relación con
la afirmación anterior? ¿Qué test utilizarías para responder a dicha pregunta?
3. Se trata de utilizar el estadístico adecuado para comparar el contenido en
Acmalico en las tres zonas. Para ello ir contestando a las siguientes cuestiones:
a) ¿Puede admitirse que las muestras proceden de poblaciones normales?
b) ¿Puede admitirse que las tres poblaciones tienen igual varianza?
c) A la vista de los resultados anteriores, ¿qué prueba utilizarías para realizar el
contraste? ¿Qué decisión tomas como consecuencia de dicho contraste?
M. Carmen Carollo Limeres
Página 13
Descargar