Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" CONTRASTES DE HIPÓTESES 1. Contraste de hipótesis 2. Contrastes de tipo paramétrico 2.1 Contraste T para una muestra 2.2 Contraste T para dos muestras independientes 2.3 Análisis de la varianza 3. Contrastes de tipo no paramétrico 3.1 El contraste de independencia para datos categóricos 3.2 Contraste de normalidad 3.3 Contraste para dos muestras independientes 3.4 Contraste para k muestras independientes M. Carmen Carollo Limeres Página 1 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" 1. Contraste de hipótesis En cualquier contraste de hipótesis hay que fijar lo que se conoce como hipótesis nula y su alternativa. H 0 : hipótesis nula H1 : hipótesis alternativa En todo el proceso estadístico se supone que la hipótesis nula es cierta y sólo la rechazamos cuando existan evidencias estadísticas para ello, es decir cuando lo que observamos en la muestra tenga una probabilidad muy pequeña de ocurrir de ser cierta dicha hipótesis. Por ello, en cualquier contraste debemos fijar un nivel de significación (es decir, la mayor probabilidad de decidir que la hipótesis es falsa cuando realmente es cierta). En la práctica se suele fijar un nivel de significación del 5% (α= 0.05) Cuando observamos un estadístico le asignamos su significación ó P-valor (probabilidad de que el estadístico tome un valor mayor que el encontrado en la muestra). Si ésta es menor que 0.05 decidimos rechazar la hipótesis nula. Base de datos Vamos a trabajar con la base de datos "vino.sav". En ella disponemos de distintas variables como son: zona, contenido en alcohol, acmalico, magnes, etc,.. 2. Contraste de tipo paramétrico En muchos de los estudios que realizamos en la práctica suele ser de interés contrastar hipótesis acerca de los parámetros de una ó varias poblaciones normales independientes. Por ejemplo, nos puede interesar contrastar si la media de dos poblaciones es la misma; o un caso más sencillo, si la media de una población toma un determinado valor. 2.1. Contraste T para la media de una población normal H 0 : µ = µ0 H1 : µ ≠ µ 0 Ejemplo 1: La experiencia de los investigadores dice que el contenido en alcohool del vino de la Ribeira Sacra es del 13% ¿Podemos aceptar esta hipótesis con la muestra de la que disponemos? H o : µ = 13 H a : µ ≠ 13 Analizar / Comparar medias / Prueba T para una muestra. Variable a contrastar: alcohol Valor de pueba 13 M. Carmen Carollo Limeres Página 2 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" El paquete nos devuelve la siguiente tabla: Prueba para una muestra Valor de prueba = 13 95% Intervalo de confianza para la diferencia Diferencia de t alcohol 12,379 gl Sig. (bilateral) 58 medias ,000 Inferior ,74475 Superior ,6243 ,8652 Observamos que el valor del estadístico t de la prueba es 12,379 con un p-valor= 0,000 muy pequeño, por lo que rechazamos la afirmación. y concluimos que el contenido en alcohol es distinto al 13%. En la tabla obtenida tenemos también la diferencia de medias (diferencia entre la correspondiente media muestral del contenido en alcohol y el valor de referencia 13). También obtenemos un intervalo de confianza para esta diferencia. De la tabla, podemos concluír también que: la diferencia entre la media del alcohol y 13 estará en el intervalo (0,6243,0.8652) con un 95% de probabilidad. Parece entonces que la media es mayor que 13. Si contrastamos: H o : µ ≤ 13 H a : µ > 13 El valor del estadístico del contraste sigue siendo t=12,379 su p-valor = 0,000/2 = 0,000 y rechazamos pues la hipótesis nula y concluimos que el contenido en alcohol es mayor del 13%. 2.2. Contraste T para las medias de dos poblaciones normales independientes H 0 : µ 2 = µ3 H1 : µ 2 ≠ µ3 La manera natural de proceder sería la siguiente. Tomaríamos una muestra de la primera población y una muestra de la segunda población de forma que los elementos de una y otra muestra no estén relacionados, es decir, que las muestras sean independientes. La media, como ya se comentó en clases anteriores, es una medida de centralización y éstas siempre deben ir acompañadas de una medida de dispersión, para que sean informativas. Es por eso por lo que, cando nos disponemos a comprobar si la media de dos poblaciones es la misma, deberemos contrastar primero si sus varianzas son iguales ó distintas. M. Carmen Carollo Limeres Página 3 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" Ejemplo 2: Vamos a comparar el contenido en alcohol del vino de la Ribera de Duero con el de La Rioja, suponiendo que dicho contenido sigue aproximadamente una distribución normal. Antes de realizar el contraste hacemos un resumen descriptivo. Analizar/Comparar medias Lista de dependientes: alcohol Lista de independientes: zona. Analizar/Comparar medias/Prueba T para muestras independientes. Contrastar variables: alcohol Variables de agrupación: zona. Definir grupos (2,3) Informe descriptivo (alcohol) zona Media N Desv. típ. Ribeira Sacra 13,7447 59 ,46213 Ribera del Duero 12,2787 71 ,53796 Rioja 13,1538 48 ,53024 Total 13,0006 178 ,81183 Prueba de Levene para la igualdad de varianzas F alcohol Varianzas .318 iguales No varianzas iguales Sig. .574 t Sig. (bil.) Diferencia Error típ. 95% Intervalo de de de la confianza para la medias diferencia diferencia Inf. Sup. -8.75 .000 -.87502 .09995 -1.073 -.6771 -8.77 .000 -.87502 .09967 -1.073 ..6773 El estadístico del contraste de igualdad de varianzas (prueba de Levene) tiene un valor de 0.318, con una significación igual a 0.574 > 0,05. Por lo tanto, podemos asumir que las varianzas en el contenido en alcohol son las mismas para las zonas 2 y 3. Nos quedamos entonces con los resultados de la primera fila. El estadístico t para el contraste de igualdad de medias vale -8.75 y tiene una significación de 0.000 Entonces, debemos rechazar la hipótesis de que el contenido medio en alcohol es el mismo en la Ribera del Duero que en la Rioja. También obtenemos intervalos de confianza para la diferencia de las medias. El intervalo tiene M. Carmen Carollo Limeres Página 4 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" los dos extremos negativos lo cual sugiere que el contenido en la Ribera del Duero es menor que en La Rioja. Si contrastamos: H o : µ 2 ≥ µ3 H a : µ 2 < µ3 El valor del estadístico del contraste sigue siendo t = -8.75 su p-valor =0,000/2 = 0,000 y debemos rechazar pues la hipótesis nula y concluimos que el contenido en alcohol es menor en los vinos la Ribera del Duero que en los de la Rioja. 2.3. Contraste para las medias de k poblaciones normales independientes El análisis de la varianza (ANalysis Of Variance: ANOVA) sirve para comparar dos o más grupos en cuanto a una variable cuantitativa continua. Se puede entender como una generalización del contraste T para dos muestras independientes al caso de diseños con k muestras también independientes. La variable cualitativa (ó categórica) que define los grupos que deseamos comparar se denomina variable independiente (VI) ó factor. La variable cuantitativa en la que deseamos comparar los grupos se denomina variable dependiente (VD). ANOVA de un factor Cando hacemos un ANOVA de un factor, suponemos que las medias de las k poblaciones que queremos comparar son iguales. Es decir, que los grupos no difieren en la variable dependiente y que, por lo tanto, el factor es independiente de la VD. H 0 : µ1= µ2= ...= µk H1 : no todas las medias son iguales . Ejemplo 3 :Vamos a comprobar si el contenido en alcohol es el mismo en las tres zonas, suponiendo que el alcohol sigue aproximadamente una distribución normal. H 0 : µ= µ= µ3 1 2 H1 : no todas las medias son iguales Analizar / Comparar medias / ANOVA de 1 factor. Var dependiente: alcohol Factor: zona En Opciones podemos pedirle la "prueba de homogeneidad de varianzas" El procedimiento nos muestra los siguientes cuadros: M. Carmen Carollo Limeres Página 5 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" Prueba de homogeneidad de varianzas alcohol Estadístico de Levene gl1 ,605 gl2 2 Sig. ,547 175 El estadístico de Levene, para contrastar la igualdad de varianzas en los tres grupos, toma el valor 0,605 con un p-valor = 0,547 y por lo tanto aceptamos la hipótesis de igualdad de varianzas. Tiene sentido entonces utilizar el F-test. ANOVA alcohol Suma de cuadrados Media gl cuadrática Inter-grupos 70,795 2 35,397 Intra-grupos 45,859 175 ,262 116,654 177 Total F 135,078 Sig. ,000 La tabla ANOVA más sencilla proporciona el valor del estadístico F (135.078) junto con su significación (0.000). Como ésta es menor que 0.05, rechazamos la hipótesis de que las medias en las tres poblaciones sean iguales. Dado que no todas son iguales podemos hacer subgrupos homogéneos (las zonas del mismo subgrupo tiene la misma media). Para ello: Analizar/comparar medias/ANOVA de 1 factor. Var dependiente: alcohol Factor: zona Post-hoc / Scheffe M. Carmen Carollo Limeres Página 6 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" alcohol zona Subconjunto para alfa = 0.05 N Scheffé a,b 1 Ribera del Duero 71 Rioja 48 Ribeira Sacra 59 2 3 12,2787 13,1537 13,7447 Dado que hay tres subconjuntos homogéneos, con un coeficiente de confianza del 95%, podemos concluir que las tres medias son distintas entre sí. 3. Contrastes de tipo no paramétrico Este tipo de contrastes no imponen ninguna condición a la población o poblaciones 3.1. El contraste de independencia para datos categóricos Cando trabajamos con variables categóricas no podemos medir su dependencia a través del coeficiente de correlación. En este caso ordenamos los datos en tablas de doble entrada ( tablas de contingencia), y usamos alguna medida de su asociación con su correspondiente prueba de significación (contraste). El Chi-cuadrado es un estadístico que permite contrastar la hipótesis de que las dos variables (ó criterios de clasificación utilizados) son independientes. Ejemplo 4: Se quiere saber si el rendimiento en una plantación de maíz depende del tipo de cereal utilizado. Para ello se sembraron parcelas con los dos tipos de cereal (tipo A y tipo B). Los datos aparecen en la tabla que se muestra a continuación. CEREAL A B Malo 6 8 RENDIMIENTO Bueno Muy bueno 14 10 10 8 Para trabajar con el SPSS introducimos adecuadamente los datos, como hemos visto en la práctica de estadística descriptiva. Construimos luego la tabla de contingencia de cereal frente a rendimiento. Analizar / Estadísticos descriptivos / Tablas de contingencia. También podemos construir una tabla que contenga las frecuencias observadas y las esperadas de suponer que hay independencia. M. Carmen Carollo Limeres Página 7 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" Analizar / Estadísticos descriptivos / Tablas de contingencia / Casillas En esta opción controlamos el contenido de las casillas de la tabla. Podemos obtener también una representación gráfica. para ello Activamos: Mostrar los gráficos de barras agrupados A la vista de la tabla y la gráfica es difícil decidir si existe o no relación entre las dos variables. Debemos realizar un contraste de hipótesis. H 0 : el rendimiento y el tipo de cereal son independientes H1 : el rendimiento y el tipo de cereal no son independientes Debemos obtener el estadístico chi-cuadrado: Analizar / Estadísticos descriptivos / Estadísticos Aquí marcamos la opción del Chi-cuadrado. En la ventana del editor de resultados podemos ver: M. Carmen Carollo Limeres Página 8 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" Tabla de contingencia fila * columna rendimiento Malo cereal A Recuento Total M. Bueno Total 6 14 10 30 7,5 12,9 9,6 30,0 8 10 8 26 Frecuencia esperada 6,5 11,1 8,4 26,0 Recuento 14 24 18 56 14,0 24,0 18,0 56,0 Frecuencia esperada B Bueno Recuento Frecuencia esperada Pruebas de chi-cuadrado Sig. asintótica Valor gl (bilateral) a 2 ,640 Razón de verosimilitudes ,893 2 ,640 Asociación lineal por lineal ,429 1 ,512 ,893 Chi-cuadrado de Pearson N de casos válidos 56 a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 6,50. En la tabla anterior vemos que la significación del estadístico es 0,640 > 0,05 por lo que no tenemos evidencias de que el rendimiento dependa del tipo de cereal. Con todo, debemos de tener cuidado cuando apliquemos este estadístico ya que, para que su utilización sea válida, el número de casillas con una frecuencia esperada inferior a 5 no debe superar el 20% (en este caso ese número es el 0 %). 3.2 El contraste de normalidad Una de las hipótesis básicas que debemos contrastar en la práctica es ver si las variables que estudiamos siguen una distribución normal, ya que las técnicas paramétricas que conocemos necesitan la normalidad en los datos para su correcta aplicación. H 0 : los datos son normales H1 : los datos no son normales Ejemplo 5: En el archivo de datos del vino, ¿la variable cenizas, sigue una distribución normal? Analizar / Estadísticos descriptivos /Explorar. Lista de dependientes: cenizas Dentro de este procedimiento, en el apartado de Gráficos, pedimos los gráficos con pruebas de normalidad. M. Carmen Carollo Limeres Página 9 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" Pruebas de normalidad Kolmogorov-Smirnov sacar Estadístico .058 gl 178 Shapiro-Wilk Sig. .200 Estadístico .984 gl 178 Sig. .039 Para contrastar la hipótesis de que los datos que observamos provienen de una distribución normal, el procedimiento utilizado proporciona dos estatísticos de contraste: Kolmogorov-Smirnov (K-S) y Shapiro-Wilk (S-W). Este último es el recomendable cuando la muestra es pequeña (n < 30). La tabla anterior nos proporciona los valores observados de ambos estadísticos (0.058 para K-S y 0.984 para S-W), junto con el valor de la correspondiente significación. No tenemos evidencias claras de que la variable cenizas no se distribuya según una ley normal o de Gauss. 3.3 Contraste para dos muestras independientes Ejemplo 6. Vamos a comparar el contenido medio en magnesio del vino de la Ribeira Sacra y el vino de la Ribera del Duero. Para ver si podemos utilizar un test paramétrico comprobamos antes la hipótesis de normalidad. 3.4 Contraste para k muestras independientes Vamos a comparar el contenido medio en magnesio del vino en las tres zonas. Para ver si podemos utilizar un test paramétrico comprobamos antes la hipótesis de normalidad. Vemos que los datos de la Ribera del Duero se alejan mucho de la normalidad. Debemos utilizar entonces un test de tipo no paramétrico. Analizar /Pruebas no paramétricas / Cuadros de diálogo antiguos / 2 muestras independientes Contrastar variables: magnes variable de agrupación: zona (1,2) Aceptar M. Carmen Carollo Limeres Página 10 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" El programa nos devuelve los siguientes cuadros: Prueba de Mann-Whitney Rangos zona N magnes Rango Suma de promedio rangos Ribeira Sacra 59 87,31 5151,50 Ribera del Duero 71 47,37 3363,50 Total 130 Estadísticos de contraste a magnes U de Mann-Whitney W de Wilcoxon Z 807,500 3363,500 -6,023 Sig. asintót. (bilateral) ,000 a. Variable de agrupación: zona El valor del estadístico del contraste es 807,5 con una significación de 0,000. Rechazamos la hipótesis nula y concluimos que el contenido en magnesio es distinto las dos zonas consideradas. 3.4 Contraste para k muestras independientes Ejemplo 7. Vamos a comparar el contenido medio en magnesio del vino en las tres zonas. Ya sabemos que no debemos utilizar un test de tipo paramétrico ya que al menos los datos de la Ribera del Duero se alejan mucho de la hipótesis de normalidad. Utilizamos pues una prueba de tipo no paramétrico. Analizar /Pruebas no paramétricas / Cuadros de diálogo antiguos / k muestras independientes Contrastar variables: magnes variable de agrupación: zona Aceptar M. Carmen Carollo Limeres Página 11 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" El programa nos devuelve los siguientes cuadros: Prueba de Kruskal-Wallis Rangos zona Rango N alcohol promedio Ribeira Sacra 59 137,32 Ribera del Duero 71 43,32 Rioja 48 99,03 Total 178 Estadísticos de a,b contraste magnes 40,576 Chi-cuadrado gl 2 ,000 Sig. asintót. a. Prueba de Kruskal-Wallis b. Variable de agrupación: zona El valor del estadístico del contraste es 40,576 con una significación de 0,000. Rechazamos pues la hipótesis nula y concluimos que el contenido en magnesio depende de la zona. EJERCICIOS: 1. En la práctica I has trabajado con la siguiente tabla de contingencia: Tabla de contingencia cereal * rendimiento rendimiento Muy malo Bueno bueno cereal A B Total 6 8 14 14 10 24 10 8 18 Total 30 26 56 A la vista de los datos, ¿Crees que el rendimiento depende del tipo de cereal? M. Carmen Carollo Limeres Página 12 Estadística. FBA I . 2011-2012 Práctica "Contrastes de hipótesis" 2. Se viene afirmando que el contenido medio en cenizas de los vinos es 2. ¿Cómo es el contenido en cenizas, en los vinos de nuestra base de datos, en relación con la afirmación anterior? ¿Qué test utilizarías para responder a dicha pregunta? 3. Se trata de utilizar el estadístico adecuado para comparar el contenido en Acmalico en las tres zonas. Para ello ir contestando a las siguientes cuestiones: a) ¿Puede admitirse que las muestras proceden de poblaciones normales? b) ¿Puede admitirse que las tres poblaciones tienen igual varianza? c) A la vista de los resultados anteriores, ¿qué prueba utilizarías para realizar el contraste? ¿Qué decisión tomas como consecuencia de dicho contraste? M. Carmen Carollo Limeres Página 13