CONTRASTE DE HIPÓTESIS El contraste de hipótesis es el procedimiento mediante el cual tratamos de cuantificar las diferencias o discrepancias entre una hipótesis estadística y una realidad de la que poseemos una información muestral, estableciendo una regla de decisión para juzgar si las discrepancias son excesivamente grandes y, por tanto, rechazar la hipótesis. En definitiva un contraste de hipótesis es un problema de decidir si aceptamos o no una hipótesis. La elegiremos dando prioridad a la hipótesis más conservadora Hipótesis nula (H0): Es la hipótesis que deseamos contrastar, considerada en principio como verdadera y que aceptaremos o rechazaremos como consecuencia del contraste. Hipótesis alternativa (H1): Es cualquier otra hipótesis que nos sitúe frente a H0 y que aceptaremos si, como consecuencia del contraste, rechazamos H0. Ejemplo: Según cierta universidad, sabemos que la proporción de aprobados en las PAU es del 95%. Si queremos conocer la veracidad de esta información, consideraremos la hipótesis: “la proporción de aprobados en las PAU es de 95%” y la contrastaremos con la información obtenida a partir de una muestra. Si ambas informaciones coinciden dentro de un margen de error considerado admisible, mantendremos dicha hipótesis como cierta; en caso contrario la rechazaremos y buscaremos nuevas hipótesis capaces de explicar los datos considerados. En este caso: • H0: proporción de aprobados en las pruebas de acceso es igual al 95%. • H1: podría ser: la proporción de aprobados en las pruebas de acceso es distinta de 95%. La decisión de aceptar o rechazar la hipótesis nula dependerá de: • La discrepancia entre la hipótesis estadística H0 y una realidad de la que poseemos una información muestral. • Que la discrepancia entre las dos hipótesis sea menos que un valor que consideramos aceptable, en cuyo caso mantendremos la hipótesis nula y, en caso contrario, la rechazaremos. Definiciones: • Estadístico de contraste es una variable aleatoria cuyo valor para una muestra determinada nos permitirá tomar la decisión sobre la aceptación o el rechazo de la hipótesis. • Región de aceptación es el conjunto de valores del estadístico de contraste que nos lleva a aceptar la hipótesis nula. • Región de rechazo es el conjunto de valores del estadístico de contraste que nos lleva a rechazar la hipótesis nula. • Valores críticos son los valores frontera entre las dos regiones anteriores. Al aceptar o rechazar la hipótesis nula existirá un riesgo de equivocarnos; esto es si aceptamos la hipótesis nula cuando esta es cierta, no cometeremos ningún error; del mismo modo, tampoco cometeremos error si la rechazamos siendo falsa, en cualquier otro caso la equivocación da lugar a los dos siguiente tipos de errores: • Error de tipo I. Se produce cuando rechazamos la hipótesis nula siendo cierta. La probabilidad de cometer este error se llama nivel de significación del contraste (α) y es conocido de antemano. 1 • Error de tipo II: Se produce cuando aceptamos la hipótesis nula siendo falsa. Aceptamos H0 Rechazamos H0 Si H0 es cierta No hay error Error de tipo I Si H0 es falsa Error de tipo II No hay error Fases de un contraste de hipótesis: Consideremos el siguiente ejemplo: (Ronald Fisher) “Una dama afirma que el sabor de una taza de té con leche es distinto cuando de vierte le leche antes que el té” Para contrastar esta información se preparan diez tazas de té; en cinco de ellas se vierte antes la leche y en las cinco restantes, antes el té. A continuación la dama prueba en orden aleatorio las diez tazas y acierta en ocho de las diez. ¿Es este hecho una evidencia significativa a favor de la hipótesis? H0 (hipótesis nula) {El sabor de una taza de té es independiente del orden en que se viertan la leche y el té} (la más conservadora) H1 (hipótesis alternativa) {El sabor de una taza de té es distinto si se vierte primero la leche y luego el té, o si se hace al contrario} Estas hipótesis se verifican, si al elegir una muestra es igual a 0.5 o mayor que 0.5. Por tanto: H0: p = 0.5 H1: p > 0.5 Para poder contrastar la pregunta propuesta se han de seguir las siguientes fases: FASE 1: Definición de la hipótesis nula y de la hipótesis alternativa: Dependiendo del sentido de la hipótesis alternativa hablaremos de: • Contraste bilateral H1 p ≠ p0 • Contraste unilateral H1 p < p0 p > p0 p. proporción de aciertos H0 (hipótesis nula) {El sabor de una taza de té es independiente del orden en que se viertan la leche y el té} (la más conservadora) H1 (hipótesis alternativa) {El sabor de una taza de té es distinto si se vierte primero la leche y luego el té, o si se hace al contrario} Estas hipótesis se verifican, si al elegir una muestra es igual a 0.5 o mayor que 0.5. Por tanto: H0: p = 0.5 H1: p > 0.5 Nuestro ejemplo lo es de contraste unilateral FASE 2: Determinación del estadístico de contraste Todos los estadísticos Z que vamos a utilizar dependerán del parámetro sobre el que hayamos elaborado la hipótesis nula: 2 • Si la hipótesis es sobre la media poblacional: Z = X −µ σ n ∧ • Si la hipótesis es sobre la proporción poblacional: Z = ∧ En nuestro caso: Z = p− p p ⋅ (1 − p ) n ∧ p − 0.5 = 0.16 0.5 ⋅ (1 − 0.5) 10 p − 0.5 FASE 3: Determinación de las regiones de aceptación y rechazo: Se determinan a partir del nivel de significación Habremos de fijarlo de antemano y normalmente tomará valores pequeños: 0.05, 0.01, etc Una vez fijado el nivel de significación podremos hallar las regiones de aceptación y rechazo según: • En un contraste bilateral la región de rechazo estará formada por las dos zonas que quedan a ambos lados de los valores críticos: − Z α y Z α 2 2 El área de las zonas juntas es α. • En un contraste unilateral la región de rechazo será una de la dos zonas anteriores: • Si p < p0 la situada a la izquierda de − Zα 2 • Si p > p0 la situada a la derecha de Z α 2 En nuestro ejemplo vamos a tomar como nivel de significación α = 0.05 y como se trata de un contraste unilateral procedemos como sigue: • Hallamos 1 – α = 1 – 0.05 = 0.95 • Buscamos en el tabla y calculamos Zα = 1.65: es el valor crítico que separa la región de aceptación de la de rechazo. FASE 4: Valor del estadístico y obtención de conclusiones: ∧ ∧ p − 0.5 8 En la expresión del estadístico Z = como p = = 0'8 0.16 10 0.8 − 0.5 = 1.875 > 1.65 0.16 Este valor cae en la región de rechazo y por tanto rechazamos la hipótesis H0 de que el sabor de una taza de té es independiente del orden en que se mezcla el té y la leche con un nivel de significación del 5% Se obtiene para Z= Otro ejemplo: La velocidad media de una contraleloj se estima que fue 40 km/h, con una desviación típica de 5 km/h. Para contrastar esta información se decidió estudiar la velocidad media de 15 corredores elegidos aleatoriamente, resultando que las velocidades medias de cada uno de ellos eran: 43 43.2 45 43.1 39.5 45 43 42.3 39.6 40 39 45 39 44.1 46.2 3 ¿Se puede aceptar la hipótesis de que la velocidad media de los ciclistas fue de 40 km/h con un nivel de significación del 5 %? FASE 1: Definición de la hipótesis nula y de la hipótesis alternativa: H0 (hipótesis nula) {La velocidad media de los ciclistas fue 40 km/h} µ= 40 H1 (hipótesis alternativa) {La velocidad media de los ciclistas fue distinta de 40 km/h} µ ≠ 40 Por tanto se trata de un contraste bilateral FASE 2: Determinación del estadístico de contraste Z= X −µ σ = X − 40 5 15 n FASE 3: Determinación de las regiones de aceptación y rechazo: Como α = 0.05 Por ser contraste bilateral • Calculamos 1- α/2 = 1- 0.025= 0.975 • Buscamos en la tabla y obtenemos Zα/2= 1.96 Al ser un contraste bilateral la región de aceptación es (-1.98, 1.96) FASE 4: Valor del estadístico y obtención de conclusiones: Hallamos la media muestral que resulta ser X = 42.23km/h 42.23 − 40 El valor del estadístico para esta muestra es Z = = 1.71 < 1.96 5 15 Como - 1’96 < 1.71 < 1.96, el valor del estadístico está dentro de la zona de aceptación: por consiguiente admitimos la hipótesis de que la velocidad media ha sido de 40 km/h con un nivel de significación de 5 % RESUMEN DE LA REGIONES DE ACEPTACIÓN 1. Regiones de aceptación para la media de una población: Contraste bilateral H1: µ ≠ µ0 X −µ − Zα < < Zα 2 σ 2 n Para calcular Z α se busca en las 2 Contraste unilateral H1: µ > µ0 X −µ σ < Zα n Para calcular Zα se busca en la tablas 1- α H1: µ< µ0 - Zα < X −µ σ n Para calcular Zα se busca en la tablas 1- α tablas 1- α/2 4 2. Regiones de aceptación para la proporción: Contraste bilateral H1: p ≠ p0 H1: p > p0 H1 p < p 0 ∧ ∧ − Zα < Contraste unilateral p− p < Zα 2 p ⋅ (1 − p ) n Para calcular Z α se busca en las 2 2 tablas 1- α/2 p− p ∧ < Zα p ⋅ (1 − p ) n Para calcular Zα se busca en la tablas 1- α - Zα < p− p p ⋅ (1 − p ) n Para calcular Zα se busca en la tablas 1- α 5