Técnicas de Inferencia Estadı́stica II Tema 1. Contrastes de hipótesis M. Concepción Ausı́n Universidad Carlos III de Madrid Grado en Estadı́stica y Empresa Curso 2010/11 Tema 1. Contrastes de hipótesis Contenidos I Definición de contraste e hipótesis estadı́stica. I Tipos de hipótesis. I Hipótesis nula y alternativa. I Errores de tipo I y II. I Metodologı́a del contraste de hipótesis. I Concepto de p-valor. Contraste de hipótesis Hipótesis estadı́stica Una hipótesis estadı́stica es una afirmación respecto a una caracterı́stica de una población. Contraste de hipótesis Un contraste de hipótesis tiene la finalidad de decidir si una hipótesis estadı́stica coincide o no con la realidad que observamos en los datos. Suponemos una muestra aleatoria (X1 , X2 , . . . , Xn ) de una población descrita por una variable aleatoria X con función de distribución F . Un contraste de hipótesis sirve para decidir si una determinada hipótesis sobre la distribución F es confirmada o invalidada a partir de las observaciones de la muestra. Ejercicio 1.1. Formular una hipótesis estadı́stica para las siguientes situaciones: I Se desea saber si el precio medio de alquiler un piso de dos habitaciones en un barrio es mayor a los 800 euros mesuales que pide un arrendador. I En unas elecciones municipales, un partido polı́tico quiere saber si la proporción de votantes a su favor será mayor del 25 %. I Una compañı́a telefónica quiere saber si el gasto medio mensual es diferente en clientes de tarjeta que de contrato. I Un inversor quiere saber si los riesgos asociados a las acciones de dos compañı́as son diferentes. I En un estudio sociológico se desea analizar si más de la mitad de los españoles duerme como mucho 7 horas al dı́a. I Se quiere analizar si la distribución de los salarios en un paı́s es la misma para hombres que para mujeres. I Se desea saber si la distribución de la longitud de las piezas producidas por una máquina es normal. I Una empresa quiere examinar si el sueldo de sus empledados es independiente de la edad. Tipos de hipótesis Una hipótesis estadı́stica puede ser: 1. I Relativa a una única población, sobre la que se observa una variable, I 2. I I 3. I I X , y se toma una muestra (X1 , X2 , . . . , Xn ). Relativa a más de una población, por ejemplo, relativa a dos poblaciones sobre las que se observan dos variables, X e Y , y se toman dos muestras (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Ym ). Paramétrica: Se asume un modelo paramétrico sobre la población y se plantea una hipótesis sobre uno o más parámetros, por ejemplo, se asume que X ∼ N(µ, σ 2 ) y se plantea la hipótesis µ < 7. No paramétrica: No se asume ningún modelo paramétrico sobre la población y se plantea una hipótesis sobre una caracterı́stica de la misma, por ejemplo, Pr(X ≤ 7) > 0,5. Simple: La hipótesis tiene un sólo elemento, por ejemplo, µ = 7. Compuesta: La hipótesis tiene más de un elemento, por ejemplo, µ ≥ 7. Hipótesis nula y alternativa I Se denomina hipótesis nula, H0 , a la hipótesis que se desea contrastar. La hipótesis nula se mantiene a no ser que los datos indiquen su falsedad. La hipótesis nula nunca se considera probada, aunque puede ser rechazada por los datos. I La hipótesis nula se enfrenta a la hipótesis alternativa, H1 . En los casos en los que no se especifica H1 de manera explı́cita, podemos considerar que ha quedado definida implı́citamente como H0 es falsa. I En un contraste de hipótesis no se trata de juzgar cuál de las dos hipótesis, H0 ó H1 , es más verosı́mil, sino de decidir si la muestra proporciona o no evidencia suficiente para rechazar H0 ; para lo cual hay que considerar H1 que se corrobora cuando se rechaza H0 . Definición Un contraste o test de hipótesis para contrastar H0 frente a H1 consiste en elegir una región de rechazo o región crı́tica, R, del espacio muestral de forma que: I Si (x1 , . . . , xn ) ∈ R, se rechaza H0 . I Si (x1 , . . . , xn ) ∈ R, no se rechaza H0 . Por tanto, un contraste de hipótesis es cualquier partición del espacio muestral, X , en dos regiones disjuntas: una región crı́tica o de rechazo, R, y una región de aceptación R c = X \ R. Ejercicio 1.2. Se desea saber si el precio medio de alquiler de un piso de dos habitaciones en un barrio es mayor de los 800 euros mesuales que pide un arrendador. Para ello, se toma una muestra de precios de n pisos de estas caracterı́sticas a partir de la cual se desea contrastar: H0 : µ = 800 H1 : µ > 800 (1) donde µ es la esperanza de una variable aleatoria, X , que representa el precio de alquiler de los pisos de dos habitaciones en este barrio. Proponer regiones de rechazo que definan contrastes de hipótesis para resolver (1). Errores de tipo I y de tipo II La elección de una región de rechazo adecuada se realizará en función de sus efectos. Hay cuatro posibilidades: Rechazar H0 No rechazar H0 H0 es cierta Error tipo I Decisión correcta H0 es falsa Decisión correcta Error tipo II Lo ideal serı́a encontrar un test que hiciese mı́nima las probabilidades de ambos errores. Sin embargo, esto no es posible ya que la reducción de la probabilidad de un tipo de error hace que aumente la probabilidad del otro tipo de error. Como se considera que el error más grave es el de tipo I, se impondrá una cota a la probabilidad de error de tipo I que llamaremos nivel de significación, α, y luego, se procurará que la probabilidad de error de tipo II sea lo más pequeña posible. Ejercicio 1.3. Se desea saber si el precio medio de alquiler de un piso de dos habitaciones en un barrio es mayor de los 800 euros mesuales que pide un arrendador. Para ello, se toma una muestra de precios de n pisos de estas caracterı́sticas a partir de la cual se desea contrastar: H0 : µ = 800 H1 : µ > 800 donde µ es la esperanza de una variable aleatoria, X , que representa el precio de alquiler de los pisos de dos habitaciones en este barrio. ¿Cuál de las dos siguientes regiones de rechazo da lugar a un mayor error de tipo I? R1 = {Todos los pisos observados valen más de 800 euros} R2 = {Más del 50 % de los pisos observados valen más de 800 euros} Recapitulando... I Un contraste de hipótesis puede rechazar la hipótesis nula. I Un contraste de hipótesis no puede probar la hipótesis nula. I Se puede hacer la probabilidad de error de tipo I tan pequeña como se quiera, pero esto hará que aumente la probabilidad de error de tipo II. I Si aceptamos la hipótesis nula, debe interpretarse como que las observaciones no han aportado evidencia para descartarla. I Por el contrario, si rechazamos la hipótesis nula es porque se está razonablemente seguro de que H0 es falsa, ya que Pr(R | H0 ) ≤ α, y estamos aceptando implı́citamente la hipótesis alternativa. Metodologı́a del contraste I Es necesario desarrollar un procedimiento general para construir regiones de rechazo razonables. I El procedimiento habitual consiste en definir una medida de discrepancia entre las observaciones y la hipótesis nula. I I Si la discrepancia es grande, se rechazará la hipótesis nula. I En caso contrario, no hay evidencias para rechazarla. En contrastes paramétricos, es habitual tomar medidas de discrepacia basadas en un estimador del parámetro de interés: Discrepancia = Estimador − Parámetro Desviación tı́pica del estimador Ejemplo Consideramos de nuevo el siguiente contraste sobre el precio medio de un piso de alquiler. H0 : µ = 800 H1 : µ > 800 I Parece natural que la medida de discrepancia dependa de la media muestral, X̄ , que es el mejor estimador de µ. I Tiene sentido rechazar H0 si X̄ es mucho mayor que 800 euros. I Para que el concepto de “mucho mayor” no esté afectado por las unidades de medida, se debe dividir por las desviación tı́pica del estimador, por tanto, una medida de discrepancia razonable es, Discrepancia = X̄ − 800 √ , σ/ n donde σ es la desviación tı́pica del precio, X . Metodologı́a del contraste I Una vez definida una medida de discrepancia, hay que definir la discrepancia máxima admisible, lo que depende de: I La distribución de la medida de discrepancia cuando H0 es cierta. I El signo de H1 que lleva a considerar regiones de rechazo en una direción o en dos direcciones. Ejemplo ¿Qué valores puede tomar la medida de discrepancia del ejemplo anterior y con qué probabilidad? Si asumimos que X ∼ N(µ, σ 2 ), entonces, si H0 es cierta: X̄ − 800 √ ∼ N(0, 1) σ/ n Ası́, para que el error de tipo I sea inferior a un nivel de significación, α, fijado previamente, la región de rechazo más razonable es: X̄ − 800 √ > zα . R= σ/ n Aceptación echazo la forman distribución Rechazo del probabilidad α. 1−α α Ejercicio 1.4. Se desea saber si el precio medio de alquiler de un piso de dos habitaciones en un barrio es mayor de los 800 euros mesuales que pide un arrendador. Para ello, se toma una muestra de precios de n = 10 pisos dando lugar a una media de x̄ = 833 euros. Suponiendo que el precio de alquiler de los pisos, X , sigue una distribución normal, X ∼ N(µ, σ 2 ), y que la desviación tı́pica es conocida (no realista) e igual a 50 euros. Resolver el siguiente contraste al nivel α = 0,05: H0 : µ = 800 H1 : µ > 800 Metodologı́a del contraste Recapitulando, los pasos para resolver un contraste de hipótesis son: 1. Plantear las hipótesis nula, H0 , y alternativa, H1 . 2. Definir una medida de discrepancia entre los datos muestrales y la hipótesis nula, denominada estadı́stico de contraste, cuya distribución sea conocida cuando H0 es cierta. 3. Fijar un nivel de significación, α, que normalmente se fija en 0,05 o 0,01, y determinar la discrepancia máxima admisible que da lugar a la región de rechazo. 4. Calcular la discrepancia observada y examinar si es mayor que la discrepancia máxima admisible, en cuyo caso se rechaza H0 . Nivel crı́tico o p-valor El procedimiento para obtener la región de rechazo usando el nivel de significación tiene dos incovenientes: 1. El resultado del test puede depender mucho del valor de α. 2. Dar sólo el resultado del test no permite diferenciar el grado de evidencia que la muestra indica a favor o en contra de H0 . Ejercicio 1.5. Se desea saber si el precio medio de alquiler de un piso de dos habitaciones en un barrio es mayor de los 800 euros mesuales que pide un arrendador. Para ello, se toma una muestra de precios de n = 10 pisos dando lugar a una media de x̄ = 833 euros. Suponiendo que el precio de alquiler de los pisos, X , sigue una distribución normal, X ∼ N(µ, σ 2 ), y que la desviación tı́pica es conocida (no realista) e igual a 50 euros. Resolver el siguiente contraste al nivel α = 0,01: H0 : µ = 800 H1 : µ > 800 Nivel crı́tico o p-valor Definición El nivel crı́tico p o p-valor es es la probabilidad de encontrar una discrepancia mayor o igual que la observada en los datos, cuando H0 es cierta. I I El p-valor no se fija a priori, sino que depende de los datos. Usando el p-valor podemos resolver el contraste para cualquier α: I I I Si α > p-valor, se rechaza H0 al nivel α. Si α < p-valor, no se rechaza H0 al nivel α. El p-valor es el nivel de significación más pequeño para el que la muestra obtenida obligarı́a a rechazar la hipótesis nula. Nivel crı́tico o p-valor Ejercicio 1.6. Se desea saber si el precio medio de alquiler de un piso de dos habitaciones en un barrio es mayor de los 800 euros mesuales que pide un arrendador. Para ello, se toma una muestra de precios de n = 10 pisos dando lugar a una media de x̄ = 833 euros. Suponiendo que el precio de alquiler de los pisos, X , sigue una distribución normal, X ∼ N(µ, σ 2 ), y que la desviación tı́pica es conocida (no realista) e igual a 50 euros. Resolver el siguiente contraste para cualquier nivel usando el p-valor. H0 : µ = 800 H1 : µ > 800 Metodologı́a del contraste Recapitulando, los pasos para resolver un contraste de hipótesis utilizando el p-valor son: 1. Plantear la hipótesis nula, H0 , y alternativa, H1 . 2. Definir un estadı́stico de contraste cuya distribución sea conocida si H0 es cierta. 3. Fijar un nivel de significación, α. 4. Calcular el p-valor. Si este es suficientemente pequeño (menor que α), rechazar H0 .