Técnicas de Inferencia Estadística II Tema 1. Contrastes de hipótesis

Técnicas de Inferencia Estadı́stica II Tema 1. Contrastes de hipótesis M. Concepción Ausı́n Universidad Carlos III de Madrid Grado en Estadı́stica y Empresa Curso 2010/11 Tema 1. Contrastes de hipótesis Contenidos I Definición de contraste e hipótesis estadı́stica. I Tipos de hipótesis. I Hipótesis nula y alternativa. I Errores de tipo I y II. I Metodologı́a del contraste de hipótesis. I Concepto de p-valor. Contraste de hipótesis Hipótesis estadı́stica Una hipótesis estadı́stica es una afirmación respecto a una caracterı́stica de una población. Contraste de hipótesis Un contraste de hipótesis tiene la finalidad de decidir si una hipótesis estadı́stica coincide o no con la realidad que observamos en los datos. Suponemos una muestra aleatoria (X1 , X2 , . . . , Xn ) de una población descrita por una variable aleatoria X con función de distribución F . Un contraste de hipótesis sirve para decidir si una determinada hipótesis sobre la distribución F es confirmada o invalidada a partir de las observaciones de la muestra. Ejercicio 1.1. Formular una hipótesis estadı́stica para las siguientes situaciones: I Se desea saber si el precio medio de alquiler un piso de dos habitaciones en un barrio es mayor a los 800 euros mesuales que pide un arrendador. I En unas elecciones municipales, un partido polı́tico quiere saber si la proporción de votantes a su favor será mayor del 25 %. I Una compañı́a telefónica quiere saber si el gasto medio mensual es diferente en clientes de tarjeta que de contrato. I Un inversor quiere saber si los riesgos asociados a las acciones de dos compañı́as son diferentes. I En un estudio sociológico se desea analizar si más de la mitad de los españoles duerme como mucho 7 horas al dı́a. I Se quiere analizar si la distribución de los salarios en un paı́s es la misma para hombres que para mujeres. I Se desea saber si la distribución de la longitud de las piezas producidas por una máquina es normal. I Una empresa quiere examinar si el sueldo de sus empledados es independiente de la edad. Tipos de hipótesis Una hipótesis estadı́stica puede ser: 1. I Relativa a una única población, sobre la que se observa una variable, I 2. I I 3. I I X , y se toma una muestra (X1 , X2 , . . . , Xn ). Relativa a más de una población, por ejemplo, relativa a dos poblaciones sobre las que se observan dos variables, X e Y , y se toman dos muestras (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Ym ). Paramétrica: Se asume un modelo paramétrico sobre la población y se plantea una hipótesis sobre uno o más parámetros, por ejemplo, se asume que X ∼ N(µ, σ 2 ) y se plantea la hipótesis µ < 7. No paramétrica: No se asume ningún modelo paramétrico sobre la población y se plantea una hipótesis sobre una caracterı́stica de la misma, por ejemplo, Pr(X ≤ 7) > 0,5. Simple: La hipótesis tiene un sólo elemento, por ejemplo, µ = 7. Compuesta: La hipótesis tiene más de un elemento, por ejemplo, µ ≥ 7. Hipótesis nula y alternativa I Se denomina hipótesis nula, H0 , a la hipótesis que se desea contrastar. La hipótesis nula se mantiene a no ser que los datos indiquen su falsedad. La hipótesis nula nunca se considera probada, aunque puede ser rechazada por los datos. I La hipótesis nula se enfrenta a la hipótesis alternativa, H1 . En los casos en los que no se especifica H1 de manera explı́cita, podemos considerar que ha quedado definida implı́citamente como H0 es falsa. I En un contraste de hipótesis no se trata de juzgar cuál de las dos hipótesis, H0 ó H1 , es más verosı́mil, sino de decidir si la muestra proporciona o no evidencia suficiente para rechazar H0 ; para lo cual hay que considerar H1 que se corrobora cuando se rechaza H0 . Definición Un contraste o test de hipótesis para contrastar H0 frente a H1 consiste en elegir una región de rechazo o región crı́tica, R, del espacio muestral de forma que: I Si (x1 , . . . , xn ) ∈ R, se rechaza H0 . I Si (x1 , . . . , xn ) ∈ R, no se rechaza H0 . Por tanto, un contraste de hipótesis es cualquier partición del espacio muestral, X , en dos regiones disjuntas: una región crı́tica o de rechazo, R, y una región de aceptación R c = X \ R. Ejercicio 1.2. Se desea saber si el precio medio de alquiler de un piso de dos habitaciones en un barrio es mayor de los 800 euros mesuales que pide un arrendador. Para ello, se toma una muestra de precios de n pisos de estas caracterı́sticas a partir de la cual se desea contrastar: H0 : µ = 800 H1 : µ > 800 (1) donde µ es la esperanza de una variable aleatoria, X , que representa el precio de alquiler de los pisos de dos habitaciones en este barrio. Proponer regiones de rechazo que definan contrastes de hipótesis para resolver (1). Errores de tipo I y de tipo II La elección de una región de rechazo adecuada se realizará en función de sus efectos. Hay cuatro posibilidades: Rechazar H0 No rechazar H0 H0 es cierta Error tipo I Decisión correcta H0 es falsa Decisión correcta Error tipo II Lo ideal serı́a encontrar un test que hiciese mı́nima las probabilidades de ambos errores. Sin embargo, esto no es posible ya que la reducción de la probabilidad de un tipo de error hace que aumente la probabilidad del otro tipo de error. Como se considera que el error más grave es el de tipo I, se impondrá una cota a la probabilidad de error de tipo I que llamaremos nivel de significación, α, y luego, se procurará que la probabilidad de error de tipo II sea lo más pequeña posible. Ejercicio 1.3. Se desea saber si el precio medio de alquiler de un piso de dos habitaciones en un barrio es mayor de los 800 euros mesuales que pide un arrendador. Para ello, se toma una muestra de precios de n pisos de estas caracterı́sticas a partir de la cual se desea contrastar: H0 : µ = 800 H1 : µ > 800 donde µ es la esperanza de una variable aleatoria, X , que representa el precio de alquiler de los pisos de dos habitaciones en este barrio. ¿Cuál de las dos siguientes regiones de rechazo da lugar a un mayor error de tipo I? R1 = {Todos los pisos observados valen más de 800 euros} R2 = {Más del 50 % de los pisos observados valen más de 800 euros} Recapitulando... I Un contraste de hipótesis puede rechazar la hipótesis nula. I Un contraste de hipótesis no puede probar la hipótesis nula. I Se puede hacer la probabilidad de error de tipo I tan pequeña como se quiera, pero esto hará que aumente la probabilidad de error de tipo II. I Si aceptamos la hipótesis nula, debe interpretarse como que las observaciones no han aportado evidencia para descartarla. I Por el contrario, si rechazamos la hipótesis nula es porque se está razonablemente seguro de que H0 es falsa, ya que Pr(R | H0 ) ≤ α, y estamos aceptando implı́citamente la hipótesis alternativa. Metodologı́a del contraste I Es necesario desarrollar un procedimiento general para construir regiones de rechazo razonables. I El procedimiento habitual consiste en definir una medida de discrepancia entre las observaciones y la hipótesis nula. I I Si la discrepancia es grande, se rechazará la hipótesis nula. I En caso contrario, no hay evidencias para rechazarla. En contrastes paramétricos, es habitual tomar medidas de discrepacia basadas en un estimador del parámetro de interés: Discrepancia = Estimador − Parámetro Desviación tı́pica del estimador Ejemplo Consideramos de nuevo el siguiente contraste sobre el precio medio de un piso de alquiler. H0 : µ = 800 H1 : µ > 800 I Parece natural que la medida de discrepancia dependa de la media muestral, X̄ , que es el mejor estimador de µ. I Tiene sentido rechazar H0 si X̄ es mucho mayor que 800 euros. I Para que el concepto de “mucho mayor” no esté afectado por las unidades de medida, se debe dividir por las desviación tı́pica del estimador, por tanto, una medida de discrepancia razonable es, Discrepancia = X̄ − 800 √ , σ/ n donde σ es la desviación tı́pica del precio, X . Metodologı́a del contraste I Una vez definida una medida de discrepancia, hay que definir la discrepancia máxima admisible, lo que depende de: I La distribución de la medida de discrepancia cuando H0 es cierta. I El signo de H1 que lleva a considerar regiones de rechazo en una direción o en dos direcciones. Ejemplo ¿Qué valores puede tomar la medida de discrepancia del ejemplo anterior y con qué probabilidad? Si asumimos que X ∼ N(µ, σ 2 ), entonces, si H0 es cierta: X̄ − 800 √ ∼ N(0, 1) σ/ n Ası́, para que el error de tipo I sea inferior a un nivel de significación, α, fijado previamente, la región de rechazo más razonable es: X̄ − 800 √ > zα . R= σ/ n Aceptación echazo la forman distribución Rechazo del probabilidad α. 1−α α Ejercicio 1.4. Se desea saber si el precio medio de alquiler de un piso de dos habitaciones en un barrio es mayor de los 800 euros mesuales que pide un arrendador. Para ello, se toma una muestra de precios de n = 10 pisos dando lugar a una media de x̄ = 833 euros. Suponiendo que el precio de alquiler de los pisos, X , sigue una distribución normal, X ∼ N(µ, σ 2 ), y que la desviación tı́pica es conocida (no realista) e igual a 50 euros. Resolver el siguiente contraste al nivel α = 0,05: H0 : µ = 800 H1 : µ > 800 Metodologı́a del contraste Recapitulando, los pasos para resolver un contraste de hipótesis son: 1. Plantear las hipótesis nula, H0 , y alternativa, H1 . 2. Definir una medida de discrepancia entre los datos muestrales y la hipótesis nula, denominada estadı́stico de contraste, cuya distribución sea conocida cuando H0 es cierta. 3. Fijar un nivel de significación, α, que normalmente se fija en 0,05 o 0,01, y determinar la discrepancia máxima admisible que da lugar a la región de rechazo. 4. Calcular la discrepancia observada y examinar si es mayor que la discrepancia máxima admisible, en cuyo caso se rechaza H0 . Nivel crı́tico o p-valor El procedimiento para obtener la región de rechazo usando el nivel de significación tiene dos incovenientes: 1. El resultado del test puede depender mucho del valor de α. 2. Dar sólo el resultado del test no permite diferenciar el grado de evidencia que la muestra indica a favor o en contra de H0 . Ejercicio 1.5. Se desea saber si el precio medio de alquiler de un piso de dos habitaciones en un barrio es mayor de los 800 euros mesuales que pide un arrendador. Para ello, se toma una muestra de precios de n = 10 pisos dando lugar a una media de x̄ = 833 euros. Suponiendo que el precio de alquiler de los pisos, X , sigue una distribución normal, X ∼ N(µ, σ 2 ), y que la desviación tı́pica es conocida (no realista) e igual a 50 euros. Resolver el siguiente contraste al nivel α = 0,01: H0 : µ = 800 H1 : µ > 800 Nivel crı́tico o p-valor Definición El nivel crı́tico p o p-valor es es la probabilidad de encontrar una discrepancia mayor o igual que la observada en los datos, cuando H0 es cierta. I I El p-valor no se fija a priori, sino que depende de los datos. Usando el p-valor podemos resolver el contraste para cualquier α: I I I Si α > p-valor, se rechaza H0 al nivel α. Si α < p-valor, no se rechaza H0 al nivel α. El p-valor es el nivel de significación más pequeño para el que la muestra obtenida obligarı́a a rechazar la hipótesis nula. Nivel crı́tico o p-valor Ejercicio 1.6. Se desea saber si el precio medio de alquiler de un piso de dos habitaciones en un barrio es mayor de los 800 euros mesuales que pide un arrendador. Para ello, se toma una muestra de precios de n = 10 pisos dando lugar a una media de x̄ = 833 euros. Suponiendo que el precio de alquiler de los pisos, X , sigue una distribución normal, X ∼ N(µ, σ 2 ), y que la desviación tı́pica es conocida (no realista) e igual a 50 euros. Resolver el siguiente contraste para cualquier nivel usando el p-valor. H0 : µ = 800 H1 : µ > 800 Metodologı́a del contraste Recapitulando, los pasos para resolver un contraste de hipótesis utilizando el p-valor son: 1. Plantear la hipótesis nula, H0 , y alternativa, H1 . 2. Definir un estadı́stico de contraste cuya distribución sea conocida si H0 es cierta. 3. Fijar un nivel de significación, α. 4. Calcular el p-valor. Si este es suficientemente pequeño (menor que α), rechazar H0 .

Técnicas de Inferencia Estadística II Tema 1. Contrastes de hipótesis

Documentos relacionados

Productos

Apoyo

Técnicas de Inferencia Estadística II Tema 1. Contrastes de hipótesis

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib