Técnicas de Inferencia Estadística II Tema 1. Contrastes de hipótesis

Anuncio
Técnicas de Inferencia Estadı́stica II
Tema 1. Contrastes de hipótesis
M. Concepción Ausı́n
Universidad Carlos III de Madrid
Grado en Estadı́stica y Empresa
Curso 2010/11
Tema 1. Contrastes de hipótesis
Contenidos
I
Definición de contraste e hipótesis estadı́stica.
I
Tipos de hipótesis.
I
Hipótesis nula y alternativa.
I
Errores de tipo I y II.
I
Metodologı́a del contraste de hipótesis.
I
Concepto de p-valor.
Contraste de hipótesis
Hipótesis estadı́stica
Una hipótesis estadı́stica es una afirmación respecto a una caracterı́stica
de una población.
Contraste de hipótesis
Un contraste de hipótesis tiene la finalidad de decidir si una hipótesis
estadı́stica coincide o no con la realidad que observamos en los datos.
Suponemos una muestra aleatoria (X1 , X2 , . . . , Xn ) de una población
descrita por una variable aleatoria X con función de distribución F .
Un contraste de hipótesis sirve para decidir si una determinada hipótesis
sobre la distribución F es confirmada o invalidada a partir de las
observaciones de la muestra.
Ejercicio 1.1.
Formular una hipótesis estadı́stica para las siguientes situaciones:
I
Se desea saber si el precio medio de alquiler un piso de dos
habitaciones en un barrio es mayor a los 800 euros mesuales que
pide un arrendador.
I
En unas elecciones municipales, un partido polı́tico quiere saber si la
proporción de votantes a su favor será mayor del 25 %.
I
Una compañı́a telefónica quiere saber si el gasto medio mensual es
diferente en clientes de tarjeta que de contrato.
I
Un inversor quiere saber si los riesgos asociados a las acciones de
dos compañı́as son diferentes.
I
En un estudio sociológico se desea analizar si más de la mitad de los
españoles duerme como mucho 7 horas al dı́a.
I
Se quiere analizar si la distribución de los salarios en un paı́s es la
misma para hombres que para mujeres.
I
Se desea saber si la distribución de la longitud de las piezas
producidas por una máquina es normal.
I
Una empresa quiere examinar si el sueldo de sus empledados es
independiente de la edad.
Tipos de hipótesis
Una hipótesis estadı́stica puede ser:
1. I Relativa a una única población, sobre la que se observa una variable,
I
2.
I
I
3.
I
I
X , y se toma una muestra (X1 , X2 , . . . , Xn ).
Relativa a más de una población, por ejemplo, relativa a dos
poblaciones sobre las que se observan dos variables, X e Y , y se
toman dos muestras (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Ym ).
Paramétrica: Se asume un modelo paramétrico sobre la población y
se plantea una hipótesis sobre uno o más parámetros, por ejemplo, se
asume que X ∼ N(µ, σ 2 ) y se plantea la hipótesis µ < 7.
No paramétrica: No se asume ningún modelo paramétrico sobre la
población y se plantea una hipótesis sobre una caracterı́stica de la
misma, por ejemplo, Pr(X ≤ 7) > 0,5.
Simple: La hipótesis tiene un sólo elemento, por ejemplo, µ = 7.
Compuesta: La hipótesis tiene más de un elemento, por ejemplo,
µ ≥ 7.
Hipótesis nula y alternativa
I
Se denomina hipótesis nula, H0 , a la hipótesis que se desea
contrastar. La hipótesis nula se mantiene a no ser que los datos
indiquen su falsedad. La hipótesis nula nunca se considera probada,
aunque puede ser rechazada por los datos.
I
La hipótesis nula se enfrenta a la hipótesis alternativa, H1 . En los
casos en los que no se especifica H1 de manera explı́cita, podemos
considerar que ha quedado definida implı́citamente como H0 es falsa.
I
En un contraste de hipótesis no se trata de juzgar cuál de las dos
hipótesis, H0 ó H1 , es más verosı́mil, sino de decidir si la muestra
proporciona o no evidencia suficiente para rechazar H0 ; para lo cual
hay que considerar H1 que se corrobora cuando se rechaza H0 .
Definición
Un contraste o test de hipótesis para contrastar H0 frente a H1 consiste
en elegir una región de rechazo o región crı́tica, R, del espacio muestral
de forma que:
I
Si (x1 , . . . , xn ) ∈ R, se rechaza H0 .
I
Si (x1 , . . . , xn ) ∈ R, no se rechaza H0 .
Por tanto, un contraste de hipótesis es cualquier partición del espacio
muestral, X , en dos regiones disjuntas: una región crı́tica o de rechazo,
R, y una región de aceptación R c = X \ R.
Ejercicio 1.2.
Se desea saber si el precio medio de alquiler de un piso de dos
habitaciones en un barrio es mayor de los 800 euros mesuales que pide un
arrendador. Para ello, se toma una muestra de precios de n pisos de estas
caracterı́sticas a partir de la cual se desea contrastar:
H0 : µ = 800
H1 : µ > 800
(1)
donde µ es la esperanza de una variable aleatoria, X , que representa el
precio de alquiler de los pisos de dos habitaciones en este barrio.
Proponer regiones de rechazo que definan contrastes de hipótesis para
resolver (1).
Errores de tipo I y de tipo II
La elección de una región de rechazo adecuada se realizará en función de
sus efectos. Hay cuatro posibilidades:
Rechazar H0
No rechazar H0
H0 es cierta
Error tipo I
Decisión correcta
H0 es falsa
Decisión correcta
Error tipo II
Lo ideal serı́a encontrar un test que hiciese mı́nima las probabilidades de
ambos errores. Sin embargo, esto no es posible ya que la reducción de la
probabilidad de un tipo de error hace que aumente la probabilidad del
otro tipo de error.
Como se considera que el error más grave es el de tipo I, se
impondrá una cota a la probabilidad de error de tipo I que llamaremos
nivel de significación, α, y luego, se procurará que la probabilidad de
error de tipo II sea lo más pequeña posible.
Ejercicio 1.3.
Se desea saber si el precio medio de alquiler de un piso de dos
habitaciones en un barrio es mayor de los 800 euros mesuales que pide un
arrendador. Para ello, se toma una muestra de precios de n pisos de estas
caracterı́sticas a partir de la cual se desea contrastar:
H0 : µ = 800
H1 : µ > 800
donde µ es la esperanza de una variable aleatoria, X , que representa el
precio de alquiler de los pisos de dos habitaciones en este barrio.
¿Cuál de las dos siguientes regiones de rechazo da lugar a un mayor error
de tipo I?
R1 = {Todos los pisos observados valen más de 800 euros}
R2 = {Más del 50 % de los pisos observados valen más de 800 euros}
Recapitulando...
I
Un contraste de hipótesis puede rechazar la hipótesis nula.
I
Un contraste de hipótesis no puede probar la hipótesis nula.
I
Se puede hacer la probabilidad de error de tipo I tan pequeña como
se quiera, pero esto hará que aumente la probabilidad de error de
tipo II.
I
Si aceptamos la hipótesis nula, debe interpretarse como que las
observaciones no han aportado evidencia para descartarla.
I
Por el contrario, si rechazamos la hipótesis nula es porque se
está razonablemente seguro de que H0 es falsa, ya que
Pr(R | H0 ) ≤ α, y estamos aceptando implı́citamente la hipótesis
alternativa.
Metodologı́a del contraste
I
Es necesario desarrollar un procedimiento general para construir
regiones de rechazo razonables.
I
El procedimiento habitual consiste en definir una medida de
discrepancia entre las observaciones y la hipótesis nula.
I
I
Si la discrepancia es grande, se rechazará la hipótesis nula.
I
En caso contrario, no hay evidencias para rechazarla.
En contrastes paramétricos, es habitual tomar medidas de
discrepacia basadas en un estimador del parámetro de interés:
Discrepancia =
Estimador − Parámetro
Desviación tı́pica del estimador
Ejemplo
Consideramos de nuevo el siguiente contraste sobre el precio medio de un
piso de alquiler.
H0 : µ = 800
H1 : µ > 800
I
Parece natural que la medida de discrepancia dependa de la media
muestral, X̄ , que es el mejor estimador de µ.
I
Tiene sentido rechazar H0 si X̄ es mucho mayor que 800 euros.
I
Para que el concepto de “mucho mayor” no esté afectado por las
unidades de medida, se debe dividir por las desviación tı́pica del
estimador, por tanto, una medida de discrepancia razonable es,
Discrepancia =
X̄ − 800
√ ,
σ/ n
donde σ es la desviación tı́pica del precio, X .
Metodologı́a del contraste
I
Una vez definida una medida de discrepancia, hay que definir la
discrepancia máxima admisible, lo que depende de:
I
La distribución de la medida de discrepancia cuando H0 es cierta.
I
El signo de H1 que lleva a considerar regiones de rechazo en una
direción o en dos direcciones.
Ejemplo
¿Qué valores puede tomar la medida de discrepancia del ejemplo anterior
y con qué probabilidad? Si asumimos que X ∼ N(µ, σ 2 ), entonces, si H0
es cierta:
X̄ − 800
√ ∼ N(0, 1)
σ/ n
Ası́, para que el error de tipo I sea inferior a un nivel de significación, α,
fijado previamente, la región de rechazo más razonable es:
X̄ − 800
√ > zα .
R=
σ/ n
Aceptación
echazo la forman
distribución
Rechazo
del
probabilidad α.
1−α
α
Ejercicio 1.4.
Se desea saber si el precio medio de alquiler de un piso de dos
habitaciones en un barrio es mayor de los 800 euros mesuales que pide un
arrendador. Para ello, se toma una muestra de precios de n = 10 pisos
dando lugar a una media de x̄ = 833 euros. Suponiendo que el precio de
alquiler de los pisos, X , sigue una distribución normal, X ∼ N(µ, σ 2 ), y
que la desviación tı́pica es conocida (no realista) e igual a 50 euros.
Resolver el siguiente contraste al nivel α = 0,05:
H0 : µ = 800
H1 : µ > 800
Metodologı́a del contraste
Recapitulando, los pasos para resolver un contraste de hipótesis son:
1. Plantear las hipótesis nula, H0 , y alternativa, H1 .
2. Definir una medida de discrepancia entre los datos muestrales y la
hipótesis nula, denominada estadı́stico de contraste, cuya
distribución sea conocida cuando H0 es cierta.
3. Fijar un nivel de significación, α, que normalmente se fija en 0,05 o
0,01, y determinar la discrepancia máxima admisible que da lugar a
la región de rechazo.
4. Calcular la discrepancia observada y examinar si es mayor que la
discrepancia máxima admisible, en cuyo caso se rechaza H0 .
Nivel crı́tico o p-valor
El procedimiento para obtener la región de rechazo usando el nivel de
significación tiene dos incovenientes:
1. El resultado del test puede depender mucho del valor de α.
2. Dar sólo el resultado del test no permite diferenciar el grado de
evidencia que la muestra indica a favor o en contra de H0 .
Ejercicio 1.5.
Se desea saber si el precio medio de alquiler de un piso de dos
habitaciones en un barrio es mayor de los 800 euros mesuales que pide un
arrendador. Para ello, se toma una muestra de precios de n = 10 pisos
dando lugar a una media de x̄ = 833 euros. Suponiendo que el precio de
alquiler de los pisos, X , sigue una distribución normal, X ∼ N(µ, σ 2 ), y
que la desviación tı́pica es conocida (no realista) e igual a 50 euros.
Resolver el siguiente contraste al nivel α = 0,01:
H0 : µ = 800
H1 : µ > 800
Nivel crı́tico o p-valor
Definición
El nivel crı́tico p o p-valor es es la probabilidad de encontrar una
discrepancia mayor o igual que la observada en los datos, cuando H0 es
cierta.
I
I
El p-valor no se fija a priori, sino que depende de los datos.
Usando el p-valor podemos resolver el contraste para cualquier α:
I
I
I
Si α > p-valor, se rechaza H0 al nivel α.
Si α < p-valor, no se rechaza H0 al nivel α.
El p-valor es el nivel de significación más pequeño para el que la
muestra obtenida obligarı́a a rechazar la hipótesis nula.
Nivel crı́tico o p-valor
Ejercicio 1.6.
Se desea saber si el precio medio de alquiler de un piso de dos
habitaciones en un barrio es mayor de los 800 euros mesuales que pide un
arrendador. Para ello, se toma una muestra de precios de n = 10 pisos
dando lugar a una media de x̄ = 833 euros. Suponiendo que el precio de
alquiler de los pisos, X , sigue una distribución normal, X ∼ N(µ, σ 2 ), y
que la desviación tı́pica es conocida (no realista) e igual a 50 euros.
Resolver el siguiente contraste para cualquier nivel usando el p-valor.
H0 : µ = 800
H1 : µ > 800
Metodologı́a del contraste
Recapitulando, los pasos para resolver un contraste de hipótesis
utilizando el p-valor son:
1. Plantear la hipótesis nula, H0 , y alternativa, H1 .
2. Definir un estadı́stico de contraste cuya distribución sea conocida si
H0 es cierta.
3. Fijar un nivel de significación, α.
4. Calcular el p-valor. Si este es suficientemente pequeño (menor que
α), rechazar H0 .
Descargar