4. Prueba de Hipótesis Como se ha indicado anteriormente, nuestro

Anuncio
4. Prueba de Hipótesis
Como se ha indicado anteriormente, nuestro objetivo al tomar una muestra es extraer
alguna conclusión o inferencia sobre una población. En nuestro interés es conocer acerca
de los parámetros que caracterizan la población en estudio. El único motivo para
examinar muestras es que las poblaciones suelen ser demasiado grandes y costosas de
estudiar.
La prueba de hipótesis es un procedimiento estadístico que comienza con una suposición
que se hace con respecto a un parámetro de población, luego se recolectan datos de
muestra, se producen estadísticas de muestra y se usa esta información para decidir qué
tan probable es que sean correctas nuestras suposiciones acerca del parámetro de
población en estudio.
Ejemplos de hipótesis pueden ser: Se desea
a) Probar si las ventas diaria de un abasto son 1 Mio de bolívares o no
b) Probar si la proporción de individuos que compran algún artículo en una tienda es
o no mayor del 0.3.
Objetivo de la prueba de hipótesis
Decidir, basado en una muestra de una población, cuál de dos hipótesis complementarias
es cierta.
Las dos hipótesis complementarias se denominan hipótesis nula e hipótesis alternativa.
Conceptos Básicos
Hipótesis Nula (H0)
Representa la hipótesis que mantendremos cierta a no ser que los datos indiquen su
falsedad. Esta hipótesis nunca se considera aceptada, en realidad lo que se quiere decir es
que no hay suficiente evidencia estadística para rechazarla por lo que aceptar H0 no
garantiza que H0 sea cierta.
Hipótesis Alternativa (H1)
Hipótesis que se acepta cuando los datos no respaldan la hipótesis nula.
Tipos de pruebas
a) Pruebas de hipótesis de 2 extremos o bilaterales. Estas pruebas son del tipo:
H1 : ϑ = ϑ1
Ho: ϑ = ϑ0
b) Pruebas de hipótesis de un extremo o unilateral.
b.1) Ho: ϑ ≥ ϑ0
b.2) Ho: ϑ ≤ ϑ0
H1 : ϑ < ϑ1
H1 : ϑ > ϑ1
Metodología:
La lógica de una prueba de hipótesis es similar a la de un juicio penal, donde debe
decidirse si el acusado es inocente o culpable y el juicio consiste en aportar evidencia
para rechazar la hipótesis de inocencia más allá de cualquier duda razonable. Por su parte
una prueba de hipótesis analiza si los datos observados permitan rechazar la hipótesis
nula, comprobando si éstos tienen una probabilidad de aparecer lo suficientemente
pequeña cuando es cierta la hipótesis nula
Las etapas de una prueba de hipótesis son:
a) Definir la hipótesis nula a contrastar.
b) Definir una medida de discrepancia entre los datos muestrales y la hipótesis Ho.
Supongamos que el parámetro de interés es la media de una población µ y que a
partir de una muestra hemos obtenido su estimador x , entonces debemos medir de
alguna manera la discrepancia entre ambos, que denotaremos como d ( µ , x ) .
c) Decidir qué discrepancia consideramos inadmisibles con Ho, es decir, a partir de
que valor de d, la discrepancia es muy grande como para atribuirse al azar y
considerar que Ho pueda ser cierta. Para ello debemos entonces:
• Tomar la muestra
• Calcular el estimador del parámetro, en nuestro ejemplo x
• Calcular la medida de discrepancia d .
• Tomar la decisión: Si d es “pequeña”, aceptar Ho, si es lo
“suficientemente”grande, rechazarla y aceptar H1.
Es por ello que necesitamos establecer una Regla de Decisión mediante la cual sea
especificado:
a) La medida de discrepancia.
b) Un criterio que nos permita juzgar qué discrepancia son “ demasiado grandes”
a) Medidas de discrepancias:
Es natural considerar medidas de discrepancias del tipo:
ϑ0 − ϑˆ
, de las que será posible conocer su distribución de probabilidad..
σ ϑˆ
Si las hipótesis son bilaterales el signo de la desviación entre ϑ0 − ϑˆ no es importante,
sin embargo cuando la hipótesis es unilateral el signo de la discrepancia sí lo es.
b) Calculo de un valor mínimo d c para la discrepancia para la aceptación de Ho.
Para ello definamos:
• Nivel de Significancia.
Para realizar una prueba de hipótesis dividiremos el rango de discrepancias que puede
observarse cuando Ho es cierta en dos regiones: una región de aceptación de Ho y otra de
rechazo.
Se consideran discrepancias “ demasiado grandes” , las que tienen una probabilidad
pequeña α de ocurrir si Ho es cierta. A este valor lo llamamos nivel de significación:
generalmente tomamos valores de 0.1,0.05,0.01 o 0,005.
El nivel de significación α puede interpretarse también como la probabilidad que
estamos dispuestos a asumir de rechazar Ho cuando esta es cierta.
Cabe destacar que mientras más alto sea el nivel de significancia que se utiliza para
probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es
cierta.
En la siguiente figura se muestran tres niveles de significancia distintos:
• Región de Rechazo:
Una vez fijado α , la región de rechazo se determina a partir de la distribución de
probabilidad de d ( µ , x ) cuando Ho es cierta. Como esta distribución es conocida
elegiremos d c de manera que discrepancias mayores de d c tengan probabilidad de
ocurrir menor de α ,si Ho es cierta.
La región de rechazo será d > d c
y la de no rechazo será por consiguiente: d ≤ d c
La siguiente figura muestra gráficamente este método:
Si la discrepancia observada cae en la región de rechazo se dice que se ha producido una
diferencia significativa y se rechaza la hipótesis nula Ho
Tipos de errores
Cuando se decide sobre el rechazo de una hipótesis se pueden cometer dos
equivocaciones.
!"#%$'&()!*
ótesis nula cuando es cierta.
12&3
454676$ $/ (98: ;$<=>(6?26 ( 6A@
+ ,-./0
B4C
./2D
*E ón de una
hipótesis
nula cuando es falsa
*F$
GH I$
J&:$K? LM $NKA&:#9J&-6E
O/
ño de
Una
vez
especificado
el
v
OF&:PQ$R
O/*( $;@HH8,#9,/$
$($Q$ H8 *<8$ $S$
PF*T
(
GVU,KJ&WX!PUT&:(T8, *,Y$
$Z?
(
X[
existe un número infinito de valores de
@\<!P,[]46 (G^$ $_&(`8, *,3?2 La$
G)6
cada valor verdadero que pueda toma
probabilidad de cometer un error de tipo II disminuirá a medida que aumente el
tamaño muestral.
Existe un equilibrio entre los dos tipos de errores, la probabilidad de cometer un tipo de
error puede reducirse sólo si deseamos incrementar la probabilidad de cometer el otro.
Tipos de pruebas
a) Pruebas de hipótesis de 2 extremos o bilaterales.
Es una prueba en la que H0 se rechaza si el valor de la muestra es significativamente
mayor o menor que el valor hipotetizado del parámetro de población. Esta prueba
involucra dos regiones de rechazo
b) Pruebas de hipótesis de 1 extremo o unilateralesEs una prueba en la que sólo hay una
región de rechazo, es decir, sólo nos interesa si el valor observado se desvía del valor
hipotetizado en una dirección. Pueden ser:
b.1) Prueba de extremo inferior
Es una prueba en la que si hay un valor de muestra que se encuentra
significativamente por debajo del valor de la población hipotetizado, nos llevará a
rechazar la hipótesis nula. Gráficamente:
b.2) Prueba de extremo superior
Es una prueba en la que si hay un valor de muestra que se encuentra
significativamente por encima del valor de la población hipotetizado, nos llevará a
rechazar la hipótesis nula. Gráficamente:
Pasos Generales
1) Identificar si el parámetro de interés es ϑ0 = µ 0 o ϑ0 = p 0
2)Establecer las hipótesis correspondientes y el nivel de significancia.
3)Calcular la medida de discrepancia o estadístico de muestra.
4)Buscar el valor del percentil, en dependencia de la distribución encontrada en 3.
5)Compare los valores, tomar la decisión e interpretar los resultados.
Fórmulas
a) Pruebas de hipótesis para medias:
x
=
n
Z prueba =
x−
x
ˆ =s
(muestras pequeñas, n < 30, y
aproximadamente normal la población, t)
(muestras grandes, n ˆx =
0
ˆ
t prueba
n
=
s
n
x−
=
ˆx
Z prueba =
x−
ˆx
0
0
b) Pruebas de hipótesis para proporciones (muestras grandes, np!"# -p) %$'&
p
=
Z prueba
p 0 (1 − p 0 )
n
pˆ− p 0
=
p
Ejercicio: Plantee como sería el procedimiento para aplicar una prueba de hipótesis en las
dos situaciones planteadas al principio de capítulo, indicando cuál es el parámetro de
interés, las hipótesis, metodología, etc.
Ejemplo 4.1
El Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que gastan
varios aparatos eléctrodomésticos. Se afirma que una aspiradora gasta un promedio
mínimo de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que se incluye
en un estudio planeado indica que las aspiradoras gastan un promedio de 42 kilowatt-hora
al año con una desviación estándar de11.9 kilowatt-hora, ¿esto sugiere con un nivel de
significancia de 0.05 que las aspiradoras gastan, en promedio, menos de 46 kilowatt-hora
anualmente? Suponga que la población de kilowatt-hora es normal.
Solución:
1. Datos:
µ 0 = 46 kilowatt-hora, s= 11.9 kilowatt-hora
x = 42 kilowatt-hora
n = 12, α = 0.05
2. Hipótesis:
Ho: µ ≥ 46
H1: µ < 46
3. Estadístico de Prueba: Como la varianza de la población es desconocida y el tamaño de
muestra es menor de 30 utilizaremos la distribución t de Student en el cálculo del
estadístico.
t=
x − µ 0 42 − 46
= -1.16
=
11.9
s
n
12
2. Percentil: t 0.95 (11) = 1.796
5. Justificación y decisión:
Como –1.16 > -1.796, no se rechaza Ho y se concluye con un nivel de significancia del
0.05 que no existen suficientes evidencias para afirmar que el número promedio de
kilowatt-hora que gastan al año las aspiradoras sea menor de 46 Kw la hora.
Ejemplo 4.2:
El peso en libras de una muestra aleatoria de bebés de seis meses siguen una distribución
normal con una desviación de 1.21 libras. Según se ha establecido, en promedio un bebé
de esta edad debe pesar alrededor de 14 libras. Un pediatra sin embargo considera que
ahora los bebés han variado su peso y para ello ha considerado el peso de 100 bebés de
esta edad obteniendo un peso medio de 14.3 libras. Con un nivel de confianza del 5% ,
pruebe si el pediatra tiene razón en lo planteado
Solución:
1. Datos:
En este caso conocemos la varianza de la población, σ = 1.21 , además
µ 0 = 14 libra, x = 14.3 libras, n = 100 y α = 0.05
2. Hipótesis:
Ho : µ = 14 libras
3. Estadístico de Prueba:
H1 : µ ≠ 14 libras
z−
x − µ 0 14.3 − 14
=
= 2.5
σ
1.21
n
4 .Percentil:
100
t 0.975 (99) = 1.98 o como n > 30
z 0.975 = 1.96
4. Justificación y decisión:
2.5>1.96 por lo tanto se rechaza Ho y se concluye con un nivel de significancia del 0.05
que el peso promedio de todos los bebés de seis meses ha variado según las pruebas
disponibles.
Ejemplo 4.3
4) Históricamente la proporción de clientes que compran con tarjeta de crédito en una
determinada tienda es como mínimo del 25%, sin embargo la dueña de la tienda piensa
que esta cifra ha disminuido significativamente. De los últimas 1122 clientes 242
¿Se está cumpliendo lo que piensa la
compraron con tarjeta de crédito dueña?.
Sol: región de rechazo, si tiene razón la dueña
1.Datos
p 0 = 0.25 , pˆ=
242
= 0.215
1122
2. Hipótesis.
Ho : p ≥ 0.25
H1 : p < 0.25
3. Estadístico de muestra
Z=
pˆ− p0
p 0 (1 − p0 )
n
= −2.31
4.Percentil
z 0.99 = 1.29
5.Decisión e Interpretación:
–2.31<-1.29, así que se rechaza la hipótesis nula y por ello la dueña si tiene razón en lo
planteado.
Descargar