PRUEBAS DE HIPÓTESIS

Anuncio
Teorema Central del Límite (1)
• Definición. Cualquier cantidad calculada a partir de las observaciones de una
muestra se llama estadístico. La distribución de los valores que puede tomar un
estadístico respecto a todas las muestras de tamaño n que se podrían extraer se
llama distribución muestral del estadístico.
• Determinar cómo aumenta la representatividad de una muestra al aumentar su
tamaño.
• Se tiene una población de N observaciones a partir de la cual se extraen muestras,
Xi, cada una con n observaciones. El promedio de todas las muestras sería:
• ¿Cómo se distribuyen los valores de las medias muestrales?
• Calcular el valor esperado y la varianza de
. Usar las siguientes propiedades:
•
Ejercicio: Consideremos las observaciones 1, 3, 4, 5 y 12 y obténganse todas las
muestras posibles de tamaño 2. Verificar si el valor medio de todas las medias muestrales
es igual a la media de la población.
Si no se conoce
, se puede estimar a partir de la muestra, con lo cual: s = s/
Teorema Central del Límite (2)



El TCL establece que, en el límite, cuando el tamaño de la muestra crece, la
suma (o equivalentemente la media aritmética) de un conjunto de variables
aleatorias tendrá una distribución Gaussiana, sin importar la distribución de
la población de la cual provienen las observaciones.
Nos permite usar estadísticos muestrales para hacer inferencias con respecto
a los parámetros de la población sin tener información sobre la forma de la
distribución de la población, excepto la que podamos obtener de la muestra.
Si la distribución de X es Gaussiana:
• Si la distribución de X es desconocida o no es Gaussiana:
• Este teorema explica la importancia de la distribución Gaussiana ya que
aparece de manera natural asociada a cualquier distribución si consideramos
la distribución de la media muestral o de la suma de realizaciones
independientes. En particular, si un error de medición se puede considerar
como la suma de muchas pequeñas perturbaciones independientes, el TCL
implica que la distribución de sus valores es aproximadamente Normal.
• Si consideramos un número grande n de variables aleatorias independientes e
idénticamente distribuidas, cada una con media µ y varianza finita σ2,
entonces la variable Y = ∑nXn se distribuye aproximadamente como una
Gaussiana con media µY = nµ y varianza σ2Y = nσ2.
Zn = Xn – nμ
σ √n
Estimadores
• Estimar un parámetro de un modelo probabilístico para la distribución de una
variable X, consiste en obtener una aproximación de su valor con base en las
observaciones.
• Definición. Cualquier estadístico diseñado para aproximar el valor de un parámetro
Ө del modelo, se llama estimador puntual del parámetro.
• Un estimador es una variable aleatoria, e.d., su valor concreto depende de la muestra
escogida.
• Propiedades deseables de un estimador:
Estimador insesgado
Estimador consistente
Estimación por intervalos. Nos permite obtener una medida del error que
pensamos cometer al estimar un parámetro.
Intervalo de confianza para la media µ de una distribución Normal con
varianza conocida
PRUEBAS DE HIPÓTESIS





Una hipótesis estadística es una proposición acerca del valor de
un parámetro en el modelo considerado.
Pruebas Paramétricas y No Paramétricas
Las pruebas paramétricas se llevan a cabo en situaciones en las
que sabemos o asumimos que una distribución teórica particular
es una representación apropiada para los datos y/o el estadístico
de prueba.
Las pruebas no-paramétricas se llevan a cabo sin la necesidad
de hacer suposiciones acerca de la distribución paramétrica de los
datos (si la hay).
Las pruebas paramétricas consisten esencialmente en hacer
inferencias respecto a los parámetros de alguna distribución
particular, la cual podemos considerar que representa la
naturaleza de los procesos físicos de interés subyacentes.




Un estadístico es una cantidad calculada a partir de un
conjunto de datos.
Los estadísticos muestrales están sujetos a variaciones de
muestreo, es decir, también son variables aleatorias y su
valor cambia de una muestra a otra.
Las variaciones de los estadísticos muestrales pueden
describirse usando distribuciones de probabilidad
denominadas distribuciones muestrales.
El concepto de distribución muestral es fundamental en todas
las pruebas estadísticas ya que proporciona un modelo
probabilístico que describe las frecuencias relativas de los
valores posibles del estadístico de prueba.
Elementos de cualquier prueba de hipótesis
1) Identificar un estadístico de prueba (EP) apropiado, el cual será el objeto de la
prueba. En las pruebas paramétricas el EP es con frecuencia un estimador
muestral de algún parámetro de una distribución de probabilidad dada.
2) Definir una hipótesis nula (H0). Define un marco de referencia lógico
específico contra el cual se juzga al EP observado. Con frecuencia H0 se
formula de modo que esperamos rechazarla.
3) Definir una hipótesis alternativa (HA). Con frecuencia HA es simplemente “H0
no es verdadera”.
4) Obtener la distribución nula, que es la distribución muestral del EP si
suponemos que HO es verdadera. Identificar la distribución nula es la parte
crucial de la prueba de hipótesis.
5) Comparar el EP observado con la distribución nula. Si el EP cae en una región
suficientemente improbable de la distribución nula, H0 es rechazada. Si el EP
cae dentro del rango ordinario de valores descritos por la distribución nula, el
EP es considerado como consistente con H0 y por consiguiente no se rechaza.

La región suficientemente improbable de la distribución nula (región crítica
o región de rechazo) está definida por el nivel de la prueba, α (nivel de
significación o de significancia). El nivel de confianza de la prueba es igual a
1 – α.

H0 es rechazada si la probabilidad de ocurrencia del EP (p) (de acuerdo con
la distribución nula) es menor o igual que el nivel de significancia α. Dicho
nivel se elige de forma arbitraria antes de realizar los cálculos. El nivel más
comúnmente utilizado es el del 5% (α = 0.05), pero también se acostumbran
niveles del 10% (α = 0.1) o 1% (α = 0.01).

El valor p de una prueba es la probabilidad específica de que el valor
observado del EP ocurrirá. Entonces, HO se rechaza si el valor p es <= α.

Si rechazamos HO a un nivel de confianza dado, también la rechazaremos
para cualquier nivel de confianza menor.
-zα/2
zα/2
NOTA: El aceptar (es decir, no rechazar) H0 no significa necesariamente que
ésta sea verdadera, sino solamente que no hay evidencia suficiente para
rechazarla dada la información que se tiene.
Tipos de errores
• Error Tipo I – probabilidad de rechazar HO dado que de hecho es verdadera (α).
• Error Tipo II – probabilidad de aceptar HO cuando de hecho es falsa (β).
Aunque nos gustaría minimizar las probabilidades de ambos errores, esto no es posible.
Podemos prescribir α pero generalmente no se puede prescribir β ya que HA se
define de forma más general que H0 y no se conoce su distribución.
Pruebas unilaterales y bilaterales
• Una prueba estadística puede ser unilateral (de una cola, one-sided) o bilateral
(de dos colas, two-sided). Esto depende de la naturaleza de la hipótesis que se va
a probar.
• Las pruebas unilaterales son apropiadas si hay una razón a priori para esperar
que las violaciones de la H0 conducirán a valores del EP sobre un lado particular
de la distribución nula. La HA se establece en términos de probar si el valor
verdadero es mayor (o menor) que el valor de la HO.
P (-zα < Z ) = P ( Z < zα ) = 1 - α
-zα
zα



Las pruebas bilaterales son apropiadas cuando tanto valores muy grandes como muy
pequeños del EP son desfavorables para la H 0. Tales pruebas pertenecen a casos en
los que la HA es muy general, como “HA: H0 no es verdadera o HA: μ ≠ μ0”.
La región de rechazo consiste de ambos extremos de la distribución nula. En este
caso las dos porciones de la región de rechazo están delimitadas de manera que la
suma de sus probabilidades bajo la distribución nula sea igual al nivel α.
Si el EP es mayor o menor que el valor crítico ±z1-α/2 entonces se rechaza la
hipótesis nula.
P (-zα/2 < Z < zα/2 ) = 1 - α
-zα/2
zα/2
Prueba de hipótesis para la media µ de una distribución Normal
con varianza conocida
•
Hipótesis bilateral
• Hipótesis unilateral
Pruebas de hipótesis e intervalos de confianza
• El intervalo de confianza alrededor de un estadístico muestral consiste
de otros valores posibles del estadístico para los cuales la hipótesis
nula no sería rechazada.
• Se usan típicamente para construir barras de error alrededor de
estadísticos muestrales en una gráfica.
• Puede pensarse que los intervalos de confianza se construyen
encontrando valores del Estadístico de Prueba que no caerían en la
región de rechazo, es decir, es la operación inversa de la prueba de
hipótesis.
Descargar