Contraste de hipótesis

Anuncio
Introducción teórica
Llamaremos hipótesis estadística a una afirmación respecto a una característica de una población. Contrastar
una hipótesis es comparar las predicciones que se deducen de ella con la realidad que observamos: si hay
coincidencia, dentro del margen de error admisible, mantendremos la hipótesis; en caso contrario, la
rechazaremos. Rechazar una hipótesis implica sustituirla por otra capaz de explicar los datos observados.
Las siguientes afirmaciones son hipótesis estadísticas:
• El tabaco produce cáncer de pulmón.
• Disminuir los impuestos disminuye el fraude fiscal.
• Las mujeres son más apasionadas que los hombres.
Estas tres hipótesis no se refieren a individuos particulares, sino al conjunto de elementos de una o varias
poblaciones. En estos ejemplos vemos que el contraste de hipótesis requiere, como pasos previos:
• Especificar la población de interés
• Definir la variable a que nos referimos y como medirla.
• Relacionar la hipótesis con los parámetros de la o las poblaciones.
Tipo de hipótesis
Las hipótesis estadísticas más habituales pueden clasificarse en dos grupos, según que:
• Especifiquen un valor concreto o un intervalo para un parámetro de la distribución de una variable.
• Establezcan la igualdad de algún parámetro en las distribuciones de una variable en dos o más poblaciones.
Un ejemplo del primer tipo es establecer que el tiempo medio diario invertido en desplazamiento por los
estudiantes de una universidad es de 45 minutos. Del segundo, que el tiempo medio invertido es el mismo
para los estudiantes de mañana y de la tarde.
Aunque la metodología para realizar el contraste es análoga en ambos casos, es importante distinguir entre
ellos porque:
• El contraste de una hipótesis respecto a un parámetro está muy relacionado con la construcción de
intervalos de confianza, y tiene frecuentemente una respuesta satisfactoria en términos de estimación.
• La comparación dedos o más poblaciones requiere en general un diseño experimental que asegure la
homogeneidad de las comparaciones.
Hipótesis nula y alternativa
Llamaremos hipótesis nula, y la representaremos por H0, a la hipótesis que se desea contrastar. La hipótesis
nula es en general una hipótesis simple que permite hacer
predicciones sin ambigüedad.
El nombre de nula proviene de que H0 representa la hipótesis que mantendremos a no ser que los datos
indiquen su falsedad. Nula debe entenderse en el sentido de neutra . La hipótesis H0 nunca se considera
probada, aunque puede ser rechazada por los datos. Por ejemplo, la hipótesis de que todos los elementos de
una población tienen el mismo valor de una variable puede ser rechazada encontrando un elemento que no lo
1
contenga, pero no puede ser demostrada más que estudiando todos los elementos de la población, tarea que
puede ser imposible.
De igual manera, la hipótesis de que la media de una población es diez puede ser rechazada fácilmente si la
media verdadera está muy lejos de diez analizando una muestra suficientemente grande. Sin embargo, no
puede ser demostrada mediante muestreo, ya que es posible que la media difiera de diez en un valor pequeño
imperceptible en el muestreo). Por esta razón no afirmamos que aceptamos H0, sino que no podemos
rechazarla.
La hipótesis H0 se elige normalmente de acuerdo con el principio de simplicidad científica. Este principio
establece que solamente debemos abandonar un modelo simple a favor de otro más complejo cuando la
evidencia a favor de este último sea fuerte.
Si rechazamos H0, estamos implícitamente aceptando la hipótesis alternativa, Ha, que puede ser simplemente
la negación de Ha. En algunos casos queremos decidir entre dos hipótesis simples y Ha está perfectamente
determinada. Sin embargo, el caso más frecuente es que H0 sea simple, del tipo y Ha se tome de una de las
siguientes formas:
• Desconocemos antes de realizar el contraste en que dirección puede ser falsa H0. Entonces Ha es
simplemente la negación de. Decimos entonces que el contraste es bilateral.
• Conocemos la dirección en que H0 puede ser falsa. Es decir, si H0 es falsa, en ese caso forzosamente
(o bien). Por ejemplo, se introduce una medida en una población que, si tiene efectos, puede mejorar
una variable pero es imposible que pueda empeorarla. Tenemos entonces un contraste unilateral.
Estadístico de la prueba
Los datos se deben sintetiza en un estadística de la prueba. Dicho estadístico se calcula para ver si es
razonablemente compatible con la hipótesis nula. Cuando se prueba una proporción el estadístico de la prueba
es muy simple: se cuenta el número de éxitos en la muestra para encontrar el estadístico.
En las pruebas de hipótesis es necesario trazar una línea entre los valores del estadístico de la prueba que son
relativamente probables dada la hipótesis nula y los valores que no lo son. ¿En qué valor del estadístico de la
prueba comenzamos a decir que los datos apoyan a la hipótesis alternativa? Para contestar a esta pregunta se
requiere conocer la distribución muestral del estadístico de la prueba. Los valores del estadístico de la prueba
que son sumamente improbables bajo la hipótesis nula (tal como los determina la distribución muestral)
forman una región de rechazo para la prueba estadística.
Región de rechazo
Llamaremos región de rechazo C asociada al contraste de hipótesis, al conjunto de valores muestrales bajo los
cuales se rechaza la hipótesis nula.
Fijada la región de rechazo automáticamente se tiene la regla de decisión. Si nuestra muestra pertenece a la
región de rechazo rechazamos H0 y si no, la aceptamos.
Precisamente el objetivo de la teoría de los contrastes o test de hipótesis es determinar para cada
contraste cúal es la región de rechazo óptima en base a criterios que se especificarán.
Nivel de significación
Para realizar un contraste de hipótesis se define normalmente una medida de discrepancia, entre los datos
muestrales y la hipótesis nula H0. Intuitivamente la discrepancia debe depender de la diferencia entre el valor
2
del parámetro especificado por H0 y el valor del estimador calculado en la muestra. Para obtener una medida
de discrepancia que no dependa de las unidades de medida de la variable podemos dividir esta diferencia por
su valor promedio, que es el error típico de estimación del parámetro. Por tanto, la medida de discrepancia
más habitual es:
Hay que decidir que discrepancias consideramos inadmisibles bajo H0, es decir, cual es la máxima diferencia
entre el estimador y el parámetro que estamos dispuestos a considerar compatible con H0. Esta decisión
depende de:
• La distribución de la medida de discrepancia cuando es cierta H0. Como veremos, la medida de
discrepancia tiene generalmente una distribución normal, de media cero y desviación típica uno,
cuando H0 es cierta.
• Que el contraste sea unilateral o bilateral. Para contrastes unilaterales interesan las discrepancias en
una dirección, mientras que para los bilaterales interesan en ambas.
Una vez decidido que tipo de discrepancias llevan a rechazar H0, (que dependerá sólo de si el contraste es
unilateral o bilateral) hay que determinar cual es la discrepancia máxima admisible, lo que dependerá de la
distribución de la medida de discrepancia cuando es cierta H0.
Llamaremos p−valor del contraste, a la probabilidad de obtener una discrepancia mayor que la observada.
Rechazaremos H0 cuando el p−valor sea pequeño (menor de 0,05 o 0,01)
Contraste de hipótesis
Supongamos que estamos en un contexto paramétrico. Es decir, x1 , x2 ...... xn es un muestreo aleatorio
simple de f siendo un parámetro desconocido. Llamaremos al espacio paramétrico, es decir, el conjunto de los
valores posibles para. En los contrastes de hipótesis, lo que interesa es determinar si podemos admitir queo
debemos admitir quedondey constituyen una partición de. Ambas hipótesis se tratan de forma diferente. A la
primera se le conoce como hipótesis nula. A la segundacomo hipótesis alternativa. Se suele simbolizar:
La hipótesis nula no se considera probada pero es la que mantendremos a menos que los datos evidencien lo
contrario. Luego el problema en general es si admitimos o no H0.
Hipótesis simples y compuestas
Llamaremos hipótesis simples a aquellas que especifican un único valor para el parámetro (por ejemplo
m=m0).
Llamaremos hipótesis compuestas a las que especifican un intervalo de valores (por ejemplo: m>m0 ; a< m
<b)
Se ha definido un contraste de hipótesis como:
donde (espacio paramétrico) y
Diremos que la hipótesis Hi es simple sicontiene un único punto, y diremos que la hipótesis Hi es compuesta
si contiene más de un valor.
En particular, sientonces el tamaño del contraste es igual a
Entonces si un contraste tiene hipótesis nula simple, el tamaño del contraste es el valor de la función de
potencia en, y por tanto la probabilidad de rechazar la hipótesis nula si es cierta será.
3
Contrastes de hipótesis simples
Diremos que un contraste es de hipótesis simple cuando las hipótesis nula y alternativa son de la forma,
En este caso. La función de potencia sólo tiene los valores y
Asociada a un contraste de hipótesis simples existen 2 tipos de error:
• rechazar H0 cuando es cierta. (Error de Tipo I)
• aceptar H0 cuando en realidad es falsa (Error de Tipo II)
Sies un contraste para frente a basada en una región crítica C, los dos tipos de errores tienen las siguientes
probabilidades
(Probabilidad de error del tipo I)
(Probabilidad de error del tipo II)
El objetivo obvio es encontrar un contrasteque minimicey.Es claro que podemos conseguir contrastesque
hagan. Para ello basta con aceptar siempre que C = 0. Pero entonces:
(todo el conjunto de resultados) = 1
Nuestro objetivo va a ser en general minimizar combinaciones lineales dey de.
Lema de Neyman − Pearson
En un contraste de hipótesis simple sea* el procedimiento que rechaza H0 cuando n · f0(x1...xn) < f1(x1...xn).
Acepto H0 cuando n · f0(x1...xn) > f1(x1...xn) y toma cualquier decisión si se da n · f0(x1...xn) = f1(x1...xn).
Sies cualquier otro contraste tal que, entonces. Y si entonces
Contrastes uniformemente más potentes
Volviendo al problema general del contraste de hipótesis donde x1, x2, ...., xn es un muestreo aleatorio simple
de una población f(x,, donde es un parámetro desconocido y, espacio paramétrico. Seauna partición de, es
decir, dos conjuntos disjuntos cuya unión es. Estamos interesados en contrastar:
con un nivel de significación, es decir, y tal quesea máximo si.
Supongamos quecontiene al menos dos valores, es decir, la alternativa no es simple. En este caso puede
ocurrir que no exista un procedimiento de contraste que maximice para todos los valores, es decir, puede
ocurrir que si existencontrastes, tales que si yentonces y es decir que ambas regiones críticas tengan nively sin
embargopero, es decir, la región crítica asociada amaximiza la función de potencia en y la región crítica
asociada amaximiza la función de potencia en.
Sin embargo existen situaciones en las que aparece una región de tamaño menor o igual a y que maximiza la
función de potencia en todos los valores de la hipótesis alternativa. A tal región crítica o a tal contraste se le
denomina contraste o región crítica uniformemente más potente.
Definición: En un contraste , de nivel diremos que la región crítica asociada al contraste es uniformemente
más potente si:
4
(es de nivel) y ,
Se pueden encontrar test uniformemente más potentes cuando la alternativa es de tipo unilateral y la
verosimilitud de la muestra verifica la propiedad de poseer un cociente de verosimilitudes monótono en un
cierto estadístico.
Definición: Sea x1, x2, ...., xn un muestreo aleatorio simple de f(x, y sea T un estadístico. Diremos que f(x,
verifica o tiene cociente de verosimilitudes monótonas en T si dados y, entonces:
depende sólo de la muestra a través de T, y es creciente en T.
Contrastes de hipótesis compuestas con alternativa unilateral
Diremos que la hipótesis alternativa es unilateral cuando todos los valores del espacio paramétrico bajo la
alternativa están a un lado de los valores bajo la hipótesis nula. En un contraste de este tipo las hipótesis se
dan:
;
ó
;
En este tipo de contrastes van a existir unos test uniformemente más potentes.
Teorema: Sea x1, x2, ...., xn un muestreo aleatorio simple de f(x,, desconocido. Si f(x,tiene cociente de
verosimilitud monótono en el estadístico T, entonces la región crítica es uniformemente más potente.
Contraste uniformemente más potente para decidir entre:
a nivel de significaciónes:
donde c se determina para que
Contrastes insesgados
Cuando un contraste no es uniformemente más potente se le exigirá que al menos sea insesgado. Un contraste
es insesgado cuando si es su función de potencia, se verifica que: y
Dualidad entre intervalos de confianza y contraste de hipótesis
Supongamos que (U,V) es un intervalo de confianza de nivel de confianza
1−para el parámetro
desconocido en la población
I.C. para = (U,V)
Si deseamos contrastar frente a, podemos elegir como región crítica: , es decir, rechazar la H0 si no pertenece
al intervalo de confianza (U,V). Es lo mismo que decir que x1, ..., xn es tal que el valor del parámetro no está
entre los valores U y V obtenidos a partir de la muestra.
¿Cuál es el nivel de significación asociado a esta región crítica?
5
Por lo que, si 1−es el nivel de confianza del intervalo, es el nivel de significación del contraste asociado.
En contrastes en los que la hipótesis nula es simple y la alternativa es bilateral, se puede utilizar el intervalo de
confianza sobre el parámetro para obtener un contraste de nivel, siendo 1− el nivel de confianza del intervalo.
Esta prácticaes usual en este tipo de contrastes, en los que no existe uno uniformemente más potente.
complementario del intervalo de confianza para condesconocido.
Por tanto, en estos casos, donde la hipótesis nula es simple y la alternativa bilateral, utilizaremos el intervalo
de confianza para determinar el contraste asociado.Distribución del estimador en el muestreo
Un concepto importante en el planteamiento de la inferencia estadística es la de función de distribución de la
muestra, definida en una muestra de tamaño n como:
siendo Ni el número de observaciones muestrales o iguales que xi, es decir, la frecuencia acumulada. Esta
función presenta tantos saltos como valores muestrales haya, siendo la cuantía del salto cuando no se repite el
valor xi, y cuando xi se repite ni veces, lo que indica que la función de distribución empírica es siempre
discreta.
En la función de distribución empírica de la muestra podemos calcular todos sus momentos, uni o
k−dimensionales, con respecto al origen o a la media, como en una población cualquiera y, para distinguirlos
de los poblacionales, se les denominará momentos de la muestra o muestrales, representándolos por ar o mr
(según sean respecto al origen o a la media).
Estadístico
Cualquier función de los elementos muestrales recibe el nombre de estadístico, siempre que no tenga
parámetros desconocidos, designándose por T(X)=T(x1, ..., xn).
En particular, se trata con estadísticos muy concretos: los momentos muestrales, el valor mínimo o máximo de
la muestra, etc...
Los elementos que integran la muestra son variables aleatorias, por lo que cualquier función de estos
elementos, el estadístico, también será variable aleatoria. Como tal variable aleatoria el estadístico tendrá su
propio campo de variación y su distribución de probabilidad determinados, a su vez, unívocamente por el
campo de variación y la distribución de la población.
El campo de variación del estadístico es el conjunto de valores que toma para cada uno de los elementos del
espacio muestral correspondiente. Si se considera un estadístico cualquiera, se toma todas las posibles
muestras y en cada una de ellas se calcula su valor, se obtiene todos sus posibles valores, su campo de
variación.
Dado que un estadístico se genera en el proceso de muestreo, su distribución de probabilidad recibe el nombre
de distribución de probabilidad en el muestreo. El concepto de distribución.
Teorema Central del Límite
Sea x1, x2, ..., xn una sucesión de variables aleatorias independientes tales que existe su esperanza y su
varianza siendo y . Entonces.
Como entonces
6
Alternativamente, el teorema central del límite se puede expresar:
Todo fenómeno aleatorio en cuya realización intervienen múltiples causas que actúen aditivamente e
independientemente tiene distribución normal, siempre que las causas tengan esperanza y varianza
finita.Errores de Tipo I y de Tipo II
Las hipótesis nula y alternativa son aseveraciones sobre la población que compiten entre sí. O la hipótesis nula
H0 es verdadera, o lo es la hipótesis alternativa Ha, pero no ambas. En el caso ideal, el procedimiento de
prueba de hipótesis debe conducir a la aceptación de H0 cuando sea verdadera y al rechazo de H0 cuando Ha
sea verdadera. Desafortunadamente no siempre son posibles las conclusiones correctas. Como las pruebas de
hipótesis se basan en información de muestra, debemos considerar la posibilidad de errores.
Aceptar H0
Condición de la población
H0 verdadera
Ha verdadera
Conclusión correcta
Error de tipo II
Rechazar H0
Error de tipo I
Conclusión
Conclusión correcta
Esta tabla muestra los dos tipos de errores que se pueden cometer en la prueba de hipótesis. El primer renglón
muestra lo que puede suceder cuando la conclusión es aceptar H0. Si H0 es verdadera, esta conclusión es
correcta. Sin embargo, si Ha es verdadera, hemos cometido un error de tipo II, es decir, hemos aceptado H0
siendo falsa. El segundo renglón muestra lo que puede suceder cuando la conclusión es rechazar H0. Si H0 es
verdadera, hemos cometido un error de tipo I, es decir, rechazar H0 cuando es verdadera. Sin embargo, si Ha
es verdadera, es correcto rechazar H0.
Si bien no se puede eliminar la posibilidad de errores en la prueba de hipótesis, sí podemos considerar la
probabilidad de su ocurrencia. Se usa la siguiente notación estadística normal para indicar las probabilidades
de cometer esos errores:
= probabilidad de cometer un error de tipo I.
= probabilidad de cometer un error de tipo II.
Función de potencia
Consideraremos un contraste de hipótesis:
con región crítica C. Definimos la función de potencia del test como la probabilidad de rechazar la H0 si es el
verdadero valor del parámetro.
Por tanto
Entonces es la mayor de las probabilidades de rechazar la H0 cuando es cierta. Representa por tanto la
máxima probabilidad de equivocarnos al rechazar H0.
Esta cantidad recibe el nombre de tamaño del contraste.
En ocasiones interesa acotar esta probabilidad por una cantidad más pequeña, en general 0,05 ; 0,01 ; ó 0,1
que recibe el nombre de nivel de significación del contraste. Entonces se exige que.
Intervalos de Confianza
7
Estimación por intervalos de confianza
Cuando estimamos un parámetro en una densidad f(x,) a partir de un muestreo aleatorio simple, lo hacemos a
partir del valor de una variable aleatoria, que es estimador de. Aún cuando dicho estimador haya sido obtenido
para que goce de buenas propiedades, por ejemplo ser insesgado, en la práctica nadie nos garantiza el grado de
divergencia entre la estimación obtenida y el verdadero valor del parámetro desconocido. Por ello parece
razonable controlar las estimaciones puntuales con otros parámetros de estimación en los cales se posee
información paramétrica entre estimaciones y parámetros desconocidos. A tal efecto, surgen los intervalos de
confianza para estimar parámetros. Un intervalos de confianza para un parámetro será un intervalo donde
podemos controlar la probabilidad de que se encuentre verdaderamente.
Definición: Sea x1, x2, ...., xn un muestreo aleatorio simple de una población f(x,,donde es un parámetro
desconocido. Un intervalo de confianza para viene dado por dos estadísticos U y V tales. es una cantidad que
fija el investigador, usualmente los valores desuelen ser 0,1 ; 0,01 ó 0,05. Por defecto
= 0,05. U y V son estimadores por defecto y por exceso de. Diremos entonces que (U,V) es el intervalo de
confianza para de nivel de confianza 1 −.
Una vez que se observen los valores muestrales ,su sustitución en (U,V) proporciona el intervalo numérico
(U,V).
La interpretación del intervalo de confianza es el siguiente en una larga serie de determinaciones de intervalos
basados en muestras distintas, el 100·(1−)% de tales intervalos contendría el valor de.
Intervalos de Confianza
• Intervalo de Confianza para la media de una población normal con varianza conocida:
Sea x1, x2, ...., xn un muestreo aleatorio simple de N,desconocido yconocido. Se desea obtener un intervalo
de confianza para de nivel. Como consecuencia del teorema de Fisher se sabe que . Por tanto .
Existe tal que
Pero
Por tanto:
Entonces:
I.C. = de nivel
• Intervalo de confianza para la media de una normal con varianza desconocida
Sea x1, x2, ...., xn un muestreo aleatorio simple de N, ydesconocidos. Se desea obtener un intervalo de
confianza para de nivel. Sabiendo como consecuencia del teorema de Fisher se sabe que y que , entonces:
Por tanto existe un tal que .
Además,
Entonces
8
y por tanto el intervalo de confianza para de niveles:
I.C. =
• Intervalo de confianza para la varianza de una normal:
Sea x1, x2, ...., xn un muestreo aleatorio simple de Ncondesconocida. puede ser conocida o desconocida. Se
desea obtener un intervalo de confianza para . Según el teorema de Fisher .
Existen cantidades Ka y Kb tales que:
. Pero y
Por tanto
Luego el intervalo de confianza será: I.C. = de nivel 1−
Si se desease obtener el intervalo de confianza para, es decir, para la desviación típica, como la raíz es función
creciente, entonces:
I.C. = para, de nivel 1−
• Intervalo de confianza para la diferencia de medias en poblaciones normales con varianza conocida:
Sea x1, x2, ...., xn un muestreo aleatorio simple de Ny y1, y2, ...., yn uno de N. Ambas muestras
independientes. Supongamos que y son desconocidos y yconocidas. Se desea obtener un intervalo de
confianza para
−de nivel 1−.
Sabemos que
Existe unverificando
Despejando:
Entonces
Luego el intervalo de confianza es:
I.C. = de nivel 1−
• Intervalo de confianza para en una distribución de Poisson si la muestra es muy grande.
Sea x1, x2, ...., xn muestreo aleatorio simple de P() condesconocido y suponemos que n es muy grande.
El EMV dees que es EMV y alcanza la Cota de Cramer Rao. Como consecuencia:
(Teorema del límite central)
Existe por tanto tal que
9
Pero y
Como los extremos del intervalo de confianza dependen de, tal y como ha probado el resultado, no podemos
obtener un intervalo de confianza. Existen dos alternativas:
• Método aproximado: Consiste en sustituir en los extremos anteriores el valor de
por su EMV. Entonces:
I.C. = de nivel 1−.
• Método exacto:
, pero
Como el coeficiente dees positivo, la parábola es cóncava y por tanto la ecuación anterior se satisface para los
valores decomprendido entre las dos raíces.
Por lo que el intervalo de confianza es:
I.C. = de nivel 1−
• Intervalo de confianza para el parámetro el parámetro p en una distribución binomial.
Sea x1, x2, ...., xn muestreo aleatorio simple de B(1, p). Se desea obtener un intervalo de confianza de nivel
1−para p en muestras grandes. El estimador de máxima verosimilitud para p (que es insesgado y de mínima
varianza) es.
si n es grande
Como consecuencia existe untal que:
Despejando:
Primer procedimiento (aproximado): se sustituye el parámetro en los límites de confianza para el estimador de
máxima verosimilitud.
I.C. = de nivel 1−
Segundo procedimiento (exacto):
Pero:
Luego, el intervalo de confianza será:
I.C. = Pruebas de hipótesis para diferentes parámetros y distribuciones
• Contraste de la media de una población normal con varianza conocida
♦ Contraste bilateral
Hipótesis nula:
10
Hipótesis alternativa:
Estadístico de contraste: en donde
siendo una muestra de la población considerada normal, varianza conocida y n = tamaño de la muestra.
Región crítica:
siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a.
Región de aceptación:
Se acepta H0 si
• Contraste unilateral
Hipótesis nula:
Hipótesis alternativa:
Estadístico de contraste:
Región crítica:
siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a.
Región de aceptación:
Se acepta H0 si
• Contraste de la media de una población normal con varianza desconocida
• Contraste bilateral
• Muestras grandes
Hipótesis nula:
Hipótesis alternativa:
Estadístico de contraste:
en donde
siendo una muestra de la población considerada normal, varianza conocida y
n = tamaño de la muestra.
Región crítica:
siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a.
11
Región de aceptación:
Se acepta H0 si
• Muestras pequeñas
Hipótesis nula:
Hipótesis alternativa:
Estadístico de contraste:
Región crítica:
siendoel valor de la abscisa de la t de Student con n−1 grados de libertad, que deja a su derecha un área de
probabilidad igual a.
Región de aceptación:
Se acepta H0 si
• Contraste unilateral
a) Muestras grandes
Hipótesis nula:
Hipótesis alternativa:
Estadístico de contraste:
Región crítica:
siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a.
Región de aceptación:
Se acepta H0 si
b) Muestras pequeñas
Hipótesis nula:
Hipótesis alternativa:
Estadístico de contraste:
Región crítica:
siendoel valor de la abscisa de la t de Student conm (n−1) grados de libertad, que deja a su derecha un área de
probabilidad igual a.
12
Región de aceptación:
Se acepta H0 si
• Contraste para la varianza de una población normal
• Contraste bilateral
Hipótesis nula:
Hipótesis alternativa:
Estadístico de contraste:
Región crítica:
en donde es el valor de la abscisa de una distribución con n−1 grados de libertad, que deja a su derecha un
área de probabilidad igual a , yes el valor de la abscisa de una distribución con n−1 grados de libertad, que
deja a su derecha un área de probabilidad igual a
Región de aceptación:
Se acepta H0 si
• Contraste para el parámetro p de una distribución binomial.
• Contraste bilateral
Hipótesis nula:
Hipótesis alternativa:
Estadístico de contraste:
en dondees el estimador centrado de p,frecuencia relativa del suceso del experimento dicotómico sobre el que
se construye el modelo binomial, en una muestra de tamaño n.
Región crítica:
Región de aceptación:
Se acepta H0 si
• Contraste unilateral
Hipótesis nula:
Hipótesis alternativa:
Estadístico de contraste:
Región crítica:
13
Región de aceptación:
Se acepta H0 si
Determinación del tamaño de la muestra
El problema de determinar el tamaño de la muestra es crucial dentro del contexto de la inferencia estadística.
Se considera, para precisar, que un tamaño de la muestra excesivamente elevado puede elevar demasiado el
tiempo y el dinero en el coste de la investigación y, por otra parte, si la muestra es demasiado pequeña
podemos no encontrar el deseado grado de fiabilidad. En todos los intervalos de confianza considerados, la
longitud del intervalo (límite superior − límite inferior) era inversamente proporcional al tamaño de la
muestra, es decir, a mayor tamaño de la muestra menos longitud del intervalo y mayor precisión en nuestra
estimación.
En los contextos de los intervalos de confianza, hay que considerar dos aspectos relacionados con la frase idea
razonable. En primer lugar, ¿qué nivel de confianza se debe seleccionar? En segundo lugar, ¿cuál es el límite
de tolerancia para la extensión del intervalo?
El nivel de confianza a menudo se fija en un 90% o 95%. En parte, esta es una costumbre tribal primitiva que
ha pasado de generación en generación en los libros de estadística; en parte, es una traducción conveniente de
una certeza razonable.
Considerando el intervalo de confianza para la media de una distribución normal de varianza conocida, un
intervalo de confianza a un nivel 1− será:
I.C. =
El límite inferior es
El límite superior es
La longitud del intervalo es:
L = L.S. − L.I. =
Tres son las cantidades que determinan el valor del término más−menos: el nivel
de confianza deseado (que determina el valor z utilizado), la desviación estándary el tamaño de la muestra.
Por lo general, el tamaño de la desviación estándar de la población se debe estimar. (En ocasiones, se toma
una muestra inicial para estimar la desviación estándar; esta estimación proporciona una base para determinar
el tamaño de la muestra adicional que se necesita). Para una tolerancia dada, una vez que el intervalo de
confianza se ha especificado y se ha proporcionado una estimación de, el tamaño de muestra requerido se
puede calcular por ensayo y error o con una fórmula.
Se plantea el problema de determinar el tamaño de la muestra n, de forma que la
diferencia entre la media poblacional y la media muestral sea en valor absoluto menor que un cierto error.
ahora bien, se sabe que en términos de probabilidad existe una probabilidad 1− de que esté en el intervalo
aleatorio de confianza
es decir,
14
Entonces
y
• Determinación del tamaño de la muestra para estimar la media de una población con varianza
desconocida:
Partimos del intervalo de confianza de la media al nivel 1−
pudiendo expresarse este intervalo, también como
donde al ser, la expresión representa el error que se comete en el proceso de estimación. Si situamos dicho
error en el límite aceptado, es decir, si hacemos
es posible determinar el tamaño de la muestra n a través de la igualdad
• Determinación del tamaño de la muestra para estimar la proporción p de una población:
Análogamente al caso anterior, se considera el correspondiente intervalo de confianza para el parámetro p al
nivel 1−
donde la probabilidad de cometer un error viene dada por
concluyéndose que
Si no se dispone de una estimación previa de p, por ejemplo, a través de una muestra piloto de tamaño
reducido, se puede utilizar la cota superior
ya que máx Resumen
Un contraste de hipótesis requiere una hipótesis que genere predicciones sin ambigüedad de los valores de una
variable en una población. Esta hipótesis se denomina hipótesis nula, H0, y el objetivo del contraste es
comprobar si podemos rechazarla. Para ello se define una medida de discrepancia entre los datos y la hipótesis
y se estudia su distribución cuando H0 es cierta. Se denomina p−valor a la posibilidad de que la medida de
discrepancia tome su valor mayor que el observado. Se fija un nivel de significación, que representa la
probabilidad de rechazar H0 cuando es cierta. Este nivel permite definir una región de rechazo. Si la
discrepancia está en ella, rechazaremos H0. En caso contrario, la asumiremos provisionalmente. Los
contrastes pueden ser unilaterales o bilaterales, en función de cómo establezcamos la hipótesis alternativa.
Para realizar un contraste sobre la proporción en una población tomamos como medida de discrepancia el
error relativo de estimación de acuerdo con H0. Si el tamaño muestral es grande, este error relativo sigue una
distribución t de Student, a partir de la cual se construye la región de rechazo.
Bibliografía
• Curso y ejercicios de Estadística
Ed. Alambra Univerdisad
Autor: V. Quesada y otros
• Introducción a la estadística para las Ciencias Sociales
15
Ed. McGraw−Hill
• Fundamentos de Inferencia Estadística
Ed. AC
Autor: Luis Ruiz−Maya y otros
• Estadística para la administración y economía
Ed. Anderson Sweeney Williams
• Estadística aplicada a la administración y economía
Ed. Addison−Wesley
Autor: Hildebrand y otros
• Apuntes de la asignatura Estadística Matemática, de Estadística de la Universidad Complutense de
Madrid, profesor Conrado Manuel
Indice
Introducción teórica 1
Contraste de hipótesis 5
Distribución del estimador en el muestreo 10
Errores de tipo I y de tipo II 12
Intervalos de confianza 14
Pruebas de hipótesis para diferentes parámetros y distribuciones 21
Determinación del tamaño de la muestra 26
Resumen 29
Bibliografía 30
Parte práctica 31
Estadística: Contraste de hipótesis
16
Descargar