Introducción teórica Llamaremos hipótesis estadística a una afirmación respecto a una característica de una población. Contrastar una hipótesis es comparar las predicciones que se deducen de ella con la realidad que observamos: si hay coincidencia, dentro del margen de error admisible, mantendremos la hipótesis; en caso contrario, la rechazaremos. Rechazar una hipótesis implica sustituirla por otra capaz de explicar los datos observados. Las siguientes afirmaciones son hipótesis estadísticas: • El tabaco produce cáncer de pulmón. • Disminuir los impuestos disminuye el fraude fiscal. • Las mujeres son más apasionadas que los hombres. Estas tres hipótesis no se refieren a individuos particulares, sino al conjunto de elementos de una o varias poblaciones. En estos ejemplos vemos que el contraste de hipótesis requiere, como pasos previos: • Especificar la población de interés • Definir la variable a que nos referimos y como medirla. • Relacionar la hipótesis con los parámetros de la o las poblaciones. Tipo de hipótesis Las hipótesis estadísticas más habituales pueden clasificarse en dos grupos, según que: • Especifiquen un valor concreto o un intervalo para un parámetro de la distribución de una variable. • Establezcan la igualdad de algún parámetro en las distribuciones de una variable en dos o más poblaciones. Un ejemplo del primer tipo es establecer que el tiempo medio diario invertido en desplazamiento por los estudiantes de una universidad es de 45 minutos. Del segundo, que el tiempo medio invertido es el mismo para los estudiantes de mañana y de la tarde. Aunque la metodología para realizar el contraste es análoga en ambos casos, es importante distinguir entre ellos porque: • El contraste de una hipótesis respecto a un parámetro está muy relacionado con la construcción de intervalos de confianza, y tiene frecuentemente una respuesta satisfactoria en términos de estimación. • La comparación dedos o más poblaciones requiere en general un diseño experimental que asegure la homogeneidad de las comparaciones. Hipótesis nula y alternativa Llamaremos hipótesis nula, y la representaremos por H0, a la hipótesis que se desea contrastar. La hipótesis nula es en general una hipótesis simple que permite hacer predicciones sin ambigüedad. El nombre de nula proviene de que H0 representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad. Nula debe entenderse en el sentido de neutra . La hipótesis H0 nunca se considera probada, aunque puede ser rechazada por los datos. Por ejemplo, la hipótesis de que todos los elementos de una población tienen el mismo valor de una variable puede ser rechazada encontrando un elemento que no lo 1 contenga, pero no puede ser demostrada más que estudiando todos los elementos de la población, tarea que puede ser imposible. De igual manera, la hipótesis de que la media de una población es diez puede ser rechazada fácilmente si la media verdadera está muy lejos de diez analizando una muestra suficientemente grande. Sin embargo, no puede ser demostrada mediante muestreo, ya que es posible que la media difiera de diez en un valor pequeño imperceptible en el muestreo). Por esta razón no afirmamos que aceptamos H0, sino que no podemos rechazarla. La hipótesis H0 se elige normalmente de acuerdo con el principio de simplicidad científica. Este principio establece que solamente debemos abandonar un modelo simple a favor de otro más complejo cuando la evidencia a favor de este último sea fuerte. Si rechazamos H0, estamos implícitamente aceptando la hipótesis alternativa, Ha, que puede ser simplemente la negación de Ha. En algunos casos queremos decidir entre dos hipótesis simples y Ha está perfectamente determinada. Sin embargo, el caso más frecuente es que H0 sea simple, del tipo y Ha se tome de una de las siguientes formas: • Desconocemos antes de realizar el contraste en que dirección puede ser falsa H0. Entonces Ha es simplemente la negación de. Decimos entonces que el contraste es bilateral. • Conocemos la dirección en que H0 puede ser falsa. Es decir, si H0 es falsa, en ese caso forzosamente (o bien). Por ejemplo, se introduce una medida en una población que, si tiene efectos, puede mejorar una variable pero es imposible que pueda empeorarla. Tenemos entonces un contraste unilateral. Estadístico de la prueba Los datos se deben sintetiza en un estadística de la prueba. Dicho estadístico se calcula para ver si es razonablemente compatible con la hipótesis nula. Cuando se prueba una proporción el estadístico de la prueba es muy simple: se cuenta el número de éxitos en la muestra para encontrar el estadístico. En las pruebas de hipótesis es necesario trazar una línea entre los valores del estadístico de la prueba que son relativamente probables dada la hipótesis nula y los valores que no lo son. ¿En qué valor del estadístico de la prueba comenzamos a decir que los datos apoyan a la hipótesis alternativa? Para contestar a esta pregunta se requiere conocer la distribución muestral del estadístico de la prueba. Los valores del estadístico de la prueba que son sumamente improbables bajo la hipótesis nula (tal como los determina la distribución muestral) forman una región de rechazo para la prueba estadística. Región de rechazo Llamaremos región de rechazo C asociada al contraste de hipótesis, al conjunto de valores muestrales bajo los cuales se rechaza la hipótesis nula. Fijada la región de rechazo automáticamente se tiene la regla de decisión. Si nuestra muestra pertenece a la región de rechazo rechazamos H0 y si no, la aceptamos. Precisamente el objetivo de la teoría de los contrastes o test de hipótesis es determinar para cada contraste cúal es la región de rechazo óptima en base a criterios que se especificarán. Nivel de significación Para realizar un contraste de hipótesis se define normalmente una medida de discrepancia, entre los datos muestrales y la hipótesis nula H0. Intuitivamente la discrepancia debe depender de la diferencia entre el valor 2 del parámetro especificado por H0 y el valor del estimador calculado en la muestra. Para obtener una medida de discrepancia que no dependa de las unidades de medida de la variable podemos dividir esta diferencia por su valor promedio, que es el error típico de estimación del parámetro. Por tanto, la medida de discrepancia más habitual es: Hay que decidir que discrepancias consideramos inadmisibles bajo H0, es decir, cual es la máxima diferencia entre el estimador y el parámetro que estamos dispuestos a considerar compatible con H0. Esta decisión depende de: • La distribución de la medida de discrepancia cuando es cierta H0. Como veremos, la medida de discrepancia tiene generalmente una distribución normal, de media cero y desviación típica uno, cuando H0 es cierta. • Que el contraste sea unilateral o bilateral. Para contrastes unilaterales interesan las discrepancias en una dirección, mientras que para los bilaterales interesan en ambas. Una vez decidido que tipo de discrepancias llevan a rechazar H0, (que dependerá sólo de si el contraste es unilateral o bilateral) hay que determinar cual es la discrepancia máxima admisible, lo que dependerá de la distribución de la medida de discrepancia cuando es cierta H0. Llamaremos p−valor del contraste, a la probabilidad de obtener una discrepancia mayor que la observada. Rechazaremos H0 cuando el p−valor sea pequeño (menor de 0,05 o 0,01) Contraste de hipótesis Supongamos que estamos en un contexto paramétrico. Es decir, x1 , x2 ...... xn es un muestreo aleatorio simple de f siendo un parámetro desconocido. Llamaremos al espacio paramétrico, es decir, el conjunto de los valores posibles para. En los contrastes de hipótesis, lo que interesa es determinar si podemos admitir queo debemos admitir quedondey constituyen una partición de. Ambas hipótesis se tratan de forma diferente. A la primera se le conoce como hipótesis nula. A la segundacomo hipótesis alternativa. Se suele simbolizar: La hipótesis nula no se considera probada pero es la que mantendremos a menos que los datos evidencien lo contrario. Luego el problema en general es si admitimos o no H0. Hipótesis simples y compuestas Llamaremos hipótesis simples a aquellas que especifican un único valor para el parámetro (por ejemplo m=m0). Llamaremos hipótesis compuestas a las que especifican un intervalo de valores (por ejemplo: m>m0 ; a< m <b) Se ha definido un contraste de hipótesis como: donde (espacio paramétrico) y Diremos que la hipótesis Hi es simple sicontiene un único punto, y diremos que la hipótesis Hi es compuesta si contiene más de un valor. En particular, sientonces el tamaño del contraste es igual a Entonces si un contraste tiene hipótesis nula simple, el tamaño del contraste es el valor de la función de potencia en, y por tanto la probabilidad de rechazar la hipótesis nula si es cierta será. 3 Contrastes de hipótesis simples Diremos que un contraste es de hipótesis simple cuando las hipótesis nula y alternativa son de la forma, En este caso. La función de potencia sólo tiene los valores y Asociada a un contraste de hipótesis simples existen 2 tipos de error: • rechazar H0 cuando es cierta. (Error de Tipo I) • aceptar H0 cuando en realidad es falsa (Error de Tipo II) Sies un contraste para frente a basada en una región crítica C, los dos tipos de errores tienen las siguientes probabilidades (Probabilidad de error del tipo I) (Probabilidad de error del tipo II) El objetivo obvio es encontrar un contrasteque minimicey.Es claro que podemos conseguir contrastesque hagan. Para ello basta con aceptar siempre que C = 0. Pero entonces: (todo el conjunto de resultados) = 1 Nuestro objetivo va a ser en general minimizar combinaciones lineales dey de. Lema de Neyman − Pearson En un contraste de hipótesis simple sea* el procedimiento que rechaza H0 cuando n · f0(x1...xn) < f1(x1...xn). Acepto H0 cuando n · f0(x1...xn) > f1(x1...xn) y toma cualquier decisión si se da n · f0(x1...xn) = f1(x1...xn). Sies cualquier otro contraste tal que, entonces. Y si entonces Contrastes uniformemente más potentes Volviendo al problema general del contraste de hipótesis donde x1, x2, ...., xn es un muestreo aleatorio simple de una población f(x,, donde es un parámetro desconocido y, espacio paramétrico. Seauna partición de, es decir, dos conjuntos disjuntos cuya unión es. Estamos interesados en contrastar: con un nivel de significación, es decir, y tal quesea máximo si. Supongamos quecontiene al menos dos valores, es decir, la alternativa no es simple. En este caso puede ocurrir que no exista un procedimiento de contraste que maximice para todos los valores, es decir, puede ocurrir que si existencontrastes, tales que si yentonces y es decir que ambas regiones críticas tengan nively sin embargopero, es decir, la región crítica asociada amaximiza la función de potencia en y la región crítica asociada amaximiza la función de potencia en. Sin embargo existen situaciones en las que aparece una región de tamaño menor o igual a y que maximiza la función de potencia en todos los valores de la hipótesis alternativa. A tal región crítica o a tal contraste se le denomina contraste o región crítica uniformemente más potente. Definición: En un contraste , de nivel diremos que la región crítica asociada al contraste es uniformemente más potente si: 4 (es de nivel) y , Se pueden encontrar test uniformemente más potentes cuando la alternativa es de tipo unilateral y la verosimilitud de la muestra verifica la propiedad de poseer un cociente de verosimilitudes monótono en un cierto estadístico. Definición: Sea x1, x2, ...., xn un muestreo aleatorio simple de f(x, y sea T un estadístico. Diremos que f(x, verifica o tiene cociente de verosimilitudes monótonas en T si dados y, entonces: depende sólo de la muestra a través de T, y es creciente en T. Contrastes de hipótesis compuestas con alternativa unilateral Diremos que la hipótesis alternativa es unilateral cuando todos los valores del espacio paramétrico bajo la alternativa están a un lado de los valores bajo la hipótesis nula. En un contraste de este tipo las hipótesis se dan: ; ó ; En este tipo de contrastes van a existir unos test uniformemente más potentes. Teorema: Sea x1, x2, ...., xn un muestreo aleatorio simple de f(x,, desconocido. Si f(x,tiene cociente de verosimilitud monótono en el estadístico T, entonces la región crítica es uniformemente más potente. Contraste uniformemente más potente para decidir entre: a nivel de significaciónes: donde c se determina para que Contrastes insesgados Cuando un contraste no es uniformemente más potente se le exigirá que al menos sea insesgado. Un contraste es insesgado cuando si es su función de potencia, se verifica que: y Dualidad entre intervalos de confianza y contraste de hipótesis Supongamos que (U,V) es un intervalo de confianza de nivel de confianza 1−para el parámetro desconocido en la población I.C. para = (U,V) Si deseamos contrastar frente a, podemos elegir como región crítica: , es decir, rechazar la H0 si no pertenece al intervalo de confianza (U,V). Es lo mismo que decir que x1, ..., xn es tal que el valor del parámetro no está entre los valores U y V obtenidos a partir de la muestra. ¿Cuál es el nivel de significación asociado a esta región crítica? 5 Por lo que, si 1−es el nivel de confianza del intervalo, es el nivel de significación del contraste asociado. En contrastes en los que la hipótesis nula es simple y la alternativa es bilateral, se puede utilizar el intervalo de confianza sobre el parámetro para obtener un contraste de nivel, siendo 1− el nivel de confianza del intervalo. Esta prácticaes usual en este tipo de contrastes, en los que no existe uno uniformemente más potente. complementario del intervalo de confianza para condesconocido. Por tanto, en estos casos, donde la hipótesis nula es simple y la alternativa bilateral, utilizaremos el intervalo de confianza para determinar el contraste asociado.Distribución del estimador en el muestreo Un concepto importante en el planteamiento de la inferencia estadística es la de función de distribución de la muestra, definida en una muestra de tamaño n como: siendo Ni el número de observaciones muestrales o iguales que xi, es decir, la frecuencia acumulada. Esta función presenta tantos saltos como valores muestrales haya, siendo la cuantía del salto cuando no se repite el valor xi, y cuando xi se repite ni veces, lo que indica que la función de distribución empírica es siempre discreta. En la función de distribución empírica de la muestra podemos calcular todos sus momentos, uni o k−dimensionales, con respecto al origen o a la media, como en una población cualquiera y, para distinguirlos de los poblacionales, se les denominará momentos de la muestra o muestrales, representándolos por ar o mr (según sean respecto al origen o a la media). Estadístico Cualquier función de los elementos muestrales recibe el nombre de estadístico, siempre que no tenga parámetros desconocidos, designándose por T(X)=T(x1, ..., xn). En particular, se trata con estadísticos muy concretos: los momentos muestrales, el valor mínimo o máximo de la muestra, etc... Los elementos que integran la muestra son variables aleatorias, por lo que cualquier función de estos elementos, el estadístico, también será variable aleatoria. Como tal variable aleatoria el estadístico tendrá su propio campo de variación y su distribución de probabilidad determinados, a su vez, unívocamente por el campo de variación y la distribución de la población. El campo de variación del estadístico es el conjunto de valores que toma para cada uno de los elementos del espacio muestral correspondiente. Si se considera un estadístico cualquiera, se toma todas las posibles muestras y en cada una de ellas se calcula su valor, se obtiene todos sus posibles valores, su campo de variación. Dado que un estadístico se genera en el proceso de muestreo, su distribución de probabilidad recibe el nombre de distribución de probabilidad en el muestreo. El concepto de distribución. Teorema Central del Límite Sea x1, x2, ..., xn una sucesión de variables aleatorias independientes tales que existe su esperanza y su varianza siendo y . Entonces. Como entonces 6 Alternativamente, el teorema central del límite se puede expresar: Todo fenómeno aleatorio en cuya realización intervienen múltiples causas que actúen aditivamente e independientemente tiene distribución normal, siempre que las causas tengan esperanza y varianza finita.Errores de Tipo I y de Tipo II Las hipótesis nula y alternativa son aseveraciones sobre la población que compiten entre sí. O la hipótesis nula H0 es verdadera, o lo es la hipótesis alternativa Ha, pero no ambas. En el caso ideal, el procedimiento de prueba de hipótesis debe conducir a la aceptación de H0 cuando sea verdadera y al rechazo de H0 cuando Ha sea verdadera. Desafortunadamente no siempre son posibles las conclusiones correctas. Como las pruebas de hipótesis se basan en información de muestra, debemos considerar la posibilidad de errores. Aceptar H0 Condición de la población H0 verdadera Ha verdadera Conclusión correcta Error de tipo II Rechazar H0 Error de tipo I Conclusión Conclusión correcta Esta tabla muestra los dos tipos de errores que se pueden cometer en la prueba de hipótesis. El primer renglón muestra lo que puede suceder cuando la conclusión es aceptar H0. Si H0 es verdadera, esta conclusión es correcta. Sin embargo, si Ha es verdadera, hemos cometido un error de tipo II, es decir, hemos aceptado H0 siendo falsa. El segundo renglón muestra lo que puede suceder cuando la conclusión es rechazar H0. Si H0 es verdadera, hemos cometido un error de tipo I, es decir, rechazar H0 cuando es verdadera. Sin embargo, si Ha es verdadera, es correcto rechazar H0. Si bien no se puede eliminar la posibilidad de errores en la prueba de hipótesis, sí podemos considerar la probabilidad de su ocurrencia. Se usa la siguiente notación estadística normal para indicar las probabilidades de cometer esos errores: = probabilidad de cometer un error de tipo I. = probabilidad de cometer un error de tipo II. Función de potencia Consideraremos un contraste de hipótesis: con región crítica C. Definimos la función de potencia del test como la probabilidad de rechazar la H0 si es el verdadero valor del parámetro. Por tanto Entonces es la mayor de las probabilidades de rechazar la H0 cuando es cierta. Representa por tanto la máxima probabilidad de equivocarnos al rechazar H0. Esta cantidad recibe el nombre de tamaño del contraste. En ocasiones interesa acotar esta probabilidad por una cantidad más pequeña, en general 0,05 ; 0,01 ; ó 0,1 que recibe el nombre de nivel de significación del contraste. Entonces se exige que. Intervalos de Confianza 7 Estimación por intervalos de confianza Cuando estimamos un parámetro en una densidad f(x,) a partir de un muestreo aleatorio simple, lo hacemos a partir del valor de una variable aleatoria, que es estimador de. Aún cuando dicho estimador haya sido obtenido para que goce de buenas propiedades, por ejemplo ser insesgado, en la práctica nadie nos garantiza el grado de divergencia entre la estimación obtenida y el verdadero valor del parámetro desconocido. Por ello parece razonable controlar las estimaciones puntuales con otros parámetros de estimación en los cales se posee información paramétrica entre estimaciones y parámetros desconocidos. A tal efecto, surgen los intervalos de confianza para estimar parámetros. Un intervalos de confianza para un parámetro será un intervalo donde podemos controlar la probabilidad de que se encuentre verdaderamente. Definición: Sea x1, x2, ...., xn un muestreo aleatorio simple de una población f(x,,donde es un parámetro desconocido. Un intervalo de confianza para viene dado por dos estadísticos U y V tales. es una cantidad que fija el investigador, usualmente los valores desuelen ser 0,1 ; 0,01 ó 0,05. Por defecto = 0,05. U y V son estimadores por defecto y por exceso de. Diremos entonces que (U,V) es el intervalo de confianza para de nivel de confianza 1 −. Una vez que se observen los valores muestrales ,su sustitución en (U,V) proporciona el intervalo numérico (U,V). La interpretación del intervalo de confianza es el siguiente en una larga serie de determinaciones de intervalos basados en muestras distintas, el 100·(1−)% de tales intervalos contendría el valor de. Intervalos de Confianza • Intervalo de Confianza para la media de una población normal con varianza conocida: Sea x1, x2, ...., xn un muestreo aleatorio simple de N,desconocido yconocido. Se desea obtener un intervalo de confianza para de nivel. Como consecuencia del teorema de Fisher se sabe que . Por tanto . Existe tal que Pero Por tanto: Entonces: I.C. = de nivel • Intervalo de confianza para la media de una normal con varianza desconocida Sea x1, x2, ...., xn un muestreo aleatorio simple de N, ydesconocidos. Se desea obtener un intervalo de confianza para de nivel. Sabiendo como consecuencia del teorema de Fisher se sabe que y que , entonces: Por tanto existe un tal que . Además, Entonces 8 y por tanto el intervalo de confianza para de niveles: I.C. = • Intervalo de confianza para la varianza de una normal: Sea x1, x2, ...., xn un muestreo aleatorio simple de Ncondesconocida. puede ser conocida o desconocida. Se desea obtener un intervalo de confianza para . Según el teorema de Fisher . Existen cantidades Ka y Kb tales que: . Pero y Por tanto Luego el intervalo de confianza será: I.C. = de nivel 1− Si se desease obtener el intervalo de confianza para, es decir, para la desviación típica, como la raíz es función creciente, entonces: I.C. = para, de nivel 1− • Intervalo de confianza para la diferencia de medias en poblaciones normales con varianza conocida: Sea x1, x2, ...., xn un muestreo aleatorio simple de Ny y1, y2, ...., yn uno de N. Ambas muestras independientes. Supongamos que y son desconocidos y yconocidas. Se desea obtener un intervalo de confianza para −de nivel 1−. Sabemos que Existe unverificando Despejando: Entonces Luego el intervalo de confianza es: I.C. = de nivel 1− • Intervalo de confianza para en una distribución de Poisson si la muestra es muy grande. Sea x1, x2, ...., xn muestreo aleatorio simple de P() condesconocido y suponemos que n es muy grande. El EMV dees que es EMV y alcanza la Cota de Cramer Rao. Como consecuencia: (Teorema del límite central) Existe por tanto tal que 9 Pero y Como los extremos del intervalo de confianza dependen de, tal y como ha probado el resultado, no podemos obtener un intervalo de confianza. Existen dos alternativas: • Método aproximado: Consiste en sustituir en los extremos anteriores el valor de por su EMV. Entonces: I.C. = de nivel 1−. • Método exacto: , pero Como el coeficiente dees positivo, la parábola es cóncava y por tanto la ecuación anterior se satisface para los valores decomprendido entre las dos raíces. Por lo que el intervalo de confianza es: I.C. = de nivel 1− • Intervalo de confianza para el parámetro el parámetro p en una distribución binomial. Sea x1, x2, ...., xn muestreo aleatorio simple de B(1, p). Se desea obtener un intervalo de confianza de nivel 1−para p en muestras grandes. El estimador de máxima verosimilitud para p (que es insesgado y de mínima varianza) es. si n es grande Como consecuencia existe untal que: Despejando: Primer procedimiento (aproximado): se sustituye el parámetro en los límites de confianza para el estimador de máxima verosimilitud. I.C. = de nivel 1− Segundo procedimiento (exacto): Pero: Luego, el intervalo de confianza será: I.C. = Pruebas de hipótesis para diferentes parámetros y distribuciones • Contraste de la media de una población normal con varianza conocida ♦ Contraste bilateral Hipótesis nula: 10 Hipótesis alternativa: Estadístico de contraste: en donde siendo una muestra de la población considerada normal, varianza conocida y n = tamaño de la muestra. Región crítica: siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a. Región de aceptación: Se acepta H0 si • Contraste unilateral Hipótesis nula: Hipótesis alternativa: Estadístico de contraste: Región crítica: siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a. Región de aceptación: Se acepta H0 si • Contraste de la media de una población normal con varianza desconocida • Contraste bilateral • Muestras grandes Hipótesis nula: Hipótesis alternativa: Estadístico de contraste: en donde siendo una muestra de la población considerada normal, varianza conocida y n = tamaño de la muestra. Región crítica: siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a. 11 Región de aceptación: Se acepta H0 si • Muestras pequeñas Hipótesis nula: Hipótesis alternativa: Estadístico de contraste: Región crítica: siendoel valor de la abscisa de la t de Student con n−1 grados de libertad, que deja a su derecha un área de probabilidad igual a. Región de aceptación: Se acepta H0 si • Contraste unilateral a) Muestras grandes Hipótesis nula: Hipótesis alternativa: Estadístico de contraste: Región crítica: siendoel valor de la abscisa de la normal N(0,1), que deja a su derecha un área de probabilidad igual a. Región de aceptación: Se acepta H0 si b) Muestras pequeñas Hipótesis nula: Hipótesis alternativa: Estadístico de contraste: Región crítica: siendoel valor de la abscisa de la t de Student conm (n−1) grados de libertad, que deja a su derecha un área de probabilidad igual a. 12 Región de aceptación: Se acepta H0 si • Contraste para la varianza de una población normal • Contraste bilateral Hipótesis nula: Hipótesis alternativa: Estadístico de contraste: Región crítica: en donde es el valor de la abscisa de una distribución con n−1 grados de libertad, que deja a su derecha un área de probabilidad igual a , yes el valor de la abscisa de una distribución con n−1 grados de libertad, que deja a su derecha un área de probabilidad igual a Región de aceptación: Se acepta H0 si • Contraste para el parámetro p de una distribución binomial. • Contraste bilateral Hipótesis nula: Hipótesis alternativa: Estadístico de contraste: en dondees el estimador centrado de p,frecuencia relativa del suceso del experimento dicotómico sobre el que se construye el modelo binomial, en una muestra de tamaño n. Región crítica: Región de aceptación: Se acepta H0 si • Contraste unilateral Hipótesis nula: Hipótesis alternativa: Estadístico de contraste: Región crítica: 13 Región de aceptación: Se acepta H0 si Determinación del tamaño de la muestra El problema de determinar el tamaño de la muestra es crucial dentro del contexto de la inferencia estadística. Se considera, para precisar, que un tamaño de la muestra excesivamente elevado puede elevar demasiado el tiempo y el dinero en el coste de la investigación y, por otra parte, si la muestra es demasiado pequeña podemos no encontrar el deseado grado de fiabilidad. En todos los intervalos de confianza considerados, la longitud del intervalo (límite superior − límite inferior) era inversamente proporcional al tamaño de la muestra, es decir, a mayor tamaño de la muestra menos longitud del intervalo y mayor precisión en nuestra estimación. En los contextos de los intervalos de confianza, hay que considerar dos aspectos relacionados con la frase idea razonable. En primer lugar, ¿qué nivel de confianza se debe seleccionar? En segundo lugar, ¿cuál es el límite de tolerancia para la extensión del intervalo? El nivel de confianza a menudo se fija en un 90% o 95%. En parte, esta es una costumbre tribal primitiva que ha pasado de generación en generación en los libros de estadística; en parte, es una traducción conveniente de una certeza razonable. Considerando el intervalo de confianza para la media de una distribución normal de varianza conocida, un intervalo de confianza a un nivel 1− será: I.C. = El límite inferior es El límite superior es La longitud del intervalo es: L = L.S. − L.I. = Tres son las cantidades que determinan el valor del término más−menos: el nivel de confianza deseado (que determina el valor z utilizado), la desviación estándary el tamaño de la muestra. Por lo general, el tamaño de la desviación estándar de la población se debe estimar. (En ocasiones, se toma una muestra inicial para estimar la desviación estándar; esta estimación proporciona una base para determinar el tamaño de la muestra adicional que se necesita). Para una tolerancia dada, una vez que el intervalo de confianza se ha especificado y se ha proporcionado una estimación de, el tamaño de muestra requerido se puede calcular por ensayo y error o con una fórmula. Se plantea el problema de determinar el tamaño de la muestra n, de forma que la diferencia entre la media poblacional y la media muestral sea en valor absoluto menor que un cierto error. ahora bien, se sabe que en términos de probabilidad existe una probabilidad 1− de que esté en el intervalo aleatorio de confianza es decir, 14 Entonces y • Determinación del tamaño de la muestra para estimar la media de una población con varianza desconocida: Partimos del intervalo de confianza de la media al nivel 1− pudiendo expresarse este intervalo, también como donde al ser, la expresión representa el error que se comete en el proceso de estimación. Si situamos dicho error en el límite aceptado, es decir, si hacemos es posible determinar el tamaño de la muestra n a través de la igualdad • Determinación del tamaño de la muestra para estimar la proporción p de una población: Análogamente al caso anterior, se considera el correspondiente intervalo de confianza para el parámetro p al nivel 1− donde la probabilidad de cometer un error viene dada por concluyéndose que Si no se dispone de una estimación previa de p, por ejemplo, a través de una muestra piloto de tamaño reducido, se puede utilizar la cota superior ya que máx Resumen Un contraste de hipótesis requiere una hipótesis que genere predicciones sin ambigüedad de los valores de una variable en una población. Esta hipótesis se denomina hipótesis nula, H0, y el objetivo del contraste es comprobar si podemos rechazarla. Para ello se define una medida de discrepancia entre los datos y la hipótesis y se estudia su distribución cuando H0 es cierta. Se denomina p−valor a la posibilidad de que la medida de discrepancia tome su valor mayor que el observado. Se fija un nivel de significación, que representa la probabilidad de rechazar H0 cuando es cierta. Este nivel permite definir una región de rechazo. Si la discrepancia está en ella, rechazaremos H0. En caso contrario, la asumiremos provisionalmente. Los contrastes pueden ser unilaterales o bilaterales, en función de cómo establezcamos la hipótesis alternativa. Para realizar un contraste sobre la proporción en una población tomamos como medida de discrepancia el error relativo de estimación de acuerdo con H0. Si el tamaño muestral es grande, este error relativo sigue una distribución t de Student, a partir de la cual se construye la región de rechazo. Bibliografía • Curso y ejercicios de Estadística Ed. Alambra Univerdisad Autor: V. Quesada y otros • Introducción a la estadística para las Ciencias Sociales 15 Ed. McGraw−Hill • Fundamentos de Inferencia Estadística Ed. AC Autor: Luis Ruiz−Maya y otros • Estadística para la administración y economía Ed. Anderson Sweeney Williams • Estadística aplicada a la administración y economía Ed. Addison−Wesley Autor: Hildebrand y otros • Apuntes de la asignatura Estadística Matemática, de Estadística de la Universidad Complutense de Madrid, profesor Conrado Manuel Indice Introducción teórica 1 Contraste de hipótesis 5 Distribución del estimador en el muestreo 10 Errores de tipo I y de tipo II 12 Intervalos de confianza 14 Pruebas de hipótesis para diferentes parámetros y distribuciones 21 Determinación del tamaño de la muestra 26 Resumen 29 Bibliografía 30 Parte práctica 31 Estadística: Contraste de hipótesis 16