Inferencia Estad´ıstica

MaMaEuSch Management Mathematics for European Schools http://www.mathematik.unikl.de/˜ mamaeusch Inferencia Estadı́stica Paula Lagares Barreiro* Justo Puerto Albandoz* MaMaEuSch** Management Mathematics for European Schools 94342 - CP - 1 - 2001 - 1 - DE - COMENIUS - C21 * Universidad de Sevilla Este proyecto ha sido llevado a cabo con ayuda parical de la Comunidad Europea en el marco del programa Sócrates. El contenido del proyecto no reflejy necesariamente la posición de la Comunidad Europea, ni implica ninguna responsabilidad por su parte. ** Índice general 1. Inferencia Estadı́stica 1.1. Introducción a la Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . 1.2. Distribución en el muestreo de un estadı́stico o estimador . . . . . . . . . . . . 1.3. Estimación puntual. Distribución en el muestreo de los principales estimadores 1.4. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1. Errores de estimación y tamaño de la muestra . . . . . . . . . . . . . . . 1.5. Contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1. Relación entre los intervalos de confianza y los contrastes de hipótesis . 1.5.2. Test de la bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.3. Contrastes de dependencia o independencia de caracteres . . . . . . . . 1.5.4. Test de homogeneidad de varias muestras . . . . . . . . . . . . . . . . . 1.6. Inferencia bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 3 4 5 7 8 10 11 12 13 14 2. Un ejemplo de aplicación de la inferencia 2.1. Para una población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Para dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 15 18 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capı́tulo 1 Inferencia Estadı́stica Dedicaremos este capı́tulo a ver de qué manera podemos inferir conclusiones sobre una población a través de los datos obtenidos mediante un muestreo. Haremos un recorrido por los diferentes conceptos que se necesitan conocer, ası́ como las técnicas a nuestro alcance. 1.1. Introducción a la Inferencia Estadı́stica Partimos de una muestra de 60 alumnos de una población de 544 alumnos en un Centro de Enseñanza Secundaria (CES). Una vez que tenemos los datos muestrales nos podemos hacer preguntas sobre el total de la población. Por ejemplo, ¿crees que podemos decir que la media de la altura de los alumnos del CES es mayor de 1’70? ¿Crees que 7 euros es un valor apropiado para representar la media de la paga de los alumnos de todo el centro? ¿Podemos decir que los datos de altura de los alumnos a los que les hemos preguntado son ”normales”? La Inferencia Estadı́stica responderá a estas cuestiones. La Inferencia Estadı́stica se compone de muchos métodos, que responden a preguntas muy variadas, según el objeto del estudio. ¿Cuál es una buena estimación de la altura media de los alumnos del centro? Preguntas como ésta se resuelven mediante métodos paramétricos, en los que supondremos conocida la distribución de la población y estudiaremos sus parámetros. ¿Cómo se distribuyen los datos de paga de los alumnos del centro? La respuesta a este tipo de preguntas, que se refieren a la distribución de la población, se resuelven mediante métodos no paramétricos. También existen diferentes métodos según la información de la que dispongamos y que utilicemos: Supongamos que la media de la altura de los alumnos del centro es un valor fijo que pretendemos conocer a través de la información que nos da la muestra. En este caso hablamos de inferencia clásica. También podemos suponer que la media de las alturas de los alumnos del centro es una variable aleatoria y que podemos conocer información a priori sobre esta variable. En este caso habları́amos de inferencia bayesiana En caso de que decidamos utilizar la inferencia clásica podemos extraer nuestras conclusiones de diferentes maneras. Podemos buscar un valor para la altura media de los alumnos del centro (que calcularemos a través de un estimador o estadı́stico) que consideraremos como valor del parámetro. En este caso harı́amos estimación puntual. Podemos buscar también un intervalo aleatorio dentro del cual podrı́amos encontrar con una determinada ”seguridad” el verdadero valor del parámetro, por ejemplo, el verdadero valor de la media de la paga de los alumnos del centro. En este caso estarı́amos hablando de estimación por intervalos. Imagina que tenemos un posible valor para la media de la altura de los alumnos del centro y queremos probar si este valor es ”aceptable” con una cierta ”confianza”. En este caso harı́amos un contraste de hipótesis. 2 Inferencia    según objetivo estudio,          métodos paramétricos métodos no paramétricos         inferencia clásica   según tipo información,             inferencia bayesiana 1.2.     Estimación puntual por intervalos Contraste    de hipótesis Distribución en el muestreo de un estadı́stico o estimador Tenemos, como ya hemos dicho, una muestra de tamaño 60 de nuestra población de alumnos de un CES. Estamos estudiando la paga y la altura de dichos alumnos. Si queremos conocer la media de la paga de los alumnos del centro, podemos utilizar los datos de los 60 alumnos que tenemos para hallar un aproximación a lo que buscamos. ¿Qué podrı́amos usar para ”predecir” el valor de la paga media de la población? Lo lógico es pensar que si hallamos la media de los valores muestrales, nos acercaremos al valor poblacional. La media muestral es para nosotros un estimador. Ahora bien, imaginemos que otro compañero tuyo tiene una muestra de tamaño 60 de la población, que obviamente, debe ser diferente a la que hemos obtenido nosotros. En ese caso, si calcula la media muestral ¿obtendrá el mismo valor que hemos obtenido nosotros? La respuesta es que generalmente no obtendrá el mismo valor. Nos interesa conocer entonces cómo varı́a la media muestral al cambiar los datos muestrales. Nuestro estimador se va a comportar como una variable aleatoria. Vamos a denominar estadı́stico a toda función de los valores muestrales. Dicha función asignará a cada posible muestra un valor numérico, por lo que en realidad, se tiene una variable aleatoria que tendrá una distribución de probabilidad. A la distribución de probabilidad de esta variable aleatoria se le llama distribución en el muestreo del estadı́stico que dependerá, evidentemente, de los parámetros desconocidos de la población y que son objeto de estudio. Se denomina estimador de un parámetro poblacional desconocido a todo estadı́stico que nos da un valor que, para la mayorı́a de las muestras, está próximo a un parámetro poblacional desconocido. Ejemplo 1.2.1 Imagina que tenemos en una bolsa tres papeletas. Vamos a hacer un sorteo en el que habrá dos posibles ganadores, es decir, una persona sacará una papeleta, y luego la volvemos a introducir y otra persona sacará otra papeleta. Una empresa se compromete a darnos para el viaje de fin de curso la media de lo que obtengamos entre las dos papeletas. Las papeletas tienen un valor de 0 euros, 500 euros y 1000 euros. ¿Cómo se comportarı́a la media de estas muestras de tamaño 2 sobre nuestra población de tres papeletas? ¿Qué es lo más probable? Las posibilidades que tenemos son las siguientes: (0, 0), (0, 500), (0, 1000), (500, 0), (500, 500), (500, 1000), (1000, 0), (1000, 500), (1000, 1000). Calculamos la media de todas ellas y vemos con qué probabilidad aparece cada valor X =media Probabilidad 0 1/9 250 2/9 500 3/9 750 2/9 1000 1/9 La media de la población (0, 500, 1000) es 500 y la varianza es 1666660b 6 mientras que para la variable aleatoria media muestral la media es 500 y la varianza es 833330b 3. Como vemos tiene la misma media pero la varianza de la media es algo menor. Si representamos la distribución de la media muestral, vemos que: se acerca a una distribución normal. El Teorema Central del Lı́mite viene a corroborar el hecho que acabamos de observar en el ejemplo anterior. Dada una variable aleatoria con media µ y varianza σ 2 , la distribución de las medias de las√muestras, a medida que n (tamaño muestral) aumenta hacia infinito tiende asintóticamente a una distribución N (µ, σ/ n). En el ejemplo anterior se han hallado todas las muestras posibles, pero imagina lo que supondrı́an los cálculos en caso de que quisiéramos hallar todas las muestras posibles de 60 alumnos para los 544 del centro. Serı́a interminable realizar todos esos cálculos. Por ello, se suele utilizar el método de Montecarlo, que consiste en simular, mediante las tablas de números aleatorios o el ordenador, la obtención de un gran número de muestras y a ellas se les calcula el valor del estadı́stico, con lo que se obtiene una distribución de probabilidad aproximada (tanto más cuanto mayor sea el número de muestras que se generen). 3 1.3. Estimación puntual. Distribución en el muestreo de los principales estimadores Llegó el momento de estimar los valores de los parámetros de la población. Queremos conocer la media y la varianza de la altura de los alumnos del centro y de su paga. Podemos tomar como estimación el valor de la media muestral y de la varianza muestral para nuestra muestra de 60 alumnos de los 544. En este caso, estaremos haciendo una estimación puntual, ya que estimamos el valor del parámetro desconocido a través de un único valor del estimador. Ahora bien ¿coincide la media de la distribución de nuestro estimador con el valor de nuestro parámetro poblacional? Por ejemplo, la media de la varianza muestral no coincide con la varianza poblacional, ası́ que no será un buen estimador de la varianza. ¿Se acerca el valor de la estimación cada vez más al parámetro si aumentamos el tamaño de la muestra? Estas y otras propiedades son deseables en un estimador. A la hora de estimar el valor del parámetro poblacional se exige al estadı́stico una serie de propiedades con el fin de obtener una estimación aceptable: Centrado o insesgado: la media de la distribución muestral del estadı́stico muestral coincide con el parámetro poblacional desconocido. Consistente: al aumentar el tamaño de la muestra, el valor medio de la distribución muestral del estadı́stico muestral tiende al parámetro estimado. Eficiente: que sea el de menor varianza de todos los centrados. Suficiente: facilita toda la información acerca del parámetro que poseen los datos de la muestra. Dada una muestra aleatoria de una población, x1 , x2 , . . . , xk los estimadores puntuales más utilizados son: De la media poblacional, la media muestral Pk xi x = i=1 . n De la proporción poblacional, la proporción muestral: p= valores observados de A . tamaño muestral De la varianza poblacional, la cuasivarianza muestral: Sc2 n = S2 = n−1 Pk − x)2 , n−1 i=1 (xi como ya hemos dicho, no utilizaremos la varianza muestral porque es un estimador no centrado de la varianza poblacional. Se demuestra que dada una variable aleatoria X de una población con media µ y desviación tı́pica σ, se tiene que: 4 En muestreo con reemplazamiento o población infinita σ x tiene como media a µ y desviación tı́pica a √ . n En muestreo sin reemplazamiento o población finita σ x tiene como media a µ y desviación tı́pica a √ n r N −n . N −1 Como se observa, la única diferencia entre el caso en que la población es infinita y el muestreo es con reemplazamiento, con el caso en que el muestreo q sea sin reemplazamiento y la población finita, es que la desviación tı́pica queda multiplicada −n por el factor de corrección N N −1 , donde N es el tamaño de la población y n el tamaño de la muestra. Además, se demuestra que si X es una variable aleatoria que sigue una distribución normal de media µ y desviación tı́pica σ conocida, se tiene que: σ x sigue una distribución N (µ, √ ). n Como se ve en la expresión de la media muestral, mientras mayor sea el valor de n, tamaño de la muestra, menor será la desviación tı́pica y menor será el error que se cometerá al considerar como estimador de la media de la población a la media muestral. Habrá que ver la conveniencia de aumentar el tamaño de la muestra, ajustándose a las necesidades económicas que se dispongan. Se demuestra que si X es una variable aleatoria que sigue una distribución normal de media µ y desviación tı́pica σ desconocida, se tiene que: x−µ Sc √ n sigue una distribución t-Student con (n − 1) grados de libertad. En caso de que el tamaño muestral sea mayor de 30, la distribución t-Student se aproxima por una distribución N (0, 1). Se demuestra que si X sigue una distribución normal de media µ y desviación tı́pica σ, se tiene que: (n − 1)Sc2 nS 2 = sigue una distribución χ2 (n − 1) chi-cuadrado con n − 1 grados de libertad. σ2 σ2 1.4. Estimación por intervalos Hemos visto que podemos estimar puntualmente la media de la altura de los alumnos de un centro mediante la media muestral de los 60 que hemos escogido. Ahora bien, no sabemos si ese valor es válido sin más o si cometemos un determinado error. Decimos que el valor de la media poblacional estará ”próximo” a la media muestral, pero ¿qué quiere decir próximo? ¿Puedo obtener dos valores entre los que esté la media poblacional ”casi seguro”? Si quiero tener un 90 o un 95 % de seguridad de que la media esté en una determinada región ¿puedo construir la región? En esta sección veremos lo que significa la ”estimación por intervalos”, que consiste en proporcionar un intervalo en el que encontraremos el parámetro poblacional que estemos estudiando con una determinada confianza. Salvo que se diga lo contrario, a partir de ahora supondremos que trabajamos con poblaciones normales. Vamos además a especificar la notación que se utilizará en esta sección: µ = media poblacional, σ = desviación tı́pica poblacional, N = tamaño de la población, n = tamaño de la muestra correspondiente, x = media muestral, p es laP proporción muestral (q = 1 − p), Pn n 2 (x − x) (xi − x)2 i S 2 = i=1 varianza muestral, Sc2 = i=1 cuasivarianza muestral. n n−1 Además: zα es el valor de una variable N (0, 1) que deja a su derecha un área (probabilidad) de valor α. tα (n − 1) es el valor de una variable t−Student con (n − 1) grados de libertad que deja a su derecha un área (probabilidad) de valor α. 5 χ2α (n − 1) es el valor de una variable chi-cuadrado con (n − 1) grados de libertad que deja a su derecha un área (probabilidad) de valor α. Fα (m, n) es el valor de una variable F de Snedecor con (m, n) grados de libertad que deja a su derecha un área (probabilidad) de valor α. Los valores de zα más comúnmente utilizados son Valores de α zα 0.0005 3.29 0.005 2.575 0.01 2.3263 0.02 2.05374 0.025 1.96 0.05 1.645 0.1 1.2815 Tratamos entonces a partir de ahora de encontrar un intervalo (a, b) de manera que el parámetro poblacional desconocido se encuentre en dicho intervalo con una determinada precisión o nivel de confianza. Para hallar dicho intervalo se utilizan los datos de una muestra, evidentemente estos datos cambiarán de una muestra a otra, por lo que el valor del intervalo también cambiará. El término grado de confianza (por ejemplo el 90 %) se refiere a que si consideramos un número elevado de muestras, y para cada una de ellas construimos el intervalo de confianza para un parámetro h desconocido de la población, tendremos que el parámetro poblacional h desconocido se encuentra al menos en el 95 % de los intervalos construidos. Este hecho es muy importante, de manera que cuando se construya un intervalo de confianza para una muestra determinada, no caigamos en la tentación de decir que el ”parámetro poblacional se encuentra dentro de dicho intervalo con probabilidad 0.95”puesto que ésta es una interpretación errónea. El intervalo es aleatorio antes de calcular el valor del estadı́stico para cada muestra; una vez calculado su valor para una muestra concreta, deja de ser aleatorio y puede que contenga el parámetro poblacional o no. Para hallar el intervalo de confianza de un parámetro poblacional θ, se partirá de un estimador θb (generalmente insesgado), y a partir de él se construirá el intervalo con una determinada amplitud λb, de manera que el intervalo será (θb − λb, θb + λb), con la condición de que la probabilidad de que el parámetro desconocido θ se encuentre en dicho intervalo sea 1 − α, es decir P [θb − λb ≤ θ ≤ θb + λb] = 1 − α. El término λb es el margen de error o precisión de la estimación del parámetro poblacional desconocido; recibe el nombre de error tı́pico de estimación o error estándar. Vamos a detallar los intervalos de confianza para un nivel de confianza 1 − α, según distintas situaciones y parámetros poblacionales para los que deseemos calcular dichos intervalos. Para el caso de una única población y muestreo aleatorio con reemplazamiento: Población Parámetro Intervalo σ σ x − z α2 √ , x + z α2 √ n n Sc Sc x − t α2 (n − 1) √ , x + t α2 (n − 1) √ n !n Pn Pn 2 2 (x − µ) (x − µ) i=1 i i=1 i , χ2α (n) χ21− α (n) 2 2 ! (n − 1)Sc2 (n − 1)Sc2 , χ2α (n − 1) χ21− α (n − 1) 2 2 ! r r p·q p·q p − z α2 , p + z α2 n n N (µ, σ), σ conocida µ N (µ, σ), σ desconocida µ N (µ, σ), µ conocida σ2 N (µ, σ), µ desconocida σ2 B(n, p), n > 30 p En caso de que el muestreor no sea con reemplazamiento o la población no sea infinita, en general se debe multiplicar N −n el error estándar por el factor . N −1 Como vemos, la estructura de los intervalos de confianza es (θb − λb, θb + λb) donde θb es un estimador del parámetro poblacional del que se desea calcular el intervalo, λ es un valor (punto crı́tico) de una distribución conocida y b depende del tamaño de la muestra n. normal con desviación tı́pica conocida, un intervalo de confianza para la media es: Por ejemplo, en una distribución σ σ x − z α2 √ , x + z α2 √ , donde λ serı́a igual a z α2 , un punto crı́tico de una N (0, 1) que deja a su derecha un área de n n b que es x. valor α/2, b serı́a √σn y el estimador de la media poblacional θ, 6 En el caso de dos poblaciones independientes (y muestreo aleatorio con reemplazamiento), tenemos: Población parámetro Intervalo s N (µ, σ), σ conocidas µx − µy N (µ, σ), σ desc. iguales µx − µy B(n, p), n > 30 px − py N (µ, σ), µ desconocidas σx2 σy2 σy2 σx2 (x − y) ± z α2 + nx ny s s 2 2 (nx − 1)Scx + (ny − 1)Scy 1 1 (x − y) ± t α2 (nx + ny − 2) + nx + ny − 2 nx ny s py q y px q x (px − py ) ± z α2 + nx ny 2 2 1 1 Scx Scx , 2 F α (n − 1, n − 1) S 2 F α Scy x y cy 1− 2 (nx − 1, ny − 1) 2 Para muestras suficientemente grandes se pueden considerar válidos los intervalos construidos aplicando las fórmulas anteriores. En caso de que sin que se verifiquen las condiciones anteriores sigamos queriendo obtener un intervalo de confianza para la media poblacional de una población cualquiera, siempre podemos aplicar el teorema de Tchebycheff: Sea X una variable aleatoria de media µ y desviación tı́pica σ. Se verifica que cualquiera que sea el valor de k > 0: P (|X − µ| ≥ kσ) ≤ k12 . En caso de que x sea la media muestral, se tendrı́a un intervalo para la media de la población, con desviación tı́pica conocida: σ σ x − k√ , x + k√ . n n Los pasos que seguiremos entonces para construir un intervalo de confianza serán los siguientes: 1. Establecer la población y la ley de distribución de dicha población. 2. Fijar dos de los siguientes datos: el nivel de confianza, el tamaño muestral deseado o el error de estimación. 3. Considerar el estimador adecuado para el parámetro poblacional del que se desea calcular el intervalo de confianza. Calcular el valor de dicho estimador. 4. Considerar el punto crı́tico de la distribución del estimador y aplicar la fórmula correspondiente a dicho intervalo de confianza. 1.4.1. Errores de estimación y tamaño de la muestra Hemos estado suponiendo hasta aquı́ que el tamaño de la muestra era conocido. Sin embargo, hemos de determinar el tamaño de la muestra teniendo en cuenta que cuanto mayor sea el tamaño de la muestra, menor será el error que cometeremos al inferir el valor de un determinado parámetro, puesto que estaremos más cerca de examinar a toda la población. Pero habitualmente los costes económicos, el tiempo del que disponemos y otros factores, no nos permiten aumentar el tamaño muestral tanto como desearı́amos. Por otro lado, un tamaño muestral muy pequeño puede no permitirnos obtener el nivel de confianza deseado. Podemos considerar que cuando se realiza una estimación del valor de un parámetro poblacional mediante un intervalo de confianza, cometemos un error tı́pico de estimación igual en valor absoluto a λb, que en general depende de n. Dicho error incorpora la desviación del estimador y el valor del punto crı́tico determinado por la distribución del estimador. Luego podemos: 1. Fijar el nivel de confianza y el error que deseamos tener, calculando el tamaño de muestra necesario. 2. Calcular el error que cometeremos con un tamaño de muestra dado y un nivel de confianza. 3. Dado el tamaño de muestra y el error que deseamos tener, calcular el nivel de confianza que tendremos. 7 1.5. Contrastes de hipótesis Todos tenemos ideas prefijadas sobre lo que creemos que puede ocurrir dentro de una población. Por ejemplo, a alguien se le puede ocurrir pensar que la media de la paga de los alumnos de su centro es superior a 5 euros. O que en general, la media de altura es inferior a 1.80. Pero podemos hacernos también preguntas concretas ¿crees que podemos considerar que un 10 % de los alumnos son zurdos? ¿Crees, en cambio, que es más correcto decir que menos de un 10 % lo son? Este tipo de preguntas pueden ser respondidas a través de un contraste de hipótesis paramétrico. Realmente, para comprobar si las preguntas anteriores son ciertas o falsas, tendrı́amos que observar todos y cada uno de los individuos de la población. Pero como es habitual, eso en principio no estará dentro de nuestras posibilidades, ası́ que intentaremos responder a esas preguntas a través de las observaciones que tengamos de nuestra muestra. Un contraste de hipótesis permite aceptar o rechazar si determinadas afirmaciones son ciertas o falsas en función de los datos observados en una muestra. Obviamente esto conlleva asumir que la conclusión a la que lleguemos podrı́a no ser verdadera, luego debemos intentar asegurar un cierto grado de precisión en el caso de que aceptemos la hipótesis que se proponga. Este grado de precisión es lo que se denomina nivel de confianza. Existen fundamentalmente dos tipos de contrastes de hipótesis: Los que establecen hipótesis sobre los parámetros de la distribución de probabilidad de la población. Por ejemplo, que la media de una población normal sea 7. Los llamaremos contrastes paramétricos. Los que establecen otro tipo de hipótesis. Por ejemplo, que una determinada población sigue una distribución normal o que no existe dependencia entre las variables altura y paga de los alumnos de un centro. Los llamaremos contrastes no paramétricos. Cuando hayamos realizado un test de hipótesis y se acepta la afirmación inicial, no quiere decir que hayamos probado en sentido matemático la afirmación, ya que no hemos examinado todos los elementos de la población e incluso esta afirmación podrı́a ser rechazada por los datos de otra muestra. Lo que tenemos que entender de alguna manera es que con los datos que tenemos no podemos rechazar la hipótesis que hemos propuesto. Vamos a ver a partir de ahora contrastes tanto paramétricos (sobre la media, la varianza y la proporción) como no paramétricos (homogeneidad o heterogeneidad de la población e independencia en tablas de contingencia). Necesitamos previamente algunos conceptos: Hipótesis nula: se simboliza por H0 e indica la afirmación sobre los parámetros poblacionales que se van a contrastar. Por ejemplo, H0 : µ0 = 5 en una población normal, es decir, querrı́amos contrastar si la media de una población normal es 5. Hipótesis alternativa: recoge el suceso complementario a H0 . Se denota por H1 . En el ejemplo anterior serı́a H1 : µ 6= 5, es decir, que la media sea diferente de 5. Estadı́stico de prueba: es una función de los datos muestrales que nos permitirá decidir si aceptamos o rechazamos H0 . Su distribución de probabilidad debe ser conocida bajo H0 . Región de aceptación: conjunto de valores (intervalo) para el estadı́stico muestral que hacen que aceptemos H0 con probabilidad 1 − α, supuesta cierta la hipótesis nula. Región de rechazo o crı́tica: conjunto de valores (intervalo) complementario al anterior, con probabilidad α. Nivel de confianza: representa la probabilidad que deseamos tener de aceptar H0 cuando es cierta. Se representa por 1 − α. Nos da la probabilidad de la región de aceptación bajo la hipótesis nula. Nivel de significación: representa la probabilidad de rechazar H0 cuando es cierta y es la complementaria del nivel de confianza, es decir α. Nos da la probabilidad de la región crı́tica bajo la hipótesis nula. Dentro de los contrastes de hipótesis paramétricos podemos diferenciar entre: Contrastes bilaterales: la hipótesis nula se presenta de manera que los valores de los parámetros poblacionales desconocidos quedan unı́vocamente determinados. Por ejemplo, que la media es igual a 5, o la varianza a 3. 8 Contrastes unilaterales: la hipótesis nula se presenta de tal manera que los valores del parámetro desconocido de la población se encuentran dentro de un intervalo semiabierto. Para conocer la distribución del estadı́stico muestral, se supondrá que el parámetro poblacional toma el valor de uno de los extremos del intervalo. Por ejemplo H0 : µ0 ≥ 3, es decir, la media es mayor o igual que 3, frente a la hipótesis alternativa de H1 : µ0 < 3. A la hora de determinar la distribución del estadı́stico se supondrá que el valor del parámetro bajo la hipótesis nula es µ = 3. Cuando llevamos a cabo el contraste de hipótesis nos basamos en los valores de un estadı́stico cuya función de probabilidad debe ser conocida bajo la hipótesis nula. Luego, los datos de la muestra nos pueden llevar a dos tipos de errores: Error de tipo I: error que se produce cuando rechazamos la hipótesis nula H0 siendo cierta. La probabilidad de dicha decisión es igual al nivel de significación α, es decir a la probabilidad de rechazar la hipótesis nula cuando es cierta. Error de tipo II: error que se produce cuando aceptamos la hipótesis nula siendo falsa, que serı́a lo mismo que rechazar H1 siendo verdadera. La probabilidad de rechazar la hipótesis alternativa cuando es cierta se representa por la letra β Potencia de un contraste: representa la probabilidad de rechazar H0 cuando H1 es verdadera. Podemos resumir las decisiones que se toman y los errores que se cometen en la siguiente tabla Decisión/Realidad Aceptar H0 Rechazar H0 H0 verdadera Decisión correcta (1 − α) Decisión incorrecta. Error tipo I (α) H1 verdadera Decisión incorrecta. Error tipo II (β) Decisión correcta. Potencia (1 − β) Las probabilidades de errores de tipo I y II son funciones complementarias entre sı́, en el sentido de que aumentando una disminuye la otra y viceversa, por lo que se tratará de minimizar el error que se considere más grave a costa de aumentar el otro. Una solución consiste en buscar el tamaño de muestra que hace compatibles los niveles de error de tipo I (α) y de tipo II (β), es decir, fijado unos, hallar el tamaño de muestra de manera que el otro se encuentre dentro de los lı́mites deseados. A la hora de elegir un estadı́stico para realizar un contraste, se elegirá aquél que tenga potencia máxima entre todos los que tienen un determinado nivel de confianza. Los pasos que es necesario seguir para realizar un contraste de hipótesis son: 1. Establecer la distribución de la población, la hipótesis nula H0 y la hipótesis alternativa H1 . 2. Fijar el nivel de confianza, 1 − α, y el tamaño de la muestra, n. 3. Seleccionar una muestra y calcular el valor del estadı́stico correspondiente, cuya distribución será conocida bajo H0 . 4. Determinar la región de aceptación y de rechazo o crı́tica. 5. Aceptamos H0 si el valor del estadı́stico se encuentra dentro de la región de aceptación. En otro caso, se rechaza H0 . 6. Conclusiones de tipo estadı́stico. En la siguiente tabla se reflejan los distintos estadı́sticos que se utilizarán, ası́ como las regiones crı́ticas según el tipo de contraste que se realice. Para el caso de una única población: 9 Población H0 µ = µ0 H1 µ 6= µ0 Estadı́stico N (µ, σ), σ conocida µ ≥ µ0 µ < µ0 T = µ ≤ µ0 µ = µ0 µ > µ0 µ 6= µ0 µ ≥ µ0 µ < µ0 µ ≤ µ0 σ = σ0 µ > µ0 σ 6= σ0 N (µ, σ), σ desconocida x − µ0 N (µ, σ), µ desconocida B(n, p) σ ≥ σ0 σ < σ0 σ ≤ σ0 σ = σ0 σ > σ0 σ 6= σ0 σ ≥ σ0 σ < σ0 σ ≤ σ0 p = p0 σ > σ0 p 6= p0 p ≥ p0 p < p0 p ≤ p0 p > p0 T < z1−α √σ n T > zα |T | ≥ t α2 (n − 1) x − µ0 T = T < t1−α (n − 1) Sc √ n T > tα (n − 1) |T | ≥ χ2α (n) Pn N (µ, σ), µ conocida Región crı́tica |T | ≥ z α2 T = i=1 (xi σ02 2 − µ)2 T < χ21−α (n) T > χ2α (n) |T | ≥ χ2α (n − 1) 2 (n − 1)Sc2 T = σ02 T < χ21−α (n − 1) χ2α (n − 1) T > |T | ≥ z α2 p − p0 T =q T < z1−α p0 (1−p0 ) n T > zα Para el caso de dos poblaciones, tenemos: Poblaciones H0 µx − µy = a H1 µx − µy 6= a N (µ, σ) µx − µy ≥ a µx − µy < a σ conocidas µx − µy ≤ a µx − µy = a µx − µy ≥ a µx − µy > a µx − µy 6= a µx − µy < a N (µ, σ) σ desc iguales N (µ, σ) µx − µy ≤ a σx2 = σy2 σx2 ≥ σy2 Estadı́stico Región crı́tica |T | ≥ z α2 x−y−a T =q 2 σy2 σx nx + n y T = r x−y−a 2 +(ny −1)S 2 (nx −1)Scx cy nx +ny −2 T < z1−α q T > zα |T | ≥ t α2 (nx + ny − 2) T < t1−α (nx + ny − 2) 1 nx µx − µy > a σx2 6= σy2 σx2 < σy2 µ conocidas σx2 ≤ σy2 σx2 = σy2 σx2 > σy2 σx2 6= σy2 N (µ, σ) σx2 ≥ σy2 σx2 < σy2 Pnx (xi − µx )2 T = Pi=1 ny 2 i=1 (yi − µy ) T = 2 Scx 2 Scy + n1y T > tα (nx + ny − 2) T > nnxy F α2 (nx , ny ) ó T < nx α ny F1− 2 (nx , ny ) T < nx ny F1−α (nx , ny ) T > nnxy Fα (nx , ny ) T > F α2 (nx − 1, ny − 1) ó T < F1− α2 (nx −1, ny −1) T < F1−α (nx − 1, ny − 1) µ desc σx2 ≤ σy2 σx2 > σy2 T > Fα (nx − 1, ny − 1) Recordemos que en caso de buscar valores de tα (n−1) con valores de n mayores que 30, dicha distribución se aproxima por la N (0, 1), por lo que se buscarán los valores de zα . 1.5.1. Relación entre los intervalos de confianza y los contrastes de hipótesis Cuando se realiza un contraste de hipótesis bilateral y se rechaza la hipótesis nula, no sabemos qué valor del parámetro estamos considerando, únicamente sabemos qué valor no es, con un determinado nivel de confianza. A veces en vez de realizar un contraste de hipótesis podemos construir el intervalo de confianza para dicho parámetro y con ello podemos rechazar todas aquellas hipótesis nulas de la forma H0 : parámetro = k0 siempre que el valor no se 10 encuentre dentro del intervalo de confianza construido. En el caso de hipótesis unilaterales: H0 : parámetro ≤ k0 frente a H1 : parámetro > k0 a un nivel de significación α, se construye un intervalo de confianza para el parámetro poblacional desconocido a un nivel de confianza 1 − 2α. Si el valor k0 es mayor que el extremo superior de dicho intervalo, debemos rechazar la hipótesis H0 . En general, se rechazará cualquier hipótesis nula de la forma H0 : parámetro=un valor mayor que el extremo superior del intervalo de confianza. H0 : parámetro ≥ k0 frente a H1 : parámetro < k0 a un nivel de significación α, se construye un intervalo de confianza para el parámetro poblacional desconocido a un nivel de confianza 1 − 2α. Si el valor k0 es menor que el extremo inferior de dicho intervalo, debemos rechazar la hipótesis H0 . En general, se rechazará cualquier hipótesis nula de la forma H0 : parámetro=un valor menor que el extremo inferior del intervalo de confianza. Pasamos ahora a ver los contrastes de hipótesis no paramétricos. Los contrastes que veremos están basados en aplicaciones de la distribución χ2 . Veremos contrastes sobre el ajuste de la distribución teórica a una distribución empı́rica, ası́ como la aplicación a tablas de contingencia. 1.5.2. Test de la bondad de ajuste Consideremos una población y el carácter X que presenta las siguientes modalidades x1 , x2 , . . . , xk excluyentes entre sı́, con sus correspondientes probabilidades p1 , p2 , . . . , pk . Tenemos una muestra de tamaño n en la que observamos el carácter X y nos planteamos hasta qué punto esta muestra se puede considerar como perteneciente a una población de distribución teórica ya conocida. Independientemente de la distribución teórica que consideremos siempre existirán diferencias entre los valores teóricos esperados y los valores observados. El problema está en saber en qué medida dichos valores son debidos al azar o a que los datos no se ajustan a la distribución teórica considerada. Si denotamos por: Oi = número de elementos de la muestra con el carácter xi . Pk pi = probabilidad teórica de que la variable aleatoria tome el valor xi , verificándose que i=1 pi = 1. Si tenemos una de tamaño n, el número de elementos que cabe esperar que tomen el valor xi es ei = npi , Pmuestra k verificándose que i=1 npi = n. Podemos formar la siguiente tabla: Variable X Frecuencias observadas Frecuencias esperadas x1 O1 e1 x2 O2 e2 ... ... ... xk Ok ek Consideraremos como hipótesis nula y alternativa a H0 : la distribución empı́rica se ajusta a la distribución teórica considerada. H1 : se rechaza el ajuste. Evidentemente, si aceptamos la hipótesis nula (aceptamos el ajuste), las diferencias entre los valores observados y los valores esperados son debidas al azar y podemos decir que no existen evidencias para rechazar dicha hipótesis; en otro caso, diremos que existen diferencias significativas para el nivel de significación marcado entre ambas distribuciones, no pudiendo atribuirse las diferencias entre las distribuciones empı́ricas y observadas al azar. El estadı́stico que se utilizará para dicho contraste será: T = k X (Oi − ei )2 i=1 ei = k X O2 i i=1 ei − n. Pearson demostró que la distribución de dicho estadı́stico es una χ2 con k − 1 grados de libertad en el caso de no existir discrepancias entre los valores observados y los esperados. Se acepta H0 si T < χ2α (k − 1) REGIÓN DE ACEPTACIÓN. Se rechaza H0 si T ≥ χ2α (k − 1) REGIÓN DE RECHAZO. A la hora de aplicarlo correctamente, tenemos que realizar las siguientes consideraciones: 11 1. Las frecuencias esperadas de las distintas modalidades deben ser superiores a cinco; en caso de no ocurrir se deben agrupar clases contiguas en una sola clase hasta lograr que la nueva frecuencia sea mayor que cinco. Esto supone cambiar la distribución teórica con la consiguiente pérdida de información. 2. Si para obtener las frecuencias esperadas se necesitan estimar p parámetros, entonces los grados de libertad de la χ2 son k − p si son independientes y k − p − 1 si son independientes las modalidades. 3. Se puede aplicar tanto a distribuciones continuas como a las discretas. 1.5.3. Contrastes de dependencia o independencia de caracteres Deseamos saber si dos caracteres X e Y de una población son dependientes o independientes. Suponemos que las modalidades que presentan cada una de las variables X e Y son X : x1 , x2 , . . . , xk , Y : y1 , y 2 , . . . , ym . y se ha tomado una muestra de tamaño n, midiéndose dichas caracterı́sticas X e Y en cada uno de los elementos de la muestra. Si denotamos por: Oij = número de elementos que presentan caracterı́sticas xi e yj . eij = número de elementos esperados que presentan los valores xi e yj si las variables son independientes. Podrı́amos formar la siguiente tabla de contingencia en la que aparecen las frecuencias empı́ricas y teóricas X/Y x1 ... xi ... xk Frecuencias absolutas Y y1 O11 |e11 ... Oi1 |ei1 ... Ok1 |ek1 Oy1 ... ... ... ... ... ... ... yj O1j |e1j ... Oij |eij ... Okj |ekj Oyj ... ... ... ... ... ... ... ym O1m |e1m ... Oim |eim ... Okm |ekm Oym Frecuencias absolutas X Ox1 ... Oxi ... Oxk n Para el cálculo de las frecuencias teóricas podemos utilizar la siguiente fórmula si las variables son independientes: eij = pij n = Oxi Oyj (total de la fila i) · (total de la columna j) n= , n n n i = 1, 2, . . . , k j = 1, 2, . . . , m. Consideraremos como hipótesis nula e hipótesis alternativa a: H0 : X e Y son independientes. H1 : X e Y no son independientes. Si aceptamos la hipótesis nula, podemos considerar que no tenemos evidencias que nos hagan suponer una dependencia entre las dos variables a un nivel de confianza de 1-α. Consideramos como estadı́stico del contraste: T = k X m k X m 2 X X Oij (Oij − eij )2 = − n. eij e i=1 j=1 ij i=1 j=1 La distribución de dicho estadı́stico es una χ2 con (k − 1)(m − 1) grados de libertad en caso de que las variables sean independientes a un nivel de confianza 1 − α Se acepta H0 si T < χ2α (k − 1)(m − 1) REGIÓN DE ACEPTACIÓN. Se rechaza H0 si T ≥ χ2α (k − 1)(m − 1) REGIÓN DE RECHAZO. 12 1.5.4. Test de homogeneidad de varias muestras Se trata de determinar si varias muestras que estudian el mismo carácter A han sido tomadas o no de la misma población, respecto de dicha caracterı́stica A. Supongamos que tenemos k muestras de tamaños n1 , n2 , . . . , nk siendo y1 , y2 , . . . , yk los elementos de cada muestra que presentan una determinada caracterı́stica A y el resto no la presentan. Si suponemos que todas las muestras provienen de la misma población, la proporción de elementos que presentan la caracterı́stica A serı́a: p= y 1 + y2 + · · · + yk . n1 + n2 + · · · + nk Si suponemos que las muestras provienen de la misma población, los valores esperados para la caracterı́stica A en cada muestra serı́an n1 p, n2 p, n3 p, . . . , nk p. Podrı́amos formar la siguiente tabla de contingencia en la que aparecen los valores observados y los valores esperados: Muestras Primera muestra ... i-ésima muestra ... k−ésima muestra Presentan el carácter A Se esperan con el carácter A y1 n1 p ... yi ni p ... yk nk p No presentan el carácter A Se esperan sin el carácter A n1 − y1 n1 (1 − p) ... ni − yi ni (1 − p) ... nk − yk nk (1 − p) Tamaño de las muestras n1 ... ni ... nk Consideramos como hipótesis nula e hipótesis alternativa a: H0 : todas las muestras provienen de la misma población. H1 : se rechaza que provengan de la misma población. Si aceptamos la hipótesis nula, podemos considerar que las muestras provienen de la misma población y las diferencias entre los valores observados y los valores esperados son debidas al azar. El estadı́stico que se utilizará será: k T = X (yi − ni p)2 1 . p(1 − p) i=1 ni La distribución de dicho estadı́stico es una χ2 con k − 1 grados de libertad en el caso de no existir discrepancias entre los valores observados y los esperados a un nivel de confianza 1 − α. Se acepta H0 si T < χ2α (k − 1) REGIÓN DE ACEPTACIÓN. Se rechaza H0 si T ≥ χ2α (k − 1) REGIÓN DE RECHAZO. En el caso de que los elementos de las muestras se clasifiquen en más de dos categorı́as, el análisis se realiza como en el caso de un test de independencia o dependencia entre variables, donde la tabla que se obtendrı́a serı́a similar a la anterior, por filas aparecen las muestras y por columnas las distintas categorı́as. El estadı́stico serı́a el mismo que en el caso de independencia de variables y los valores esperados se calcuları́an de igual forma y la hipótesis nula será H0 : todas las distribuciones se distribuyen homogéneamente. A la hora de analizar un población se ha de tener en cuenta si la población puede ser subdividida en subpoblaciones que sigan manteniendo la heterogeneidad de la población de partida, de lo contrario podemos llegar a resultados totalmente erróneos. Consideremos, por ejemplo, los siguientes datos que recogen el número de alumnos y alumnas en un municipio admitidos en los cursos de formación empresarial Hombres Mujeres No de solicitudes 1000 1000 No de admitidos 470 570 13 Proporción admitidos 0.47 0.57 Si suponemos que la población es homogénea llegarı́amos a la conclusión de que existe una diferencia significativa entre hombres y mujeres, a favor de las mujeres, a la hora de ser admitidas en los cursos de formación. Ahora bien, si los datos se analizan por separado según el curso de formación empresarial A, B y C, se tiene: Curso A Curso B Curso C Hombres Mujeres Hombres Mujeres Hombres Mujeres No de solicitudes 150 400 350 50 500 550 No de admitidos 112 280 70 8 288 282 Proporción admitidos ( %) 74.66666 70 70 20 57.6 51.272727 Como se observa, la discriminación es favorable al hombre en todos los cursos. Por tanto, las conclusiones serán distintas si se agrupan los datos. Este fenómeno se conoce como paradoja de Simpson. 1.6. Inferencia bayesiana Al principio del capı́tulo hemos visto que existe otro enfoque para la inferencia que considera que tenemos unas probabilidades a priori a partir de las cuales se calculan unas probabilidades a posteriori. Es lo que se conoce como inferencia bayesiana. Vamos a hacer un breve resumen sobre los fundamentos de estos métodos. El método de inferencia bayesiano se basa en el teorema de Bayes, en el cual, a partir de unas probabilidades a priori y verosimilitudes, se calculan unas probabilidades a posteriori; supone que el parámetro poblacional no es una constante desconocida, sino que es una variable aleatoria con distribución conocida. El procedimiento de estimación toma de partida los conocimientos a priori y verosimilitudes derivados de observaciones anteriores, de manera que al tomar una nueva muestra se estiman de nuevo los parámetros, actualizando los valores anteriores con los nuevos. El método clásico y el bayesiano no difieren demasiado si el tamaño de la muestra es suficientemente grande o la información de la que se dispone a priori es prácticamente nula, es más, llegan a idénticas conclusiones; en cambio, para tamaños de muestra pequeños pueden llegar a conclusiones totalmente dispares. En general, los métodos bayesianos son más complicados que los clásicos, aunque más satisfactorios en muchos casos. Se obtienen intervalos más pequeños, valores estimados de puntos más confiables y pruebas de hipótesis más apropiadas. Por ejemplo, dada una población N (µ0 , σ0 ) si tomamos una muestra de tamaño n y hallamos la media muestral, los parámetros de la población se actualizan con los nuevos valores calculados por la siguiente expresión:   s 1 µ + σn2 x 1 σ02 0 x . N (µ1 , σ1 ) = N  1 , n 1 n + + 2 2 2 2 σ σ σ σ 0 x 0 x En general, la media posterior es una combinación entre la media a priori y la media a posteriori de la muestra: µ1 = Kµ0 + (1 − K)x. De igual forma podemos aplicar la inferencia bayesiana al cálculo de intervalos de confianza y los contrastes paramétricos incorporando la información obtenida de la muestra a la fórmula final. Por ejemplo, el intervalo de confianza para la media de una población normal con desviación tı́pica conocida serı́a (µ1 − zα/2 σ1 , µ1 + zα/2 σ1 ) donde µ1 y σ1 son los valores calculados anteriormente. 14 Capı́tulo 2 Un ejemplo de aplicación de la inferencia 2.1. Para una población Hemos obtenido una muestra aleatoria de tamaño 25 de nuestra población, un centro con 558 alumnos. Tenemos que realizar un estudio que pretende tres objetivos: 1. Una de las cosas que pretendemos realizar es hacer camisetas del centro y venderlas para ganar dinero para el viaje de fin de curso. Aprovecharemos nuestros datos para hallar un intervalo de confianza para la media de la paga de los alumnos del centro, que nos oriente sobre cuánto podemos pedir por la camiseta a los compañeros del centro. 2. Los últimos estudios hablan de que los jóvenes dedican la mayorı́a de su tiempo a conectarse a internet y ver la televisión. ¿podemos decir que los alumnos de nuestro centro dedican más de una hora diaria a conectarse a internet? 3. Queremos ver si para nuestra población es cierto el dato, que se suele manejar, de que aproximadamente hay un 10 % de zurdos. Tenemos pues los datos de 25 individuos sobre las variables ya mencionadas y son los siguientes: 15 Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Paga 0 12 12 5 8 8 0 40 21 0 9 4.5 20 0 15 0 0 0 12 9.4 10 2 5 3.5 10 Internet 0 10 10 90 90 0 30 60 0 60 45 15 0 30 60 30 0 0 30 60 60 120 90 150 60 Zurdos 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 Vamos a ir resolviendo lo que nos hemos propuesto. Comenzamos por el primer objetivo: 1. Intervalo de confianza para la media de la paga Comenzamos por buscar los lı́mites entre los que se encontrará la media de la paga. Debemos fijar un nivel de confianza o un error. Vamos a fijar un nivel de confianza del 90 %. ¿Cuál es la situación en la que nos encontramos? Suponemos que la población en la que nos encontramos es normal. ¿Conocemos σ? La respuesta es que no. Entonces estamos en el caso de una población normal con σ desconocida. Recordamos que el intervalo de confianza para la media en esta situación era: Sc Sc , x − t α2 (n − 1) √ , x + t α2 (n − 1) √ n n para el caso del q muestreo con reemplazamiento. Como hemos hecho muestreo sin reemplazamiento, aplicaremos el −n factor de corrección N N −1 , de donde nos queda: ! r r Sc N − n Sc N − n , x + t α2 (n − 1) √ . x − t α2 (n − 1) √ n N −1 n N −1 Luego los datos que necesitamos son los siguientes: x = 8,256, Sc = 8,895, t α2 (n − 1) = t0,05 (24) = 1,711, y el intervalo queda 8,895 8,256 − 1,711 √ 25 r 558 − 25 8,895 , 8,256 + 1,711 √ 558 − 1 25 r 558 − 25 558 − 1 ! = (5,2785, 11,2335). Entonces nos sale que unos lı́mites apropiados serı́an entre 5.27 euros y 11.23 euros para las camisetas. 2. Tiempo que dedican los jóvenes a internet Nos preguntamos ahora si podemos decir que los alumnos de este centro pasan de media, más de una hora al dı́a conectados a internet. ¿Qué técnica podemos usar para obtener respuesta a nuestra pregunta? Utilizaremos un contraste 16 de hipótesis unilateral, en el que intentaremos probar si la media de nuestra variable es mayor o igual que una hora (60 minutos). ¿Cuál es nuestra situación ahora? Volvemos a suponer que nos encontramos en una población normal, y de nuevo, σ es desconocida. Elegimos un nivel de confianza, digamos el 95 %. El contraste que queremos realizar tiene la siguientes hipótesis nula y alternativa H0 : la media de tiempo diario en internet es igual o superior a 60 minutos. H1 : la media de tiempo diario en internet es inferior a 60 minutos. Nuestro estadı́stico de contraste, dado que nos encontramos en el caso σ desconocida, es: T = x − µ0 Sc √ n , y si tenemos que x = 44, tα (n − 1) = t0,05 (24) = 1,711, Sc = 40,224, nuestro estadı́stico vale: T = 44 − 60 40,224 5 = −1,9888. La región crı́tica para este contraste es T < t1−α (24) = −1,711. Luego nuestro valor se encuentra en la región crı́tica, lo que quiere decir que debemos rechazar la hipótesis nula. No podemos decir que los alumnos del centro dediquen más de una hora al dı́a a conectarse a internet. 3. Proporción de zurdos en la población Tratemos ahora de ver si podrı́amos decir que en nuestra población hay un 10 % de zurdos. De nuevo responderemos a esta pregunta a través de un contraste de hipótesis. Como en este caso manejamos una variable que sólo toma los valores 0 ó 1, no nos encontramos en el caso de una población normal, sino que estamos intentando realizar estimaciones sobre el parámetro p de una binomial. La hipótesis nula y alternativa para este caso serı́an: H0 : La proporción de zurdos es igual a 0.1. H1 : La proporción de zurdos no es igual a 0.1. Realizaremos el contraste con un nivel de confianza del 95 %. Recordamos que nuestro estadı́stico de contraste es: p − p0 T =q , p0 (1−p0 ) n donde p = 0,2, p0 = 0,1, n = 25. Luego el valor de nuestro estadı́stico es: 0,2 − 0,1 T =q = 1, b 6. 0,1(1−0,1) 25 La región crı́tica para este contraste viene dada por la expresión |T | ≥ z α2 = z0,025 = 1,96, luego no podemos rechazar la hipótesis de que en nuestro centro haya un 10 % de zurdos. 17 2.2. Para dos poblaciones Dos alumnos del centro han obtenido una muestra cada uno de su correspondiente nivel, 1o de Bachillerato y 4o de ESO. Han medido, entre otras cosas, la altura, y a la vista de los resultados, el alumno de 4o opina que en media, los chicos de 4o son más altos, porque su media muestral es mayor. El de 1o no está de acuerdo, cree que lo que ocurre es que hay más variabilidad en la población de 1o y por eso la muestra de los chicos de primero ha dado una media menor. ¿Podemos resolverles la duda? Ellos nos facilitan sus datos, que son Para 1o de bachillerato tenemos: 187 161 169 168 170 165 173 160 175 158 175 164 158 161 158 171 175 170 185 158 163 160 169 158 155 168, mientras que los datos para 4o de ESO son: 170 174 164 171 177 163 170 165 160 175 178 174 162 164 170 155 183 176 158 160 160 173 171 152 170, Lo que vamos a hacer para resolver la duda que se nos plantea son dos contrastes de hipótesis. En uno plantearemos si es cierta la hipótesis del chico de 4o que dice que en media los de 1o son más bajos, y luego plantearemos que pueda ocurrir que la varianza de la variable altura de los de 1o de bachillerato es mayor que la de los de 4o de ESO. Haremos todos los contrastes con un nivel de confianza del 95 %. Vamos a comenzar por el segundo contraste, veamos si podemos decir que hay una varianza mayor que otra. Nuestras hipótesis nula y alternativa son: H0 : La varianza de la altura de los alumnos de 1o de bachillerato (σx2 ) es mayor o igual que la de los alumnos de 4o de ESO (σy2 ). H1 : La varianza de la altura de los alumnos de 1o de bachillerato (σx2 ) es menor que la de los alumnos de 4o de ESO 2 (σy ). Estamos en el caso de dos poblaciones normales con media desconocida, luego nuestro estadı́stico será T = 2 Scx . 2 Scy Y como tenemos 2 Scx = 66,982, 2 Scy = 58,72, entonces T = 1,14, tenemos la región crı́tica T < F1−α (nx − 1, ny − 1) = 0,50909, luego no podemos rechazar que sea mayor o igual. Pero el chico de primero quiere saber si es mayor, no igual. Si vemos la región crı́tica para el contraste bilateral (σx2 = σy2 ) T < F1− α2 (nx − 1, ny − 1) = 0,44599 ó T > F α2 (nx − 1, ny − 1) = 2,2574, llegamos a la conclusión de que tampoco podemos rechazar la hipótesis de que sean iguales, luego no podemos asegurar el hecho de que la varianza sea estrictamente mayor. Hagamos ahora el contraste para la media. Supondremos σ desconocida pero igual en ambos casos (el contraste anterior dice que no podrı́amos rechazar esa hipótesis). Las hipótesis nula y alternativa en este caso son: H0 :La media de los de 1o (µx ) es menor o igual que la de los de 4o (µy ) µx − µy ≤ 0. H1 :La media de los de 1o (µx ) es mayor que la de los de 4o (µy ) µx − µy > 0. Para nuestro caso, el estadı́stico de contraste es: T =q x−y−a 2 +(n −1)S 2 (nx −1)Scx y cy nx +ny −2 q , 1 nx + y tenemos, que además de los datos de antes, es x = 166,692, y = 167,8. 18 1 ny Si sustituimos T =q 166,692 − 167,8 − 0 q (26−1)66,982+(25−1)58,72 26+25−2 = −1,69957. 1 26 + 1 25 La región crı́tica es T > tα (nx + ny − 2) = 1,6766, luego no podemos rechazar la hipótesis. Pero, la realidad es que si nos fijamos en el contraste bilateral (µx − µy = 0) y en su región crı́tica |T | ≥ t α2 (nx + ny − 2) = 2,0096, tampoco podrı́amos rechazar la hipótesis nula, luego tampoco podemos decir que sean más bajos los de 1o de Bachillerato. Nuestra conclusión es que no llevan razón, en principio, ninguno de los dos. Las diferencias entre las medias y las varianzas de las dos poblaciones no son significativas. 19

Inferencia Estad´ıstica

Documentos relacionados

Productos

Apoyo

Inferencia Estad´ıstica

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib