Distribuciones de probabilidad 1. Variable aleatoria Una variable aleatoria X es una función que asocia a cada elemento del espacio muestral E un número real: X: E ÷ ú Ejemplo: Consideremos el experimento aleatorio consistente en lanzar 3 monedas al aire. Podemos definir la variable aleatoria X=”número de caras obtenido”. Esta variable toma los valores del conjunto{0,1,2,3}. Se trata de una variable aleatoria discreta porque su recorrido es un número finito de valores. Cuando el recorrido está formado por los infinitos números reales de un intervalo hablaremos de variable aleatoria continua. 2. Distribución de probabilidad discreta Una variable aleatoria adquiere todo su significado cuando se asigna a cada valor de la variable la probabilidad de que se verifique al realizar el experimento. 2.1 Función de probabilidad La función de probabilidad de una variable aleatoria discreta es aquella que hace corresponder a cada valor de la variable su probabilidad: X ÷ [0, 1] xi ÷ pi donde pi es la probabilidad de que la variable aleatoria tome el valor xi : p( X= xi ) = pi Ejercicio Halla la función de probabilidad de la variable aleatoria X=”Número de caras obtenido al lanzar 3 monedas al aire”. Solución: p(X=0)=1/8 p(X=1)=3/8 p(X=2)=3/8 p(X=3)=1/8 2.2 Distribución binomial Es la más importante de las distribuciones de probabilidad discretas. Corresponde a la realización de un experimento que cumpla las condiciones siguientes: # Únicamente se observa si se cumple un suceso, A (éxito), o si, por el contrario, no se cumple A (fracaso). # La probabilidad del suceso A es constante, es decir, no varía al repetir el experimento. Si p(A) = p entonces p( A ) = 1- p = q La variable aleatoria que expresa el número de éxitos obtenidos en cada realización del experimento recibe el nombre de variable de la distribución binomial. Si se realizan n pruebas del experimento hablaremos de una binomial de parámetros n y p: B( n, p) 1 Función de probabilidad La función de probabilidad de una distribución binomial B( n, p) viene dada por la expresión: p( k exitos) = p( X = k ) = ( ). p n k k . q n− k Ejercicio Cuatro de cada diez trabajadores de una determinada empresa son mujeres. Si elegimos 8 personas de esa empresa al azar, calcula la probabilidad de que sean: a) 3 mujeres. b) más de 5 mujeres. c) al menos 2 mujeres. Solución: Sea A el suceso A=” Elegir una mujer”. Es claro que p(A) = 0,4 = p y que p( A ) = 0,6 = q La variable aleatorria X=”Número de mujeres elegidas” es una binomial B(8, 0,4). Por tanto: a) p(X=3)= ( ) . 0,4 8 3 3 .0,65 8 6 6 b) p(X>5)= p(X=6) + p(X=7) + p(X=8)= ( 6 ) .0,4 . 0,6 + c) p(X$2)= 1- p(X<2)= 1- p(X=0) - p(X=1)= 1- ( ) .0,4 8 7 7 . 0,6 + ( 88 ) .0,4 8 ( ) .0,6 − ( ) .0,4 . 0,6 8 0 8 8 1 7 Media, varianza y desviación típica Si se realizan n pruebas, se puede demostrar que la media, la varianza y la desviación típica son, respectivamente: : = n.p F2 = n.p.q F = n. p. q 3. Distribución de probabilidad continua. Dada una variable aleatoria continua X , carece de sentido asignar a cada uno de sus valores xi su correspondiente probabilidad pi, ya que X puede tomar los infinitos valores de un intervalo. En una distribución continua, la probabilidad de que la variable tome un determinado valor es siempre cero. Puesto que no es posible definir la función de probabilidad para una variable continua, es preciso introducir un nuevo concepto que la sustituya y que caracterice a la distribución de probabilidad continua, como hacía la función de probabilidad con la discreta. Es así como nace el concepto de función de densidad, f(x), que siempre debe cumplir: # f(x) $0 en todo su dominio. # El área encerrada bajo la curva f(x) vale 1. 3.1 Distribución normal La distribución normal se caracteriza por tener una función de densidad de probabilidad f(x), cuya representación gráfica tiene forma de campana. Una distribución normal de media : y desviación típica F se representa por N ( :, F ). 2 1 x− µ 2 σ − 1 2 f ( x) = .e σ . 2π - Su dominio es ú. - Es una función simétrica respecto de la recta x = : - El eje de abscisas es una asíntota horizontal. - Tiene un máximo en x = :. - El área encerrada entre la curva f(x) y el eje de abscisas es 1. La más sencilla, denominada normal estándar, es la normal de media 0 y desviación típica 1: N(0,1) de la cual se han tabulado las probabilidades. Con el manejo de las tablas se pueden calcular probabilidades del tipo p(Z#k). Ejercicio 1 Sea Z una variable aleatoria N(0,1). Calcula: b) p(Z$-1,32) c) p(1,52<Z<2,03) a) p(Z$1,32) d) p(-2,03<Z#1,52) Solución: a) 0,0934 d) 0,9146 b) 0,9066 c) 0,0431 Ejercicio 2 a) ¿ Para qué valor de k se cumple p(Z#k)=0,84 ? b) ¿ Para qué valor de k se cumple p(-k#Z#k)=0,8 ? Solución: a) k=0,995 b) k=1,28 El intervalo (-1,28, 1,28) encierra un 80% del área total en una N(0,1) Intervalo característico y nivel de confianza Si un intervalo (-k, k) encierra un área igual a p, recibe el nombre de intervalo característico correspondiente a la probabilidad p, y k es el valor crítico. Habitualmente la probabilidad p se designa por 1- " y se llama nivel de confianza. De la misma forma, el valor crítico k se designa por z"/2. p(Z$z"/2)="/2 p(-z"/2 #Z#z"/2)=1- " 3 Ejercicio 3 Calcula z"/2 para 1- "= 0,9 Solución: Si el intervalo abarca un área de 0,9, fuera de él deberá haber un área de 0,1 ; el área de cada una de las “colas” es 0,05. Se trata de buscar el valor de k tal que p(Z$k)=0,05 , esto es, p(Z#k)=0,95 En las tablas encontramos: p(Z#1,64)=0,9495 p(Z#1,65)=0,9505 El valor promedio entre 1,64 y 1,65 es 1,645. Por tanto z"/2 =1,645 El intervalo característico [-1,645,1,645] es aquel dentro del cual, en una distribución de probabilidad N(0,1), hay un área 90% del total. En la siguiente tabla figuran los intervalos característicos que se suelen utilizar más: 1- " "/2 z"/2 Intervalo característico 0,9 0,05 1,645 (-1,645, 1,645) 0,95 0,025 1,96 (-1,96, 1,96 0,99 0,005 2,575 (-2,575, 2,575) Tipificación de la variable Las distribuciones normales que nos encontramos más a menudo no son del tipo N(0,1). Para calcular las probabilidades de una distribución normal N( :,F ) utilizando la tabla se debe efectuar el cambio de variable Z = X−µ . En este caso se dice que se ha tipificado la variable. Una vez tipificada, σ la variable seguirá una distribución normal N(0,1) y utilizaremos las tablas. Ejemplo La longitud de las truchas de una piscifactoría sigue una normal de media 25 cm, con una desviación típica de 2 cm. Calcula la probabilidad de que una trucha tomada al azar tenga un tamaño inferior a 26 cm. Solución: Se trata de una normal N(25, 2). X − 25 26 − 25 P(X#26) = p( ≤ = p( Z ≤ 0,5) = 0,6915 2 2 4 Aproximación de la binomial por la normal La distribución binomial puede aproximarse a una distribución normal cuando n es grande y p y q toman valores cercanos a 0,5. En la práctica la aproximación es buena si npq>10. En este caso B(n,p) se puede aproximar a N(np, npq ) Para calcular p(X< k) se toma p(X#k- 0,5) para no incluir el valor de k. Para calcular p(X#k) se toma p(X# k+ 0,5) para contar con el valor k. Para calcular p(X=k) se aplica p(k- 0,5#X#k+ 0,5). Ejercicio La probabilidad de que un tenista obtenga un punto de saque directo es de 0,02. Si durante un torneo realiza 3000 servicios, ¿cuál es la probabilidad de que consiga más de 80 puntos de saque directo?. Solución: Se trata de una binomial B(3000, 0,02). Como npq>10 se puede aproximar por una normal N(np, npq ) es decir N(3000.0,02, Operando tenemos N(60, 7,67) Luego p(X>80)=1- p(X#80) = 1- p(X#80,5) = 1- p(Z# 3000.0,02.0,98 ) 80,5 − 60 )= 1- p(Z#2,67) =1- 0,9962=0,0038 7,67 Teoría de muestras 1. Distribución de variables aleatorias en el muestreo 1.1 Distribución de medias muestrales Dada una variable estadística observada en una población, se puede calcular se media x y su desviación típica F. Si tomamos una muestra aleatoria de la población y calculamos su media, ésta no tiene por qué coincidir con la media de la población x . Si consideramos k muestras del mismo tamaño de una población y calculamos sus medias xi , la distribución de estas medias muestrales constituye una nueva variable aleatoria llamada distribución de medias muestrales. Los valores xi no son iguales a x ,sin embargo, cuanto mayores sean las muestras, más se aproximarán sus medias a la media poblacional. 1.2 Teorema central del límite Dada una población de media : y desviación típica F, si se extraen muestras de tamaño n, la distribución de las medias de todas las muestras, denominada distribución de las medias muestrales, verifica lo siguiente: • Tiene la misma media, :, que la población. σ • Su desviación típica es s = . n • Cuando n>30, se aproxima a una distribución normal si la población de partida no lo era. (Por supuesto es normal si la población de partida ya lo era cualquiera que sea el valor de n). 5 Este teorema nos permitirá, conociendo la distribución de las medias muestrales de tamaño n, extraer conclusiones de la media de la población. Debemos observar también que cuando n aumenta, la desviación típica disminuye. Ejercicio 1 El cociente intelectual de unos universitarios se distribuye normalmente con media 100 y desviación típica 11. a) Se elige una persona al azar. Halla la probabilidad de que si C.I esté entre 100 y 103. b) Se elige al azar una muestra de 25 personas. Halla la probabilidad de que la media de sus cocientes intelectuales está entre 100 y 103. Solución: La población de partida es N(100, 11). a) 103 − 100 100 − 100 p(100 < X ≤ 103) = p < Z≤ = p(0 < Z ≤ 0,27) = p( z ≤ 0,27) − p( z ≤ 0) = 0,6064 − 0,5 = 0,1064 11 11 b) Como la población de partida es normal, la distribución de la media muestral es normal independientemente del valor de la muestra n. σ 11 Los parámetros de esta distribución son: : = 100 ; = = 2,2 n 25 Por tanto, la distribución de la media muestral es N(100, 2,2) 103 − 100 100 − 100 p(100 ≤ X ≤ 103) = p ≤ Z≤ = p(0 ≤ Z ≤ 1,36) = p( Z ≤ 1,36) − p( Z ≤ 0) = 0,9131 − 0,5 = 0,4131 2,2 2,2 Ejercicio 2 En una urna hay 3 bolas con los números 1,2 y 3. a) Calcula la media y la desviación típica de esta población b) Forma todas las muestras posibles que podemos extraer con devolución de esta población de tamaño 2. c) Forma la distribución de las medias de las muestras, halla la media, la desviación típica y confirma el teorema central de límite. Solución: a) Media poblacional := ∑x N i = 1+ 2 + 3 = 2 donde N es el número total de población. 3 Desviación típica poblacional F= ∑x N 2 i − µ2 = 12 + 2 2 + 32 14 − 22 = −4= 3 3 2 = 0,8165 3 b) El número de muestras posibles con devolución de tamaño 2 son VR3,2 = 32 = 9 : (1, 1); (1, 2); (1, 3); (2, 1); (2, 2); (2, 3); (3, 1); (3, 2); (3, 3) c) Distribución de las medias de las muestras: 1; 1,5; 2; 1,5; 2; 2,5; 2; 2,5; 3 1 + 1,5. 2 + 2 . 3 + 2,5.2 + 3 Media de esta distribución: x = =2 9 12 + 1,52 . 2 + 2 2 . 3 + 2,52 . 2 + 32 − 2 2 = 0,5774 Desviación típica de esta distribución s = 9 Se confirma el teorema central del límite porque si la población tenía media : = 2 ,la distribución de las 6 medias muestrales también tiene media 2 y si la desviación típica de la población era F = 0,8165, la σ 0,8165 desviación típica de la distribución de medias centrales es s = = = 0,5774 n 2 Ejercicio 3 En una universidad se sabe que las tallas de los alumnos se distribuyen normalmente con media 172 cm y desviación típica 17,5 cm. Se toman muchas muestras de 35 estudiantes. a) ¿Cuál es la media y la desviación típica de la distribución de las medias muestrales?. b) Halla la probabilidad de que la media muestral sea inferior a 171 cm. c) Si se eligen 150 muestras de 35 alumnos, ¿en cuántas de ellas cabe esperar que la media muestral sea mayor que 170 cm y menor que 171,5 cm?. Solución: a) Las tallas siguen una N(172, 17,2). La distribución de las mediales muestrales seguirá una normal de media x = 172 cm y desviación típica s= σ 17,5 = = 2,96 ,esto es, N(172, 2,96) n 35 171 − 172 b) p( x < 171) = p Z < = p( Z < − 0,3378) = 0,3678 2,96 171,5 − 172 170 − 172 c) p(170 < x ≤ 171,5) = p < Z≤ = p( − 0,67 < Z ≤ − 0,17) = 0,1833 2,96 2,96 Por lo tanto 150. 0,1833 .27 muestras. Es decir, cabe esperar que en 27 muestras de las 150 seleccionadas, la media muestral será mayor que 170 y menor que 171,5. 1.3 Intervalo de confianza para las medias muestrales Tenemos una población que sigue una normal N( :, F ) y queremos estimar, mediante un intervalo, el parámetro :. Se toma una muestra de tamaño n y se calcula su media x . Sabemos que la distribución de la variable aleatoria formadas por las medias xi de todas las muestras del mismo tamaño n es una N( :, σ ) n x−µ presentará una distribución N(0,1) donde p(-z"/2 #Z#z"/2)=1 - " como σ / n se vio anteriormente. Sustituyendo la expresión de Z, tenemos: Si se tipifica la variable, Z = p(-z"/2 # x−µ #z"/2) =1 - " , p(-z"/2 A σ / n # x - : # z"/2 A σ / n )=1 - " , σ / n , p( x - z"/2 . σ / n≤ µ ≤ x + z"/2 . σ / n ) = 1 - " Por tanto el intervalo de confianza para el parámetro : de una población N( :, F ) a un nivel de confianza 1 - " es un intervalo centrado en x y de radio zα / 2 .σ / n ,esto es: ( IC = x − zα / 2 .σ / n , x + zα / 2 .σ / n Si F es desconocida y n >30 se usa en su lugar la cuasivarianza s 2 = σ 2 . ) n n− 1 7 Ejercicio Un psicólogo escolar ha estudiado que el tiempo de reacción de 1º de Primaria se distribuye normalmente. Con una muestra de 100 alumnos, la media de tiempo de reacción fue de 45 segundos y la desviación típica de 0,04 segundos. Halla un intervalo de confianza para la media de tiempos de reacción al nivel de confianza de: a) 90% b) 95% c) Interpretar los resultados ( Solución: IC = x − zα / 2 .σ / n , x + zα / 2 .σ / n ) Sabemos que se trata de una normal N( 45, 0,04). Por tanto x = 45 y σ = 0,04 a) Calculemos z"/2 para un nivel de confianza del 90%: Si el intervalo abarca un área de 0,9, fuera de él deberá haber un área de 0,1 ; el área de cada una de las “colas” es 0,05. Se trata de buscar el valor de k tal que p(Z$k)=0,05 , esto es, p(Z#k)=0,95 En las tablas encontramos: p(Z#1,64)=0,9495 p(Z#1,65)=0,9505 El valor promedio entre 1,64 y 1,65 es 1,645. Por tanto z"/2 =1,645 0,04 0,04 El intervalo de confianza será: 45 − 1,645. , 45 + 1,645. = (44,993,45,007) 100 100 El tiempo de reacción está entre 44,993 y 45,007 con una confianza del 90% o lo que es lo mismo, este intervalo cubre el valor de la media con una probabilidad de 0,9. b) Para calcular z"/2 para un nivel de confianza del 95% se procede de forma análoga obteniendo z"/2 =1,96 0,04 0,04 El intervalo de confianza será 45 − 1,96 . , 45 + 1,96. = (44,992, 45,008) 100 100 c) Cuanto mayor es el nivel de confianza, mayor es la amplitud del intervalo, con lo que aumenta el margen de error. 1.4 Tamaño de la muestra. Error de estimación. Hasta ahora, conocido el tamaño de la muestra se calculaba el intervalo de confianza correspondiente. Se podría plantear la pregunta a la inversa:¿cuál debe ser el tamaño de la muestra para tener una confianza determinada. El error máximo vendrá determinado por la amplitud del intervalo de confianza, es decir: σ E = ± zα / 2 • n Ejercicio 1 En un determinado barrio se seleccionó al azar una muestra de 100 personas cuya media de ingresos mensuales era de 600 i, con una desviación típica de 120 i. 8 a) Si se toma un nivel de confianza del 95 %, ¿cuál es el intervalo de confianza para la media de los ingresos mensuales de toda la población?. b) Si se toma un nivel de confianza del 99 %, ¿cuál es el tamaño muestral necesario para estimar la media de ingresos mensuales con un error menor a 18 i ?. Solución a) Se trata de una normal N(600, 120) Sabemos ya que a un nivel de confianza del 95% le corresponde z"/2 =1,96. 120 120 El intervalo de confianza será IC= 600 − 1,96 • , 600 + 1,96 • = (576,48 , 623,52 ) 100 100 b) A un nivel de confianza de 99 % le corresponde z"/2 =2,575 120 . 2,575 σ 120 ⇒ 18 = 2,575 • ⇒ n= = 17,17 ⇒ n = ± 294,69 El error es E = ± zα / 2 • 18 n n Por tanto se necesita una muestra de 295 personas. Ejercicio 2 Un fabricante de pilas alcalinas sabe que el tiempo de duración, en horas, de las pilas que fabrica sigue una distribución normal de media desconocida y varianza 3600. Con una muestra de su proucción, elegida al azar, y un nivel de confianza del 95% ha obtenido para la media el intervalo de confianza (372,6 392,2). a) Calcula el valor que obtuvo para la media de la muestra y el tamaño muestral utilizado. b) ¿Cuál será el error de su estimación, si hubiese utilizado una muestra de tamaño 225 y un nivel de confianza del 86,9%?. Solución a) Un intervalo de confianza para la media tiene la forma ( x − zα / 2 .σ / n , x + zα / 2 .σ / n ) A un nivel de confianza del 95% le corresponde un z"/2 =1,96. Igualando con el intervalo dado tenemos: 60 x − 1,96 • = 372,6 n Sumando las ecuaciones obtenemos 2 x =764,8 , x =382,4 60 x + 1,96 • = 392,2 n Sustituyendo el valor de x en, por ejemplo la primera ecuación: 382,4 − 1,96 • 60 = 372,6 ⇒ n = 144 n El tamaño muestral utilizado es 144. σ b) E = ± zα / 2 • n Si el nivel de confianza es de un 86,9%, el intervalo abarca un área de 1- "=0,869; fuera de él deberá haber un área de 0,131 ; el área de cada una de las “colas” es 0,0655.Se trata de buscar el valor de k tal que p(Z$k)=0,0655 , esto es, p(Z#k)=0,9345En las tablas encontramos: p(Z#1,64)=0,9345 60 = ± 6,04 Por tanto z"/2 =1,51 y el error E = ± 1,51 • 15 9 Ejercicio 3 Las alturas, expresadas en cm, de los estudiantes de segundo de bachiller se distribuyen normalmente con una desviación típica de 20 cm. En un colectivo de 500 estudiante de segundo de bachiller se ha obtenido una media de 160 cm. a) Calcula, con una probabilidad del 98%, entre qué valores estará la media de la altura de la población total de estudiantes de segundo de bachiller, b) Interpreta el resultado del intervalo obtenido. Solución: a) Nos piden un intervalo de confianza para la media. Su forma es ( x − zα / 2 .σ / n , x + zα / 2 .σ / n ) A una probabilidad del 98% le corresponde un z"/2 =2,33. El intervalo de confianza será b) En el 98% de las posibles 160 − 2,33 • 20 ,160 + 2,33 • 20 = (157,16, 162,08 ) 500 500 muestral, la media de la altura de la población está entre 157,16 cm y 162,08 cm. Inferencia estadística 1 Hipótesis estadística Cuando en un estudio estadístico queremos determinar si una población cumple una determinada característica, previamente debemos plantear un test estadístico que será el procedimiento que nos permitirá evaluar, a partir de una muestra, si una determinada hipótesis formulada sobre una característica de la población se verifica o no. Una vez concluido el test podemos considerar la hipótesis que, en principio, admitimos como válida, y que llamaremos hipótesis nula, H0 y una hipótesis contraria a ésta, que denominaremos hipótesis alternativa, H1, que es la que admitiremos como válida si nos vemos obligados a rechazar la hipótesis H0. 2 Contraste de hipótesis Es un procedimiento del que depende la decisión de aceptar o rechazar la hipótesis nula y esta aceptación o rechazo dependerá, a su vez, de cuál sea la discrepancia entre la hipótesis y la información muestral que tengamos. Si la discrepancia es menor que un determinado valor que consideramos aceptable, la hipótesis se dará por cierta; este valor se llama valor de significación y se representa por ". Es evidente que una hipótesis estadística no se puede aceptar o rechazar con una certeza del 100%, sino que se define un nivel crítico para ", que nos marcará los límites para aceptar o rechazar la hipótesis nula. Así, por ejemplo, si el nivel de significación es "= 0,05, rechazaremos como improbables el 5% de los casos extremos; por esta razón, en ocasiones, también se dice que estamos trabajando con un nivel de confianza del 95%. Nosotros trabajaremos con hipótesis nulas relativas a la media. Los valores de la media que nos lleven a aceptar la hipótesis nula H0, forman la región de aceptación, y los que nos conducen a rechazarla, constituyen la región de rechazo. 3 Fases del contraste de hipótesis Para efectuar un contraste de hipótesis debemos seguir los pasos siguientes: 10 • Se debe enunciar la hipótesis nula y la alternativa. • Se extrae una muestra de tamaño n y se calcula en ella el valor del parámetro estadístico que se desea encontrar. • Se elige el nivel de significación con el que se quieren tomar las decisiones; generalmente los niveles de significación son "= 0,10; "= 0,05 y "= 0,01. • A continuación se construye la zona de aceptación de la hipótesis, es decir, los intervalos característicos, fuera de los cuales se encuentra el porcentaje de "A100% de casos que queremos rechazar. • Si el valor del parámetro muestral se encuentra dentro de la zona de aceptación, se acepta la hipótesis con un nivel de significación ". En caso contrario, se rechaza. 4 Contraste de hipótesis para la media Se inicia el contraste definiendo la hipótesis nula y la alternativa. En el momento de definir la hipótesis nula, ésta se puede plantear en términos de igualdad o de desigualdad: H0: µ o bien H0: µ ≥ µ 0 o µ ≤ µ 0 En el primer caso es un contraste bilateral, o de dos colas, y los otros dos, contrastes unilaterales o de una cola. Contraste bilateral Contrate unilateral Contraste unilateral 4.1 Contraste bilateral Ya hemos visto que las medias muestrales se distribuyen de la forma N µ , aceptación para esta distribución será: µ 0 − zα / 2 • σ . El intervalo de n σ σ ≤ µ ≤ µ 0 + zα / 2 • n n Si el valor de la media x , se encuentra en ese intervalo, se aceptará la hipótesis nula; en caso contrario, se rechazará. Ejercicio 1 Se quiere estimar la media de la nómina mensual que reciben los directivos de las compañías multinacionales que operan en Europa. 11 a) Si la varianza de la nómina en la población es de 1000 i, ¿cuál es la varianza de la media muestral cuando el tamaño de la muestra es de 100?. b) Si en las condiciones del apartado anterior, la media muestral es de 4008 i, ¿se rechazaría, con un nivel de confianza del 95%, la hipótesis de que la nómina media es de 4000 i?. Solución: La varianza es F2= 1000. Por tanto la desviación típica de la población es σ = 1000 . La desviación típica de la media muestral es es ( 10 ) 2 σ 1000 = = 10 . Por tanto, la varianza de la media muestral 100 n = 10 b) Se trata de una hipótesis bilateral para la media: H0: := 4000 H1: : ≠ 4000 A un nivel de confianza del 95% corresponde un z"/2= 1,96 La zona de aceptación tiene la forma: σ σ , µ 0 + zα / 2 • µ 0 − zα / 2 • = 4000 − 1,96 • 10 , 4000 + 1,96 • 10 = (3993,8, 4006,2) n n ( ) Se rechaza la hipótesis de que la nómina media es de 4000 i con un nivel de confianza de 0,95 ya que x = 4008ó (3996,8, 4006,2). Ejercicio 2 El peso medio de una muestra aleatoria de 100 naranjas de una determinada variedad es de 272 g. Se sabe que la desviación típica poblacional es de 20 g. A un nivel de significación de 0,05, ¿hay suficiente evidencia para refutar la afirmación de que el peso medio poblacional es de 275 d?. Solución: Se trata de un test de hipótesis bilateral para la media: H0: := 275 H1: : ≠ 275 La zona de aceptación de la hipótesis nula, H0,es: σ σ 20 20 , µ 0 + zα / 2 • = 275 − 1,96 • , 275 + 1,96 • = (271,08, 278,92) µ 0 − zα / 2 • 10 10 n n Como x = 272 0(271,08, 278,92), no hay suficiente evidencia para rechazar la hipótesis nula. 4.2 Contraste unilateral Se plantea cuando la hipótesis nula es de la forma: H0: µ ≥ µ 0 o µ ≤ µ 0 El contraste unilateral ha de verificar que el área correspondiente a la región de aceptación esté toda hacia un lado de la distribución, de modo que la región rechazable quede totalmente al otro lado. Si la región de aceptación ha de ser 1- ", la región de rechazo vendrá determinada por el valor de z"/2. 12 µ ≥ µ0 µ ≤ µ0 σ En el primer caso el intervalo de aceptación será − ∞ , µ 0 + zα • n σ y en el segundo µ 0 − zα • ,+ ∞ n Ejercicio En los últimos años el consumo familiar diaria de cierta ciudad en electricidad (en Kw) seguía una Normal de media 6,3 y desviación típica 1,2. Sin embargo, desde hace unos meses las tarifas eléctricas han experimentado varias reducciones, y se piensa que esto ha podido repercutir en un aumento del consumo. Recientemente, para una muestra de 47 familias se ha obtenido un consumo medio diario de 6,8. Suponiendo que el consumo sigue siendo aproximadamente Normal y que la desviación típica se ha mantenido: a) Plantea en test para contrastar que el abaratamiento de las tarifas no ha influido en el consumo, frente a que ha tenido la repercusión que se piensa, como parecen indicar los datos. Si se concluyera que la media de consumo se ha mantenido y realmente subió, ¿cómo se llama al error cometido?. b) ¿A qué conclusión se llega en el test planteado en el apartado anterior con un nivel de significación del 1%?. Solución: a) Se trata de plantear un test de hipótesis unilateral para la media: H0: µ ≤ 6,3 H1: µ > 6,3 Si se concluye que la media del consumo se ha mantenido cuando realmente subió, se está aceptando que la hipótesis nula es verdadera cuando realmente es falsa. Se comete un error de tipo II según la tabla: H0 cierta H0 falsa Aceptamos H0 No hay error Error de tipo II Aceptamos H1 Error de tipo I No hay error b) A un nivel de significación "= 0,1 le corresponde un z"= 2,33 13 σ La zona de aceptación tiene la forma − ∞ , µ 0 + zα • n En este caso la zona de aceptación es − ∞ , 6,3 + 2,33 • 1,2 = ( − ∞ , 6,7) 47 Como 6,8 ó (− ∞ , 6,7), se rechaza la hipótesis, es decir, el abaratamiento de las tarifas ha repercutido en un aumento del consumo, con un nivel de significación del 1%. 14