Inferencia estadística Población y parámetros Definición: Se denomina población o universo a la totalidad de personas u objetos que tienen una o más características medibles o contables de naturaleza cualitativa o cuantitativa. La característica medible o contable es una variable estadística cuyo valor, numérico o no numérico, es una observación. Si la variable estadística a estudiar es una sola, cada elemento de la población puede asociarse con una observación. En este sentido, se denomina población al conjunto de valores posibles de la variable. Si los elementos de la población se definen en forma aleatoria, entonces la variable estadística cuantitativa es una variable aleatoria cuyos valores constituyen la población. En este caso, la distribución de la población es la distribución de la variable aleatoria, entonces la media y la varianza de la variable aleatoria, vienen a ser la media y la varianza de la población. Si la variable aleatoria X tiene distribución f ( x) , se puede referir a la población f ( x) . Por ejemplo, si X está normalmente distribuida se dice que la población está normalmente distribuida o que se tiene una población normal. Según el número de observaciones la población puede ser finita de tamaño N, o infinita. Definición: Se denominan parámetros a las medidas descriptivas que caracterizan a la distribución de la población. Algunos parámetros poblacionales son: Media: µ Proporción: π o p Varianza: σ Desviación estándar: σ 2 En diversas aplicaciones estadísticas al estudiar una población, la variable aleatoria que la define puede tener distribución conocida o no. La distribución de la población es conocida, si se conocen sus parámetros y su forma, es decir si se conoce su distribución de probabilidad. Si la distribución de la población es desconocida, podemos estar interesados en: • Estimar sus parámetros, si se conoce su distribución, y • Probar determinada suposición acerca de un valor determinado del parámetro, o probar la suposición acerca del tipo de distribución de probabilidades de la población. Muestra aleatoria Una muestra aleatoria es un subconjunto de la población elegida, de tal manera que cada elemento de la muestra tiene la misma probabilidad de ser elegida, en este caso se dice que la muestra es representativa de la población. Las muestras aleatorias se pueden obtener a través de algunas técnicas denominadas: Al azar simple, al azar sistemático, estratificado y por grupos (o conglomerados). Definición formal de muestra aleatoria Dada una población f ( x) con media µ y varianza σ 2 , se denomina muestra aleatoria de tamaño n de esa población, a un conjunto de n variables aleatorias X 1 , X 2 ,.., X n tales que: 1) Son independientes. Esto es, la distribución de probabilidad conjunta de la muestra aleatoria X 1 , X 2 ,.., X n se puede expresar como f ( x1 , x2 ,.., xn ) = f ( x1 ) ⋅ f ( x2 ) ⋅ ... ⋅ f ( xn ) 2) Cada una de ellas está idénticamente distribuida. Esto es, cada variable aleatoria X i tiene la misma media, varianza y distribución de la variable aleatoria X , es decir: E ( X i ) = µ , V ( X i ) = σ 2 y f ( xi ) = f ( x) . Estimación de parámetros. Cuando se realiza una investigación estadística a menudo se sabe o se supone que la población (discreta o continua), denotada por f ( x) , de la cual se selecciona una muestra aleatoria cuyo(s) parámetro(s) se intenta determinar. Si el parámetro a determinar es θ , entonces, la distribución de la población será denotada por f ( x,θ ) . Los métodos de inferencia estadística consisten en seleccionar una muestra aleatoria de la población, de manera que a partir de la información que se obtenga de la muestra: 1) Determinar el valor del parámetro desconocido θ (Estimación puntual o por intervalo), ó 2) Decidir si θ , ó una función de θ , es igual a algún valor dado θ0 de θ (Prueba de hipótesis). Definición: Se denomina estadística a cualquier función de las variables aleatorias que constituyen la muestra. Una estadística es una variable aleatoria Y = H ( X 1 , X 2 ,.., X n ) , cuyo valor es el número real y = H ( x1 , x2 ,.., xn ) . El término estadística se usa para referirse tanto a la función de la muestra, como al valor de esta función. Algunas estadísticas importantes y sus valores calculados a partir de una muestra aleatoria son: n a) La media muestral X = Xi i =1 n n , con valor x = x i =1 n i . n b) La varianza muestral S 2 = ( X i − X )2 i =1 n n , con valor s 2 = (x − x ) i =1 2 i n . n c) La proporción muestral (porcentaje de éxitos en la muestra) P̂ o P = Xi i =1 n n , con valor p = x i =1 n i donde X ∼ B(1, p) . Estimación puntual de parámetros Sea X 1 , X 2 ,.., X n una muestra aleatoria de tamaño n seleccionada de una población cuya distribución es f ( x,θ ) , siendo θ el parámetro. Se denomina estimador puntual del parámetro θ a cualquier estadística ˆ = H ( X , X ,.., X ) cuyo valor θˆ = H ( x , x ,.., x ) proporcionará una estimación del parámetro. Θ 1 2 n 1 2 n Un estimador puntual del parámetro θ es una variable aleatoria (función de la muestra) Θ̂ , mientras que una estimación puntual es el valor numérico θˆ del estimador. Ejemplo: ˆ = X media muestral (variable aleatoria), Un estimador puntual de la media poblacional θ es la estadística Θ cuyo valor numérico θˆ = x es la estimación puntual del parámetro θ . No toda función de la muestra es un buen estimador del parámetro, un buen estimador, es aquel que está más cerca del parámetro que se estima. Este estimador debe cumplir con algunas propiedades, tales como: insesgado, consistente y eficiente. Estimador insesgado ˆ = H ( X , X ,.., X ) es un estimador insesgado del parámetro θ sí Se dice que la estadística Θ 1 2 n ˆ ) =θ . E (Θ En caso contrario, se dice que es estimador sesgado. Luego, θˆ = H ( x1 , x2 ,.., xn ) es la estimación insesgada del parámetro θ . Ejemplo: Sea X 1 , X 2 ,.., X n una muestra aleatoria de tamaño n extraída de una población cualquiera f ( x, µ , σ 2 ) , (discreta o continua), tal que E ( X ) = µ y V ( X ) = σ 2 . Entonces, a) La media muestral X es un estimador insesgado de la media poblacional ya que E( X ) = µ . El valor x de X es la estimación insesgada de µ . b) La proporción muestral P es un estimador insesgado de la proporción de éxitos p de una población binomial, por que E(P) = p . c) La varianza muestral n S2 = (X i =1 i − X )2 n σ , ya que 2 es un estimador sesgado de la varianza poblacional E(S 2 ) = n −1 2 σ . n Sin embargo, la estadística, n S12 = (X i =1 es un estimador insesgado de la varianza poblacional i − X )2 n −1 σ 2 , por que E ( S12 ) = σ 2 Estimador eficiente Si hay dos o más estimadores puntuales insesgados de un parámetro θ , se denomina estimador más eficiente a aquel estimador que tenga menor varianza. Esto es, si Θ̂1 y Θ̂ 2 son estimadores insesgado del parámetro θ , entonces ˆ ) < V (Θ ˆ ). Θ̂1 es más eficiente que Θ̂ 2 sí V ( Θ 1 2 Ejemplo Sea X 1 , X 2 , X 3 y X 4 una muestra aleatoria de cualquier población con distribución f ( x, µ , σ 2 ) . Dados los estimadores del parámetro µ : ˆ = a) Θ 1 X1 + X 2 + X 3 + X 4 4 y ˆ = 4 X1 − X 3 + X 4 b) Θ 1 4 Identificar el estimador más eficiente. Estimador consistente Se dice que un estimador puntual Θ̂ es un estimador consistente del parámetro θ si la diferencia entre el valor esperado del estimador y el parámetro disminuye a medida que aumenta el tamaño de la muestra. Esto es, Θ̂ es consistente ⇔ ˆ ) =θ y lim E (Θ n n →∞ ˆ ) = 0. lim V (Θ n n →∞ Error cuadrático medio (ECM) Si Θ̂ es un estimador del parámetro θ , se define el error cuadrático medio (ECM) de Θ̂ como 2 2 2 ˆ ˆ ) = E (Θ ˆ ˆ ˆ ˆ ECM (Θ − θ ) = V (Θ) + E (Θ) − θ = V (Θ) + b (Θ) ˆ ) = sesgo b (Θ Nota: ˆ ) = E (Θ ˆ ) − θ se denomina sesgo de Θ̂ . b(Θ ˆ ) = 0 , entonces E (Θ ˆ ) = θ , entonces Θ̂ es un estimador insesgado del parámetro θ . Si b (Θ Si el estimador es insesgado existe exactitud. Si la varianza es pequeña existe precisión. Ejercicio 1) Calcular el ECM del ejemplo anterior. 2) El peso en kilo de los jamones vendidos por una empresa se distribuye N (θ , 4) . Se conoce que el peso medio de los jamones vendidos supera los 5 kg. Si se toma una muestra aleatoria de tamaño 4 para estimar θ . ¿Cuál de los siguientes estimadores de la media es mejor?: ˆ = X1 + X 2 Θ 2 2 ˆ = X1 + X 2 + X 3 Θ 1 4 Nota: La raíz cuadrada positiva de la varianza del estimador ( V (Θˆ ) ) se denomina error estándar y se ˆ ) . Luego, eee(θˆ) = V (θˆ) es el error estándar de estimación. denota por eee(Θ Ejemplos: Estimación puntual de la media de una población normal N ( µ , σ 2 ) . N X Parámetro (media poblacional) : θ = µ = i =1 i N n Estimador (media muestral): µˆ = X = X i =1 i (Insesgado y consistente). n n Estimación de la media muestral: µˆ = x = x i i =1 n N Varianza del Estimador: V ( µˆ ) = σ 2 n σ2 = , (X i =1 i − X )2 N n Estimación de la Varianza: Vˆ ( µˆ ) = 2 X s , n s X2 = (x − x ) i =1 2 i n −1 2 X s n Error estándar de estimación: eee( µˆ ) = Estimación puntual de una proporción p en una población con distribución Binomial B (1, p ) . N Parámetro de una proporción θ = p = X i =1 N n Estimador de una proporción: Pˆ = X i i =1 n n Estimación de una proporción: pˆ = x i =1 n i i . p(1 − p) n pˆ (1 − pˆ ) Estimación de la Varianza: Vˆ ( Pˆ ) = n pˆ (1 − pˆ ) Error estándar de estimación: eee( Pˆ ) = n Varianza del Estimador: V ( Pˆ ) = Uno de los métodos para determinar estimadores puntuales es el de máxima verosimilitud que se describe a continuación. Método de máxima verosimilitud Supongamos que una población X está distribuida como f ( x,θ ) en donde θ es el parámetro que tratamos de estimar. El procedimiento para determinar el estimador de máxima verosimilitud es como sigue: 1) Elegir una muestra aleatoria X 1 , X 2 ,.., X n de la población y determinar la distribución conjunta de la muestra en sus valores observados respectivos x1 , x2 ,.., xn . Esta función del parámetro θ se conoce como función de verosimilitud está dada por: n L (θ ) = f ( x1 , x2 ,.., xn , θ ) = ∏ f ( xi , θ ) = f ( x1 , θ ) ⋅ f ( x2 , θ ) ⋅ .. ⋅ f ( xn , θ ) i =1 2) El valor de θ que maximiza a la función L(θ ) , es la estimación de máxima verosimilitud (EMV) de θ . Este valor denotaremos por θˆ = H ( x1 , x2 ,.., xn ) ˆ = H ( X , X ,.., X ) es el estimador de máxima verosimilitud de θ . La estadística correspondiente Θ 1 2 n 3) Sea l (θ ) = ln [ L (θ ) ] . En este caso el valor de θ que maximiza a l (θ ) es la solución θˆ de la ecuación: ∂l = 0. ∂θ 4) Si la distribución de probabilidad de la población contiene k parámetro θ1 , θ 2 ,.., θ k la función de verosimilitud está dada por: n L (θ1 , θ 2 ,.., θ k ) = ∏ f ( xi , θ1 , θ 2 ,.., θ k ) i =1 La estimación de máxima verosimilitud de cada parámetro θi es la solución θˆi , i = 1, 2,.., k , de la ecuación respectiva: Donde l = ln [ L (θ1 , θ 2 ,.., θ k ) ] . ∂l ∂l ∂l = 0, = 0,.., =0, ∂θ1 ∂θ 2 ∂θ k Distribuciones muestrales Se denomina distribución muestral de una estadística a su distribución de probabilidad Por ejemplo, a la distribución de probabilidad de la estadística media X , se le denomina distribución muestral de la media. Distribución muestral de la media X Sea X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n escogida de una población f ( x) con media µ y con varianza σ . Si X es la media muestral, entonces, E( X ) = µ 2 σ2 V (X ) = σ2 X ≈ N µ , , cuando n → ∞ . (T.L.C.) n n Nota: Aproximación de X a la normal N µ , σ2 es buena si n ≥ 30 , sin importar si la población es discreta o n continua. • Si la muestra aleatoria es escogida de una población normal N ( µ , σ 2 ) entonces, la distribución de X es • σ2 exactamente normal N µ , , para cualquier tamaño de muestra, n ≥ 2 . n σ2 La varianza de la media: V ( X ) = es válida, si el muestreo es con o sin reemplazo en una población n infinita, o es con reemplazo en una población finita de tamaño N. Si el muestreo es sin reemplazo en una población finita de tamaño N, entonces, la varianza de la distribución de X es: σ = 2 X El coeficiente σ 2 N −n n N −1 N −n se denomina factor de corrección para población finita. Observar que cuando N −1 N → ∞ el factor de corrección tiende a uno. Ejemplo El número de automóviles por familia en una ciudad es una variable aleatoria X cuya distribución de probabilidad es como sigue: x 0 1 2 3 4 f ( x) 4/12 4/12 2/12 1/12 1/12 si se escoge al azar una muestra de 49 familias, ¿cuál es la probabilidad de que la media muestral de autos por familia esté entre 1 y 2. Ejemplo Un auditor toma una muestra aleatoria de tamaño n=100 de un conjunto de 500 cuentas por cobrar. El auditor sabe que las 500 cuentas por cobrar constituyen una población finita cuya desviación estándar es σ = $145 . ¿Cuál es la probabilidad de que la media muestral difiera de la media poblacional en más de $26?. Ejercicio Una empresa produce cereales de desayuno. El verdadero peso medio de sus cajas de cereales es de 200 gramos y la desviación típica es de 60 gramos. La distribución poblacional del peso es normal. Suponga que compra cuatro cajas, que puede considerarse que son una muestra aleatoria de todas las que se producen. a) ¿Cuál es el error típico de la media muestral del peso? b) ¿Cuál es la probabilidad de que el contenido de estas cuatro cajas pese, en promedio, menos de 197 gramos? c) ¿Cuál es la probabilidad de que el contenido de estas cuatro cajas pese, en promedio, más de 206 gramos? d) ¿Cuál es la probabilidad de que el contenido de estas cuatro cajas pese, en promedio, entre 195 y 205 gramos? e) Se eligen aleatoriamente dos de las cuatro cajas. ¿Cuál es la probabilidad de que el contenido de estas dos cajas pese, en promedio, entre 195 y 205 gramos?. Distribución muestral de la proporción Sea X 1 , X 2 ,.., X n una muestra aleatoria de tamaño n extraída de la población de Bernoullí B (1, p ) , donde p es el porcentaje de éxitos en la población y sea X 1 + X 2 + .. + X n n la proporción de éxitos en la muestra, siendo, X = X 1 + X 2 + .. + X n una variable binomial B ( n, p ) , entonces. P= µP = p σ P2 = p (1 − p ) n p (1 − p ) P ≈ N p, , cuando n → ∞ . n Nota: • El error estándar de P es σ P = p (1 − p ) . n Ejercicio Se ha estimado que el 43 por ciento de los licenciados en administración de empresas cree que la asignatura de ética empresarial es muy importante para impartir valores éticos a los estudiantes. Halle la probabilidad de que más de la mitad de una muestra aleatoria de 80 licenciados crea eso. Ejercicio Una fábrica tiene 438 obreros, de los cuales 239 están preocupados por las futuras prestaciones sanitarias. Se ha pedido a una muestra aleatoria de 80 de estos obreros que estime la proporción poblacional preocupada por las futuras prestaciones sanitarias. a) ¿Cuál es el error típico de la proporción muestral preocupada? b) ¿Cuál es la probabilidad de que la proporción muestral sea inferior a 0,5? c) ¿Cuál es la probabilidad de que la proporción muestral esté comprendida entre 0,5 y 0,6? Ejemplo La probabilidad de que un paciente se recupere de una rara enfermedad es 0.4. ¿Cuál es la probabilidad de que en una muestra de 100 pacientes seleccionados de una población de 1.000 que sufren la enfermedad, más del 30% sobrevivan?. Intervalos de Confianza (IC) Una estimación puntual no nos dice cuán próximo está la estimación del verdadero valor del parámetro que se estima, por lo tanto, no es muy significativa, sin no se tiene alguna medida del error que se comete en la estimación. Es deseable tener cierto grado de confianza de que la estimación puntual se halle dentro de cierta variación. Sea X 1 , X 2 ,.., X n una muestra aleatoria de tamaño n escogida de una población f ( x,θ ) , con valores ˆ = H ( X , X ,.., X ) un estimador del parámetro θ cuya x , x ,.., x . Sea además, la variable aleatoria Θ 1 2 1 n 2 n distribución de probabilidad sea conocida. Dado el número 1 − α , y a partir de la distribución de Θ̂ , se tiene que ˆ ≤ d ) = 1−α P( θ − Θ ˆ −d ≤θ ≤ Θ ˆ + d ) = 1−α P (Θ Entonces, θ ∈ θˆ − d ,θˆ + d Límite inferir de confianza ⇔ θˆ − d ≤ θ ≤ θˆ + d , Límite superior de confianza es el intervalo para θ con (1 − α ) ⋅100% de confianza. Donde, (1 − α ) ⋅100% se denomina nivel de confianza del intervalo. ˆ ) se denomina error de estimación, V (Θ ˆ la varianza del estimador y k es el percentil d = k V (Θ 1 − α / 2 de la distribución del estimador Θ̂ . Interpretación del intervalo de confianza: Si a partir de los datos de una muestra aleatoria de tamaño n, hemos construido el intervalo θˆ − d ≤ θ ≤ θˆ + d con (1 − α ) ⋅100% de confianza, por ejemplo, del 95% para el parámetro θ , si se seleccionan repetidamente 100 muestras de tamaño n, tendremos 100 intervalos semejantes al intervalo θˆ − d , θˆ + d , y se confía que 95 de estos 100 intervalos contengan el parámetro θ . Observación: Es conveniente destacar que en estos intervalos deberían ocurrir las siguientes situaciones: Contener al parámetro poblacional ( θ ), con probabilidad alta. Tener longitud lo más pequeña posible, de tal forma que los valores probables del parámetro poblacional sean lo más acotado posible. Reflejar la variación de muestra a muestra de las estimaciones puntuales. Intervalo de confianza de (1 − α ) ⋅100% para la media µ de una distribución normal N ( µ , σ 2 ) ( σ desconocida). Sea X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n de X ∼ N ( µ , σ 2 ) . Por lo tanto, el intervalo de confianza 2 de (1 − α ) ⋅100% para la media µ de una distribución normal N ( µ , σ 2 ) ( σ desconocida), está dada por 2 µ ∈[x − d, x + d ], donde d = tn −1,1−α / 2 sx 1 n y s X2 = ( xi − x ) 2 . n − 1 i =1 n Ejemplo: 1) Los contenidos de una muestra aleatoria de 5 latas de café instantáneo de un productor han dado los siguientes pesos netos (en gramos): 280 290 285 275 284 a) Encuentre un IC del 95% para la media de los contenidos en todas las latas de café del productor. b) ¿Con qué nivel de confianza se estima que el contenido medio de café tenga los límites de confianza 277,432 y 288,168. Suponga una distribución normal. a) X : “Peso neto de lata de café instantáneo” µ : “Peso medio poblacional en latas de café instantáneo” n = 5, x = 282,8, s x = 5, 63, t4;0,975 = 2, 776 d = 2,776 ⋅ 5, 63 = 6,989 5 El IC de 95% para µ es: µ ∈ [ x − d , x + d ] = [ 282,8 − 6, 989; 282,8 + 6, 989 ] = [275,81; 289, 79] b) 1 − α / 2 = 0,95 1 − α = 0,9 282,8 − t4,1−α / 2 ⋅ 2,518 = 277, 43 t4,1−α /2 = 2,132 ∴Para que el contenido medio esté en el intervalo [275,81; 289, 79] (gramos) debe considerarse un nivel de confianza de 90%. Determinación del tamaño de muestra para estimar la media poblacional µ En el IC para la media µ de una distribución normal N ( µ , σ 2 ) ( σ desconocida), se tiene 2 [x − d, x + d ] , sx depende de n y de la desviación estándar. n Interesa determinar el tamaño de muestra n para un IC de nivel (1 − α ) ⋅100% para estimar la media donde d = tn −1,1−α /2 ⋅ poblacional con un error de estimación no superior a un valor predeterminado ( d 0 ) , esto es d 0 ≥ d d 0 ≥ d = z1−α /2 ⋅ sx n , ( n ≥ 30, tn −1,1−α /2 ≈ z1−α /2 ) , entonces 2 z ⋅s n ≥ 1−α /2 x d0 n Nota: Si el tamaño de la población es N (finito) y si > 0, 05 entonces se debe corregir el tamaño de N n muestra por n0 = . n 1+ N Ejemplo: Del ejemplo anterior, cuántas latas se debe tomar de muestra para que el IC de 95% para la media tenga un error de estimación de 0,8. 2 2 z ⋅ s 1, 96 ⋅ 5, 63 R: n ≥ 1−α /2 x = = 190, 26 ≈ 191 0.8 d0 Intervalo de confianza de (1 − α ) ⋅100% para la diferencia de medias ( µ X − µY ) poblacionales de dos poblaciones normales con varianza común desconocida ( σ X = σ Y = σ desconocida). 2 2 2 Sean X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n de X ∼ N ( µ x , σ ) y Y1 , Y2 ,.., Ym , una muestra 2 aleatoria de tamaño n de Y ∼ N ( µ y , σ ) , X e Y son variable aleatoria independientes. Luego, un IC de 2 (1 − α ) ⋅100% para la diferencia de medias, µ x − µ y , está dado por µ X − µY ∈ ( x − y ) − d , ( x − y ) + d , donde d = tn+ m− 2,1−α /2 ⋅ sc ⋅ ( n − 1) ⋅ sx2 + (m − 1) ⋅ s y2 1 1 1 n + , sc = y s x2 = ( xi − x ) 2 n m n+m−2 n − 1 i =1 Ejemplo: 2) Un encargado de compras de una cadena de restaurantes, tiene que escoger entre dos variedades de arroz A y B. Selecciona dos muestras aleatorias independientes de 10 bolsas de arroz de 1 kg. de cada tipo de arroz y encuentra los siguientes porcentajes de granos de arroz quebrados por kilo: A: B: 6 7 5 6 6 7 7 9 4 5 7 8 6 7 4 6 3 10 6 8 Estimar mediante un IC de 95% la diferencia promedio de porcentajes de granos quebrados por kilo de arroz de las 2 variedades. ¿Se puede aceptar que no hay diferencias significativas entre las 2 medias poblacionales?. Suponga que los porcentajes de granos por kilo de cada variedad se distribuye normal con igual varianza. R: X : “Porcentaje de granos quebrados de arroz en bolsas de kilo del tipo A”. Y : “Porcentaje de granos quebrados de arroz en bolsas de kilo del tipo B”. µ x : “Porcentaje promedio poblacional de granos quebrados de arroz en bolsas de kilo del tipo A”. µ y : “Porcentaje promedio poblacional de granos quebrados de arroz en bolsas de kilo del tipo B”. n = 10, y = 5, 4, s y = 1,35 m = 10, x = 7,3, sx = 1, 49 n + m − 2 = 10 + 10 − 2 = 18, 1 − α / 2 = 1 − 0, 05 / 2 = 0,975 t0,975;18 = 2,101 sc = (n − 1) ⋅ sx2 + (m − 1) ⋅ s y2 = (10 − 1) ⋅ (1,35) 2 + (10 − 1) ⋅ (1, 49) 2 /18 = 2, 021 n+m−2 1 1 1 1 d = tn+ m−2,1−α /2 ⋅ sc ⋅ + = 2,101⋅ 2, 021 ⋅ + = 1,336 n m 10 10 Luego, los límites del intervalo con 95% de confianza son µ X − µY ∈ ( x − y ) − d , ( x − y ) + d = [1,9 − 1,336;1,9 + 1,336] µ x − µ y ∈ [ 0, 564;3, 236 ] ⇔ 0,564 ≤ µ x − µ y ≤ 3, 236 Como el IC no contiene al cero, podemos concluir que existen diferencias con un 5% de significancia. Intervalo de confianza de (1 − α ) ⋅100% para una proporción ( p ) de una población binomial B(1, p) . Sea X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n de X ∼ B(1, p) , donde p indica la proporción de éxitos de la población. Entonces, si p̂ es la proporción de éxitos en una muestra aleatoria de tamaño n , el IC de (1 − α ) ⋅100% para la proporción p es donde d = z1−α /2 ⋅ pˆ (1 − pˆ ) . n p ∈ [ pˆ − d , pˆ + d ] , Determinación del tamaño de muestra para estimar una proporción p en una distribución Binomial Para estimar una proporción p con un nivel (1 − α ) ⋅100% de confianza y un error de estimación no superior a d0 el número necesario de observaciones está dado por la inecuación pˆ (1 − pˆ ) d0 ≥ z1−α /2 ⋅ n 2 z n ≥ 1−α /2 pˆ (1 − pˆ ) . d0 Ejemplo: Una encuesta utilizó una muestra aleatoria de 600 electores que acaban de votar y encontró que 240 votaron a favor del candidato A. a) Estimar el porcentaje de electores a favor del candidato A en toda la población, utilizando un IC del 95%. b) Si la proporción a favor del candidato A se estima en 40%. ¿Cuánto es el error de estimación, si se quiere tener una confianza del 98%?. c) Si con la misma muestra la proporción a favor de B se estima en 38% con una confianza del 98% que el error de estimación no es mayor que 4,62%. ¿Se puede proclamar a A como ganador de la elección?. d) ¿Qué tan grande se requiere el tamaño de muestra si se desea tener una confianza de 94% de que el error de estimación no supere el 2%?. R: a) X : “Vota por candidato A”. Y : “Vota por candidato B”. px : “Verdadera proporción de votantes por candidato A”. p y : “Verdadera proporción de votantes por candidato B”. 240 = 0, 4 600 1 − α = 0,95 1 − α / 2 = 0,975, z0,975 = 1,96 n = 600, pˆ x = d = z1−α /2 ⋅ pˆ x (1 − pˆ x ) 0, 4(1 − 0, 4) = 1,96 ⋅ = 0, 0392 n 600 p ∈ [ pˆ x − d , pˆ x + d ] = [ 0, 4 − 0, 0392, 0, 4 + 0, 0392 ] 0,3608 ≤ px ≤ 0, 4392 . Luego, el IC del 95% para votantes a favor del candidato A es [0,3608;0, 4392] o px ∈ [36, 08%; 43,92%] . b) 1 − α = 0,98 1 − α / 2 = 0,99, z0,99 = 2,33 d = z1−α /2 ⋅ pˆ x (1 − pˆ x ) 0, 4(1 − 0, 4) = 2,33 ⋅ = 0, 0466 n 600 Se concluye que para un n = 600 el error máximo de estimación es de 4,66% con un 98% de confianza. c) pˆ y = 0,38 pˆ y − d ≤ p y ≤ pˆ y + d 0,38 − 0,046 ≤ p y ≤ 0,38 + 0, 046 0,3338 ≤ p y ≤ 0, 4262 pˆ x = 0, 4 pˆ x − d ≤ px ≤ pˆ x + d 0, 4 − 0, 046 ≤ px ≤ 0, 4 + 0, 046 0,3534 ≤ px ≤ 0, 4460 El IC del 98% de la proporción de votantes a favor de A es [0,3534;0, 4460] o [35,34%;44,60%] y B es [0,3338;0, 4262] o [33,38%;42,62%] . Comparando los intervalos, se observa que hay intersección entre los intervalos para el candidato A y B, por lo que se dice que existe empate técnico. d) 1 − α = 0,94 1 − α / 2 = 0,97, z0,97 = 1,88 2 2 z ⋅ pˆ x ⋅ (1 − pˆ x ) 1,88 ⋅ 0, 4 ⋅ 0, 6 n ≥ 1−α / 2 = = 2.120, 64 ≈ 2.121 d0 0, 02 Intervalo de confianza de (1 − α ) ⋅100% para la diferencia de proporciones poblacionales ( p1 − p2 ) de dos poblaciones binomiales B (1, p1 ) y B(1, p2 ) . Sean p̂1 y p̂2 las proporciones de éxitos de dos muestra aleatoria de tamaño n1 y n2 , seleccionadas de dos distribuciones de Bernoulli, B(1, p 1 ) y B (1, p 2 ) , de parámetros p 1 y p 2 respectivamente. El IC de (1 − α ) ⋅100% para la diferencia de proporciones, p 1 − p2 , es: p1 − p2 ∈ ( pˆ 1 − pˆ 2 ) − d , ( pˆ1 − pˆ 2 ) + d , donde d = z1−α /2 ⋅ pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) + . n1 n2 Ejemplo: Un fabricante afirma que su nuevo producto popular lo prefieren más lo hombres que las mujeres. Para comprobarlo toma una muestra aleatoria de 250 hombres y otra de 200 mujeres, y se encuentra que 175 hombres y 120 mujeres prefieren el nuevo producto. Utilizando un IC de 95% para la verdadera diferencia de proporciones entre hombres y mujeres, ¿Se puede concluir que el fabricante tiene razón?. R: X : “Hombre prefiere el nuevo producto”. Y : “Mujer prefiere el nuevo producto”. p1 : “Verdadera proporción de hombres que prefieren el nuevo producto”. p2 : “Verdadera proporción de mujeres que prefieren el nuevo producto”. 175 120 n1 = 250, n2 = 200, pˆ1 = = 0, 7, pˆ 2 = = 0, 6 250 200 1 − α = 0,95 1 − α / 2 = 0,975, z0,975 = 1,96 d = z1−α /2 ⋅ pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) 0, 7(1 − 0, 7) 0, 6(1 − 0, 6) + = 1,96 ⋅ + = 0,0882 n n 250 200 p1 − p2 ∈ ( pˆ1 − pˆ 2 ) − d , ( pˆ1 − pˆ 2 ) + d = ( 0, 7 − 0, 6 ) − 0, 0882; ( 0, 7 − 0, 6 ) + 0, 0882 p1 − p2 ∈ [ 0, 0118; 0,1882 ] ⇔ 0,0118 ≤ p1 − p2 ≤ 0,1882 . Como el IC no contiene al 0, se puede concluir que existen diferencias significativas al nivel 5%, entonces, p1 − p2 > 0 p1 > p2 . Es decir, el fabricante tiene razón, los hombres prefieren el nuevo producto popular más que las mujeres. Otra forma, la proporción de preferencias de los hombres por el nuevo producto popular es mayor que las mujeres con un 95% de confianza. Intervalo de confianza para la varianza ( σ 2 ) Sea X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n , escogida de una población normal con varianza σ 2 , parámetro desconocido. Un estimador puntual de la varianza σ 2 es la varianza muestral ( σˆ 2 = S x2 ) S X2 = 1 n ( X i − X )2 n − 1 i =1 cuyo valor sx2 (σˆ 2 ) es la estimación puntual de σ 2 . Luego, si sx2 es la varianza de una muestra aleatoria de tamaño n seleccionada de una población normal, entonces, el intervalo de confianza de (1 − α ) ⋅100% para σ 2 es: ( n − 1) s 2 χ12−α /2,n −1 ≤σ2 ≤ ( n − 1) s 2 χα2 / 2,n −1 Los valores, χα /2,n −1 y χ1−α /2,n−1 se hallan en la tabla chi-cuadrado con n − 1 grados de libertad y con áreas 2 2 acumuladas respectivas de α / 2 y 1 − α / 2 . Ejemplo Una máquina produce piezas metálicas en forma cilíndrica. Para estimar la variabilidad de los diámetros, se toma una muestra aleatoria de 10 piezas producidas por la máquina encontrando los siguientes diámetros en centímetros: 10,1 9,7 10,3 10, 4 9,9 9,8 9,9 10,1 10,3 9,9. Encuentre un intervalo de confianza del 95% para la varianza de los diámetros de todas las piezas producidos por la máquina. Suponga que los diámetros de las piezas se distribuyen según la normal. Respuesta n1 = 10, s 2 = 0,056 1 − α = 0,95 1 − α / 2 = 0,975, α / 2 = 0, 025 2 2 χα2 /2,n −1 = χ0,025;9 = 2.7 y χ12−α /2,n −1 = χ0,975;9 = 19,02 Por lo tanto, el intervalo de confianza del 95% para la varianza σ 2 es: 9 ⋅ 0, 056 9 ⋅ 0, 056 ≤σ2 ≤ 19, 02 2, 7 2 0, 0265 ≤ σ ≤ 0,1867 Observar que el intervalo de confianza del 95 % para la desviación estándar o es: 0,1628 ≤ σ ≤ 0, 432 Intervalo de confianza para la razón de dos varianzas Sean S12 y S 22 las varianzas de dos muestras aleatorias independientes de tamaños n1 y n2 seleccionadas de dos poblaciones normales respectivas con varianzas σ 12 y σ 22 . Un estimador puntual de la razón de las varianzas σ 12 / σ 22 es la estadística S12 / S 22 . Si s12 y s22 las varianzas de dos muestras aleatorias independientes de tamaños n1 y n2 seleccionadas respectivamente de dos poblaciones normales, entonces, el intervalo de confianza de (1 − α ) ⋅100% para σ 12 / σ 22 es: s12 σ 12 s12 F ≤ ≤ F1−α /2, n2 −1,n1 −1 α / 2, n2 −1, n1 −1 σ 22 s22 s22 Nota: Fα , n ,m = 1 F1−α ,m,n Ejemplo Se quiere comparar la variabilidad de todas las ventas mensuales de una compañía A con la variabilidad de su competidora la compañía B. Se sabe que todas las ventas de A y de B se distribuyen normalmente. Se han tomado dos muestras aleatorias de ventas; una de 8 meses de A y otra de 6 meses de B obteniéndose las siguientes ventas: Muestra de A: 17, 23, 21, 18, 22, 20, 21, 19. Muestra de B: 13, 16, 14, 12, 15, 14. Mediante un intervalo de confianza del 95% para σ 12 / σ 22 . ¿Se puede concluir que son iguales las varianzas de todas las ventas de las compañías A y B?. Respuesta n1 = 8, s12 = 4,13 n2 = 6, s22 = 2 1 − α = 0,95 1 − α / 2 = 0,975, α / 2 = 0, 025 F1−α /2,n2 −1,n1 −1 = F0,975;5;7 = 6,85 y Fα /2,n2 −1,n1 −1 = 1/ F0,975;7;5 = 1/ 5, 29 = 0.189 Por lo tanto, el intervalo de confianza del 95% para la varianza σ 12 / σ 22 es: 0,390 ≤ Dado que el cociente σ 12 ≤ 14,145 σ 22 σ 12 = 1∈ [ 0,390;14,145] , se concluye que no hay diferencias significativas entre las σ 22 varianzas de todas las ventas de A y B. Pruebas de Hipótesis Introducción El objetivo principal es disponer de métodos que se utilizan para tomar decisiones sobre poblaciones, a partir de una muestra aleatoria escogida al azar de esa población. Para tomar decisiones estadísticas se debe partir de afirmaciones o conjeturas con respecto a la población en la cual estamos interesados. Tales supuestos pueden ser verdaderos o no. Un supuesto hecho sobre una población o sus parámetros debe ser sometido a comprobación utilizando la muestra aleatoria, con el objetivo de saber si contradice o no tal supuesto. Se denomina hipótesis estadística a cualquier afirmación o conjetura que se hace respecto de una distribución, respecto a su forma, tipo de distribución o respecto al valor de uno o más de sus parámetros. Por ejemplo, son hipótesis estadísticas: a) b) La longitud media de un tipo de objetos es 20 cm. La proporción de objetos defectuosos no supera el 10%. c) La varianza de longitud de las varillas es de 0,25 cm2. Se denomina hipótesis simple a cualquier hipótesis estadística que especifique la forma de la distribución y el valor de su (s) parámetro(s). De lo contrario, se denomina hipótesis compuesta. Ejemplo: Sea X : “Ingreso mensual de un empleado”, una variable aleatoria tal que X ∼ N (µ ,900) . 1) µ = µ0 = 500 (hipótesis simple) 2) µ ≠ µ0 = 500 ó µ < µ0 = 500 ó µ > µ0 = 500 (hipótesis compuesta) Se denomina hipótesis nula, denotada por H 0 , la hipótesis aceptada provisionalmente como verdadera y cuya validez se comprueba experimentalmente. Toda hipótesis nula va acompañada de una hipótesis alternativa. La hipótesis alternativa, se denota H A Ejemplo: 1) H 0 : θ = θ 0 v / s H A : θ ≠ θ 0 . 2) H 0 : θ ≤ θ 0 3) H 0 : θ > θ 0 o H1 , es la hipótesis que se acepta cuando H 0 se rechaza. v / s H A : θ > θ0 . v / s H A : θ ≤ θ0 . Prueba de hipótesis estadística. La Prueba de hipótesis estadística es un proceso que nos conduce a la decisión de aceptar o rechazar la hipótesis nula H 0 , en contraposición a la hipótesis alternativa y en base a una muestra aleatoria tomada de la población en estudio. La aceptación de la hipótesis significa que los datos no proporcionan evidencia suficiente para refutarla. El rechazo significa que los datos de la muestra la refutan. Tipos de Pruebas de hipótesis. El tipo de prueba depende de la hipótesis alternativa. Del ejemplo anterior: 1) Se denomina prueba bilateral o de 2 colas. 2) Se denomina prueba unilateral de cola derecha. 3) Se denomina prueba unilateral de cola izquierda. Error tipo I y II, y nivel de significancia Al tomar la decisión de aceptar o rechazar la hipótesis nula, H 0 : θ = θ 0 , en base a una muestra aleatoria elegida de la población en estudio, se pueden tomar 4 posibles decisiones. Decisión H 0 Verdadera H 0 Falsa Decisión correcta: 1− β Rechazar H 0 Error tipo I: α Aceptar H 0 Decisión correcta: 1 − α Error tipo II: β Donde α = P( Error tipo I)=P(Rechazar H 0 H 0 Verdadera) y β = P( Error tipo II)=P(Aceptar H 0 H 0 Falsa). Se denomina nivel de significación de una prueba de hipótesis a la probabilidad de cometer un error de tipo I. La potencia de una prueba, calculada por 1 − β , es la probabilidad de tomar la decisión acertada de rechazar H 0 cuando esta es falsa. Es natural, esperar que las probabilidades de los 2 tipos de errores (I y II) sea lo más pequeña posible. Pasos para realizar una prueba de hipótesis: 1) Planteamiento de la hipótesis nula y alternativa. 2) Construcción del estadístico de prueba de la hipótesis nula. 3) Determinación de la región de rechazo (depende de la distribución del estadístico de prueba, del nivel de significancia ( α ) y la hipótesis alternativa ( H A ). 4) Tomar decisión respecto de la hipótesis nula, observando si el estadístico de prueba pertenece o no a la región de rechazo. 5) Interpretar la decisión en el contexto del problema planteado. Prueba de hipótesis para una media 2 Sea X ∼ N ( µ , σ 2 ) , µ0 un valor de prueba conocido y sea X y S X estimadores de µ y σ obtenidos de una 2 muestra aleatoria de tamaño n . Pasos para realizar la prueba de hipótesis para una media: P1) Plantear Hipótesis: H 0 : µ = µ0 v/s H1 : µ ≠ µ0 ; P2) Estadístico de prueba: T0 = P3) Establecer nivel de significancia: α . P4) Región de rechazo de H 0 : i) ii) iii) P5) P6) n ( X − µ0 ) SX H 2 : µ > µ0 ; H 3 : µ < µ0 . ∼ tn −1 . H 0 v/s H 1 R1 = ( −∞, −t1−α / 2, n −1 ) ∪ ( t1−α /2,n −1 , ∞ ) . H 0 v/s H 2 R2 = ( t1−α ,n −1 , ∞ ) . H 0 v/s H 3 R3 = ( −∞, −t1−α ,n −1 ) . Decisión: Si t0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α . Conclusión: Se debe interpretar la decisión tomada en P5). Ejemplo: Las cajas de cereal procesadas por una fábrica deben tener un contenido promedio de 160 gramos. Por una queja ante el SERNAC de que tales cajas de cereal tienen menos contenido, un inspector tomó una muestra aleatoria de 10 cajas, encontrando los siguientes pesos de cereal en gramos: 157 157 163 158 161 159 ¿Es razonable que el inspector multe al fabricante?. Utilice distribución normal. R: Sea 162 159 158 156 α = 0,05 y suponga que los contenidos tienen X : “Peso de las cajas de cereal” µ : “Peso medio poblacional (verdadero) de las cajas de cereal” n = 10, x = 159, sx = 2,309, µ0 = 160 1 − α = 0,95 . P1) Plantear Hipótesis: H0 : µ = µ0 = 160 grs. v/s H3 : µ < µ0 = 160 grs. . P2) Estadístico de prueba: t0 = P3) n ( x − µ0 ) 10 (159 − 160 ) = = −1,37 . sx 2,309 Establecer nivel de significancia: α = 0,05 . P4) Región de rechazo de H 0 : H 0 v/s H 3 R3 = ( −∞, −t1−α ,n −1 ) = ( −∞, −t0,95;9 ) = ( −∞, −1,833 ) . P5) P6) Decisión: t0 = −1,37 ∉ R3 = ( −∞, −1,833) . Conclusión: No se rechaza H 0 , es decir, el inspector no multará al fabricante con un 95% de confianza. Otra forma, con un 95% de confianza el peso medio de las cajas no es menor que 160 grs. Prueba de hipótesis para la diferencia de medias 2 Sean X ∼ N ( µ x , σ ) y Y ∼ N ( µ y , σ ) , dos poblaciones independientes con varianza común desconocida. 2 Dadas dos muestras aleatorias de X e Y de tamaños n y m, respectivamente, obtenemos los estimadores de X , Y , S 2X , S Y2 y la varianza común Sc . Luego, la prueba de hipótesis para la diferencia de medias sigue los siguientes pasos: Plantear Hipótesis: H 0 : µ1 − µ2 = 0 v/ s H1 : µ1 − µ2 ≠ 0 ; P1) H 2 : µ1 − µ2 > 0 ; H 3 : µ1 − µ2 < 0 . X −Y (n − 1) ⋅ S X2 + (m − 1) ⋅ SY2 ∼ tn+ m−2 , donde Sc = . n+m−2 1 1 Sc + n m P2) Estadístico de prueba: T0 = P3) Establecer nivel de significancia: α . P4) Región de rechazo de H 0 : H 0 v/s H 1 R1 = ( −∞, −t1−α / 2,n + m − 2 ) ∪ ( t1−α /2, n + m − 2 , ∞ ) . i) H 0 v/s H 2 R2 = ( t1−α ,n + m − 2 , ∞ ) . ii) H 0 v/s H 3 R3 = ( −∞, −t1−α ,n + m − 2 ) . iii) P5) Decisión: Si t0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α . P6) Conclusión: Se debe interpretar la decisión tomada en P5). Ejemplo: Una medicina A se ha aplicado a 10 pacientes aquejados de cierta enfermedad. Otra medicina B es aplicada a otros 9 pacientes aquejados de la misma enfermedad. Los tiempos de recuperación en días de los pacientes fueron los siguientes: A: B: 6 7 5 6 6 7 7 9 4 5 7 8 6 7 4 6 3 8 6 Utilizando α = 5% y suponiendo poblaciones normales con varianza común desconocida, ¿son iguales los tiempos medios de ambas medicinas?. R: X : “Tiempo de recuperación de pacientes con medicina A”. Y : “Tiempo de recuperación de pacientes con medicina B”. µ x : “Verdadero promedio del tiempo de recuperación de pacientes con medicina A”. µ y : “Verdadero promedio del tiempo de recuperación de pacientes con medicina B”. n = 10, x = 5, 4, sx2 = 1,822 m = 9, y = 7, s y2 = 1,5 n + m − 2 = 10 + 9 − 2 = 17, sc = (n − 1) ⋅ sx2 + ( m − 1) ⋅ s y2 n+m−2 1 − α / 2 = 1 − 0, 05 / 2 = 0,975 t1−α /2,n + m − 2 = t0,975;17 = 2,11 = [(10 − 1) ⋅1,822 + (9 − 1) ⋅1,5] /17 = 1, 29 P1) Plantear Hipótesis: H 0 : µ1 − µ2 = 0 v/s H1 : µ1 − µ2 ≠ 0 P2) Estadístico de prueba: t0 = P3) x−y 5, 4 − 7 = = −2, 694 . 1 1 1 1 sc + 1, 29 + n m 10 9 Establecer nivel de significancia: α = 0,05 . P4) Región de rechazo de H 0 : H 0 v/s H 1 R1 = ( −∞, −t1−α /2,n + m − 2 ) ∪ ( t1−α /2,n + m − 2 , ∞ ) = ( −∞, −2,11) ∪ ( 2,11, ∞ ) . Decisión: t0 = −2, 694 ∈ R1 = ( −∞, −2,11) ∪ ( 2,11, ∞ ) . P5) Conclusión: Se rechaza H 0 al nivel α = 0,05 , es decir, existen diferencias significativas entre los tiempos de recuperación de los pacientes tratados con la medicina A y B. Otra forma, con un 95% de confianza los tiempos de recuperación son distintos entre los pacientes tratados con la medicina A y B. P6) Prueba de hipótesis para una proporción Sea X 1 , X 2 ,.., X n , una muestra aleatoria de tamaño n de una población de Bernoulli, X ∼ B(1, p) , donde el parámetro desconocido p es la proporción de éxitos en la población y p̂ = x es la proporción de éxitos de la muestra. Sea p0 el valor de prueba para p conocido. Entonces, se debe seguir los siguientes pasos para la prueba de hipótesis para una proporción: P1) Plantear Hipótesis: H 0 : p = p0 P2) Estadístico de prueba: Z 0 = P3) Establecer nivel de significancia: α . P4) Región de rechazo de H 0 : i) ii) iii) v/s H1 : p ≠ p0 ; H 2 : p > p0 ; H 3 : p < p0 . Pˆ − p0 ≈ N (0,1) . p0 (1 − p0 ) n H 0 v/s H 1 R1 = ( −∞, − z1−α /2 ) ∪ ( z1−α /2 , ∞ ) . H 0 v/s H 2 R2 = ( z1−α , ∞ ) . H 0 v/s H 3 R3 = ( −∞, − z1−α ) . P5) Decisión: Si z0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α . P6) Conclusión: Se debe interpretar la decisión tomada en P5). Ejemplo: Un fabricante afirma que el 30% de todos sus consumidores prefieren su producto. Con el fin de evaluar está afirmación, se tomó una muestra de 400 consumidores y encontró que 100 de ellos prefieren dicho producto. ¿Es ésta, suficiente evidencia para inferir que el porcentaje de preferencia del producto no es 30%. Utilice α = 0,01 . R: Sea X : “Persona que prefiere el producto” p : “Proporción poblacional (verdadera) de personas que prefieren el producto” n = 400, P1) pˆ = 100 = 0, 25, 400 Plantear Hipótesis: p0 = 0,3 , 1 − α / 2 = 1 − 0, 01 / 2 = 0, 995 z0,995 = 2,575 H 0 : p = p0 = 0,3 v/s H1 : p ≠ p0 = 0,3 P3) pˆ − p0 0, 25 − 0,3 = = −2,18 . p0 (1 − p0 ) 0,3(1 − 0,3) 400 n Establecer nivel de significancia: α = 0,01 . P4) Región de rechazo de H 0 : H 0 v/s H 1 P2) Estadístico de prueba: z0 = R1 = ( −∞, − z1−α /2 ) ∪ ( z1−α /2 , ∞ ) = ( −∞, −2,575) ∪ ( 2,575, ∞ ) P5) P6) Decisión: z0 = −2,18 ∉ R1 = ( −∞, −2,575 ) ∪ ( 2,575, ∞ ) . Conclusión: No se rechaza H 0 , es decir, el fabricante tiene la razón. Otra forma, el 30% de los consumidores prefieren el producto con un 99% de confianza. Prueba de hipótesis para la diferencia de proporciones Sea X 1 , X 2 ,.., X n , y Y1 , Y2 ,.., Ym , dos muestras aleatorias independientes de tamaño n y m seleccionadas de dos poblaciones de Bernoulli, X ∼ B (1, p1 ) y Y ∼ B (1, p2 ) respectivamente, donde los parámetros desconocidos p1 y p2 son las proporciones poblacionales de éxitos. Sean p̂1 y p̂2 las proporciones muestrales de éxitos, n y m ≥ 30 , entonces los pasos a seguir para la prueba de hipótesis para la diferencia entre dos proporciones está dada por: P1) Plantear Hipótesis: H 0 : p1 − p2 = 0 v/s H1 : p1 − p2 ≠ 0 ; H 2 : p1 − p2 > 0 ; P2) Estadístico de prueba: Z 0 = P3) Establecer nivel de significancia: α . P4) Región de rechazo de H 0 : Pˆ1 − Pˆ2 1 1 pˆ c (1 − pˆ c ) + n m ≈ N (0,1) , donde pˆ c = H 3 : p1 − p2 < 0 . npˆ1 + mpˆ 2 n+m H 0 v/s H 1 R1 = ( −∞, − z1−α /2 ) ∪ ( z1−α /2 , ∞ ) . i) H 0 v/s H 2 R2 = ( z1−α , ∞ ) . ii) H 0 v/s H 3 R3 = ( −∞, − z1−α ) . iii) P5) Decisión: Si z0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α . P6) Conclusión: Se debe interpretar la decisión tomada en P5). Ejemplo: Un patrocinador de programa de T.V. afirma que el programa representa un atractivo mayor para los televidentes hombres que para las mujeres, pero el personal piensa que el porcentaje es igual. Si una muestra aleatoria de 300 hombres y 400 mujeres reveló que 120 hombres y 120 mujeres estaban viendo el programa de T.V. ¿Puede considerarse significativa la diferencia al nivel α = 0,05 ?. R: Sea X : “Hombre que prefiere el programa de T.V.” Y : “Mujer que prefiere el programa de T.V.” pH : “Verdadera proporción de hombres que prefieren el programa de T.V”. pM : “Verdadera proporción de mujeres que prefieren el programa de T.V”. n = 300, pˆ H = 120 300 = 0, 4, m = 400, pˆ M = 120 400 = 0,3, H 0 : pH − pM = 0 v/s H 2 : pH − pM > 0 P1) Plantear Hipótesis: P2) Estadístico de prueba: z0 = 300*0, 4 + 400*0.3 = 0,34 300 + 400 1 − α = 0,95 z0,95 = 1, 645 pˆ c = pˆ H − pˆ M 1 1 pˆ c (1 − pˆ c ) + n m = 0, 4 − 0,3 1 1 + 0,34(1 − 0,34) 300 400 = 2,764 , P3) Establecer nivel de significancia: α = 0,05 . P4) Región de rechazo de H 0 : P5) Decisión: z0 = 2, 764 ∈ R2 = (1, 645, ∞) . P6) Conclusión: Se rechaza H 0 , es decir, existen diferencias significativas al nivel 5%. Otra forma, con un 95% de confianza la proporción de hombres que prefieren el programa es mayor que las mujeres. H 0 v/s H 1 R2 = ( z1−α , ∞ ) = (1, 645, ∞) Prueba de hipótesis para la varianza Sea X 1 , X 2 ,.., X n , una muestra aleatoria independiente de tamaño n seleccionada de una población normal con media µ y varianza σ 2 . La prueba de hipótesis para la varianza, consta de los siguientes pasos: H 0 : σ 2 = σ 02 P1) Plantear Hipótesis: P2) Estadístico de prueba: X 0 = P3) Establecer nivel de significancia: α . P4) Región de rechazo de H 0 : ( n − 1) S 2 ∼ χ 2 α , n −1 2 H 2 : σ 2 > σ 02 ; H3 : σ 2 < σ 02 . σ0 H 0 v/s H 1 R1 = ( 0, χα2 /2,n −1 ) ∪ ( χ12−α /2,n −1 , ∞ ) . i) ii) iii) P5) P6) H1 : σ 2 ≠ σ 02 ; v/s H 0 v/s H 2 R2 = ( χ12−α ,n −1 , ∞ ) . H 0 v/s H 3 R3 = ( 0, χα2 ,n −1 ) . Decisión: Si x0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α . Conclusión: Se debe interpretar la decisión tomada en P5). Ejemplo: En un proceso de fabricación, se plantea la hipótesis que la desviación estándar de las longitudes de cierto tipo de tornillo es 2.0 mm En una muestra de diez tornillos elegidos al azar del proceso de producción se han encontrado las siguientes longitudes en milímetros: 71, 66, 64, 72, 69, 67, 70, 68, 65, 69. Con estos datos, ¿se justifica la suposición que la desviación estándar verdadera es 2.00 mm? Use el nivel de significación α = 0,05 y suponga que la distribución de las longitudes es normal. R: Sea X : “Longitud de tornillos”. σ 2 : “Verdadera variabilidad de la longitud de los tornillos”. s 2 = 6, 77 P1) P2) P3) Plantear Hipótesis: H0 : σ 2 = 4 Estadístico de prueba: X 0 v/s H1 : σ 2 ≠ 4 n − 1) S 2 (10 − 1) 6, 77 ( = = = 15, 23 σ 02 Establecer nivel de significancia: α = 0,05 . 4 R1 = ( 0, χα2 /2,n −1 ) ∪ ( χ12−α /2,n −1 , ∞ ) P4) ( ) ( 2 2 Región de rechazo de H 0 : H 0 v/s H 1 R1 = 0, χ 0.025;9 ∪ χ 0,975;9 ,∞ R1 = ( 0; 2, 7 ) ∪ (19, 02; ∞ ) ) . P5) Decisión: Si X 0 ∉ R1 ⇔ 15, 23 ∉ ( 0; 2, 7 ) ∪ (19, 02; ∞ ) , entonces H 0 no se rechaza. P6) Conclusión: Se concluye que la desviación estándar de la población es igual a 2mm . Prueba de hipótesis para la razón de varianzas 2 Sea S x2 y S y las varianzas de dos muestras aleatorias independientes de tamaño n y m seleccionadas de dos 2 poblaciones normales con varianzas σ x2 y σ y . La prueba de hipótesis para razón de varianzas, consta de los siguientes pasos: σ x2 H 0 : 2 = 1 v/s σy P1) Plantear Hipótesis: P2) Estadístico de prueba: F0 = P3) Establecer nivel de significancia: α . S x2 ∼ Fn −1,m −1 S y2 σ x2 H1 : 2 ≠ 1 ; σy σ x2 H 2 : 2 > 1; σy σ x2 H3 : 2 < 1 . σy P4) Región de rechazo de H 0 : i) ii) iii) H 0 v/s H 1 R1 = ( 0, Fα /2,n −1,m −1 ) ∪ ( F1−α / 2,n −1,m −1 , ∞ ) . H 0 v/s H 2 R2 = ( F1−α , n −1,m −1 , ∞ ) . H 0 v/s H 3 R3 = ( 0, Fα ,n −1,m −1 ) . Decisión: Si f 0 ∈ Ri , i = 1, 2,3 entonces H 0 se rechaza al nivel de significancia α . Conclusión: Se debe interpretar la decisión tomada en P5). P5) P6) Nota: Fα , n ,m = 1 F1−α ,m,n Ejemplo: Una compañía diseña un nuevo proceso de moldeo para reducir la variabilidad en el diámetro de las piezas producidas. Se cree que la varianza del nuevo proceso es menor que la del proceso antiguo. Para una muestra de 8 piezas del proceso antiguo y una muestra de 6 piezas del nuevo proceso se obtienen los siguientes diámetros en milímetros: Antiguo: Nuevo : 17 13 23 16 21 14 18 12 22 15 20 14 21 19 ¿Confirman los datos que la varianza de los diámetros con el nuevo proceso es menor que el antiguo proceso?. Suponga poblaciones normales y α = 0,05 . R: Sea X : “Diámetro de las piezas producidas con el antiguo proceso”. Y : “Diámetro de las piezas producidas con el nuevo proceso”. σ X2 : “Valor verdadera de la variabilidad de diámetro de piezas producidas con el antiguo proceso”. σY2 : “Valor verdadera de la variabilidad de diámetro de piezas producidas con el nuevo proceso”. sx2 = 4.125, s y2 = 2 P1) σ x2 σ x2 Plantear Hipótesis: H 0 : 2 = 1 v/s H 2 : 2 > 1 . σy σy P2) Estadístico de prueba: f 0 = P3) Establecer nivel de significancia: α = 0,05 . P4) Región de rechazo de H 0 : H 0 v/s H 2 R2 = F1−α ;n −1, m −1 , ∞ = F0,95;7,5 , ∞ = ( 4,88; ∞ ) . P5) Decisión: Si f 0 = 2, 065 ∉ R2 = ( 4,88; ∞ ) , no se rechaza H 0 . P6) sx2 4,125 = = 2, 065 s y2 2 ( ) ( ) Conclusión: No se rechaza H 0 , es decir, con un 95% de confianza la varianza de los diámetros con el nuevo proceso es igual que el antiguo proceso.