ESTIMACIÓN DE INTERVALOS INDICE PAGINA 1 Introducción............................................................................................... 2 2 Intervalos de confianza.............................................................................. 3 3 Intervalo de confianza para la media, varianza conocida.......................... 5 4 Intervalo de confianza para la diferencia de dos medias, varianzas conocidas........................................................................................................... 8 5 Intervalo de confianza para la media de una distribución normal, varianza......................................................................................................... 11 6 Intervalo de confianza para la diferencia de medias de dos distribuciones normales, varianzas desconocidas ...................................................... 14 7 Intervalo de confianza para la varianza de una distribución normal......... 18 8 Intervalo de confianza para el cociente de varianzas de dos distribuciones normales ........................................................................................... 20 9 Intervalo de confianza para una proporción.............................................. 23 10 Intervalo de confianza para la diferencia de dos proporciones................. 27 11 Tabla resumen de procedimientos para obtener intervalos de confianza................................................................................................................ 29 12 Tablas......................................................................................................... 30 13 Bibliografía................................................................................................ 34 1 INTRODUCCIÓN En muchas situaciones, una estimación puntual no proporciona información suficiente sobre un parámetro. La estimación por intervalos presenta la ventaja de que es posible cuantificar los errores El intervalo en el que se afirma que se encuentra el parámetro de denomina intervalo de confianza. La probabilidad de que el parámetro pertenezca a dicho intervalo se denomina grado de confianza y se suele representar como 1 - . De manera específica, se muestra cómo encontrar intervalos de confianza para medias, varianzas y proporciones. También se indica cómo encontrar intervalos que contengan una parte específica de las observaciones de una población; estos tipos de intervalos se conocen como intervalos de tolerancia. Para determinar el intervalo de confianza utilizaremos los estadísticos que se dan a continuación y determinaremos una región que contenga al estadístico con probabilidad 1 - , de modo que deje a cada lado una región con probabilidad /2. En los siguientes puntos se estudian intervalos de confianza y otros problemas de estimación por intervalos. 2 INTERVALOS DE CONFIANZA Una estimación por intervalos de un parámetro desconocido es un intervalo de la forma l u, donde los puntos extremos l y u dependen del valor numérico de el estadístico ^ para una muestra en particular, y de la distribución de muestreo ^. Puesto que muestras diferentes producen valores distintos de ^ y, en consecuencia, valores diferentes de los puntos extremos l y u, estos puntos son valores de variables aleatorias, por ejemplo, L y U, respectivamente. De la distribución de muestreo de ^ es posible determinar los valores de L y U tales que la siguiente proposición de probabilidad es verdadera: P(L U) = 1 - (2-1) donde 0 < < 1. Por tanto, se tiene una probabilidad de 1 - de seleccionar una muestra que produzca un intervalo que contiene el valor verdadero de . El intervalo resultante lu (2-2) se conoce como intervalo de confianza del 100(1 - ) por ciento para el parámetro desconocido . Las cantidades l y u reciben el nombre de límites de confianza inferior y superior, respectivamente, y 1 - es el coeficiente de confianza. La interpretación de un intervalo de confianza es que, si se recopila un número infinito de muestras aleatorias y se calcula un intervalo de confianza del 100(1 - ) por ciento para , para cada una de las muestras, entonces el 100 (1- ) por ciento de esos intervalos contienen el valor verdadero de . El intervalo de confianza de la ecuación (2-2) recibe el nombre más apropiado de intervalo de confianza bilateral, ya que especifica los límites inferior y superior de . En ocasiones, puede resultar más apropiado un intervalo de confianza unilateral. Un intervalo de confianza unilateral inferior del 100 (1 - ) por ciento para está dado por el intervalo l (2-3) donde el límite de confianza l se elige de modo que P(L ) = 1 - (1-4) De manera similar, un intervalo de confianza unilateral superior del 100(1-) por ciento para está dado por el intervalo u (2-5) donde el límite de confianza superior u se coge de modo que P( U) = 1 - (2-6) La longitud de u-l del intervalo de confianza observado es una medida importante de la calidad de la información obtenida de la muestra. el semiintervalo - l o u - se conoce como precisión del estimador. Entre más grande sea el intervalo de confianza, mayor es la seguridad de que el intervalo en realidad contenga el valor verdadero de . Por otra parte entre más grande sea el intervalo, menor información se tiene acerca del valor verdadero de . En una situación ideal, se tiene un intervalo relativamente pequeño con una confianza grande. Los siguientes apartados presentan métodos para encontrar intervalos de confianza para medias, varianzas y proporciones. Las aplicaciones e estos tipos de intervalos de confianza se encuentran con frecuencia en la ingeniería, en la ciencia y en la administración. 3 INTERVALO DE CONFIANZA PARA LA MEDIA, VARIANZA CONOCIDA Supóngase que se tiene una población con media desconocida y varianza conocida 2. De esta población se toma una muestra aleatoria X1, X2, ... , Xn de tamaño n. La media muestral X es un estimador puntual razonable de la media desconocida . Puede obtenerse un intervalo de confianza del 100(1- ) por ciento para al considerar la distribución de muestreo de la media muestral X. La distribución de muestreo X es norma si la población es normal, y aproximadamente normas si se satisfacen las condiciones del teorema del límite central. El valor esperado o media de X es , mientras que el de la varianza es 2/n. Por consiguiente, la distribución de el estadístico X- Z= /n es una distribución normal estándar. En la distribución de Z= ( X – ) / (/n) se observa que P{ -z/2 Z z/2 } = 1 - de modo que P { -z/2 ( X – ) / (/n) z/2 } = 1 - La expresión anterior se puede escribir como : P{ X -z/2 (/n) X + z/2 (/n) } = 1 - (3-1) A partir de la consideración de la ecuación 2-1, los límites inferior y superior de las desigualdades de la ecuación 3-1, son los límites de confianza inferior y superior, L U, respectivamente. Esto conduce a la siguiente definición: Definición: Intervalo de confianza para la media con varianza conocida. Si x es la media muestral de una muestra aleatoria de tamaño n de una población con varianza conocida 2, un intervalo de confianza par a del 100(1 - ) por ciento está dado por x - z/2 (/n) x + z/2 (/n) (3-2) donde z/2 es el punto crítico de la distribución normal estándar que corresponde al porcentaje /2. Para muestras tomadas de una población normal, o para muestras de tamaño n 30, sin importar la forma que tenga la población, el intervalo de confianza dado por la ecuación 3-2 proporciona buenos resultados. Sin embargo, para muestras pequeñas tomadas de poblaciones que no son normales, no es posible esperar que el nivel de confianza 1 - sea exacto. Ejemplo Una empresa fabrica focos que tienen una duración distribuida aproximada de forma normal con una desviación típica de 40 horas. Si una muestra de 30 focos tiene una vida promedio de 780 horas, obtenga un intervalo de confianza del 96% para la media de población de todos los focos. Solución datos: = 40 horas ; n=30 ; x=780 ; 1 - = 1 – 0.96 = 0.04 y /2 = 0.02 z/2= 2.06 (mirar tabla 1) Se aplica la fórmula : x - z/2 ( /n ) x + z/2 ( / n ) 780 – 2.06 (40 / 30) 780 + 2.06 (40 / 30) (764.95 , 795.04) La estimación puntual de =780 con dispersión de 40 horas es alta. Selección del tamaño de la muestra La precisión del intervalo de confianza de la ecuación 1-8 es z/2(/n ). Esto significa que al utilizar x para estimar , el error E= |x - | es menor o igual que z/2 (/n) con una confianza del 100(1-) por ciento. En situaciones donde puede controlarse el tamaño de la muestra, es posible elegir n de forma que se tenga una confianza del 100(1-) por ciento de que el error al estimar sea menor que el error especificado E. El tamaño apropiado de la muestra se obtiene al seleccionar n de modo que z/2(/n) = E. La solución de esta ecuación proporciona la fórmula siguiente para n. Definición: Si x se utiliza como estimación de , entonces puede tenerse una confianza del 100(1- ) por ciento de que el error |x - | no será mayor que una cantidad específica E cuando el tamaño de la muestra sea n = ( (z/2 ) / E ) 2 (3-3) Si el miembro derecho de la ecuación anterior no es un entero, entonces el resultado debe redondearse. Esto asegura que el nivel de confianza no sea menor que 100(1 - ) por ciento. Ejemplo ¿De qué tamaño debiera ser la muestra anterior si se desea tener una confianza del 96% de que la diferencia de con x fuese menor de 3 horas? Solución n = ( (z/2 n = ( ( 2. 06 )/ E)2 40 ) / 3 ) 2 = 754,4 focos. Intervalos de confianza unilaterales. También es posible obtener intervalos de confianza unilaterales para haciendo l = - o u= + , y remplazando z/2 por z. El intervalo de confianza superior de 100(1) por ciento para es: u = x + z /n (3-4) y el intervalo de confianza inferior del 100(1 - ) por ciento para es: x + z /n =l (3-5) 4 INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE DOS MEDIAS, VARIANZAS CONOCIDAS Supóngase que se tienen dos poblaciones independientes con medias desconocidas 1 y 2, y varianzas conocidas 12 y 22, respectivamente. Se desea encontrar un intervalo de confianza del 100(1 - ) por ciento para la diferencia de las medias 1 - 2. Sean X11, X12,...,X1n1 una muestra aleatoria de n1 observaciones tomadas de la primera población y X21, X22,...,X2n2 una muestra aleatoria de n2 observaciones tomadas de la segunda población. Si X1 y X2 son las medias muéstrales, el estadístico X1 - X2 es un estimador puntual de 1 - 2. La variable aleatoria X1 - X2 –( 1 - 2) Z= (12/ n1)+ (22/ n2) tiene una distribución normal estándar si las dos poblaciones son normales, o es aproximadamente normal estándar si se cumplen las condiciones del teorema del límite central, respectivamente. Esto implica que P(-z/2 Z z/2) = 1 - o P(-z/2 X1 - X2 –( 1 - 2) z/2) = 1 - (1 / n1)+ (2 / n2) 2 2 La expresión anterior puede reacomodarse de la siguiente manera P(X1-X2 -z/2(12/n1)+(22/n2)1-2 X1-X2 -z/2 (12/ n1)+(22/ n2) )=1- (4-1) Al comparar las ecuaciones 2-1 y 4-1, puede desarrollarse la siguiente definición para un intervalo de confianza del 100(1-) por ciento para 1-2. Definición: Intervalo de confianza para la diferencia de dos medias, varianzas conocidas. Si x1-x2 son las medias de dos muestras aleatorias independientes de tamaños n1 y n2 tomadas de poblaciones que tienen varianzas conocidas 12 y 22 , respectivamente, entonces un intervalo de confianza del 100(1 - ) por ciento para 1- 2 es x1-x2 - z/2 (12/n1) + (22/n2) 1-2 x1-x2 + z/2 (12/ n1) + (22/ n2) (4-2) donde z/2 es el punto crítico superior que corresponde al porcentaje /2 de la distribución normal estándar. El nivel de confianza 1 - es exacto cuando las poblaciones son normales. Para poblaciones que no lo son, el nivel de confianza es aproximadamente válido para tamaños grandes de muestras. Ejemplo Se prueban dos fórmulas diferentes de un combustible oxigenado para motor en cuanto al octanaje. La varianza del octanaje para la fórmula 1 es 12=1.5, mientras que para la fórmula 2 es 22=1.2. Se prueban dos muestras aleatorias de tamaño n1=15 y n2=20. Los octanajes promedio observados son x1= 89.6 y x2= 92.5. Construya un intervalo de confianza bilateral del 95% para la diferencia en el octanaje promedio. Solución: 95%, 1 – 0.95 = 0.05 ; 0.05/2 = 0.025 z0.025 = 1.96 X1 - X2 - z/2 (12/n1) + (22/n2) 1-2 X1 - X2 + z/2 (12/ n1) + (22/ n2) 89.6 – 92.5 – 1.96 1.5/15 + 1.2/20 1-2 89.6 – 92.5 + 1.96 1.5/15 + 1.2/20 -2.9 – 1.96 x 0.04 1-2 -2.9 + 1.96 x 0.04 -3.684 1-2 -2.116 Selección del tamaño de la muestra. Si se conocen las desviaciones estándar 1 y 2 y los tamaño de las dos muestras son iguales ( n1 = n2 = n, por ejemplo), entonces puede determinarse el tamaño requerido de la muestra de modo que se tenga una confianza del 100(1 - ) por ciento en que el error den la estimación de 1 - 2 por x1 – x2 sea menor que E. El tamaño requerido para la muestra de cada población n = ( z/2 / E )2 (12 + 22) (4-3) Recuérdese que es necesario redondear n si éste no es un entero. Con esto se asegura que el nivel de confianza no sea menor que 100( 1 - ) por ciento. Intervalos de confianza unilaterales. También es posible obtener intervalos de confianza unilaterales para 1 - 2. Un intervalo unilateral superior del 100(1 - ) por ciento de confianza para 1 - 2 es 1-2 x1 - x2 + z/2 (12/ n1) + (22/ n2) (4-4) mientras que un intervalo unilateral inferior del 100(1 - ) por ciento de confianza es x1 - x2 - z/2 (12/ n1) + (22/ n2) 1-2 (4-4) 5 INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA DISTRIBUCION NORMAL, VARIANZA DESCONOCIDA Supóngase que se desea encontrar un intervalo de confianza para la media de una distribución, pero que la varianza no es conocida. De manera específica, supóngase que se tiene una muestra aleatoria de tamaño n, X1, X2,...,Xn y que X y S2 son la media y la varianza muéstrales, respectivamente. Una posibilidad sería remplazar en las fórmulas del intervalo de confianza para con varianza conocida (ecuaciones 3-1, 3-3 y 3-4) con el valor calculado de la desviación muestral s. Si el tamaño de la muestra, n, es relativamente grande (por ejemplo, n >30), entonces éste es un procedimiento aceptable. En consecuencia, a menudo los intervalos de confianza de las secciones 3 y 4 reciben el nombre de intervalos de confianza para muestras grandes, debido a que son aproximadamente válidos incluso si las varianzas no conocidas de la población se reemplazan con las varianzas muéstrales correspondientes. Nótese que en el problema de dos muestras, sección 4, tanto n1 como n2 debes ser mayores que 30. Cuando el tamaño de las muestras es pequeño, el enfoque anterior no funciona, y entonces debe emplearse otro procedimiento. Para producir un intervalo de confianza válido, debe hacerse una hipótesis más fuerte con respecto a la población de interés. La hipótesis usual es que la población está distribuida de manera normal. Esto conduce a intervalos de confianza basados en distribuciones t. De manera específica, sea X1, X2,...,X3 una muestra aleatoria tomada de una distribución normal con media y varianza 2 desconocidas. La distribución de muestreo de el estadístico X- T= S/n es la distribución t con n-1 grado de libertad. A continuación se indica cómo obtener el intervalo de confianza para . Sea t/2,n-1 el punto crítico superior que corresponde al porcentaje /2 de la distribución t con n-1 grado de libertad. Se tiene que: P( -t/2,n-1 T t/2,n-1 ) = 1 - o X- P( -t/2,n-1 t/2,n-1 ) = 1 - S/n Después de reacomodar la ecuación anterior, se tiene que P( X - t/2,n-1 S/n X + t/2,n-1 S/n ) = 1 - (5-1) La comparación entre las ecuaciones 5-1 y 2-1 conduce a la siguiente definición del intervalo de confianza bilateral del 100(1 - ) por ciento para . Definición: Intervalo de confianza para la media de una distribución normal, varianza desconocida. Si x y s con la media y la desviación estándar de una muestra aleatoria tomada de una distribución normal con varianza 2 desconocida, entonces un intervalo de confianza del 100( 1 - ) por ciento para está dado por x – t/2,n-1 s/n x + t/2,n-1 s/n (5-2) donde t/2,n-1 es el punto crítico superior que corresponde al porcentaje /2 de la distribución t con n –1 grado de libertad. Recuérdese que este intervalo de confianza supone que el muestreo se hace sobre una población normal. Esta hipótesis tiene una importancia moderada para muestras pequeñas. Por fortuna, la hipótesis de normalidad es válida en muchas situaciones prácticas. Cuando no es éste el caso, entonces deben emplearse intervalos de confianza independientes de la distribución, o no paramétricos. Cuando la población es normal, los intervalos de la distribución t son los intervalos e conformidad del 100(1-) por ciento más pequeños posible, también son superiores a los proporcionados por los métodos no paramétricos. Ejemplo Se han estudiado 20 mediciones de tiempo el tiempo de combustión residual de especímenes tratados de ropa de dormir para niños (en segundos) 9.85 9.83 9.93 9.92 9.75 9.74 9.77 9.99 9.67 9388 9.87 9.95 9.67 9.95 9.94 9.93 9.85 9.92 9.75 9.89 Se desea encontrar un intervalo de confianza del 95% para el tiempo de combustión residual. Supóngase que sigue una distribución normal. Solución Se calcula la media y la desviación estándar. x= 9.8525 s=0.0965 t/2, n-1 = t 0.05/2,20-1 = t0.025,19 = 2.023 (mirar tabla 2) x - t/2,n-1 s / n x + t/2,n-1 s / n 9.8525 – 2.023 (0.0965/ 20) 9.8525 + 2.023 (0.0965/ 20) 0.8073 9.8977 Selección del tamaño de la muestra La selección del tamaño n de la muestra necesario para proporcionar un intervalo de confianza de la longitud requerida no es tan fácil como en el caso donde se conoce debido a que la longitud del intervalo depende tanto del valor de (el cual no se conoce antes de recopilar los datos), como del tamaño n de la muestra. Por otra parte, n ingresa al intervalo de confianza a través de los términos 1/n y t/2,n-1. En consecuencia, el tamaño n de la muestra debe obtenerse a partir de un procedimiento de prueba y error, utilizando una estimación previa de (la cual puede basarse en la experiencia). Otra posibilidad es tomar una muestra preliminar de n observaciones para obtener una estimación de . Luego, utilizando el valor es calculado a partir de esta muestra como aproximación e , puede emplearse la ecuación 3-2 para calcular el valor requerido de n que proporciona la exactitud y nivel de confianza deseados. Intervalos de confianza unilaterales Es fácil encontrar intervalos de confianza unilaterales para la media de una distribución normal done la varianza no es conocida. El intervalo de confianza inferior del 100(1 ) por ciento para está dado por x - t/2,n-1 s/n (4-3) y el intervalo de confianza del 100(1-) por ciento para es x - t/2,n-1 s/n (4-4) 6 INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS DISTRIBUCIONES NORMALES, VARIANZAS DESCONOCIDAS. En esta sección se extienden los resultados e la sección 5 al caso de dos poblaciones con medias y varianzas desconocidas, y se desea encontrar intervalos de confianza par la diferencia entre medias 1 - 2. Si los tamaños de la muestras n1 y n2 son mayores que 30, entonces puede emplearse el intervalo de la distribución normal de la sección3. Sin embargo, cuando se toman muestras pequeñas se supone que las poblaciones de interés están distribuidas de manera normal, y los intervalos de confianza se basan en la distribución t. Considérense dos variables aleatorias normales independientes, X1 con media 1 y varianza 12 y X2 con media 2 y varianza 22 , por ejemplo. Tanto las medias 1 y 2 como las varianzas 12 y 22 son desconocidas. Sin embargo, considérese que es razonable suponer que las dos varianzas son iguales; esto es, 12= 22= . Se desea encontrar un intervalo de confianza del 100(1 - ) por ciento para la diferencia entre medias 1 y 2. Se toman muestras aleatorias de tamaño n1 y n2 de las dos poblaciones representadas por X1 y X2, respectivamente; sean X1 y X2 las medias muéstrales, y S12 y S22 las varianzas muéstrales. Puesto que S12 y S22 son estimadores de la varianza común 2, entonces puede obtenerse un estimador combinado de 2, mejor que S12 o S22 por separado. Este estimador es Sp2 (n1 – 1) S12 + (n2 – 1) S22 = n1 + n2 – 2 (6-1) Para desarrollar el intervalo de confianza para 1- 2, nótese que la distribución del a estadística X1 - X2 – (1- 2) T= Sp 1/n1 + 1/n2 es la distribución t con n1 + n2 – 2 grados de libertad. Por tanto: P( -t/2, n1+n2–2 T + t/2, n1+n2–2) = 1 - o P( -t/2, n1+n2–2 X1 - X2 – (1- 2) Sp 1/n1 + 1/n2 + t/2, n1+n2–2) = 1 - La expresión anterior puede escribirse como P(X1-X2 -t/2, n1+n2–2Sp1/n1+1/n2 1-2 X1-X2 +/2, n1+n2–2 Sp1/n1+1/n2 ) =1- (6-2) El examen de la ecuación 6-2 conduce a la siguiente definición de intervalo de confianza del 100(1 - ) por ciento para 1-2. Definición: Intervalo de confianza para la diferencia entre medias de dos distribuciones normales, varianzas desconocidas pero iguales. Si x1, x2 s12 y s22 son las medias y las varianzas de dos muestras aleatorias de tamaños n1 y n2 respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas pero iguales, entonces un intervalo de confianza del 100(1 - ) por ciento para la diferencia de medias 1-2 es x1-x2 -t/2, n1+n2–2 sp1/n1+1/n2 1-2 x1-x2 + t/2, n1+n2–2 sp1/n1+1/n2 (6-3) donde sp = [(n1 – 1) S12 + (n2 – 1) S22] / (n1 + n2 – 2 ) es el estimador combinado de la desviación estándar común de la población, y t/2, n1+n2–2 es el punto crítico superior que corresponde al porcentaje /2 de la distribución t con n1 + n2 – 2 grados de libertad. Ejemplo: Al tomar 10 muestras de cemento estándar se encontró que el peso promedio de calcio es x1=90.0, con una desviación estándar muestral de s1=5.0; los resultados obtenidos con 15 muestras de cemento contaminado con plomo fueron x2=87.0 y s2=4.0. Supóngase que el porcentaje de peso de calcio está distribuido de manera normal. Encuéntrese un intervalo de confianza del 95% para la diferencia entre medias 1-2 de los dos tipos de cemento. Supóngase que las dos poblaciones normales tienen la misma desviación estándar. Solución sp = [(n1 – 1) S12 + (n2 – 1) S22 ] / (n1 + n2 – 2 ) sp = [(10 – 1) (5.0)2 + (15 – 1)(4.0)2 ] / (10 + 15 – 2 ) sp= 19.52 = 4.4 t/2, n1+n2–2 = t 0.05/2 , 10+15–2 = 2.069 x1 - x2 –t0.025,23 sp 1/n1+1/n2 1-2 x1 - x2 + t0.025,23 sp 1/n1+1/n2 90.0–87.0 -2.069(4.4) 1/10 + 1/15 1-2 90.0–87.0 +2.069 (4.4) 1/10 + 1/15 -0.72 1-2 6.72 medias. Como incluye el 0 no se puede decir que haya diferencia de Intervalos de confianza unilaterales Es sencillo construir intervalos de confianza unilaterales para la diferencia entre medias con varianzas desconocidas pero iguales. El intervalo de confianza inferior del 100(1-) por ciento para 1-2 es x1- x2 - t/2, n1+n2–2 sp1/n1+1/n2 1 - 2 (6-4) mientras que el intervalo de confianza superior del 100(1-) por ciento para 1 - 2 es 1 - 2 x1- x2 - t/2, n1+n2–2 sp1/n1+1/n2 (6-5) Varianzas desiguales En muchas situaciones no es razonable supones que 21 = 22. Aún cuando no pueda garantizarse esta hipótesis, puede hallarse un intervalo de confianza del 100(1-) por ciento para 1 - 2 utilizando el hecho de que el estadístico X1 - X2 – (1- 2) T* = (S12/n1) + (S22/n2)2 tiene, de manera aproximada, una distribución t con grados de libertad dados por (S12/n1 + S22/n2)2 v= -2 2 2 (S1 /n1) n1 + 1 (S22/n2)2 n2 + 1 Por tanto P( - t/2,v T* t/2,v ) 1 - (6-6) El intervalo de confianza para 1- 2 puede obtenerse si se sustituir T* en esta expresión y se despeja el término 1- 2 entre las desigualdades. Definición: Intervalo de confianza para la diferencia entre medias de dos distribuciones normales, varianzas desconocidas y desiguales. Si x1 , x2 , s12 y s22 son las medias y las varianzas de dos muestras aleatorias de tamaños n1 y n2, respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas y desiguales, entonces un intervalo de confianza aproximada del 100(1 - ) por ciento para la diferencia entre medias 1 - 2 es x1 - x2 - t/2,v s12/n1 + s22/n2 1 - 2 x1 - x2 + t/2,v s12/n1 + s22/n2 (6-7) donde v está dada por la ecuación 6-6 y t/2,v es el punto crítico superior que corresponde al porcentaje /2 de la distribución t con v grados de libertad. Los límites de confianza unilaterales superior e inferior puede obtenerse al remplazar el límite de confianza inferior (superior ) con - () y cambiando /2 por . 7 INTERVALO DE CONFIANZA PARA LA VARIANZA DE UNA DISTRIBUCIÓN NORMAL. Supóngase que se desea encontrar una estimación del intervalo de confianza para la varianza 2 de una población normal. Si X1,X2,...,Xn es una muestra aleatoria de tamaño n tomada de esta población normal, y se S2 se utiliza para encontrar el intervalo de confianza de 2. Como la distribución de ( n – 1) S2 X= 2 es ji-cuadrada con n – 1 grado de libertad. Se nota que: P( 21-/2,n-1 X 2/2,n-1) = 1 - de modo que ( n – 1) S2 P(21-/2,n-1 2/2,n-1) = 1 - 2 La expresión anterior puede escribirse como ( n – 1) S2 ( n – 1) S2 2 P( 2 )=1- 1-/2,n-1 2 (7-1) /2,n-1 La comparación de la ecuación 7-1 con la 2-1 conduce a la siguiente definición del intervalo de confianza para 2. Definición: Intervalo de confianza para la varianza de una distribución normal. Si s2 es la varianza muestral de una muestra aleatoria de n observaciones tomadas de una distribución normal con varianza desconocida 2, entonces un intervalo de confianza del 100(1 - ) por ciento para 2 ( n – 1) S2 ( n – 1) S2 2 2 1-/2,n-1 2/2,n-1 (7-2) donde 21-/2,n-1 y 2/2,n-1 son los puntos críticos superior e inferior que corresponden al porcentaje /2 de la distribución ji-cuadrada con n-1 grado de libertad, respectivamente. Intervalos de confianza unilaterales Para encontrar un intervalo de confianza inferior del 100(1 -) por ciento para , se hace el límite de confianza superior de la ecuación 7-2 igual a y se reemplaza 2/2,n-1 por 2,n-1, con lo que se tiene 2 (n – 1 ) s2 2 2,n-1 (7-3) El intervalo de confianza superior del 100( 1 - ) por ciento se obtiene al hacer el límite de confianza inferior de la ecuación 7-2 igual a cero, y remplazar 21-/2,n-1 con 21-,n-1, lo que da como resultado (n – 1 ) s2 2 21-,n-1 (7-4) 8 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS DE DOS DISTRIBUCIONES NORMALES Supóngase que se tienen dos poblaciones normales e independientes con varianzas desconocidas 12 y 22, respectivamente. De este par de poblaciones, se tiene disponibles dos muestras aleatorias de tamaños n1 y n2, respectivamente; sean S12 y S22 las dos varianzas muéstrales . Se desea encontrar un intervalo de confianza del 100(1-) por ciento para el cociente de las dos varianzas, 12 / 22. Para hallar el intervalo de confianza, recuérdese que la distribución de muestreo de S22/22 F= S12/12 es una F con n2 – 1 y n1 – 1 grados de libertad. Y su campana tiene una figura: P(f 1-/2, n2-1,n1-1 F f /2, n2-1,n1-1) = 1 - de modo que P(f 1-/2, n2-1,n1-1 S22/22 f /2, n2-1,n1-1) = 1 - S12/12 Por consiguiente: P( (S12/ S22 )f 1-/2, n2-1,n1-1 12 / 22 (S12/ S22 )f /2, n2-1,n1-1 ) = 1 - (8-1) La comparación de las ecuaciones 2-1 y 8-1 conduce a la siguiente definición del intervalo de confianza para 12 / 22 Definición: Intervalo de confianza para el cociente de las varianzas de dos distribuciones normales Si s12 y s22 son las varianzas muéstrales de dos muestras aleatorias de tamaños n1 y n2, respectivamente, tomadas de dos poblaciones normales e independientes con varianzas 12 y 22 desconocidas, entonces un intervalo de confianza del 100 (1 - ) por ciento para el cociente 12 / 22 es (s12/ s22 )f 1-/2, n2-1,n1-1 12 / 22 (s12/ s22 )f /2, n2-1,n1-1 (8-2) donde f /2, n2-1,n1-1 y f 1-/2, n2-1,n1-1 son los puntos críticos superior e inferior que corresponden al porcentaje /2 de la distribución F con n2 –1 y n1 – 1 grados de libertad en el numerador y en el denominador, respectivamente. En la ecuación 8-2 se requiere el punto que corresponde al porcentaje de la cola inferior de la distribución F. El punto crítico inferior que corresponde al porcentaje 1 /2 puede calcularse a partir del punto crítico superior que corresponde al porcentaje /2 con la expresión f 1-/2, n2-1,n1-1 = 1 / f /2, n2-1,n1-1 (8-3) Intervalos de confianza unilaterales. También es posible construir intervalos de confianza unilaterales para el cociente de las varianzas 12 / 22 . Un límite inferior de confianza del 100(1 - ) por ciento para 12 / 22 es (s12/ s22 )f 1-/2, n2-1,n1-1 12 / 22 (8-4) y un límite superior de confianza del 100(1 - ) por ciento para 12 / 22 es 12 / 22 (s12/ s22 )f /2, n2-1,n1-1 (8-5) Ejemplo Una compañía fabrica propulsores. Una de las operaciones consiste en esmerilar el terminado de una superficie con una aleación de titanio. Pueden emplearse dos procesos. Para ello se toma una muestra de n1= 12 partes del primer proceso, la cual tiene una desviación estándar muestral s1= 5.1 micropulgadas, y una muestra aleatoria de n2= 15 partes del segundo proceso con una desviación estándar muestral s2 = 4.7 micropulgadas. Se desea encontrar un intervalo de confianza del 90% para el cociente de las dos varianzas. Solución. 1-0.9 = 0.1 -> 0.1 /2 = 0.05 f /2, n2-1, n1-1 = f0.05 , 15 – 1 , 12 – 1 = f 0.05, 14,11 = 2.57 (mirar tabla3) usando la ecuación 8-4 se obtiene que f 0.95, 14,11 = 1 - f 0.05, 14,11 = 1 / 2.57 (s12 / s22 )f 1-/2, n2-1,n1-1 12 / 22 (s12 / s22 )f /2, n2-1,n1-1 (5.12 / 4.72 ) 0.39 12 / 22 (5.12 / 4.72 ) 2.57 (26.01 / 22.09) 0.39 12 / 22 (26.01 / 22.09) 2.57 0.46 12 / 22 3.02 Como el intervalo incluye a la unidad, no es posible afirmar que las desviaciones estándar dos los dos procesos sean diferentes con un nivel de confianza del 90% 9 INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN A menudo es necesario construir un intervalo de confianza para una proporción. Por ejemplo, supóngase que se toma una muestra aleatoria de tamaño n de una población grande (posiblemente infinita) y que X ( n) observaciones de esta muestra pertenecen a una clase de interés. Entonces P^= X/n es un estimador puntual de la proporción de la población p que pertenece a esta clase. Nótese que n y p son los parámetros de una distribución binomial. Por otra parte, e sabe que la distribución de muestreo de P^ es aproximadamente normal con media p y varianza p(1 – p)/n, si p no está muy próximo a 0 o 1 y si n es relativamente grande. Por tanto, la distribución de P^ - p Z= [p (1 – p)] / n es aproximadamente una distribución normal estándar. Para construir el intervalo de confianza para p, nótese que P( -z/2 Z z/2) 1 - de modo que P^ - p P( -z/2 z/2) 1 - [p (1 – p)] / n La expresión anterior puede escribirse como P( P^ -z/2 [p (1 – p)] / n p P^ + z/2 [p (1 – p)] / n 1- (9-1) La cantidad [p (1 – p)] / n de la ecuación 9-1 es el error estándar del estimador puntual P^. Desafortunadamente, los límites superior e inferior del intervalo de confianza obtenidos a partir de la ecuación 9-1 contiene el parámetro desconocido p. Sin embargo, una solución satisfactoria es remplazar p por P^ en el error estándar, lo que da como resultado P( P^ -z/2 [P^ (1 – P^)] / n p P^ + z/2 [P^ (1 – P^)] / n ) 1 - (9-2) La ecuación 9-2 conduce a un intervalo de confianza del 100(1 - ) por ciento para p. Definición: Intervalo de confianza de una proporción Si p^ es la proporción de observaciones de una muestra aleatoria de tamaño n que pertenece a una clase de interés, entonces un intervalo de confianza aproximado del 100(1 - ) por ciento para la proporción p de la población que pertenece a esta clase es p^ -z/2 [p^ (1 – p^)] / n p p^ + z/2 [p^ (1 – p^)] / n (9-3) donde z/2 es el punto crítico superior que corresponde al porcentaje /2 de la distribución normal estándar. Este procedimiento requiere que np y n(1-p) sean mayores o iguales que 5. En situaciones donde esta aproximación es inapropiada (en particular, en casos donde n es pequeño), deben emplearse otros métodos. Las tablas de distribución binomial también pueden emplearse para obtener un intervalo de confianza para p. Si n es grande pero p pequeño, entonces puede utilizarse una aproximación Poisson para la distribución binomial con la finalidad de construir intervalos de confianza. Sin embargo, los autores prefieren utilizar métodos numéricos basados en la función de probabilidad binomial. Ejemplo En una m.a. de 85 soportes para arreglar el cigüeñal de un automóvil, 10 tienen un terminado que es más rugoso de los que las especificaciones permiten. Hallar un intervalo de confianza bilateral del 95%. Solución Una estimación puntual de rugosidad es p^= x/n = 10/85 = 0.12 1- 0.95= 0.05 = -> /2 = 0.025 z0.025 =1.96 p^ - z/2 [p^ (1 – p^)] / n p p^ + z/2 [p^ (1 – p^ )] / n 0.12 – 1.06 (0.12 (1 – 0.12) ) / 85 p 0.12 + 1.06 (0.12 (1 – 0.12) ) / 85 0.05 p 0.19 Selección del tamaño de la muestra Puesto que P^ es el estimador puntual de p, puede definirse el error de estimar p por P^ como E=|p – P^|. Nótese que se tiene una confianza aproximada del 100 (1 - ) por ciento de que este error es menor que z/2 [p(1 – p)]/n . En el ejercicio anterior se tiene una confianza del 95% de que la proporción muestral p^= 0.12 difiere de la proporción verdadera p por una cantidad que no excede 0.07. En situaciones donde puede seleccionarse el tamaño de la muestra, puede escogerse a n de modo que exista una confianza del 100( 1 - ) por ciento de que el error es menor que algún valor especificado E. Si se hace E= z/2 [p(1 – p)]/n y se resuelve para n, el tamaño apropiado de la muestra es n = ( z/2 / E) 2 p (1 – p) (9-4) Para utilizar la ecuación 9-4 se requiere una estimación de p. Si se tiene una estimación p^ de alguna muestra anterior, entonces p puede sustituirse por éste en la ecuación 9-4, o quizás sea posible hacer una estimación subjetiva. Si estas alternativas no son satisfactorias, entonces puede tomarse una muestra preliminar, calcular p^, y luego utilizar la ecuación exactitud deseada. Otro enfoque para seleccionar n utiliza el hecho de que el tamaño de la muestra obtenido en la ecuación 9-4 siempre es máximo para p= 0.5 [esto es, p(1 – p) 0.25, cumpliéndose la igualdad cuando p=0.5], y esto puede emplearse para obtener una cota superior sobre n. En otras palabras, al menos se tiene una confianza del 100(1 - ) por ciento de que el error al estima p con `^ sea menor que E si el tamaño de la muestra es n = ( z/2 / E) 2 (0.25) (9-5) Ejemplo Tomando el ejemplo anterior. ¿Cuál grande debe ser la muestra si se desea tener una confianza del 95% de que el error al utilizar p^ como estimación de p sea menor que 0.05? Solución Al utilizar p^= 0.12 como estimador inicial de p, se tiene: n = ( z/2 / E) 2 p^ (1 – p^) n = (1.96 / 0.05)2 0.12 ( 0.88) 1.63 Intervalos de confianza unilaterales Pueden encontrarse intervalos de confianza unilaterales para p mediante una modificación sencilla de la ecuación 9-3. El intervalo de confianza inferior aproximado del 100( 1 - ) por ciento es p^ -z/2 [p^ (1 – p^)] / n p (9-6) y el intervalo de confianza superior aproximado del 100 (1 - ) por ciento es p p^ -z/2 [p^ (1 – p^)] / n (9-7) 10 INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE DOS PROPORCIONES Supóngase que existen dos proporciones de interés, p1 y p2, y es necesario obtener un intervalo de confianza del 100( 1 - ) por ciento para la diferencia de éstas, p1 – p2. Supóngase que se toman dos muestras independientes de tamaño n1 y n2 de dos poblaciones infinitamente grandes. En estas dos muestras, sean X1 el número de observaciones de la primera muestra que pertenece a la clase de interés, y X2 el número de observaciones en la muestra tomada de la segunda población que pertenecen a la clase de interés. Entonces, X1 y X2 son variables aleatorias binomiales independientes con parámetros (n1, p1) y (n2, p2). Ahora bien, P1^ = X1/ n1 y P2^= X2/n2 son estimadores independientes de p1 y p2, respectivamente. Por otra parte, bajo la hipótesis de que se aplica la aproximación normal de una distribución binomial, el estadístico P1^ - P2^ - (p1 – p2) Z= p1(1- p1)/ n1 + p2(1- p2)/ n2 tiene una distribución que es aproximadamente normal estándar. Esto implica que P( - z/2 Z z/2 ) 1 - de modo que puede sustituirse la Z de esta expresión y utilizar entonces un enfoque similar al empleado en la sección 9 para encontrar un intervalo de confianza aproximado del 100( 1 - ) por ciento para p1 – p2. Definición: Intervalo de confianza para la diferencia de dos proporciones Si p1^ y p2^ son las proporciones muéstrales de una observación en dos muestras aleatorias independientes de tamaños n1 y n2 que pertenecen a una clase de interés, entonces un intervalo de confianza aproximado del 100(1 - ) por ciento para la diferencia de las proporciones verdaderas p1 – p2 es p1^–p2^ -z/2p1(1- p1)/ n1+p2(1-p2)/n2 p1 – p2 p1^–p2^ -z/2p1(1-p1)/n1+p2(1-p2)/n2 (10-1) donde z/2 es el punto crítico superior que corresponde al porcentaje /2 de la distribución normal estándar. Intervalos de confianza unilaterales El intervalo de confianza inferior aproximado del 100(1 - ) por ciento para p1 – p2 es p1^ – p2^ - z/2 p1(1- p1)/ n1 + p2(1-p2)/n2 p1 – p2 (10-2) y el intervalo de confianza superior aproximado del 100 ( 1 - ) por ciento para p1 – p2 es p1 – p2 p1^ – p2^ - z/2 p1(1- p1)/ n1 + p2(1-p2)/n2 (10-2) 11 TABLA RESUMEN DE PROCEDIMIENTOS PARA OBTENER INTERVALOS DE CONFIANZA Tipo de problema Media , varianza 2 conocidas Estimación Intervalo de confianza bilateral del 100(1 - ) por puntual ciento x x - z/2 (/n) x + z/2 (/n) Diferencia entre dos medias 1 y 2, varianzas 12 y 22 conocidas x1 – x2 x1-x2 - z/2 (12/n1) + (22/n2) x1-x2 + z/2 (12/ n1) + (22/ n2) Media de una distribución normal, varianza 2 desconocida x x – t/2,n-1 s/n x + t/2,n-1 s/n Diferencia entre medias de dos distribuciones normales 1 y 2, varianzas 12 y 22 desconocidas x1 – x2 Diferencia entre medias de dos distribuciones normales 1 y 2, varianzas 12 22 desconocidas 1-2 x1-x2 -t/2, n1+n2–2 sp1/n1+1/n2 1-2 x1-x2 + t/2, n1+n2–2 sp1/n1+1/n2 sp = [(n1 – 1) S12 + (n2 – 1) S22] / (n1 + n2 – 2 ) x1 – x2 x1 - x2 - t/2,v s12/n1 + s22/n2 x1 - x2 + t/2,v s12/n1 + s22/n2 1 - 2 v=(S12/n1+S22/n2)2/ [(S12/n1)2/ n1+1] +[(S22/n2)2/ n2+1] –2 Varianza 2 de una distribución normal s2 ( n – 1) S2 / 21-/2,n-1 2 ( n – 1) S2 / 2/2,n-1 Cociente de las varianzas 12 / 22 de dos distribuciones normales s12/ s22 (s12/ s22 )f 1-/2, n2-1,n1-1 12 / 22 (s12/ s22 )f /2, n2-1,n1-1 Proporción o parámetro de una distribución binomial p p^ Diferencia entre dos proporciones o dos parámetros binomiales p1 – p2 p^ - z/2 [p^(1 – p^)] /n p p^ + z/2 [p^ (1 – p^)] / n p1^ - p2^ p1^–p2^ -z/2p1(1- p1)/ n1+p2(1-p2)/n2 p1 – p2 p1^–p2^ -z/2p1(1-p1)/n1+p2(1-p2)/n2 BIBLIOGRAFÍA 1.-R.E. Walpole y R.H. Myers. Probabilidad y estadística. McGraw-Hill,1992 2.-Douglas C. Montgomery y George C. Runger Probabilidad y Estadística aplicadas a la Ingeniería.