ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 10.- INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL - De la Estadística Descriptiva a la Estadística Inferencial. - El Modelo Estadístico. - Estadísticos y Estimadores. - Ley de los Grandes Números. - Distribución muestral. - Estimadores en modelos normales y proporciones. tn - Distribuciones muestrales en modelos normales. G. L. 2 8 200 - Distribuciones muestrales para muestras grandes. William S. Gosset (Student) -5 Tema 10. Introducción a la Estadística Inferencial. -4 -3 -2 -1 0 1 2 3 4 5 161 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DE LA ESTADÍSTICA DESCRIPTIVA A LA ESTADÍSTICA INFERENCIAL ESTADÍSTICA DESCRIPTIVA Analiza muestras describiéndolas y resumiéndolas gráfica y numéricamente. Ayuda a plantear modelos para la población que podrían explicar el comportamiento de la muestra. CÁLCULO DE PROBABILIDADES Da forma matemática a la idea de “modelo” y nos permite explicar y manejar la variabilidad. Describe diferentes clases de modelos teóricos para las variables aleatorias de interés en una población. Conocer el modelo de una población, proceso o sistema sometido a variabilidad o aleatoriedad es muy útil para conocer sus propiedades y prever su comportamiento. Nos surge una duda fundamental: ¿Cómo podemos saber cuál es el modelo de cada población? ESTADÍSTICA MATEMÁTICA O INFERENCIAL Cuando queremos estudiar un fenómeno aleatorio (población): Lo más habitual es que no conozcamos el modelo teórico del mismo. Pero seguramente podremos observarlo, tomar una muestra y describirla. Utilizando la información dada por una pequeña parte de la población (la muestra disponible) … ¿Se puede inferir el comportamiento de toda ella (conocer el modelo)? La Estadística Inferencial permite dar este paso validando o refutando las conjeturas de la Estadística Descriptiva: Validar un posible modelo para la población. Estimar parámetros de ese modelo. Tema 10. Introducción a la Estadística Inferencial. 162 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EL MODELO ESTADÍSTICO En todos los problemas de la Estadística Inferencial encontraremos los siguientes ingredientes: 1.- Población en estudio. - X variable aleatoria de interés definida sobre la población. - PX ley de probabilidad desconocida de la v. a. X. - Tenemos interés en conocer, hasta donde sea posible, la ley de X (o sus parámetros). 2.- Muestra representativa de la población: X1, …, Xn. - Habitualmente tendremos una muestra aleatoria simple (m.a.s.), formada por v.a. independientes e igualmente distribuidas (i.i.d.), con la misma ley de X. - Los datos o realizaciones de la muestra, x1, …, xn contienen información sobre PX. 3.- El OBJETIVO es extraer la información que contienen los datos acerca de PX: - Obtener una aproximación razonable del modelo de X (normal, exponencial…) - Estimar los parámetros u otras cantidades de interés de ese modelo ( P(a<X<b), mediana...) - Comparar la ley de X en esta población con la ley en otra población de interés (efecto innovación) La Estadística Inferencial aporta metodología para conseguir este objetivo mediante técnicas de: - Estimación (puntual o por intervalos) para asignar valores a un parámetro desconocido - Contraste o Test de Hipótesis (paramétricos, de ajuste …) para decidir entre dos opciones A veces sabemos que la ley PX está en una determinada familia (normal, exponencial…) y el problema es sólo determinar (estimar o contrastar) los parámetros : , , … Decimos entonces que estamos ante un Problema o Modelo Paramétrico. Tema 10. Introducción a la Estadística Inferencial. 163 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: Una planta industrial envasa detergente en polvo en paquetes que se etiquetan con: CONTENIDO 4 Kg. El proceso viene siguiendo un patrón normal y se considera bajo control mientras cumpla: =4.01 Kg. y =0.005 Kg. Pero el proceso se puede desajustar (aumento o disminución de o , aparición de asimetría, etc.) e interesa poder chequear en cualquier momento el estado del proceso de envasado. La Estadística Inferencial aporta herramientas para dar respuesta a preguntas naturales como éstas: 1. ¿Cuánto valen y ? (ESTIMACIÓN PUNTUAL) 2. ¿Entre qué valores se encuentran y con ciertas garantías de acierto (95% ó 99%)? (ESTIMACIÓN por INTERVALOS DE CONFIANZA) 3. ¿Los datos soportan que =4.01, o por el contrario son más creíbles si =5.01? ¿Los datos soportan que <0.005, o quizás será≥0.005? (CONTRASTE DE HIPÓTESIS PARAMETRICOS) 4. ¿El modelo es normal? (TEST DE AJUSTE) Para responder a estas preguntas tendremos que tomar una muestra de la variable X = Contenido envasado y estudiar la información que nos aporta s obre el modelo poblacional. Surgen entonces otras preguntas adicionales: 5. ¿De qué tamaño tiene que ser la muestra para garantizar cierta confianza?, ¿Cómo elijo la muestra? (MUESTREO) Tema 10. Introducción a la Estadística Inferencial. 164 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: Dos proveedores A y B suministran a un fabricante el mismo producto químico cuya característica de interés es la pureza (en %), que es una variable aleatoria con distribución supuestamente normal. El fabricante está interesado en comparar los productos suministrados por ambos proveedores comparando los parámetros en ambos casos (a través de AB y A /B). De nuevo se nos plantean una serie de interrogantes naturales a los que sólo podremos dar respuesta mediante el uso de las técnicas estadísticas apropiadas: 1. ¿Cuánto valen aproximadamente y en cada caso? (ESTIMACIÓN) 2. ¿Entre qué valores se encuentran con ciertas garantías de acierto AB y A /B (95 % ó 99%)? (INTERVALOS DE CONFIANZA) 3. ¿Es realmente cierto AB, o quizás AB? Análogamente: ¿Realmente AB, o quizásAB? (CONTRASTE DE HIPÓTESIS) 4. ¿Los modelos son normales? (TEST DE AJUSTE) Para responder a estas preguntas tendremos que tomar muestras de la variable X = Pureza para cada uno de los proveedores y estudiar la información que nos aportan sobre los modelo de ambas poblaciones. Surgen entonces otras preguntas adicionales: 5. ¿De qué tamaño tienen que ser las muestras?, ¿Cómo elijo las muestras? (MUESTREO) Tema 10. Introducción a la Estadística Inferencial. 165 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL ESTADÍSTICOS Y ESTIMADORES Estadístico. Es cualquier función de la muestra. T T ( X 1 ,..., X n ) . (Es una v.a.; depende del azar). Operando los valores X 1 ,..., X n de la muestra, extraemos la in formación que ésta posee sobre la población (sobre la ley PX desconocida, sus parámetros u otras características de interés). n n i 1 i 1 Ejemplos de estadísticos: T1 X i ; T2 X ; 2 i 1 n 1 n 2 X X i ; S ( X i X ) 2 ; Me; ... n i 1 n i 1 Estimadores. Para aproximar o estimar un parámetro desconocido, , en una población, se elige un estadístico apropiado, ˆ ˆ( X 1 ,..., X n ) . Se dice entonces que el estadístico ˆ es un estimador de . 1 n Ejemplos de estimadores: ˆ X n X i ; ˆ S i 1 1 n ( X i X )2 n i 1 (serán usados habitualmente como estimadores de los parámetros y , respectivamente). Para obtener un estimador adecuado para un parámetro utilizaremos este sencillo razonamiento: - Cualquier parámetro de interés resulta de realizar alguna “operación” sobre la población. - El estimador se construye realizando una “operación” paralela sobre la muestra. Ejemplos: PARÁMETRO ESTIMADOR n media poblacional ̂ X 1n i 1 X i media muestral varianza poblacional ˆ 2 S 2 p = proporción poblacional p̂ = proporción muestral mediana poblacional ˆ Me mediana muestral Tema 10. Introducción a la Estadística Inferencial. 1 n n i 1 ( X i X ) 2 varianza muestral 166 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL LEY DE LOS GRANDES NÚMEROS Es la justificación matemática de la aproximación de la media poblacional por la muestral X : X variable aleatoria con =EX< y 2=Var(X) <. (población con ley desconocida) X1, ..., Xn, ... realizaciones independientes de X. (muestra aleatoria de la población) Xn 1 n n X satisface E ( X ) , i 1 i Var ( X ) 2 / n, X / n , es decir: X toma valores centrados en el parámetro a estimar (es un estimador insesgado). La dispersión (varianza) de X tiende a 0 al crecer n (hay un “n” en el denominador). P X converge hacia X n (estimador consistente), en el sentido: P X n n 0 para cada 0 . n Ley de los Grandes Números 8 La prueba se basa en la Desigualdad de Chebyshev: P Xn Var ( X n ) 2 2 2 n 0. n Interpretación probabilística de la LGN: Promediando un número suficientemente grande de observaciones de un experimento, se obtiene un valor que dista de la media poblacional una distancia tan pequeña como queramos, con una probabilidad tan alta como queramos. Tema 10. Introducción a la Estadística Inferencial. 6 Ley de probabilidad de X n para n grande 4 2 0 167 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Aplicación estadística de la Ley de los Grandes Números: La LGN Justifica que el valor concreto observado para la media muestral, X x se pueda utilizar como estimación del parámetro con el siguiente argumento: Por las propiedades probabilísticas de la v.a. X y la aplicación de la Ley de los Grandes Números sabemos que muy probablemente X tomará un valor próximo a (parámetro desconocido); por lo tanto, una vez realizado el muestreo y obtenido el valor numérico concreto (conocido) que toma la v.a. X ( X x ) , está justificado concluir que dicho valor es una aproximación razonable del parámetro Ley de los Grandes Números para otros estadísticos definidos a través de promedios: El razonamiento anterior se puede hacer exte nsivo de manera no muy complicada a todos los estadísticos muestrales definidos como promedios (varianza muestral, proporciones muestrales, …). La LGN también permite concluir que dichos estadísticos muestrales proporcionan aproximaciones o estimaciones naturales de los correspondientes parámetros poblacionales definidos como promedios de alguna función en la población (varianza, probabilidad de un suceso, …). Glivenko-Cantelli: Fn --> F Ley de los Grandes Números para otros estadísticos en general: Existen otras LGN que justifican las aproximaci ones de otros parámetros poblacionales que no adoptan directamente la forma de promedios, a partir de los correspondientes estadísticos muestrales que tampoco adoptan la forma de promedios. Tema 10. Introducción a la Estadística Inferencial. 168 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DISTRIBUCIÓN DE ESTADÍSTICOS Y ESTIMADORES Obtener estimadores de los parámetros más comunes puede ser “fácil”, pero no es suficiente. La muestra es aleatoria, es decir presenta variabilidad de unas ocasiones a otras. Cualquier estadístico o estimador T es también una v. a. por ser función de la muestra aleatoria. T, como toda v.a., seguirá su propia distribución o ley de probabilidad . El resultado de la estimación en cada ocasión concreta no tiene ningún valor por sí mismo si no valoramos la precisión de esa estimación (la variabilidad del estimador). Para ello necesitamos conocer la ley de probabilidad del estadístico que estamos empleando. La ley de probabilidad de un estadístico a veces recibe el nombre de distribución muestral. Conocer la distribución de los estadísticos es imprescindible para: - Conocer sus propiedades. - Poder compararlos entre sí. - Establecer la precisión de las estimaciones. - Valorar los riesgos de error de los procesos inferenciales. Ejemplo: El editor de una revista profesional de ingeniería desea estimar el salario medio () de los graduados en Ingeniería Industrial en su primer empleo. Por razones de coste y tiempo necesario para el estudio, en lugar de crear una base de datos completa de la última promoción de graduados, decide trabajar con una muestra de 25 graduados, de los que obtiene su salario, y pretende utilizar el valor que obtenga de X cRmo estimación de . El editor quiere saber qué posibilidades tiene de que la estimación obtenida se desvíe a lo sumo en 50 € del valor real de . Para ello necesita conocer la distribución de la media muestral para calcular P 50 X 50. Tema 10. Introducción a la Estadística Inferencial. 169 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ilustración del concepto de distribución de un estadístico T estimador de un parámetro Distribución de T 0,8 Distribución de la Población 0,6 parámetro de interés de la población 0,4 0,2 0 0 1 2 t2 3 Muestra 1 : Muestra 2 : x1,1 ,..., x1,n x2,1 ,..., x2,n ... ... Muestra m : xm ,1 ,..., xm ,n ... Tema 10. Introducción a la Estadística Inferencial. ... tm t1 T ( x1,1 ,..., x1,n ) t1 T ( x2,1 ,..., x2,n ) t 2 ... T ( x m ,1 ,..., x m ,n ) t m ... ... 170 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DISTRIBUCIÓN DE LA MEDIA MUESTRAL Estamos interesados en estimar la media poblacional=EX a partir de una m.a.s. X1, X2, ..., Xn. Sabemos que X será utilizado como estimador de La LGN justifica la aproximación. Buscamos la distribución de X para poder además calibrar el error de la aproximación: Si conocemos que la ley de X es normal, N(,), entonces X N ( , aprox Si la ley de X no es normal, pero n es grande, entonces X N ( , n ) . (ley exacta) n ) por el TCL. (asintótica) Entonces, podemos calcular la probabilidad de cometer a lo sumo un error en la estimación: n X n n . 1 2 P X P X P n n n Distribución de medias muestrales Distribución de la población 1 4 0.75 3 0.5 2 0.25 1 0 0 Tema 10. Introducción a la Estadística Inferencial. n=100 n=25 n=4 para diferentes tamaños muestrales n= 4, 25, 100 171 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DISTRIBUCIÓN DE X n EN POBLACIONES NO NORMALES. ILUSTRACIÓN DEL EFECTO LÍMITE CENTRAL (TCL). Distribución de promedios de observaciones de una v.a. con distribución exp(1). 0 1 2 3 4 5 6 0 1 2 3 4 5 n=25 n=5 n=2 n=1 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6 2 Distribución de promedios de observaciones de una v.a. con densidad f ( x) 1.5( x 1) , x (0,2) n=1 0 0,4 0,8 1,2 1,6 n=2 2 0 Tema 10. Introducción a la Estadística Inferencial. 0,4 0,8 1,2 1,6 n=5 2 0 0,4 0,8 1,2 1,6 n=25 2 0 0,4 0,8 1,2 1,6 2 172 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: El editor de una revista profesional de ingeniería desea estimar el salario medio de los graduados en Ingeniería Industrial en su primer empleo. Se conoce que el Salario es una variable con ley normal y =250 €. Se toma una muestra de n=25 titulados de los que obtiene la información sobre su salario. El editor querría que la estimación (media muestral) obtenida a partir de esta muestra le diera un valor que se desvíe a lo sumo en 50 € respecto al valor real con cierta probabilidad controlada. a) Hallar la probabilidad de que el error esté efectivamente entre 50 €. b) De qué tamaño tiene que ser la muestra para tener garantizado un error máximo de 50 € con una probabilidad de 0.95. Solución: Utilizamos la distribución de la media muestral: X n N ( , n) Xn N (0,1) n 50 X n 50 P 1 N (0,1) 1 (1) (1) 0.68. 50 50 P X P a) 250 250 25 25 n 50 X n 50 1 2(0.2 n ). 0.95 50 50 P X P n b) 250 250 n n n 1 2(0.2 n ) 0.95 (0.2 n ) 0.025 0.2 n 1.96 n 97 . Tema 10. Introducción a la Estadística Inferencial. 173 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL PROBLEMAS BÁSICOS DE ESTADÍSTICA INFERENCIAL 1.-VARIABLES CUANTITATIVAS (POBLACIONES NORMALES) 1.1.- Estudio de una población normal. (Problemas de una muestra) Población: XN(,), Muestra: X1, ...,Xn X , S 1.1.1.- Inferencias sobre la media . 1.1.2.- Inferencias sobre la desviación típica 1.2.- Comparación de 2 poblaciones normales. (Problemas de dos muestras) Población 1: X1N(1, 1), Muestra 1: X 1,1 ,..., X 1, n X 1 , S1 Población 2: X2N(2, 2), Muestra 2: X 2 ,1 ,..., X 2 ,n X 2 , S 2 1.2.1.- Comparación de medias: Inferencias sobre 12 (12=0 12). 1.2.2.- Comparación de varianzas: Inferencias sobre 12/22 (12/22 =1 1=2). 1 2 1.3.- Ajuste a la normal. (Fn, Plots ...) 2.- VARIABLES CUALITATIVAS O ATRIBUTOS (PROPORCIONES) 2.1.- Estudio de una proporción. (Problemas de una muestra) Población: X B(p), Muestra: X1, ...,Xn. pˆ X Inferencias sobre la proporción p. 2.2.- Comparación de 2 proporciones p1p2. (Problemas de dos muestras) Población 1: X1 B(p1), Muestra 1: X 1,1 ,..., X 1,n pˆ 1 X 1 Población 2: X2 B(p2), Muestra 2: X 2 ,1 ,..., X 2 ,n pˆ 2 X 2 Inferencias sobre p1p2 (p1p2=0 p1p2). 1 2 Tema 10. Introducción a la Estadística Inferencial. 174 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL ESTIMADORES DE PARÁMETROS EN MODELOS NORMALES Y PROPORCIONES 1.-VARIABLES CUANTITATIVAS (POBL. NORMALES) 1.1.- Estudio de una población normal. 1 1.1.1.- X n i 1 X i estimador de la media . n 1 n (X i X )2 , S 1.1.2.- S n 1 i 1 2 2 n 1 X X estimadores de y i i 1 n 1 Nota: Se divide por n1 para conseguir E(S2)= Se llama cuasivarianza o varianza corregida. A partir de ahora siempre las utilizaremos y las llamaremos varianza y desviación típica. 1.2.- Comparación de poblaciones normales con muestras independientes. 1.2.1.- Comparación de medias: X1 X 2 estimador de 12. 1.2.2.- Comparación de varianzas con muestras independientes: S12 S 22 estimador de 12 22 2.-VARIABLES CUALITATIVAS DICOTOMICAS O ATRIBUTOS (PROPORCIONES) 2.1.- Inferencias sobre una proporción p. 1 n pˆ X X i (proporción muestral) estimador de p. n i 1 2.2.- Comparación de 2 proporciones: p1p2. pˆ 1 pˆ 2 X 1 X 2 estimador de p1p2. Tema 10. Introducción a la Estadística Inferencial. 175 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DISTRIBUCIONES EN EL MUESTREO DE POBLACIONES NORMALES 1.- Estudio de una población normal. Parámetro 1M Estimador Distribución X N ( , X útil cuando... (n 1) S2 2 n) Distribución bis X N ( 0,1) / n X S/ n Observaciones t n 1 conocida [1] desconocida [2] S 2 n21 [3] 2.- Comparación de dos poblaciones normales. Parámetro Estimador Distribución Distribución bis X 1 X 2 ( 1 2 ) 12 n1 2M 12 X1 X 2 12 22 X 1 X 2 N 1 2 , n n 2 1 22 P N (0,1) 1 1 n1 n2 t n1 n2 2 X 1 X 2 ( 1 2 ) S12 S 22 n1 n2 12 22 S 2 1 S 2 2 Tema 10. Introducción a la Estadística Inferencial. S12 12 Fn1 1,n2 1 S 22 22 1, 2 conocidas [4] n2 X 1 X 2 ( 1 2 ) s Observaciones 1=2= desconocida (n1 1) S12 (n2 1) S 22 S n1 n2 2 2 p t 12 desconocidas S n S n 2 S n S n 2 1 2 1 2 2 2 1 2 2 2 2 1 n1 1 [5] 2 [6] 2 n2 1 [7 [7] ] 176 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Distribución 2 de Pearson (Chi cuadrado) Se obtiene de sumar cuadrados de variables normales independientes. X 1 ,... X n v.a. i.i.d ., X i N (0,1) n X i 1 2 i n2 : Distribución chi-cuadrado con n grados de libertad. Aplicación a la estimación de : X 1 ,... X n v.a. i.i.d ., X i N ( , ) (n 1) S 2 2 n21 2 2 2 Está tabulada. En las tablas encontramos para distintos valores de n y n , P n n , Distribución Chi-Cuadrado Distribución Chi-Cuadrado 0,16 0,1 G. L. 5 10 25 0,08 densidad densidad 0,12 0,08 0,04 2 n 0,06 0,04 0,02 0 0 0 5 10 15 20 25 Tema 10. Introducción a la Estadística Inferencial. 30 35 40 45 50 n2, 177 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Distribución t de Student. Se obtiene del cociente N (0,1) 1 n 2 n t n : Distribución t de Student con n grados de libertad. (siendo el numerador y el denominador independientes) Aparece al estandarizar X cuando sustituimos desconocido por su estimador S (studentización). X 1 ,... X n v.a. i.i.d ., X i N ( , ) X (n -1) S 2 N (0,1) , n21 indeps. n) ó 2 n X N ( , X tn 1 S n Está tabulada. En las tablas encontramos para distintos valores de n y t n , P t n t n , Para obtener valores en la cola izquierda se usa la simetría: t n ,1 t n , . Para valores de n grande: t N (0,1) Distribución t de Student Distribución t de Student 0,4 0,4 G. L. 2 8 200 tn 0,3 densidad densidad 0,3 0,2 0,2 0,1 0,1 0 0 -5 -4 -3 -2 -1 Tema 10. Introducción a la Estadística Inferencial. 0 1 2 3 4 5 t n , 178 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Distribución F de Fisher-Snedecor Se obtiene del cociente 1 n1 1 n2 n2 Fn ,n : Distribución F con n y n grados de libertad. 2 1 2 n 1 1 2 2 (siendo el numerador y el denominador independientes) Aplicación a la estimación de 12 X 1,1 ,... X 1,n1 v.a. i.i.d . X 1,i N ( 1 , 1 ), 2 2 : X ,... X 2 ,1 2 , n2 v.a. i.i.d ., X 2 ,i N ( 2 , 2 ), S 12 12 S 22 22 Fn1 1,n2 1 Está tabulada. Para distintos valores de n1, n2 y encontramos Fn1 ,n2 , P Fn1 ,n2 Fn1 ,n2 , . Para obtener valores en la cola izquierda se usa: Fn1 ,n2 ,1 1 Fn2 ,n1 , . Distribucíón F de Fisher-Snedecor Distribucíón F de Fisher-Snedecor 0,8 1,2 g.l. Num, g.l. Denom 5,5 5,25 25,5 25,25 1 densidad densidad 0,8 0,6 Fn1 ,n2 0,6 0,4 0,4 0,2 0,2 0 0 0 1 2 Tema 10. Introducción a la Estadística Inferencial. 3 4 5 Fn1 ,n2 , 179 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Dos modelos de pilas, M1 y M2, están diseñados para tener el mismo voltaje 1.5 V. El Voltaje de una pila elegida al azar es una variable aleatoria con ley normal con =0.01 V para ambos modelos. Para estudiar si las medias 1 y 2 son también iguales, se toman dos muestras de 50 pilas de cada modelo y se mide su voltaje. a) Si las medias son iguales, 12, calcula la probabilidad de que la diferencia entre las medias muestrales sea mayor de 0.01V. b) Si 12=0.1V, calcula la probabilidad de que las medias muestrales difieran en menos de 0.05V. c) ¿Qué tamaño muestral (n=n1=n2) habría sido suficiente en a) para que la probabilidad calculada sea menor que 0.05? Solución: Conocemos la distribución de la diferencia de medias: 12 22 X 1 X 2 N 1 2 , n n 2 1 0.01 0 0.01 2 5 0. 2 0.0001 0.0001 2 0.01 50 50 50 X X 2 ( 1 2 ) 0.05 0.1 0.05 0.1 P X 1 X 2 0.05 P 0.05 X 1 X 2 0.05P 1 -25 75 0. 0.0001 0.0001 12 22 0.0001 0.0001 50 50 50 50 n n 1 2 [4] X X 2 ( 1 2 ) P X 1 X 2 0.01 P 1 2 2 1 2 n n2 1 a) b) c) [4] 0.01 n 0.05 P X 1 X 2 0.01 2 1.96 n 8 . 0.01 2 n 2 Tema 10. Introducción a la Estadística Inferencial. 180 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DISTRIBUCIONES ASINTOTICAS (aproximaciones para MUESTRAS GRANDES) MUESTREO DE PROPORCIONES Parámetro Estimador 1M 2M p p1p2 Distribución límite aprox pˆ N p, p p 1 p 2 pˆ 1 pˆ 2 N p1 p 2 , aprox p(1 p) n p1 (1 p1 ) p 2 (1 p 2 ) n1 n2 Distribución límite bis p p ~ N (0,1) p(1 p) n p 1 p 2 ( p1 p2 ) p1 (1 p1 ) p2 (1 p2 ) n1 n2 ~ N (0,1) Observaciones Sólo para Muestra grande Se basa en TCL [8] Sólo para [9] Muestras grandes Se basa en TCL MUESTREO DE VARIABLES CUANTITATIVAS CUALESQUIERA Parámetro Estimador 1M 2M 12 Distribución límite aprox X N ( , X X1 X 2 n) 12 22 X 1 X 2 N 1 2 , n1 n 2 Tema 10. Introducción a la Estadística Inferencial. aprox Distribución límite bis X ~ S n N (0,1) X 1 X 2 1 2 ~ N (0,1) 2 2 S1 S 2 n1 n 2 Observaciones Sólo para Muestra grande Se basa en TCL Sólo para Muestra grande Se basa en TCL 181 [10] [11] ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Un proveedor suministra envíos que deberían aceptarse sólo si contienen a lo sumo un 10% de productos defectuosos. Un inspector de calidad acepta envíos siempre que una muestra de tamaño 100 contenga a lo sumo 10 productos defectuosos (10%) y los rechaza en otro caso. a) Si el proceso tiene una tasa de defectos del 10%, hallar la probabilidad de que la proporción muestral se desvíe de este valor en más de 2 puntos porcentuales. b) ¿Hallar la probabilidad de que acepte un envío si la tasa de defectuosos es de un 12%? c) ¿Hallar la probabilidad de que rechace un envío en el que sólo un 8% son defectuosos? Solución: Utilizamos la distribución límite a) P pˆ 0,1 0.02 P0.08 pˆ 0.12 pˆ 0.1 P pˆ 0.1 P b) P c) P aprox pˆ N p, P p(1 p) n que nos proporciona el TCL. 0.075 0.10 0.125 0.10 pˆ 0.1 0.1(1 0.1) 0.1(1 0.1) 0.1(1 0.1) 100 100 100 pˆ 0.12 0.10 0.12 0.12(1 0.12) 0.12(1 0.12) 100 100 pˆ 0.08 0.10 0.08 0.081 0.08 0.08 * 0.92 100 100 1 0.105 0.12 0.12(1 0.12) 100 0.46 0.105 0.08 1 0.92 0.08 * 0.92 100 2(0.83) 1 0.593. [8] 0.323. 0.18. Nota: En todos los casos se ha utilizado la corrección por continuidad. Tema 10. Introducción a la Estadística Inferencial. 182 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 11.- INTERVALOS DE CONFIANZA - Estimación puntual y por intervalos de confianza. - Intervalos y cotas de confianza. - Interpretación frecuentista de los I.C. - Método general. - Aplicaciones a modelos normales. Distribucíón F de Fisher-Snedecor - Aplicaciones a modelos de proporciones. 1,2 - Elección del tamaño muestral. g.l. Num, g.l. Denom 5,5 5,25 25,5 25,25 1 densidad 0,8 0,6 Ronald A. Fisher 0,4 0,2 0 0 Tema 11. Intervalos de Confianza. 1 2 3 4 5 183 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL ESTIMACIÓN PUNTUAL Y POR INTERVALOS DE CONFIANZA Obtener una estimación (puntual) de un parámetro es insuficiente: No calibramos el error que podemos estar cometiendo. Si obtenemos otra estimación basada en otra muestra, el valor será diferente: ¿Cuál es mejor? La probabilidad de “acertar” en una estimación puntual con un estimador ˆ es frecuentemente 0. Siempre que la distribución del estimador ˆ sea continua se tiene P ( Acertar con la estimación puntual ) P (ˆ ) 0 Es mucho más informativo un intervalo de valores que cubra el verdadero valor del parámetro con una cierta garantía. Unas veces tendremos éxito (el intervalo contendrá al verdadero valor del parámetro a estimar, que es un valor fijo pero desconocido) y otras no. Construiremos este intervalo a partir de la muestra, y sus extremos serán por tanto aleatorios. Utilizamos un procedimiento de construcción que asegur e una alta probabilidad de éxito; es decir, de que el intervalo construido cubra realmente al valor del parámetro desconocido. Llamamos confianza o garantía a esa probabilidad de éxito y suele expresarse en %. Puede lograrse tan cercana al 100% como requiera cada situación, pero a costa de aumentar la amplitud del intervalo y perdiendo por lo tanto precisión. Tema 11. Intervalos de Confianza. 184 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL La confianza o garantía de éxito la fija el investigador: 1- ó bien 100(1-a)% Habitualmente se usan valores altos, del 95% ó 99%. El riesgo de error es el valor complementario (100%); queda también fijado Será pequeño. Habitualmente del 5% ó 1%. Ejemplo: Para estimar un parámetro de una variable crítica para el funcionamiento de una central nuclear nos interesará que sea muy pequeño, =0.001 por ejemplo. En otras ocasiones, como por ejemplo la estimación de un parámetro que afecte a la longitud de las piezas producidas por una máquina, donde las consecuencias de un posible error no serían tan graves, se podrá admitir un mayor riesgo de error, por ejemplo =0.05. Estos intervalos de valores se obtienen a partir de la distribución muestral del estimador usado y se llamarán Intervalos de Confianza. De forma análoga se construyen cotas de confianza (inferiores o superiores) Tema 11. Intervalos de Confianza. 185 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL INTERVALOS Y COTAS DE CONFIANZA: X variable aleatoria de interés definida sobre la población. parámetro de interés desconocido de la población (de la distribución de la variable X). X1, …, Xn muestra aleatoria simple representativa de la población. (0,1) fijado de antemano. Intervalo de confianza del 100(1 para Es un intervalo formado por dos estadísticos L y U, L L ( X 1 ,..., X n ), U U ( X 1 ,..., X n ) , tal que P L ( X 1 ,..., X n ) U ( X 1 ,..., X n ) 1 . Cota superior de confianza del 100(1 para Viene definida por un estadístico U U ( X 1 ,..., X n ) , tal que P U ( X 1 ,..., X n ) 1 . Ejemplo: Inspección de calidad, X=1 (D) ó 0 ( D ). Queremos obtener una cota superior para p=P(D) Cota inferior de confianza del 100(1 para Viene definida por un estadístico L L ( X 1 ,..., X n ) , tal que P L ( X 1 ,..., X n ) 1 . Ejemplo: X= Rendimiento de un proceso químico. Queremos obtener una cota inferior para Los intervalos y cotas de confianza, además de confianza 1- con la que queremos trabajar. Tema 11. Intervalos de Confianza. depender de la muestra, también dependen de la 186 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL INTERPRETACIÓN FRECUENTISTA DE LOS INTERVALOS DE CONFIANZA Los extremos de los intervalos y cotas de confianza son aleatorios por ser función de la muestra. Dada una muestra concreta ( X 1 ,..., X n ) ( x1 ,..., x n ) (datos), calcularemos los valores de L y U L ( x1 ,..., x n ) l , U ( x1 ,..., x n ) u y concluiremos que (l , u ) ó l u con confianza 1 . ¿Por qué hablamos de confianza y no de probabilidad? Una vez calculados los extremos L=l y U=u a partir de los datos, no hablaremos de probabilidad. Decir P (l , u ) 1 no tiene sentido ya que el parámetro no es una v. a. sino una cantidad desconocida pero fija. Entonces, calculado el intervalo (l,u), puede ocurrir: Exito: Hemos acertado y el intervalo contiene al parámetro, o bien Fracaso: Hemos fallado y no lo contiene. “Confiamos” en haber acertado ya que (L,U) satisface P L ( X 1 ,..., X n ) U ( X 1 ,..., X n ) 1 (alto). Si se repitiera muchas veces el muestreo y el cálculo del intervalo (l,u), en promedio una proporción 1 (100(1)%) de las veces el I.C. contendría al parámetro La proporción restante fallaría. Esto lo indicamos diciendo que el I.C. tiene una confianza (o garantía) 1. Esta interpretación frecuentista de los IC sirve también para las cotas de confianza. Tema 11. Intervalos de Confianza. 187 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ilustración de la interpretación frecuentista de los Intervalos de Confianza para un parámetro 0,8 Distribución de la Población 0,6 parámetro de interés de la población 0,4 0,2 0 0 1 2 3 0 Muestra 1 : Muestra 2 : x1,1 ,..., x1, n x 2,1 ,..., x 2, n ... ... Muestra m : x m ,1 ,..., x m , n ... ... 20 40 60 80 100 I 1 (l1 , u1 ) I 2 (l 2 , u 2 ) ... I m (l m , u m ) ... ... Nota: Las muestras provienen de un experimento de s imulación en el que se han construido I.C. al 95%. Podemos ver que en los 100 primeros tenemos 7 fallos y 93 aciertos. Si seguimos tomando muestras, los porcentajes de aciertos y fallos se estabilizarán en torno a 95% y 5% respectivamente. Tema 11. Intervalos de Confianza. 188 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL CONFIANZA Y AMPLITUD (PRECISIÓN) DE UN I.C. La utilidad práctica de un intervalo viene dada por dos medidas: 1. CONFIANZA: Mide la seguridad o garantía del procedimiento de construcción del intervalo. 2. AMPLITUD: Mide (inversamente) la precisión de la estimación realizada. A la hora de valorar un I.C. hay que tener en cuenta que nos interesa: Que la confianza sea lo más alta posible. (Por ejemplo, preferiríamos 95% a 90%) Que la amplitud sea lo menor posible. (P. ej., preferiríamos 2,995 3,005 a 2,95 3,05 ) Ambos criterios entran en conflicto: Confianza y amplitud no se pueden controlar a la vez para un tamaño de muestra dado. Una característica de los I.C. es que si aumenta la confianza aumenta la amplitud (disminuye la precisión). Se consigue una confianza y amplitud prefijadas eligiendo el tamaño muestral adecuado. Como medida de amplitud en IdeC simétricos se utiliza su radio “error máximo de estimación” MÉTODO PARA CONSTRUIR INTERVALOS Y COTAS DE CONFIANZA El método general sigue los siguientes pasos: 1. Elegir un buen estimador ˆ del parámetro . 2. Obtener la distribución del estimador ˆ . 3. Delimitar una región de probabilidad bajo esta distribución, 4. Despejar . Tema 11. Intervalos de Confianza. 189 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Aplicación a la obtención de un I.C. para en el modelo N() con conocida: 1. Estimador: ̂ X . 2. Distribución del estimador: X N ( , n) X n N (0,1). 3. Región de probabilidad bajo la distribución muestral: 0,4 densidad 0,3 X P z / 2 z / 2 1 . n 0,2 0,1 0 zz 4. Despejar el parámetro : X z / 2 Tema 11. Intervalos de Confianza. n X z / 2 estimador puntual +- E (error máximo de estimación) n o bien X z / 2 n con confianza 1-. [1] 190 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Para obtener cotas de confianza dejamos todo el riesgo de error en una cola: X 1 X z P z Cota inferior de confianza : n n X Cota superior de confianza : P n z 1 X z n 0,4 0,4 0,3 densidad densidad 0,3 0,2 0,1 0 0,2 0,1 z 0 z Conflicto Confianza-Amplitud: Si aumentamos la confianza 1-, aumenta z/2 y aumenta la amplitud o error máximo E E z / 2 / n . Se puede diseñar el tamaño muestral para conseguir la confianza y el error deseados: n ( z / 2 / E ) 2 . Tema 11. Intervalos de Confianza. 191 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: El editor de una revista profesional de ingeniería desea estimar el salario medio de los graduados en Ingeniería Industrial en su primer empleo. Se conoce que el Salario es una variable con ley normal y =250 €. Se toma una muestra de n=25 titulados de los que obtiene la información sobre su salario, resultando X 1501 .57€ . a) Obtener un I.C. al 95% para . b) Obtener una cota inferior de confianza al 99% para . c) Qué tamaño muestra se necesita en a) para que el error máximo sea de 50€. Solución: a) X z / 2 n X z / 2 1501.57 1.96 250 25 n 1501.57 1.96 1403.57 1599.57 o bien b) X z 250 25 , o bien 1501.57 1.96 250 , 25 1501.57 98€ con una confianza del 95%. n 1501.57 2.33 c) [1] 250 1384,77€ con una confianza del 99%. 25 n ( z / 2 / E ) 2 (1.96 250 / 50) 2 96.04. n 97. Tema 11. Intervalos de Confianza. 192 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Aplicación a la obtención de un I.C. para en el modelo N(): 1. Estimador: ˆ 2 S 2 . 2. Distribución del estimador: (n 1) 2 S 2 n21 3. Región de probabilidad bajo la distribución muestral: 0,1 2 Distribución n 1 densidad 0,08 2 (n 1) S 2 2 P n 1,1 2 n 1, 2 1 . 2 0,06 0,04 0,02 0 n21,1 / 2 n21, / 2 4. Despejar el parámetro 2 : (n 1) Tema 11. Intervalos de Confianza. 2 n 1, 2 S2 2 (n 1) 2 n 1,1 2 S 2 con confianza 1-. [3] 193 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Para obtener cotas de confianza dejamos todo el riesgo de error en una cola: (n 1) S 2 2 1 P 1 , n 2 2 (n 1) S 2 2 : P 2 n1,1 1 2 Cota inferior de confianza : Cota superior de confianza Distribución Chi-Cuadrado (n 1) 2 n 1,1 S2 S2 0,1 n21 0,06 0,04 0,02 n21 0,08 densidad 0,08 densidad 2 n 1, Distribución Chi-Cuadrado 0,1 0 (n 1) 0,06 0,04 0,02 n21,1 0 n21, Conflicto Confianza-Amplitud: Si aumentamos la confianza 1-, aumenta 2n-1,/2 y disminuye 2n-1,/2 y por tanto aumenta la amplitud. En este caso no existe una fórmula explícita para el tamaño muestral. Tema 11. Intervalos de Confianza. 194 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Se investiga el diámetro de barras de acero fabricadas por máquinas de extrudado, que sigue una distribución normal. Aunque el proceso funciona bien en cuanto al valor medio, se han observado ciertas anomalías que llevan a pensar que tal vez hay algún desajuste que está haciendo que la fabricación tenga mayor variabilidad de la debida con lo que un alto porcentaje del producto puede resultar inservible. El parámetro de interés a controlar en este caso es la varianza. En c 2 . Se dispone de una muestra de concreto se quiere que la varianza del proceso sea menor que 0.5 m tamaño n = 18 tal que X 8.63 cm y S 2 0.34 cm 2 . Con estos datos construimos una cota superior de confianza del 95% obteniendo para 2: Solución: 2 n 1S 2 2 17 S 2 1 ; C 2 0.95; 2 17 0.34 0.66. C 2 n1,1 17 , 0.95 8.67 [3] 0,08 0,06 distribución 172 0,04 0 95% 5% 0,02 0 10 20 30 40 50 172 , 0.95 8.67 Conclusión: los datos no soportan que la varianza cumpla las especificaciones que nosotros habíamos establecido para ese proceso. Tema 11. Intervalos de Confianza. 195 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL INTERVALOS DE CONFIANZA PARA POBLACIONES NORMALES 1.- I.C. para los parámetros de una población normal PROBLEMA ESTIMADOR Estimación de conocida X Estimación de desconocida X Estimación de S DISTRIBUCION X INTERVALO DE CONFIANZA 100(1-)% N ( 0,1) X z 2 t n 1 X t 2,n 1 / n X S/ n (n 1) 2 S n21 2 ( n 1) 2, n 1 2 S2 2 [1] n S n (n 1) 2 1 2, n 1 [2] S2 [3] 2.- Comparación de dos poblaciones normales PROBLEMA Comparación de medias y conocidas Comparación de medias =desconocidas Comparación de medias desconocidas Comparación de varianzas / ESTIMADOR DISTRIBUCION X 1 X 2 ( 1 2 ) X1 X 2 2 1 n1 2 2 s P 1 1 n1 n2 t n1 n2 2 X 1 X 2 ( 1 2 ) X1 X 2 S12 S 22 1 2 X 1 X 2 z 2 n2 X 1 X 2 ( 1 2 ) X1 X 2 N (0,1) INTERVALO DE CONFIANZA 100(1- )% S12 S 22 n1 n2 S12 12 Fn1 1,n2 1 S 22 22 n1 1 2 X 1 X 2 t 2,n n 2 S p 1 t 12 2 1 2 X 1 X 2 t 2, 22 [4] n2 1 1 n1 n2 [5] S12 S 22 n1 n2 [6] S12 12 S12 Fn 1,n 1, 2 Fn1 1,n2 1, 2 , , S 22 22 S 22 2 1 1 [7] Sp definido en la pg. 176 Tema 11. Intervalos de Confianza. 196 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Una empresa está considerando la fabricación de un nuevo material sobre la base de ciertos cálculos teóricos de su departamento de desarrollo. La propiedad clave del material es su conductividad térmica, que interesa que sea lo menor posible y que el departamento de desarrollo juzga como muy inferior a la del material actualmente utilizado. Para asegurarse, la empresa decide fabricar un total de n=10 unidades del nuevo material. Se quiere obtener una cota superior de confianza para el valor medio de la conductividad térmica de ese material y la empresa además juzga asumible un riesgo =0.05. Supóngase normalidad. Los resultados muestrales obtenidos son X 44.21 B tu / hr - ft-0 F y S 0.1 Btu/hr - ft- 0 F . Solución: S P X tn 1, 1 n S 0.1 44.21 1.833 44.268 n 10 La cota superior de confianza del 100(1-)% para se deduce de y en nuestro caso particular se tiene 0.4 X t 9,0.05 , [2] Distribución t con 9 g.l. P(t > t9,0.05) = 0.05 0.3 0.2 0.1 0 -5 Tema 11. Intervalos de Confianza. 0 t9,0.05=1.833 197 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: A la hora de instalar una nueva factoría de envases se presenta la elección entre dos sistemas de cerrado de envases que se están empleando en fábricas ya instaladas. Se está interesado en la resistencia de esos envases en función del tipo de cerrado de los mismos. Se decide estimar la diferencia entre las resistencias medias mediante un intervalo de confianza del 95%. Para ello se solicitan datos a las factorías que tienen instalados esos sistemas y de la primera responden enviando datos relativos a una muestra de tamaño n1 8 con X1 25.38 . De la segunda nos llegan datos de una muestra con n2 12 y X 2 29.46 . Además de pruebas anteriores con esos tipos de cerrado se sabe que los modelos son normales y que 12 1.21 y 22 1.98 . 1 2 X 1 X 2 z 2 12 n1 22 [4] n2 Teniendo en cuenta que X1 X2 = 25.38-29.46 = -4.08 y z z0.025 1.96 , obtenemos: 2 4.08 1.96 1.21 1.98 1 2 4.08 1.96 1.21 1.98 8 12 8 12 5.182 1 2 2.978 En conclusión, como 0 IC las medias se pueden considerar diferentes con confianza 0.95. El Error máximo de la estimación es de Emáx=1.102. Si quisiéramos que fuera como máximo de 0.2 unidades entonces deberíamos pedir a cada factoría un tamaño muestral igual a n z22 12 2 2 2 Emax 1.962 1.21 1.98 306.36 0.2 2 es decir 307 elementos por población. Tema 11. Intervalos de Confianza. 198 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Se tienen dos tipos de lámparas A y B y se desea estudiar cuál de los dos tipos tarda más tiempo en fundirse. Las duraciones se ajustan al modelo normal. Se toma una muestra de 8 lámparas de cada tipo y se obtienen los siguientes datos medidos en días: Tipo A : X 1 37.7, S1 6.65 Tipo B : X 2 35.4, S 2 5.86 . Se pide valorar la existencia de diferencias en las duraciones medias a partir de un intervalo de confianza del 90% para la diferencia de medias suponiendo varianzas iguales. Solución: La expresión del I.C. es: 1 2 X1 X 2 t 2,n n 2 S p X1 X2 37.7 35.4 2.3 ; 1 2 p S 2 1 1 n1 n2 n1 1S12 n 2 1S 22 n1 n 2 2 [5] 7 44.22 7 34.34 39.28 ; t14, 0.05 1.761 14 Sustituyendo los valores en la expresión general obtenemos: 2.3 1.761 6.27 1 1 1 2 2.3 1.761 6.27 4 4 0.4 3.22 1 2 7.82. Distribución t con 14 grados de libertad 0.3 0.2 0.1 0 0.05 -5 0.9 0.05 0 t14,0.05 = 1.761 Conclusión: 0 IC, luego con un 90% de confianza no existen diferencias. Tema 11. Intervalos de Confianza. 199 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: En el ejemplo sobre los dos tipos de lámparas para el que realizamos una comparación de medias en poblaciones normales con varianzas desconocidas pero iguales, construir un intervalo de confianza del 95% para comparar las varianzas y avalar la suposición realizada. (Si el valor 1 pertenece a ese intervalo entonces nuestra suposición de varianzas iguales tendrá argumentos consistentes con que sostenerse. El valor 1 corresponde precisamente a 1 2 ). Solución: Tenemos dos muestras de tamaño 8, de modo que S 1 6.65 y S 2 5.86 y el I.C. será: [7] 1 1 44.22 12 S2 S2 2 44.22 12 44.22 44.22 0.95 2 F7 , 7 , 0.025 C F7, 7, 0.975 12 12 F7 , 7 , 0.025 12 0.95 C C 0 . 95 4 . 99 2 F 34 . 34 34 . 34 4 . 99 34 . 34 34 . 34 S S 2 2 2 2 2 7 , 7 , 0.025 12 0.25 2 6.42. 2 0.7 F 7,7,0.025 = 4.99 0.6 F7,7,0.975 = 0.2 0.5 0.4 0.3 0.2 0.1 0 0 C=0.95 1 2 3 4 5 6 Distribución F7,7 Conclusión: 1 IC, luego se pueden considerar las varianzas iguales. Tema 11. Intervalos de Confianza. 200 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Aplicación del método general a la obtención de un I.C. para una proporción p: 1. Estimador: pˆ X . ~ N p, pˆ 2. Distribución del estimador: p (1 p n pˆ p p (1 p ) / n ~ N (0,1). 3. Región de probabilidad bajo esta distribución: 0,4 densidad 0,3 P z / 2 0,2 z / 2 ~ 1 . p(1 p) / n pˆ p 0,1 0 zz p(1 p) 4. Despejar p: p pˆ z / 2 El intervalo no es operativo porque los extremos dependen de p: n . Estimamos p(1-p): p pˆ z / 2 pˆ (1 pˆ ) con confianza aprox. 1-. n [8] 1 ˆ p p z / 2 Acotamos p(1-p)1/4: 4n con confianza al menos 1-. (I.C. conservador) Tema 11. Intervalos de Confianza. 201 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Para obtener cotas de confianza dejamos todo el riesgo de error en una cola: Cota inferior de confianza : pˆ p P z ~ 1 p(1 p) n pˆ p ~ z P Cota superior de confianza : 1 p(1 p) n p X z p X z pˆ (1 pˆ ) n pˆ (1 pˆ ) n Conflicto Confianza-Amplitud: Si aumentamos la confianza 1-, aumenta z/2 y aumenta el error máximo E z / 2 p(1 p) n . El tamaño muestral para conseguir la confianza y el error deseados sería: z2 / 2 p(1 p) n . E2 Si disponemos de un estimador piloto p̂0 , entonces Si no disponemos de información sobre p, entonces z2 / 2 pˆ 0 (1 pˆ 0 ) n E2 z2 / 2 n 4E 2 I.C. conservador, utilizando p(1-p)1/4 (caso más desfavorable p=q=1/2). Poco aconsejable para p y q extremos. Por ejemplo, si p=0.01, pq=0.0099<<1/4. Tema 11. Intervalos de Confianza. 202 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL INTERVALOS DE CONFIANZA BASADOS EN MUESTRAS GRANDES INTERVALOS DE CONFIANZA PARA PROPORCIONES PROBLEMA ESTIMADOR Estimación de una proporción p. Comparación de proporciones p1p2. p p 1 p 2 DISTRIBUCIÓN MUESTRAL INTERVALO DE CONFIANZA 100(1-)% p p ~ N (0,1) p(1 p) n p 1 p 2 ( p1 p2 ) p1 (1 p1 ) p2 (1 p2 ) n1 n2 ~ N (0,1) p pˆ z 2 p1 p 2 pˆ 1 pˆ 2 z 2 pˆ (1 pˆ ) n [8] pˆ 1 (1 pˆ 1 ) pˆ 2 (1 pˆ 2 ) n1 n2 [9] INTERVALOS DE CONFIANZA PARA MEDIAS DE POBLACIONES CUALESQUIERA PROBLEMA ESTIMADOR Estimación de n grande Comparación de medias 12, n1, n2 grandes Tema 11. Intervalos de Confianza. X X1 X 2 DISTRIBUCIÓN MUESTRAL INTERVALO DE CONFIANZA 100(1-)% S X ~ N (0,1) S n X 1 X 2 1 2 ~ N (0,1) S12 S 22 n1 n 2 X z / 2 [10] n 1 2 X 1 X 2 z 2 S12 S 22 n1 n2 [11] 203 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TIPOLOGÍA GENERAL DE LOS INTERVALOS PARA MEDIAS Y PROPORCIONES: Parámetro = Estimador Parámetro = Estimador Error máximo de estimación Factor de confianza El Factor de confianza depende de: La confianza deseada . La distribución del estimador. Desv. típica del estimador La desviación típica del estimador depende de: El estimador usado. El modelo o población en estudio. El tamaño muestral. Frecuentemente se desconoce y debe estimarse El error máximo de estimación se interpreta como la máxima posible diferencia entre el parámetro (desconocido) y la estimación puntual (conocida y que se usa como centro del intervalo) en el caso de que el I.C. fuese correcto. TIPOLOGÍA GENERAL DE LOS INTERVALOS PARA VARIANZAS: Parámetro (Estimador A , Estimador B) Los factores A y B dependen de la confianza y de la distribución del estimador, que a su vez depende del tamaño muestral. Tema 11. Intervalos de Confianza. 204 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL ELECCIÓN DEL TAMAÑO MUESTRAL La tabla siguiente muestra las fórmulas para calcular los tamaños muestrales necesarios para conseguir I.C. con una confianza prefijada 1- y un error máximo prefijado Emáx. PROBLEMA Estimación de conocida Estimación de desconocida. S2 estimador piloto. Comparación de medias y conocidas Comparación de medias =desconocidas. Sp2 estimador piloto. Comparación de medias desconocidas S12 , S22 estimadores piloto. Estimación de una proporción p. p̂0 estimador piloto Comparación de proporciones p1p2. p̂10 y p̂20 estimadores piloto n1=n2 ERROR MÁXIMO E máx z 2 n E máx t n 1, E máx z 2 S 2 12 n1 Emáx t n1 n2 2, 2 S p E máx t , 2 n TAMAÑO MUESTRAL NECESARIO z2 2 2 n 2 E máx Se resuelve por tanteo para n pequeño. Si n grande: n 22 n1 n2 n2 1 1 n1 n2 S12 S 22 n1 n 2 E máx z 2 pˆ (1 pˆ ) 1 z 2 n 4n Em,ax z 2 pˆ1(1 pˆ1) pˆ2(1 pˆ2) n1 n2 z2 2 S 2 2 Emáx z2 2 (12 22 ) 2 Emáx Se resuelve por tanteo. Para n1 n2 grandes: n1 n2 Se resuelve por tanteo. n1 n2 grandes: n1 n2 z2 2 2S p2 2 Emáx z2 2 (S12 S22 ) 2 Emáx z2 2 pˆ 0 (1 pˆ 0 ) z2 2 1 4 2 n 2 Emáx Emáx 2 2 n z 2 pˆ10 (1 pˆ10 ) pˆ20 (1 pˆ20 ) z 2 (1 4 1 4) 2 2 Emáx Emáx Nota: Caso más desfavorable para estimar proporciones: p=q=1/2 p(1-p)=1/4 Nota: No existen expresiones explícitas para el caso de los I.C. para varianzas. Tema 11. Intervalos de Confianza. 205 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Un fabricante de antenas parabólicas quiere ofrecer a sus clientes un periodo de garantía de un año y le gustaría saber, antes de decidirse cuál es la proporción p de antenas que debería reparar gratuitamente en ese caso. Para ello toma una muestra de 100 antenas que se prueban durante un año. De esas 100 antenas se estropean 18. Solución: El intervalo de confianza tiene la forma: p pˆ z 2 Sustituyendo los valores obtenemos pˆ (1 pˆ ) n 0.181 0.18 0.181 0.18 0.9 C 0.18 1.65 p 0.18 1.65 100 100 0.116 p 0.243. El Error máximo de la estimación es E max=0.063. Si el fabricante quisiera una precisión mayor en el intervalo de confianza, de forma que el error máximo en la estimación de la proporción fuera de 0.02 podríamos utilizar la muestra inicial que ya tenemos como muestra piloto y experimentar con una muestra adicional de n pˆ 1 pˆ z 22 2 E max 0.181 0.181.65 2 1004.6 , 0.02 2 de modo que deberíamos probar otras 1005 antenas para conseguir la precisión requerida a la estimación. Tema 11. Intervalos de Confianza. 206 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: En el ejemplo anterior, al considerar que la tasa de fallos en el primer año de vida era excesiva, un distribuidor del producto decide comparar el funcionamiento de las antenas de ese fabricante (A) con las de otro fabricante B. Toma una muestra de 200 antenas de este último y durante el primer año de vida se observan 22 fallos. Comparar las proporciones de fallos mediante un I.C. al 95%. Hallar los tamaños muestrales necesarios para que el error máximo de la estimación con la confianza del 95% sea 0.05 Solución: El intervalo de confianza tiene la forma: p1 p 2 pˆ 1 pˆ 2 z 2 pˆ 1 (1 pˆ 1 ) pˆ 2 (1 pˆ 2 ) n1 n2 Sustituyendo los valores obtenemos 0.181 0.18 0.111 0.11 0.95 C p1 p2 0.18 0.11 1.96 100 200 p1 p2 0.07 0,087. Como 0 IC, con un 95% de confianza no existen diferencias. Para obtener el tamaño muestral utilizamos los estimadores anteriores como pilotos: n1 n2 z2 / 2 pˆ 1 (1 pˆ 1 ) pˆ 2 (1 pˆ 2 ) 0.18 0.82 0.11 0.89 1.96 2 377.25 , 2 E 0.05 2 de modo que deberíamos probar 378 antenas de cada tipo para conseguir la precisión requerida a la estimación. Tema 11. Intervalos de Confianza. 207