EYP2214 Estadística para Construcción Civil 1 Inferencia Estadística El campo de la inferencia estadística está formado por los métodos utilizados para tomar decisiones o para obtener conclusiones sobre una población. Estos métodos utilizan la información contenida en una muestra de la población para obtener conclusiones. La inferencia estadística puede dividirse en dos grandes áreas: estimación de parámetros y prueba de hipótesis. EYP2214 Estadística para Construcción Civil 2 Ejemplo de un problema de estimación de parámetros : Supóngase que un ingeniero de estructuras analiza la resistencia a la tensión de un componente empleado en la carrocería de un automóvil. Puesto que la variabilidad existe de manera natural en la resistencia a la tensión entre distintos componentes, debido a diferencias en los lotes de la materia prima, en el proceso de fabricación y en los procedimientos de medición (por ejemplo), el ingeniero está interesado en estimar la resistencia a la tensión promedio de los componentes. EYP2214 Estadística para Construcción Civil 3 Una aplicación muy importante de la estadística es obtener estimaciones puntuales de parámetros tales como la media y la varianza de la población. El objetivo de la estimación puntual es seleccionar un número, con base en los datos de la muestra, que sea el valos más plausible de θ . El valor numérico de alguna estadística de la muestra es el que será utilizado como estimación puntual. En general, si X es una variable aleatoria con distribución de probabilidad f (x) , caracterizada por el parámetro no conocido θ , y si X 1 ,..., X n es una muestra aleatoria de X de tamaño n , entonces la estadística θˆ = h( X 1 ,..., X n ) recibe el nombre de estimador puntual de θ . Nótese que θˆ es una variable aleatoria, ya que es una función de variables aleatorias. EYP2214 Estadística para Construcción Civil 4 Definición Un estimador es una medida estadística que especifica cómo utilizar los datos de la muestra para estimar un parámetro desconocido de la población. Propiedades de los Estimadores : Estimadores Insesgados Un estimador debe estar “próximo” en algún sentido al valor verdadero del parámetro desconocido. De manera formal, se dice que θˆ es un estimador insesgado de θ si el valor esperado de θˆ es igual a θ . Esto equivale a afirmar que la media de la distribución de probabilidad de θˆ (o la media de la distribución de muestreo de θˆ ) es igual a θ . 5 EYP2214 Estadística para Construcción Civil Definición Un estimador θˆ es un estimador insesgado para estimar a θ si E (θˆ) = θ Si el estimador no es insesgado, entonces la diferencia E (θˆ) − θ es conocida como sesgo del estimador θˆ . Ejemplo 1 Supóngase que X es una variable aleatoria con media µ y varianza σ 2 . Sea X 1 ,..., X n una muestra aleatoria de tamaño n tomada de una población representada por X . Demuéstrese que la media muestral X y la varianza muestral S 2 son estimadores insesgados de µ y σ 2 , respectivamente. EYP2214 Estadística para Construcción Civil 6 En ocasiones existen varios estimadores insesgados del parámetro de la población muestral. Puesto que no hay un estimador insesgado único, no es posible depender exclusivamente de esta propiedad para seleccionar el estimador. Se necesita un método para seleccionar uno de entre varios estimadores insesgados. Varianza y error cuadrático medio de un estimador puntual Supóngase que θˆ1 y θˆ2 son estimadores insesgados de θ . Esto indica que la distribución de cada estimador está centrada en el verdadero valor de θ . Sin embargo, las varianzas de estas distribuciones pueden ser diferentes. Cuando se elige uno de entre varios estimadores, un principio lógico de estimación es seleccionar el estimador que tenga la menor varianza. EYP2214 Estadística para Construcción Civil 7 Definición Si se consideran todos los estimadores insesgados de θ , el que tiene la menor varianza recibe el nombre de estimador insesgado de varianza mínima. Otro método es el error cuadrático medio. Definición (Error Cuadrático Medio) El error cuadrático medio de un estimador θˆ del parámetro θ está definido como ECM (θˆ) = E (θˆ − θ ) 2 Obs. El error cuadrático medio puede reescribirse de la siguiente manera: ECM (θˆ) = Var (θˆ) + (sesgo) 2 EYP2214 Estadística para Construcción Civil 8 El error cuadrático medio es un criterio importante para comparar dos estimadores. Sean θˆ1 y θˆ2 dos estimadores del parámetro θ , y ECM (θˆ1 ) y ECM (θˆ2 ) los errores cuadráticos medios de θˆ1 y θˆ2 . Entonces, la eficiencia relativa de θˆ2 con respecto a θˆ1 se define como ECM (θˆ1 ) ECM (θˆ2 ) si la eficiencia relativa es menor que uno, entonces puede concluirse que θˆ1 es un estimador más eficiente de θ que θˆ2 , en el sentido que tiene un error cuadrático medio más pequeño. EYP2214 Estadística para Construcción Civil 9 Ejemplo 2 Supóngase que se desea estimar la media µ de una población. Se tiene una muestra aleatoria de n observaciones X 1 ,..., X n y se quiere comparar dos estimadores posibles de µ : la media muestral X y una observación de la muestra, por ejemplo X i . ¿Cuál estimador se utilizaría, y por qué? Ejemplo 3 Supóngase que X 1 ,..., X 5 representa una muestra aleatoria de alguna población para la cual E ( X i ) = µ y Var ( X i ) = σ 2 , i = 1,...,5 . Se proponen como estimadores de µ a los siguientes: θˆ1 = X 1 , 1 1 1 θˆ2 = ( X 1 + X 5 ), θˆ3 = ( X 1 + 2 X 5 ), θˆ4 = X = ( X 1 + + X 5 ) . 2 2 5 ¿Cuál estimador se utilizaría, y por qué? EYP2214 Estadística para Construcción Civil 10 Método de Máxima Verosimilitud Uno de los métodos para obtener un estimador puntual de un parámetro es el método de máxima verosimilitud. Tal como su nombre lo implica, el estimador será el valor del parámetro que maximiza la función de verosimilitud. Supóngase, por ejemplo, que una caja contiene cuatro pelotas, de las cuales un número desconocido θ son blancas y (4 − θ ) no son blancas. Se extraen al azar dos pelotas y se cuenta X , el número de pelotas blancas en la muestra. La distribución de probabilidad de X está dada por θ 4 − θ x x − 2 P( X = x) = p ( x) = 4 2 EYP2214 Estadística para Construcción Civil 11 Ahora supóngase que se observa que X = 1. ¿Qué valor de θ hará máxima la probabilidad de este evento?. De acuerdo con la distribución anterior se tienen que p (1θ = 0) = 0 1 3 1 1 3 1 p (1θ = 1) = = = 6 2 4 2 2 3 1 p (1θ = 3) = 2 p (1θ = 4) = 0 p (1θ = 2) = EYP2214 Estadística para Construcción Civil 12 Por lo tanto, θ = 2 hace máxima la probabilidad de la muestra observada, así que se escogería este valor, 2, como el estimador de máxima verosimilitud de θ , dado que se ha observado que X = 1. Definición Supóngase que X es una variable aleatoria con distribución de probabilidad f ( x,θ ) , donde θ es un parámetro desconocido. Sean x1 ,..., xn los valores observados en una muestra aleatoria de tamaño n . La función de verosimilitud de la muestra es L(θ ) = f ( x1 ,θ ) ⋅ f ( x2 ,θ ) ⋅ ⋅ f ( xn ,θ ) Nótese que la función de verosimilitud es ahora una función del parámetro desconocido θ . El estimador de máxima verosimilitud de θ es el valor de θ que maximiza la función de verosimilitud L(θ ) . EYP2214 Estadística para Construcción Civil 13 Nota : El método de máxima verosimilitud puede emplearse en situaciones donde esxisten varios parámetros desconocidos (por ejemplo, θ1 ,θ 2 ,,θ k ), que es necesario estimar. En tales casos, la función de verosimilitud es una función de los k parámetros desconocidos θ1 ,θ 2 ,,θ k , y los estimadores de máxima verosimilitud {θˆi } se obtienen al igualar a cero las k derivadas parciales ∂L(θ1 ,θ 2 ,,θ k ) ∂θ i , i = 1,2,, k , y resolver el sistema de ecuaciones resultante. Ejemplo 4 Supóngase que en una sucesión de n intentos Bernoulli independientes, se observan Y éxitos. Determinar el estimador de máxima verosimilitud de p , la probabilidad de éxito en cualquier intento dado. 14 EYP2214 Estadística para Construcción Civil Ejemplo 5 Supóngase que se observan n mediciones independientes de vida útil X 1 , X 2 ,, X n , de componentes de los que se sabe que sus vidas útiles siguen un modelo Weibull representado por γxγ −1 − xγ f ( x) = e θ /θ , x>0 Suponiendo que se conoce γ , determinar el estimador de máxima verosimilitud de θ . Ejemplo 6 Sea X 1 , X 2 ,, X n una muestra aleatoria de tamaño n con distribución normal, media µ y varianza σ 2 , donde µ y σ 2 son desconocidas. Determinar el estimador de máxima verosimilitud de µ y σ 2 . EYP2214 Estadística para Construcción Civil 15 Observaciones : 1. Los estimadores de máxima verosimilitud no son necesariamente insesgados. 2. El estimador de máxima verosimilitud es insesgado para n grande. Esto implica que el estimador de máxima verosimilitud θˆ es, de manera aproximada, el estimador insesgado de varianza mínima de θ para n grande ( n → ∞ ). 3. Los estimadores de máxima verosimilitud también tienen una propiedad de invarianza. Esto es, si θˆ1 ,θˆ2 ,,θˆk , son los estimadores de máxima verosimilitud de los parámetros θ1 ,θ 2 ,,θ k , entonces el estimador de máxima verosimilitud de cualquier función h(θ1 ,θ 2 ,,θ k ) de estos parámetros, es la misma función h(θˆ1 ,θˆ2 ,,θˆk ) de los estimadores θˆ1 ,θˆ2 ,,θˆk . 16 EYP2214 Estadística para Construcción Civil Ejemplo 7 Sea X una variable aleatoria igual al número de clientes que solicitan información a una empresa constructora durante un día. Se quiere saber el número esperado de clientes que solicitan información en un día y para esto se tomó una muestra aleatoria durante 50 días de la cantidad de clientes que llegaron por día, obteniéndose: Número de clientes por día 0 1 2 3 4 Cantidad de días observados 17 22 7 3 1 Además se sabe que la función de probabilidad de esta variable aleatoria es Poisson( λ ). En base a los datos, encuentre el estimador de máxima verosimilitud de la probabilidad de que no hayan clientes en un día. EYP2214 Estadística para Construcción Civil 17 Distribuciones de Muestreo La distribución de muestreo de una estadística depende de la distribución de la población, del tamaño de la muestra y del método utilizado para seleccionar ésta. Definición La distribución de probabilidad de una estadística recibe el nombre de distribución de muestreo. Por ejemplo, la distribución de probabilidad de X se conoce como distribución de muestreo de la media. EYP2214 Estadística para Construcción Civil 18 Distribución de Muestreo de la Media Supóngase que se toma una muestra aleatoria de tamaño n de una población normal con media µ y varianza σ 2 . Cada observación de esta muestra (por ejemplo, X 1 , X 2 ,, X n ) es una variable aleatoria distribuida normal e independientemente, con media µ y varianza σ 2 . Entonces se tiene que la media muestral X tiene una distribución normal con media µ y varianza σ 2 / n (es decir, X ~ N ( µ ,σ 2 / n) ). Si se muestrea una población que tiene una distribución de probabilidad desconocida, la distribución de muestreo de la media muestral seguirá siendo aproximadamente normal con media µ y varianza σ 2 / n , si el tamaño de la muestra n es grande. Éste es uno de los teoremas más útiles en estadística; se le conoce como teorema central del límite. 19 EYP2214 Estadística para Construcción Civil Teorema central del límite Si X 1 , X 2 ,, X n es una muestra aleatoria de tamaño n tomada de una población con media µ y varianza finita σ 2 , y si X es la media muestral entonces la forma límite de la distribución de Z= X −µ σ/ n cuando n → ∞ , es la distribución normal estándar. Ejemplo 8 Una compañía de electrónica fabrica resistores que tienen una resistencia promedio de 00Ω y una desviación estándar de 0Ω . La distribución de la resistencia es normal. Encuéntrese la probabilidad de que al tomar una muestra de n = 25 resistores, la resistencia promedio de éstos será menor que 95Ω (Rpta. 0.0062). EYP2214 Estadística para Construcción Civil 20 Definición El error estándar de una estadística es la desviación estándar de su distribución de muestreo. Si el error estándar involucra parámetros desconocidos cuyos valores pueden estimarse, la sustitución de estas estimaciones en el error estándar da como resultado un error estándar estimado. Obs. El error estándar da alguna idea sobre la precisión de la estimación. Por ejemplo, si la media muestral X se utiliza como estimador puntual de la media poblacional µ , el error estándar de X mide cuán precisamente X estima a µ . 21 EYP2214 Estadística para Construcción Civil Ejemplo 9 Un artículo publicado en el Journal of Heat Transfer (Trans. ASME, Ses. C, 96, 1974, pág. 59) describe un nuevo método para medir la conductividad térmica del hierro Armco. Al utilizar una temperatura de 00 F y una potencia de entrada de 550 W, se obtienen las diez mediciones siguientes de conductividad térmica (en Btu/hr-ft- F): 41.60 41.48 42.34 41.95 41.86 42.18 41.72 42.26 41.81 42.04 Una estimación puntual de la conductividad térmica promedio a 00 F y 550 W es la media muestral, X =41.924 Btu/hr-ft- F. El error estándar de la media muestral es σ X = σ / n , y dado que σ es desconocido, puede reemplazarse por la desviación estándar muestral s = 0.284 para obtener el error estándar estimado de X como σˆ X = σ / n = = 0.284 / 10 = 0.0898 , el cual es alrededor de 0.2% de la media muestral, lo que implica que se ha obtenido una estimación puntual relativamente precisa de la conductividad térmica. EYP2214 Estadística para Construcción Civil 22 Distribuciones importantes en inferencia estadística Distribución Chi-Cuadrado Sean Z1 , Z 2 ,, Z k variables aleatorias distribuidas normal e independientemente, con media µ = 0 y varianza σ 2 = 1. Entonces, la variable aleatoria X = Z12 + Z 22 + + Z k2 tiene la función de densidad de probabilidad f ( x) = 1 ( k / 2 ) −1 − x / 2 , para x > 0 x e k/2 2 Γ( k / 2) y se dice que sigue una distribución chi-cuadrado con k grados de libertad, lo que se abrevia χ (k2 ) . 23 EYP2214 Estadística para Construcción Civil Propiedades : EX = k y VarX = 2k Propiedad de aditividad de la distribución chi-cuadrado Sean Y1, Y2 ,, Y p variables aleatorias chi-cuadrado independientes con k1 , k2 ,, k p grados de libertad, respectivamente. Entonces Y = Y1 + Y2 + + Y p sigue una distribución chi-cuadrado con grados de libertad igual a p k = ∑ ki i =1 Ejemplo 10 Supóngase que X 1 , X 2 ,, X n es una muestra aleatoria tomada de una distribución (n − 1) S 2 2 χ normal, con media µ y varianza σ . Entonces está distribuida como n −1) . ( 2 σ 2 24 EYP2214 Estadística para Construcción Civil Distribución t Sea Z una variable aleatoria con distribución N (0,1) y V una variable aleatoria con distribución chi-cuadrado con k grados de libertad. Si Z y V son independientes, la variable aleatoria T = Z V /k tiene la función de densidad de probabilidad f ( x) = Γ[(k + 1) / 2] 1 ⋅ πk Γ(k / 2) ( x 2 / k ) + 1 ( k +1) / 2 [ ] −∞ < x < ∞ y se dice que sigue la distribución t con k grados de libertad, lo que se abrevia como tk . Propiedades : EX = 0 , y VarX = k /(k − 2) para k > 2 . 25 EYP2214 Estadística para Construcción Civil Ejemplo 11 Supóngase que X 1 , X 2 ,, X n es una muestra aleatoria tomada de una distribución normal, con media µ y varianza σ 2 . Entonces T = X −µ sigue una distribución t( n −1) . S/ n Distribución F Sean W e Y variables aleatorias independientes con distribución chi-cuadrado con grados de libertad u y v respectivamente. Entonces el cuociente F= W /u Y /v tiene la función de densidad de probabilidad : 26 EYP2214 Estadística para Construcción Civil u/2 u + v u ( u / 2 ) −1 Γ x 2 v f ( x) = , (u + v ) / 2 u v u Γ Γ x + 1 2 2 v 0< x<∞ y se dice que sigue la distribución F con u y v grados de libertad. Usualmente, esto se denota como F(u , v ) . Propiedades EX = v /(v − 2) para v > 2 , y 2v 2 (u + v − 2) VarX = , v>4 u (v − 2) 2 (v − 4) EYP2214 Estadística para Construcción Civil 27 Relaciones importantes 1. Si X ~ F( p , q ) entonces / X ~ F( q , p ) . 2. Si X ~ tq entonces X 2 ~ F(1, q ) . Ejemplo 11 Supóngase que se tienen dos poblaciones normales con varianzas σ 12 y σ 22 , respectivamente. Se toman dos muestras aleatorias independientes de tamaños n1 y n2 de las poblaciones 1 y 2, respectivamente, y sean S12 y S 22 las varianzas muestrales. Entonces, el cuociente S12 / σ 12 F= 2 2 S2 / σ 2 tiene una distribución F( n1 −1, n2 −1) .