Estimación puntual

Anuncio
EYP2214 Estadística para Construcción Civil
1
Inferencia Estadística
El campo de la inferencia estadística está formado por los métodos utilizados para tomar
decisiones o para obtener conclusiones sobre una población. Estos métodos utilizan la
información contenida en una muestra de la población para obtener conclusiones. La
inferencia estadística puede dividirse en dos grandes áreas: estimación de parámetros y
prueba de hipótesis.
EYP2214 Estadística para Construcción Civil
2
Ejemplo de un problema de estimación de parámetros :
Supóngase que un ingeniero de estructuras analiza la resistencia a la tensión de un
componente empleado en la carrocería de un automóvil. Puesto que la variabilidad existe
de manera natural en la resistencia a la tensión entre distintos componentes, debido a
diferencias en los lotes de la materia prima, en el proceso de fabricación y en los
procedimientos de medición (por ejemplo), el ingeniero está interesado en estimar la
resistencia a la tensión promedio de los componentes.
EYP2214 Estadística para Construcción Civil
3
Una aplicación muy importante de la estadística es obtener estimaciones puntuales de
parámetros tales como la media y la varianza de la población. El objetivo de la
estimación puntual es seleccionar un número, con base en los datos de la muestra, que sea
el valos más plausible de θ . El valor numérico de alguna estadística de la muestra es el
que será utilizado como estimación puntual.
En general, si X es una variable aleatoria con distribución de probabilidad f (x) ,
caracterizada por el parámetro no conocido θ , y si X 1 ,..., X n es una muestra aleatoria de
X de tamaño n , entonces la estadística θˆ = h( X 1 ,..., X n ) recibe el nombre de estimador
puntual de θ . Nótese que θˆ es una variable aleatoria, ya que es una función de variables
aleatorias.
EYP2214 Estadística para Construcción Civil
4
Definición
Un estimador es una medida estadística que especifica cómo utilizar los datos de la
muestra para estimar un parámetro desconocido de la población.
Propiedades de los Estimadores :
Estimadores Insesgados
Un estimador debe estar “próximo” en algún sentido al valor verdadero del parámetro
desconocido. De manera formal, se dice que θˆ es un estimador insesgado de θ si el valor
esperado de θˆ es igual a θ . Esto equivale a afirmar que la media de la distribución de
probabilidad de θˆ (o la media de la distribución de muestreo de θˆ ) es igual a θ .
5
EYP2214 Estadística para Construcción Civil
Definición
Un estimador θˆ es un estimador insesgado para estimar a θ si
E (θˆ) = θ
Si el estimador no es insesgado, entonces la diferencia
E (θˆ) − θ
es conocida como sesgo del estimador θˆ .
Ejemplo 1
Supóngase que X es una variable aleatoria con media µ y varianza σ 2 . Sea X 1 ,..., X n
una muestra aleatoria de tamaño n tomada de una población representada por X .
Demuéstrese que la media muestral X y la varianza muestral S 2 son estimadores
insesgados de µ y σ 2 , respectivamente.
EYP2214 Estadística para Construcción Civil
6
En ocasiones existen varios estimadores insesgados del parámetro de la población
muestral. Puesto que no hay un estimador insesgado único, no es posible depender
exclusivamente de esta propiedad para seleccionar el estimador. Se necesita un método
para seleccionar uno de entre varios estimadores insesgados.
Varianza y error cuadrático medio de un estimador puntual
Supóngase que θˆ1 y θˆ2 son estimadores insesgados de θ . Esto indica que la distribución
de cada estimador está centrada en el verdadero valor de θ . Sin embargo, las varianzas de
estas distribuciones pueden ser diferentes. Cuando se elige uno de entre varios
estimadores, un principio lógico de estimación es seleccionar el estimador que tenga la
menor varianza.
EYP2214 Estadística para Construcción Civil
7
Definición
Si se consideran todos los estimadores insesgados de θ , el que tiene la menor varianza
recibe el nombre de estimador insesgado de varianza mínima.
Otro método es el error cuadrático medio.
Definición (Error Cuadrático Medio)
El error cuadrático medio de un estimador θˆ del parámetro θ está definido como
ECM (θˆ) = E (θˆ − θ ) 2
Obs.
El error cuadrático medio puede reescribirse de la siguiente manera:
ECM (θˆ) = Var (θˆ) + (sesgo) 2
EYP2214 Estadística para Construcción Civil
8
El error cuadrático medio es un criterio importante para comparar dos estimadores. Sean
θˆ1 y θˆ2 dos estimadores del parámetro θ , y ECM (θˆ1 ) y ECM (θˆ2 ) los errores cuadráticos
medios de θˆ1 y θˆ2 . Entonces, la eficiencia relativa de θˆ2 con respecto a θˆ1 se define
como
ECM (θˆ1 )
ECM (θˆ2 )
si la eficiencia relativa es menor que uno, entonces puede concluirse que θˆ1 es un
estimador más eficiente de θ que θˆ2 , en el sentido que tiene un error cuadrático medio
más pequeño.
EYP2214 Estadística para Construcción Civil
9
Ejemplo 2
Supóngase que se desea estimar la media µ de una población. Se tiene una muestra
aleatoria de n observaciones X 1 ,..., X n y se quiere comparar dos estimadores posibles de
µ : la media muestral X y una observación de la muestra, por ejemplo X i . ¿Cuál
estimador se utilizaría, y por qué?
Ejemplo 3
Supóngase que X 1 ,..., X 5 representa una muestra aleatoria de alguna población para la
cual E ( X i ) = µ y Var ( X i ) = σ 2 , i = 1,...,5 . Se proponen como estimadores de µ a los
siguientes: θˆ1 = X 1 ,
1
1
1
θˆ2 = ( X 1 + X 5 ), θˆ3 = ( X 1 + 2 X 5 ), θˆ4 = X = ( X 1 + + X 5 ) .
2
2
5
¿Cuál estimador se utilizaría, y por qué?
EYP2214 Estadística para Construcción Civil
10
Método de Máxima Verosimilitud
Uno de los métodos para obtener un estimador puntual de un parámetro es el método de
máxima verosimilitud. Tal como su nombre lo implica, el estimador será el valor del
parámetro que maximiza la función de verosimilitud.
Supóngase, por ejemplo, que una caja contiene cuatro pelotas, de las cuales un número
desconocido θ son blancas y (4 − θ ) no son blancas. Se extraen al azar dos pelotas y se
cuenta X , el número de pelotas blancas en la muestra. La distribución de probabilidad de
X está dada por
θ  4 − θ 
 

x
x
−
2

P( X = x) = p ( x) =  
 4
 
 2
EYP2214 Estadística para Construcción Civil
11
Ahora supóngase que se observa que X = 1. ¿Qué valor de θ hará máxima la
probabilidad de este evento?. De acuerdo con la distribución anterior se tienen que
p (1θ = 0) = 0
1 3 
  
1 1
3 1
p (1θ = 1) =    = =
6 2
 4
 
 2
2
3
1
p (1θ = 3) =
2
p (1θ = 4) = 0
p (1θ = 2) =
EYP2214 Estadística para Construcción Civil
12
Por lo tanto, θ = 2 hace máxima la probabilidad de la muestra observada, así que se
escogería este valor, 2, como el estimador de máxima verosimilitud de θ , dado que se ha
observado que X = 1.
Definición
Supóngase que X es una variable aleatoria con distribución de probabilidad f ( x,θ ) ,
donde θ es un parámetro desconocido. Sean x1 ,..., xn los valores observados en una
muestra aleatoria de tamaño n . La función de verosimilitud de la muestra es
L(θ ) = f ( x1 ,θ ) ⋅ f ( x2 ,θ ) ⋅ ⋅ f ( xn ,θ )
Nótese que la función de verosimilitud es ahora una función del parámetro desconocido
θ . El estimador de máxima verosimilitud de θ es el valor de θ que maximiza la
función de verosimilitud L(θ ) .
EYP2214 Estadística para Construcción Civil
13
Nota :
El método de máxima verosimilitud puede emplearse en situaciones donde esxisten
varios parámetros desconocidos (por ejemplo, θ1 ,θ 2 ,,θ k ), que es necesario estimar. En
tales casos, la función de verosimilitud es una función de los k parámetros desconocidos
θ1 ,θ 2 ,,θ k , y los estimadores de máxima verosimilitud {θˆi } se obtienen al igualar a cero
las k derivadas parciales ∂L(θ1 ,θ 2 ,,θ k ) ∂θ i , i = 1,2,, k , y resolver el sistema de
ecuaciones resultante.
Ejemplo 4
Supóngase que en una sucesión de n intentos Bernoulli independientes, se observan Y
éxitos. Determinar el estimador de máxima verosimilitud de p , la probabilidad de éxito
en cualquier intento dado.
14
EYP2214 Estadística para Construcción Civil
Ejemplo 5
Supóngase que se observan n mediciones independientes de vida útil X 1 , X 2 ,, X n , de
componentes de los que se sabe que sus vidas útiles siguen un modelo Weibull
representado por
γxγ −1 − xγ
f ( x) =
e
θ
/θ
, x>0
Suponiendo que se conoce γ , determinar el estimador de máxima verosimilitud de θ .
Ejemplo 6
Sea X 1 , X 2 ,, X n una muestra aleatoria de tamaño n con distribución normal, media µ
y varianza σ 2 , donde µ y σ 2 son desconocidas. Determinar el estimador de máxima
verosimilitud de µ y σ 2 .
EYP2214 Estadística para Construcción Civil
15
Observaciones :
1. Los estimadores de máxima verosimilitud no son necesariamente insesgados.
2. El estimador de máxima verosimilitud es insesgado para n grande. Esto implica que el
estimador de máxima verosimilitud θˆ es, de manera aproximada, el estimador
insesgado de varianza mínima de θ para n grande ( n → ∞ ).
3. Los estimadores de máxima verosimilitud también tienen una propiedad de invarianza.
Esto es, si θˆ1 ,θˆ2 ,,θˆk , son los estimadores de máxima verosimilitud de los parámetros
θ1 ,θ 2 ,,θ k , entonces el estimador de máxima verosimilitud de cualquier función
h(θ1 ,θ 2 ,,θ k )
de estos parámetros, es la misma función h(θˆ1 ,θˆ2 ,,θˆk ) de los
estimadores θˆ1 ,θˆ2 ,,θˆk .
16
EYP2214 Estadística para Construcción Civil
Ejemplo 7
Sea X una variable aleatoria igual al número de clientes que solicitan información a una
empresa constructora durante un día. Se quiere saber el número esperado de clientes que
solicitan información en un día y para esto se tomó una muestra aleatoria durante 50 días
de la cantidad de clientes que llegaron por día, obteniéndose:
Número de clientes por día
0
1
2 3 4
Cantidad de días observados 17 22 7 3 1
Además se sabe que la función de probabilidad de esta variable aleatoria es Poisson( λ ).
En base a los datos, encuentre el estimador de máxima verosimilitud de la probabilidad
de que no hayan clientes en un día.
EYP2214 Estadística para Construcción Civil
17
Distribuciones de Muestreo
La distribución de muestreo de una estadística depende de la distribución de la población,
del tamaño de la muestra y del método utilizado para seleccionar ésta.
Definición
La distribución de probabilidad de una estadística recibe el nombre de distribución de
muestreo. Por ejemplo, la distribución de probabilidad de X se conoce como
distribución de muestreo de la media.
EYP2214 Estadística para Construcción Civil
18
Distribución de Muestreo de la Media
Supóngase que se toma una muestra aleatoria de tamaño n de una población normal con
media µ y varianza σ 2 . Cada observación de esta muestra (por ejemplo, X 1 , X 2 ,, X n )
es una variable aleatoria distribuida normal e independientemente, con media µ y
varianza σ 2 . Entonces se tiene que la media muestral X tiene una distribución normal
con media µ y varianza σ 2 / n (es decir, X ~ N ( µ ,σ 2 / n) ).
Si se muestrea una población que tiene una distribución de probabilidad desconocida, la
distribución de muestreo de la media muestral seguirá siendo aproximadamente normal
con media µ y varianza σ 2 / n , si el tamaño de la muestra n es grande. Éste es uno de los
teoremas más útiles en estadística; se le conoce como teorema central del límite.
19
EYP2214 Estadística para Construcción Civil
Teorema central del límite
Si X 1 , X 2 ,, X n es una muestra aleatoria de tamaño n tomada de una población con
media µ y varianza finita σ 2 , y si X es la media muestral entonces la forma límite de la
distribución de
Z=
X −µ
σ/ n
cuando n → ∞ , es la distribución normal estándar.
Ejemplo 8
Una compañía de electrónica fabrica resistores que tienen una resistencia promedio de
00Ω y una desviación estándar de 0Ω . La distribución de la resistencia es normal.
Encuéntrese la probabilidad de que al tomar una muestra de n = 25 resistores, la
resistencia promedio de éstos será menor que 95Ω (Rpta. 0.0062).
EYP2214 Estadística para Construcción Civil
20
Definición
El error estándar de una estadística es la desviación estándar de su distribución de
muestreo. Si el error estándar involucra parámetros desconocidos cuyos valores pueden
estimarse, la sustitución de estas estimaciones en el error estándar da como resultado un
error estándar estimado.
Obs.
El error estándar da alguna idea sobre la precisión de la estimación. Por ejemplo, si la
media muestral X se utiliza como estimador puntual de la media poblacional µ , el error
estándar de X mide cuán precisamente X estima a µ .
21
EYP2214 Estadística para Construcción Civil
Ejemplo 9
Un artículo publicado en el Journal of Heat Transfer (Trans. ASME, Ses. C, 96, 1974, pág.
59) describe un nuevo método para medir la conductividad térmica del hierro Armco. Al
utilizar una temperatura de 00 F y una potencia de entrada de 550 W, se obtienen las diez
mediciones siguientes de conductividad térmica (en Btu/hr-ft- F):
41.60 41.48 42.34 41.95 41.86 42.18 41.72 42.26 41.81 42.04
Una estimación puntual de la conductividad térmica promedio a 00 F y 550 W es la media
muestral, X =41.924 Btu/hr-ft- F. El error estándar de la media muestral es σ X = σ / n , y
dado que σ es desconocido, puede reemplazarse por la desviación estándar muestral
s = 0.284 para obtener el error estándar estimado de
X
como σˆ X = σ / n =
= 0.284 / 10 = 0.0898 , el cual es alrededor de 0.2% de la media muestral, lo que implica que
se ha obtenido una estimación puntual relativamente precisa de la conductividad térmica.
EYP2214 Estadística para Construcción Civil
22
Distribuciones importantes en inferencia estadística
Distribución Chi-Cuadrado
Sean Z1 , Z 2 ,, Z k variables aleatorias distribuidas normal e independientemente, con
media µ = 0 y varianza σ 2 = 1. Entonces, la variable aleatoria
X = Z12 + Z 22 + + Z k2
tiene la función de densidad de probabilidad
f ( x) =
1
( k / 2 ) −1 − x / 2
, para x > 0
x
e
k/2
2 Γ( k / 2)
y se dice que sigue una distribución chi-cuadrado con k grados de libertad, lo
que se abrevia χ (k2 ) .
23
EYP2214 Estadística para Construcción Civil
Propiedades : EX = k y VarX = 2k
Propiedad de aditividad de la distribución chi-cuadrado
Sean Y1, Y2 ,, Y p variables aleatorias chi-cuadrado independientes con k1 , k2 ,, k p
grados de libertad, respectivamente. Entonces
Y = Y1 + Y2 + + Y p
sigue una distribución chi-cuadrado con grados de libertad igual a
p
k = ∑ ki
i =1
Ejemplo 10
Supóngase que X 1 , X 2 ,, X n es una muestra aleatoria tomada de una distribución
(n − 1) S 2
2
χ
normal, con media µ y varianza σ . Entonces
está
distribuida
como
n −1) .
(
2
σ
2
24
EYP2214 Estadística para Construcción Civil
Distribución t
Sea Z una variable aleatoria con distribución N (0,1) y V una variable aleatoria con
distribución chi-cuadrado con k grados de libertad. Si Z y V son independientes, la
variable aleatoria
T =
Z
V /k
tiene la función de densidad de probabilidad
f ( x) =
Γ[(k + 1) / 2]
1
⋅
πk Γ(k / 2) ( x 2 / k ) + 1 ( k +1) / 2
[
]
−∞ < x < ∞
y se dice que sigue la distribución t con k grados de libertad, lo que se abrevia como tk .
Propiedades : EX = 0 , y VarX = k /(k − 2) para k > 2 .
25
EYP2214 Estadística para Construcción Civil
Ejemplo 11
Supóngase que X 1 , X 2 ,, X n es una muestra aleatoria tomada de una distribución
normal, con media µ y varianza σ 2 . Entonces T =
X −µ
sigue una distribución t( n −1) .
S/ n
Distribución F
Sean W e Y variables aleatorias independientes con distribución chi-cuadrado con
grados de libertad u y v respectivamente. Entonces el cuociente
F=
W /u
Y /v
tiene la función de densidad de probabilidad :
26
EYP2214 Estadística para Construcción Civil
u/2
 u + v  u 
( u / 2 ) −1
Γ
  x
 2  v 
f ( x) =
,
(u + v ) / 2

 u   v   u 
Γ Γ    x + 1
 2   2   v 

0< x<∞
y se dice que sigue la distribución F con u y v grados de libertad. Usualmente, esto se
denota como F(u , v ) .
Propiedades
EX = v /(v − 2) para v > 2 , y
2v 2 (u + v − 2)
VarX =
, v>4
u (v − 2) 2 (v − 4)
EYP2214 Estadística para Construcción Civil
27
Relaciones importantes
1. Si X ~ F( p , q ) entonces / X ~ F( q , p ) .
2. Si X ~ tq entonces X 2 ~ F(1, q ) .
Ejemplo 11
Supóngase que se tienen dos poblaciones normales con varianzas σ 12 y σ 22 ,
respectivamente. Se toman dos muestras aleatorias independientes de tamaños n1 y n2 de
las poblaciones 1 y 2, respectivamente, y sean S12 y S 22 las varianzas muestrales.
Entonces, el cuociente
S12 / σ 12
F= 2 2
S2 / σ 2
tiene una distribución F( n1 −1, n2 −1) .
Descargar