Estimación de Parámetros

Anuncio
Estimación de Parámetros
Germán Bassi
9 de septiembre de 2010
Estimación de la Media
r
1.
µˆX =
do
Dada la variable aleatoria X, podemos estimar el valor esperado de la misma
mediante la siguiente fórmula:
N
1 X
1
X(i) = 1T X.
N i=1
N
rra
Ambas representaciones son iguales pero, en ciertas circunstancias, conviene utilizar
una antes que la otra.
Una propiedad importante en un estimador es el valor esperado del mismo. Se
denomina sesgo de un estimador a la diferencia entre dicho valor y el verdadero
valor del parámetro a estimar. Es deseable que un estimador sea insesgado, es decir,
que su sesgo sea nulo por ser su esperanza igual al parámetro que se desea estimar.
En nuestro caso,
#
"
N
N
N
1 X
1 X
1 X
X(i) =
E[X(i)] =
µX = µX .
E[µˆX ] = E
N i=1
N i=1
N i=1
Bo
Esto significa que el estimador de la media presentado es insesgado.
Otra caracterı́stica que nos da una idea de la bondad del estimador es la varianza del mismo. Nuevamente, es deseable que la varianza disminuya conforme el
número de muestras tomadas por el estimador aumente. Se dice que un estimador es
consistente cuando éste converge a su valor verdadero cuando el número de datos
de la muestra tiende a infinito. En nuestro caso,
Var[µˆX ] = E (µˆX − µX )2
"
2 #
1 T
= E
1 (X − µX )
N
1 T
T
= E
1 (X − µX ) (X − µX ) 1
N2
1 T
=
1 CX 1.
N2
La operación 1T CX 1 resulta en la sumatoria de todas las componentes de la matriz
2
CX . Dado que dichas componentes están acotadas en valor absoluto por σX
, la
1
Apuntes de Procesos Estocásticos
Estimación de Parámetros
2.
do
r
2
sumatoria no puede exceder el valor σX
N 2 . En el imposible caso lı́mite, donde la
2
covarianza de la variable aleatoria fuese σX
para cualquier retardo, la varianza de
2
la estimación serı́a σX . Sin embargo, para los procesos normales y no periódicos, en
donde la función de covarianza tiene un máximo en el origen y siempre disminuye
a medida que tendemos a infinito, el valor de la sumatoria de las componentes de
CX aumenta más lentamente que N 2 . Como resultado, el estimador de la media es
consistente.
En el caso de que las realizaciones de X estén descorrelacionadas entre sı́, la
2
matriz CX resulta σX
I. De esta manera, podemos reescribir la ecuación anterior a
una más sencilla:
σ2
(1)
Var[µˆX ] = X .
N
Aquı́ vemos claramente que la varianza de la estimación tiende a cero a medida que
aumenta el número de muestras tomadas.
Estimación de la Varianza
rra
Dada la variable aleatoria X, podemos estimar la varianza de la misma mediante
la siguiente fórmula:
N
2
1 X
2
ˆ
σX =
Xi − µˆX .
N − 1 i=1
A diferencia del estimador de la media, este estimador posee un factor de escalado
igual a 1/(N − 1), denominado corrección de Bessel. En el caso de que las muestras
sean independientes entre sı́, este factor permite obtener un estimador insesgado de
la varianza.
Demostración.
#
N
2
1 X
Xi − µˆX
N −1
i=1
"N
#
X
2
1
E
Xi − µX + µX − µˆX
N −1
i=1
"N
#
N
N
X
2
X
X
2
1
E
Xi − µX − 2 µˆX − µX
Xi − µX +
µˆX − µX
N −1
i=1
i=1
i=1
#
"N
!
PN
X
2
2
1
i=1 Xi
E
Xi − µX − 2 µˆX − µX N
− µX + N µˆX − µX
N −1
N
i=1
"N
#
X
2
2
2
1
E
Xi − µX − 2N µˆX − µX + N µˆX − µX
N −1
i=1
"N
#
X
2
2
1
Xi − µX − N µˆX − µX
E
N −1
i=1
)
(N
h
X h
2 i
2 i
1
− N E µˆX − µX
E Xi − µX
N −1
Bo
"
h i
2 =E
E σˆX
=
=
=
=
=
=
i=1
2
Apuntes de Procesos Estocásticos
Estimación de Parámetros
En el primer término de la ecuación anterior se encuentra la fórmula analı́tica para la
varianza de una variable aleatoria, mientras que en el segundo término, encontramos
la varianza del estimador de la media. En el caso de variables i.i.d., este último
término resulta el encontrado en (1). Por lo tanto,
!
N
h i
2
X
σ
1
1
2
2
2
2
2
σX
−N X =
N σX
− σX
= σX
.
E σˆX
=
N − 1 i=1
N
N −1
r
La distribución de probabilidad de los valores del estimador de la varianza sigue
una distribución χ2 . Es por esto que la derivación de la varianza del estimador resulta
compleja y no se tratará en este apunte. Sin embargo, dejamos el resultado a modo
descriptivo:
do
h i (N − 1)2 (N − 1)(N − 3) 2
2
Var σˆX
=
E (X − µX )4 −
σX .
3
N
N3
Debido a que la dependencia de la varianza con respecto al número de muestras es
∼ 1/N , podemos ver que este estimador también es consistente.
3.
Estimación de la Autocorrelación
rra
La función de autocorrelación de un proceso es, de manera informal, la similitud
entre las observaciones de dicho proceso en función del tiempo de separación entre
ellas. Dado el proceso estocástico Xn podemos estimar su función de autocorrelación
mediante la siguiente fórmula:
ˆ(i)
RX (k) =
N −k
1 X
Xi Xi+k ,
N − k i=1
Bo
para 0 < k < N . Este estimador es insesgado como vemos a continuación:
ˆ(i)
E RX (k) =
N −k
1 X
E[Xi Xi+k ]
N − k i=1
N −k
1 X
=
RX (k)
N − k i=1
= RX (k).
Sin embargo, el estimador anterior tiene un inconveniente. A medida que el valor
de k aumenta, la sumatoria anterior contiene cada vez menos términos, lo que provoca
un promedio más ruidoso. El efecto es más notorio en los extremos del vector de
muestras, cuando k → N . Dado que la función de autocorrelación tiende a cero en
tiempo infinito1 , el resultado del estimador nos provee de información inválida en
esta zona, como se aprecia en la Figura 1(a).
1
En el caso de un proceso de media nula y que no sea periódico. Si el proceso tiene media, la
autocorrelación tiende a un valor fijo igual a µ2X .
3
Apuntes de Procesos Estocásticos
Estimación de Parámetros
1,5
1
0,5
-200
0
k
200
400
do
-0,5
-400
r
0
(a) Estimación insesgada de la autocorrelación.
1,2
rra
0,8
0,4
0
-200
Bo
-400
0
k
200
400
(b) Estimación sesgada de la autocorrelación.
Figura 1: Comparación de los estimadores de la autocorrelación para ruido blanco
Gaussiano Xn ∼ N (0, 1) para N = 390.
En el caso de que el proceso sea de media nula, una manera de remediar el
problema mencionado es utilizando un estimador sesgado:
N −k
1 X
ˆ(s)
Xi Xi+k .
RX (k) =
N i=1
El objetivo de este nuevo estimador es anular las colas en la estimación. Vemos a
continuación que, para valores de k > 0, el estimador sesgado es simplemente una
4
Apuntes de Procesos Estocásticos
Estimación de Parámetros
versión escalada del estimador insesgado:
N −k
N −k 1 X
ˆ(s)
RX (k) =
Xi Xi+k
N − k N i=1
N −k
k
1 X
=
1−
Xi Xi+k
N N − k i=1
k
ˆ(i)
RX (k).
=
1−
N
4.
rra
do
r
El escalado resulta por el producto entre el valor insesgado y una ventana triangular.
Si el intervalo donde la autocorrelación verdadera posee valores no nulos es mucho
menor que el largo de las muestras N , el sesgo puede despreciarse.
En las Figuras 1(a) y 1(b), podemos apreciar los dos estimadores de la autocorrelación para la misma realización de un mismo proceso. Éste consiste de 390
muestras de un ruido blanco Gaussiano de media nula y varianza unitaria. En el
caso del estimador insesgado, Figura 1(a), es notorio el efecto de las pocas muestras
en la estimación en los lı́mites del intervalo. Incluso, los valores allı́ son superiores
al de k = 0. Por el contrario, en la Figura 1(b), el estimador sesgado nos provee de
información más exacta acerca de la dinámica del proceso.
La distribución de probabilidad de los valores del estimador de la autocorrelación
es similar al caso del estimador de la varianza. Es decir, este estimador, en cualquiera
de sus dos versiones, es consistente. Por esta razón, necesitamos muchas muestras
para que el valor del estimador en cada uno de los retardos tenga poco error. Como
vemos en los gráficos, los valores cercanos a k = 0 poseen bastante aleatoriedad
debido a las pocas muestras utilizadas.
Estimación de la Densidad Espectral de Potencia
Bo
La densidad espectral de potencia de una señal SX (ω) es una función matemática
que nos informa de cómo está distribuida la potencia de dicha señal en las distintas frecuencias que la forman, es decir, su espectro. Según el teorema de WienerKhinchin, en el caso de los procesos estocásticos tenemos que:
SX (ω) = F{RX (k)},
donde F{·} es la transformada de Fourier. Por simplicidad, a continuación sólo
tendremos en cuenta el caso discreto y utilizaremos la siguiente notación:
X̃(ω) = F{Xn } =
N
−1
X
Xi e−2πωi .
i=0
El estimador de la densidad espectral de potencia más utilizado es el del periodograma de la señal
|X̃(ω)|2
.
ŜX (ω) =
N
5
Estimación de Parámetros
i=
m
m
−
i
−
i=
0
−
(N
−
1)
Apuntes de Procesos Estocásticos
N −1
m
do
0
r
m
−
i=
N
−
1
N −1
Figura 2: Representación gráfica de las sumatorias de (2). Los puntos grises corresponden a los términos de las sumatorias.
rra
Desarrollando la esperanza de este estimador podemos ver de dónde proviene:
i
h
i
1 h
E X̃(ω)X̃ ∗ (ω)
E ŜX (ω) =
N "
#
N
−1
N
−1
X
X
1
=
E
Xm e−2πωm
Xi e2πωi
N
m=0
i=0
N −1 N −1
1 XX
E[Xm Xi ] e−2πω(m−i)
N m=0 i=0
=
Bo
N −1 N −1
1 XX
=
RX (m − i)e−2πω(m−i) .
N m=0 i=0
(2)
La Figura 2 muestra los rangos y la cantidad de términos que poseen las sumatorias
de esta ecuación. Asimismo, notemos que los términos en las diagonales m0 = m − i
son todos iguales pero no ası́ su cantidad. Si tenemos en cuenta estos factores,
simplificamos la esperanza anterior de la siguiente manera:
h
i
E ŜX (ω) =
=
1
N
N
−1
X
0
(N − |m0 |) RX (m0 )e−2πωm
m0 =−(N −1)
N
−1
X
m0 =−(N −1)
|m0 |
0
1−
RX (m0 )e−2πωm .
N
(3)
El resultado anterior nos muestra dos aspectos de la esperanza del estimador de
la densidad espectral. Primero, los lı́mites de la sumatoria no son ±∞, y segundo, el
término entre paréntesis representa el mismo sesgo que el estimador de la función
de autocorrelación. En resumen, este estimador es sesgado. Sin embargo, a medida
6
Apuntes de Procesos Estocásticos
Estimación de Parámetros
que N → ∞, el término entre paréntesis tiende a uno, y los lı́mites de la sumatoria
tienden a ±∞, por lo tanto,
h
i
E ŜX (ω) −−−−−−−→ SX (ω).
N →∞
Importante: En (3) podemos ver que el periodograma es equivalente a tomar la
Transformada de Fourier del estimador sesgado de la autocorrelación, es decir,
ŜX (ω) =
N
−1
X
ˆ(s)
RX (k)e−2πωk .
r
k=−(N −1)
do
Al igual que en los casos anteriores, debemos analizar el comportamiento de la
varianza de este estimador para ver si es consistente. La derivación de esta varianza
es compleja y varı́a dependiendo del proceso Xn en particular. Sin embargo, de
realizar estos análisis verı́amos que la varianza del estimador no tiende a anularse a
medida que el número de muestras aumenta. De manera general, el comportamiento
de la varianza es:
h
i
Var ŜX (ω) = α SX (ω)2 .
En la Figura 3(a), vemos la estimación de la densidad espectral para el proceso
Wn + Wn−1
,
2
rra
Xn =
Bo
donde Wn es ruido blanco Gaussiano de media nula y varianza unitaria. Aquı́ apreciamos claramente el comportamiento de la varianza enunciado anteriormente. Dado
que el proceso Xn es un promediador, sus componentes espectrales están en las
bajas frecuencias. Allı́, donde los valores son altos, también lo es la varianza del
estimador. Por otro lado, en el lı́mite de la alta frecuencia, ±π, la densidad espectral
de potencia es nula y la varianza del estimador, mı́nima.
Para combatir este problema, recurrimos a un segundo estimador de la densidad
espectral:
L−1
1X
(ave)
ŜX,l (ω).
ŜX (ω) =
L l=0
Este nuevo estimador es el promedio de L periodogramas distintos del proceso Xn ,
con lo que logramos suavizar las variaciones de los mismos.
La esperanza del estimador resulta igual al caso anterior ya que sólo estamos
promediando varias estimaciones:
L−1
L−1
h
i
i
1X h
1X
(ave)
E ŜX (ω) =
E ŜX,l (ω) −−−−−−−→
SX (ω) = SX (ω).
N →∞
L l=0
L l=0
Y por último, dado que las distintas realizaciones del estimador son independientes entre sı́2 , la varianza del estimador suavizado tiende a cero a medida que el
2
Esto surge del análisis de la varianza del estimador, ver [1].
7
Apuntes de Procesos Estocásticos
Estimación de Parámetros
10
8
6
4
-4
-3
-2
-1
0
1
2
3
4
do
0
r
2
(a) Periodograma del proceso Xn .
1,4
Estimada
Teórica
1,2
rra
1
0,8
0,6
0,4
Bo
0,2
0
-4
-3
-2
0
-1
1
2
3
4
(b) Periodograma suavizado del proceso Xn .
Figura 3: Comparación de los estimadores de la densidad espectral de potencia para
el proceso Xn = (Wn + Wn−1 )/2, donde Wn ∼ N (0, 1) i.i.d..
número de bloques crece:
h
i
(ave)
Var ŜX (ω) =
L−1
h
i
1 X
Var
Ŝ
(ω)
X,l
L2 l=0
1
L α SX (ω)2
L2
α
=
SX (ω)2 −−−−−−−→ 0.
L→∞
L
=
En la Figura 3(b), vemos el estimador suavizado donde podemos apreciar cómo
8
Apuntes de Procesos Estocásticos
Estimación de Parámetros
r
éste sigue más fielmente el valor teórico de la densidad espectral de potencia del
proceso Xn . Para esta simulación el tamaño de los bloques fue N = 1024 y la
cantidad de bloques promediados, L = 64. En el caso de la Figura 3(a), la cantidad
de muestras utilizadas para el periodograma simple fue N = 1024 × 64.
En este segundo estimador, el número de muestras necesario para la estimación
es N × L, N muestras por periodograma y L periodogramas promediados. Dado que
uno dispone de una cantidad determinada de muestras, debemos elegir en cuántos
bloques de N muestras dividiremos nuestro total. Si elegimos un valor de L muy
grande para disminuir el error de estimación, el valor de N será chico, y por consiguiente, la discriminación en frecuencia que logramos con la Transformada de Fourier
será poca. Por el contrario, si tomamos un valor de N grande para tener una gran
discriminación en frecuencia, el error de estimación será más notorio.
do
Referencias
[1] Leon-Garcia, Alberto: Probability and Random Processes for Electrical Engineering, 2da edición. Massachusetts: Addison-Wesley, 1994.
[2] Papoulis, Athanasios: Probability, Random Variables and Stochastic Processes,
3ra edición. New York: McGraw-Hill, 1991.
Bo
rra
[3] Wolfram MathWorld: Sample Variance Distribution  from Wolfram MathWorld. http://mathworld.wolfram.com/SampleVarianceDistribution.html
(consultado el 27 de agosto de 2010).
9
Descargar