Estimación de Parámetros

Estimación de Parámetros Germán Bassi 9 de septiembre de 2010 Estimación de la Media r 1. µˆX = do Dada la variable aleatoria X, podemos estimar el valor esperado de la misma mediante la siguiente fórmula: N 1 X 1 X(i) = 1T X. N i=1 N rra Ambas representaciones son iguales pero, en ciertas circunstancias, conviene utilizar una antes que la otra. Una propiedad importante en un estimador es el valor esperado del mismo. Se denomina sesgo de un estimador a la diferencia entre dicho valor y el verdadero valor del parámetro a estimar. Es deseable que un estimador sea insesgado, es decir, que su sesgo sea nulo por ser su esperanza igual al parámetro que se desea estimar. En nuestro caso, # " N N N 1 X 1 X 1 X X(i) = E[X(i)] = µX = µX . E[µˆX ] = E N i=1 N i=1 N i=1 Bo Esto significa que el estimador de la media presentado es insesgado. Otra caracterı́stica que nos da una idea de la bondad del estimador es la varianza del mismo. Nuevamente, es deseable que la varianza disminuya conforme el número de muestras tomadas por el estimador aumente. Se dice que un estimador es consistente cuando éste converge a su valor verdadero cuando el número de datos de la muestra tiende a infinito. En nuestro caso, Var[µˆX ] = E (µˆX − µX )2 " 2 # 1 T = E 1 (X − µX ) N 1 T T = E 1 (X − µX ) (X − µX ) 1 N2 1 T = 1 CX 1. N2 La operación 1T CX 1 resulta en la sumatoria de todas las componentes de la matriz 2 CX . Dado que dichas componentes están acotadas en valor absoluto por σX , la 1 Apuntes de Procesos Estocásticos Estimación de Parámetros 2. do r 2 sumatoria no puede exceder el valor σX N 2 . En el imposible caso lı́mite, donde la 2 covarianza de la variable aleatoria fuese σX para cualquier retardo, la varianza de 2 la estimación serı́a σX . Sin embargo, para los procesos normales y no periódicos, en donde la función de covarianza tiene un máximo en el origen y siempre disminuye a medida que tendemos a infinito, el valor de la sumatoria de las componentes de CX aumenta más lentamente que N 2 . Como resultado, el estimador de la media es consistente. En el caso de que las realizaciones de X estén descorrelacionadas entre sı́, la 2 matriz CX resulta σX I. De esta manera, podemos reescribir la ecuación anterior a una más sencilla: σ2 (1) Var[µˆX ] = X . N Aquı́ vemos claramente que la varianza de la estimación tiende a cero a medida que aumenta el número de muestras tomadas. Estimación de la Varianza rra Dada la variable aleatoria X, podemos estimar la varianza de la misma mediante la siguiente fórmula: N 2 1 X 2 ˆ σX = Xi − µˆX . N − 1 i=1 A diferencia del estimador de la media, este estimador posee un factor de escalado igual a 1/(N − 1), denominado corrección de Bessel. En el caso de que las muestras sean independientes entre sı́, este factor permite obtener un estimador insesgado de la varianza. Demostración. # N 2 1 X Xi − µˆX N −1 i=1 "N # X 2 1 E Xi − µX + µX − µˆX N −1 i=1 "N # N N X 2 X X 2 1 E Xi − µX − 2 µˆX − µX Xi − µX + µˆX − µX N −1 i=1 i=1 i=1 # "N ! PN X 2 2 1 i=1 Xi E Xi − µX − 2 µˆX − µX N − µX + N µˆX − µX N −1 N i=1 "N # X 2 2 2 1 E Xi − µX − 2N µˆX − µX + N µˆX − µX N −1 i=1 "N # X 2 2 1 Xi − µX − N µˆX − µX E N −1 i=1 ) (N h X h 2 i 2 i 1 − N E µˆX − µX E Xi − µX N −1 Bo " h i 2 =E E σˆX = = = = = = i=1 2 Apuntes de Procesos Estocásticos Estimación de Parámetros En el primer término de la ecuación anterior se encuentra la fórmula analı́tica para la varianza de una variable aleatoria, mientras que en el segundo término, encontramos la varianza del estimador de la media. En el caso de variables i.i.d., este último término resulta el encontrado en (1). Por lo tanto, ! N h i 2 X σ 1 1 2 2 2 2 2 σX −N X = N σX − σX = σX . E σˆX = N − 1 i=1 N N −1 r La distribución de probabilidad de los valores del estimador de la varianza sigue una distribución χ2 . Es por esto que la derivación de la varianza del estimador resulta compleja y no se tratará en este apunte. Sin embargo, dejamos el resultado a modo descriptivo: do h i (N − 1)2 (N − 1)(N − 3) 2 2 Var σˆX = E (X − µX )4 − σX . 3 N N3 Debido a que la dependencia de la varianza con respecto al número de muestras es ∼ 1/N , podemos ver que este estimador también es consistente. 3. Estimación de la Autocorrelación rra La función de autocorrelación de un proceso es, de manera informal, la similitud entre las observaciones de dicho proceso en función del tiempo de separación entre ellas. Dado el proceso estocástico Xn podemos estimar su función de autocorrelación mediante la siguiente fórmula: ˆ(i) RX (k) = N −k 1 X Xi Xi+k , N − k i=1 Bo para 0 < k < N . Este estimador es insesgado como vemos a continuación: ˆ(i) E RX (k) = N −k 1 X E[Xi Xi+k ] N − k i=1 N −k 1 X = RX (k) N − k i=1 = RX (k). Sin embargo, el estimador anterior tiene un inconveniente. A medida que el valor de k aumenta, la sumatoria anterior contiene cada vez menos términos, lo que provoca un promedio más ruidoso. El efecto es más notorio en los extremos del vector de muestras, cuando k → N . Dado que la función de autocorrelación tiende a cero en tiempo infinito1 , el resultado del estimador nos provee de información inválida en esta zona, como se aprecia en la Figura 1(a). 1 En el caso de un proceso de media nula y que no sea periódico. Si el proceso tiene media, la autocorrelación tiende a un valor fijo igual a µ2X . 3 Apuntes de Procesos Estocásticos Estimación de Parámetros 1,5 1 0,5 -200 0 k 200 400 do -0,5 -400 r 0 (a) Estimación insesgada de la autocorrelación. 1,2 rra 0,8 0,4 0 -200 Bo -400 0 k 200 400 (b) Estimación sesgada de la autocorrelación. Figura 1: Comparación de los estimadores de la autocorrelación para ruido blanco Gaussiano Xn ∼ N (0, 1) para N = 390. En el caso de que el proceso sea de media nula, una manera de remediar el problema mencionado es utilizando un estimador sesgado: N −k 1 X ˆ(s) Xi Xi+k . RX (k) = N i=1 El objetivo de este nuevo estimador es anular las colas en la estimación. Vemos a continuación que, para valores de k > 0, el estimador sesgado es simplemente una 4 Apuntes de Procesos Estocásticos Estimación de Parámetros versión escalada del estimador insesgado: N −k N −k 1 X ˆ(s) RX (k) = Xi Xi+k N − k N i=1 N −k k 1 X = 1− Xi Xi+k N N − k i=1 k ˆ(i) RX (k). = 1− N 4. rra do r El escalado resulta por el producto entre el valor insesgado y una ventana triangular. Si el intervalo donde la autocorrelación verdadera posee valores no nulos es mucho menor que el largo de las muestras N , el sesgo puede despreciarse. En las Figuras 1(a) y 1(b), podemos apreciar los dos estimadores de la autocorrelación para la misma realización de un mismo proceso. Éste consiste de 390 muestras de un ruido blanco Gaussiano de media nula y varianza unitaria. En el caso del estimador insesgado, Figura 1(a), es notorio el efecto de las pocas muestras en la estimación en los lı́mites del intervalo. Incluso, los valores allı́ son superiores al de k = 0. Por el contrario, en la Figura 1(b), el estimador sesgado nos provee de información más exacta acerca de la dinámica del proceso. La distribución de probabilidad de los valores del estimador de la autocorrelación es similar al caso del estimador de la varianza. Es decir, este estimador, en cualquiera de sus dos versiones, es consistente. Por esta razón, necesitamos muchas muestras para que el valor del estimador en cada uno de los retardos tenga poco error. Como vemos en los gráficos, los valores cercanos a k = 0 poseen bastante aleatoriedad debido a las pocas muestras utilizadas. Estimación de la Densidad Espectral de Potencia Bo La densidad espectral de potencia de una señal SX (ω) es una función matemática que nos informa de cómo está distribuida la potencia de dicha señal en las distintas frecuencias que la forman, es decir, su espectro. Según el teorema de WienerKhinchin, en el caso de los procesos estocásticos tenemos que: SX (ω) = F{RX (k)}, donde F{·} es la transformada de Fourier. Por simplicidad, a continuación sólo tendremos en cuenta el caso discreto y utilizaremos la siguiente notación: X̃(ω) = F{Xn } = N −1 X Xi e−2πωi . i=0 El estimador de la densidad espectral de potencia más utilizado es el del periodograma de la señal |X̃(ω)|2 . ŜX (ω) = N 5 Estimación de Parámetros i= m m − i − i= 0 − (N − 1) Apuntes de Procesos Estocásticos N −1 m do 0 r m − i= N − 1 N −1 Figura 2: Representación gráfica de las sumatorias de (2). Los puntos grises corresponden a los términos de las sumatorias. rra Desarrollando la esperanza de este estimador podemos ver de dónde proviene: i h i 1 h E X̃(ω)X̃ ∗ (ω) E ŜX (ω) = N " # N −1 N −1 X X 1 = E Xm e−2πωm Xi e2πωi N m=0 i=0 N −1 N −1 1 XX E[Xm Xi ] e−2πω(m−i) N m=0 i=0 = Bo N −1 N −1 1 XX = RX (m − i)e−2πω(m−i) . N m=0 i=0 (2) La Figura 2 muestra los rangos y la cantidad de términos que poseen las sumatorias de esta ecuación. Asimismo, notemos que los términos en las diagonales m0 = m − i son todos iguales pero no ası́ su cantidad. Si tenemos en cuenta estos factores, simplificamos la esperanza anterior de la siguiente manera: h i E ŜX (ω) = = 1 N N −1 X 0 (N − |m0 |) RX (m0 )e−2πωm m0 =−(N −1) N −1 X m0 =−(N −1) |m0 | 0 1− RX (m0 )e−2πωm . N (3) El resultado anterior nos muestra dos aspectos de la esperanza del estimador de la densidad espectral. Primero, los lı́mites de la sumatoria no son ±∞, y segundo, el término entre paréntesis representa el mismo sesgo que el estimador de la función de autocorrelación. En resumen, este estimador es sesgado. Sin embargo, a medida 6 Apuntes de Procesos Estocásticos Estimación de Parámetros que N → ∞, el término entre paréntesis tiende a uno, y los lı́mites de la sumatoria tienden a ±∞, por lo tanto, h i E ŜX (ω) −−−−−−−→ SX (ω). N →∞ Importante: En (3) podemos ver que el periodograma es equivalente a tomar la Transformada de Fourier del estimador sesgado de la autocorrelación, es decir, ŜX (ω) = N −1 X ˆ(s) RX (k)e−2πωk . r k=−(N −1) do Al igual que en los casos anteriores, debemos analizar el comportamiento de la varianza de este estimador para ver si es consistente. La derivación de esta varianza es compleja y varı́a dependiendo del proceso Xn en particular. Sin embargo, de realizar estos análisis verı́amos que la varianza del estimador no tiende a anularse a medida que el número de muestras aumenta. De manera general, el comportamiento de la varianza es: h i Var ŜX (ω) = α SX (ω)2 . En la Figura 3(a), vemos la estimación de la densidad espectral para el proceso Wn + Wn−1 , 2 rra Xn = Bo donde Wn es ruido blanco Gaussiano de media nula y varianza unitaria. Aquı́ apreciamos claramente el comportamiento de la varianza enunciado anteriormente. Dado que el proceso Xn es un promediador, sus componentes espectrales están en las bajas frecuencias. Allı́, donde los valores son altos, también lo es la varianza del estimador. Por otro lado, en el lı́mite de la alta frecuencia, ±π, la densidad espectral de potencia es nula y la varianza del estimador, mı́nima. Para combatir este problema, recurrimos a un segundo estimador de la densidad espectral: L−1 1X (ave) ŜX,l (ω). ŜX (ω) = L l=0 Este nuevo estimador es el promedio de L periodogramas distintos del proceso Xn , con lo que logramos suavizar las variaciones de los mismos. La esperanza del estimador resulta igual al caso anterior ya que sólo estamos promediando varias estimaciones: L−1 L−1 h i i 1X h 1X (ave) E ŜX (ω) = E ŜX,l (ω) −−−−−−−→ SX (ω) = SX (ω). N →∞ L l=0 L l=0 Y por último, dado que las distintas realizaciones del estimador son independientes entre sı́2 , la varianza del estimador suavizado tiende a cero a medida que el 2 Esto surge del análisis de la varianza del estimador, ver [1]. 7 Apuntes de Procesos Estocásticos Estimación de Parámetros 10 8 6 4 -4 -3 -2 -1 0 1 2 3 4 do 0 r 2 (a) Periodograma del proceso Xn . 1,4 Estimada Teórica 1,2 rra 1 0,8 0,6 0,4 Bo 0,2 0 -4 -3 -2 0 -1 1 2 3 4 (b) Periodograma suavizado del proceso Xn . Figura 3: Comparación de los estimadores de la densidad espectral de potencia para el proceso Xn = (Wn + Wn−1 )/2, donde Wn ∼ N (0, 1) i.i.d.. número de bloques crece: h i (ave) Var ŜX (ω) = L−1 h i 1 X Var Ŝ (ω) X,l L2 l=0 1 L α SX (ω)2 L2 α = SX (ω)2 −−−−−−−→ 0. L→∞ L = En la Figura 3(b), vemos el estimador suavizado donde podemos apreciar cómo 8 Apuntes de Procesos Estocásticos Estimación de Parámetros r éste sigue más fielmente el valor teórico de la densidad espectral de potencia del proceso Xn . Para esta simulación el tamaño de los bloques fue N = 1024 y la cantidad de bloques promediados, L = 64. En el caso de la Figura 3(a), la cantidad de muestras utilizadas para el periodograma simple fue N = 1024 × 64. En este segundo estimador, el número de muestras necesario para la estimación es N × L, N muestras por periodograma y L periodogramas promediados. Dado que uno dispone de una cantidad determinada de muestras, debemos elegir en cuántos bloques de N muestras dividiremos nuestro total. Si elegimos un valor de L muy grande para disminuir el error de estimación, el valor de N será chico, y por consiguiente, la discriminación en frecuencia que logramos con la Transformada de Fourier será poca. Por el contrario, si tomamos un valor de N grande para tener una gran discriminación en frecuencia, el error de estimación será más notorio. do Referencias [1] Leon-Garcia, Alberto: Probability and Random Processes for Electrical Engineering, 2da edición. Massachusetts: Addison-Wesley, 1994. [2] Papoulis, Athanasios: Probability, Random Variables and Stochastic Processes, 3ra edición. New York: McGraw-Hill, 1991. Bo rra [3] Wolfram MathWorld: Sample Variance Distribution  from Wolfram MathWorld. http://mathworld.wolfram.com/SampleVarianceDistribution.html (consultado el 27 de agosto de 2010). 9

Estimación de Parámetros

Documentos relacionados

Productos

Apoyo

Estimación de Parámetros

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib