Estimación insesgada de mínima varianza

Anuncio
Estimación insesgada de mı́nima varianza
Tratamiento Estadı́stico de Señales
Pablo Musé, Ernesto López & Luı́s Di Martino
{pmuse, elopez, dimartino}@fing.edu.uy
Departamento de Procesamiento de Señales
Instituto de Ingenierı́a Eléctrica
Facultad de Ingenierı́a
Curso 2015
Introducción
Problema de estimación de parámetros
◮
Se dispone de N muestras una señal discreta x[n].
Se tiene además un modelo matemático de la señal que depende de
un parámetro θ desconocido.
◮
El objetivo es estimar el valor del parámetro θ a partir de x[n].
◮
Planteo matemático del problema
◮
El estimador de θ se determina a partir de los datos como
θ̂ = g (x[0], x[1], . . . , x[N − 1])
◮
◮
◮
g es una función a determinar
◮
θ̂ es un estimador de θ
El problema consiste en encontrar una función g de los datos de
forma que θ̂ sea un buen estimador de θ.
Como las muestras de x[n] son variables aleatorias, el estimador θ̂ es
una variable aleatoria y por lo tanto el desempeño del estimador
debe ser evaluado estadı́sticamente.
Introducción
Objetivo
◮
Se buscará, entre los estimadores insesgados, aquél de menor
variabilidad.
Estimadores insesgados de mı́nima varianza (MVU, Minimum Variance
Unbiased).
Estimadores MVU
◮
◮
Se verá que en general no tienen porqué existir.
Cuando existen, dos técnicas para encontrarlos son:
◮
◮
◮
Técnica basada en la cota inferior de Cramér-Rao.
Técnica basada en la noción de estadı́sticos suficientes.
Cuando no existen, se pueden agregar restricciones. Por ejemplo,
imponer que el estimador, además de insesgado, sea lineal en los
datos (estimadores lineales).
◮
◮
Son fáciles de implementar
Son subóptimos
Conceptos previos
Modelado de los datos
◮
Se dispone del conjunto de datos
{x[0], x[1], . . . , x[N − 1]}
◮
◮
y un modelo que depende de un parámetro θ desconocido.
Como los datos son aleatorios, hay que describirlos especificando la
función de densidad de probabilidad (PDF, Probability Density
Function),
p(x[0], x[1], . . . , x[N − 1]; θ)
La PDF está parametrizada por el parámetro desconocido θ,
definiendo una familia de funciones.
◮
Notación: se usa punto y coma para denotar esa dependencia. No
confundir con una densidad de probabilidad conjunta (p(x[0], θ))
Conceptos previos
Ejemplo: PDF paramétrica
◮
En el caso en que N = 1, el parámetro desconocido θ es la media y
se modelan los datos como
x[0] ∼ N (θ, σ 2 ),
◮
la PDF serı́a:
con σ 2 conocido,
1
1
2
exp − 2 (x[0] − θ)
p(x[0]; θ) = √
2σ
2πσ 2
p(x[0]; θ)
θ1
◮
θ2
θ3
x[0]
Como el valor de θ afecta la probabilidad de x[0], deberı́a ser posible
inferir el valor θ a partir del valor observado de x[0].
◮
Por ejemplo, si el valor observado de x[0] es negativo, es poco
probable que θ = θ2 . El valor θ = θ1 es mas razonable.
Conceptos previos
Modelado de los datos
◮
◮
La especificación de la PDF es crucial para obtener un buen
estimador.
En un problema real, la PDF de los datos no es conocida. Debe ser
elegida de forma que:
◮
◮
◮
Sea consistente con las restricciones del problema
Refleje el conocimiento previo de los datos
Sea matemáticamente tratable
Conceptos previos
Ejemplo: Modelado de los datos
Temperatura global media anual de la Tierra (Referencia: media entre 1951 a 1980)
1
∆T (◦ C)
0.5
0
−0.5
−1
1910
1920
1930
1940
1950
1960
Año
1970
1980
1990
2000
Datos obtenidos de la NASA (http://data.giss.nasa.gov/gistemp/).
◮
◮
Los datos son de naturaleza ruidosa, pero en promedio tienen
tendencia creciente.
Un modelo razonable serı́a una recta en ruido,
x[n] = A + Bn + w[n],
n = 0, 1, . . . , N − 1
2010
Conceptos previos
Ejemplo: Modelado de los datos
◮
Además, el ruido podrı́a asumirse blanco y Gaussiano (WGN, White
Gaussian Noise).
◮
◮
Cada muestra de w[n] tiene PDF N (0, σ 2 ) y no está correlacionada
con las demás muestras.
La PDF conjunta de las muestras de ruido es,
p(w[0], w[1], . . . , w[N − 1]) =
N
−1
Y
p(w[n])
n=0
N
−1
Y
w2 [n]
√
=
exp −
2σ 2
2πσ 2
n=0
#
"
N −1
1
1 X 2
w [n]
=
− 2
N exp
2σ n=0
(2πσ 2 ) 2
1
Conceptos previos
Ejemplo: Modelado de los datos
◮
En este ejemplo, los parámetros desconocidos son A y B.
◮
Arreglando los datos y los parámetros como un vector,
θ = [A B]T ,
x = [x[0] x[1] . . . x[N − 1]]
T
la PDF de los datos es
p(x; θ) =
1
N
(2πσ 2 ) 2
"
#
N −1
1 X
2
exp − 2
(x[n] − A − Bn) .
2σ n=0
Conceptos previos
Observaciones
◮
◮
◮
◮
La hipótesis de WGN es justificada por la necesidad de obtener un
modelo matemáticamente tratable que conduzca a estimadores que
puedan expresarse en forma cerrada.
La hipótesis también es razonable a menos que haya evidencia de
otra cosa, como muestras altamente correlacionadas.
El desempeño del estimador tiene dependencia fuerte con las
hipótesis de la PDF de los datos.
A lo sumo, se puede esperar que el estimador obtenido sea robusto,
en el sentido en que pequeños cambios en la PDF de los datos no
afecten demasiado el desempeño del estimador.
Estimadores insesgados
Definición
◮
◮
Un estimador de cierto parámetro desconocido es insesgado si en
promedio conduce al valor verdadero del parámetro.
Formalmente: un estimador θ̂ del parámetro θ ∈ (a, b) es insesgado
si
E(θ̂) = θ,
∀ θ ∈ (a, b).
Estimador insesgado del nivel de DC en WGN
◮
Se consideran las observaciones
x[n] = A + w[n],
◮
◮
◮
2
n = 0, 1, . . . , N − 1
w[n] es WGN, w[n] ∼ N (0, σ )
A es el parámetro a estimar, con −∞ < A < ∞
Un estimador razonable de A es la media muestral,
 =
N −1
1 X
x[n]
N n=0
Estimadores insesgados
Estimador insesgado del nivel de DC en WGN
◮
Se quiere ver si el estimador es insesgado.
"
N −1
1 X
E(Â) = E
x[n]
N n=0
#
N −1
1 X
E (x[n])
=
N n=0
(a)
(b)
=
◮
1
N
N
−1
X
A
(a) Linealidad de la esperanza.
(b) Como A es determinı́stico,
E(x[n]) = E(A + w[n])
= A + E(w[n])
= A.
n=0
=A
Se concluye que el estimador media muestral es insesgado.
¿Cuál es la PDF de Â?
◮
Como  es la suma de variables aleatorias gaussianas
independientes, es una variable aleatoria gaussiana.
◮
queda completamente especificada por la media y la varianza.
Estimadores insesgados
Estimador insesgado del nivel de DC en WGN
◮
◮
La media es E(Â) = A (se vio previamente que es insesgado).
Solo falta calcular la varianza:
"
N −1
1 X
x[n]
var(Â) = var
N n=0
#
N −1
1 X
= 2
var (x[n])
N n=0
(a) Si X e Y son variables
aleatorias independientes,
var(aX + bY ) = a2 var(X)
+ b2 var(Y )
(a)
(b)
=
1
N2
σ2
=
N
◮
◮
N
−1
X
n=0
σ2
(b) Como A es constante,
var(x[n]) = var(A + w[n])
= var(w[n])
= σ2 .
Se concluye que  ∼ N (A, σ 2 /N ).
La varianza del estimador decrece un factor de N respecto a la
varianza de las muestras individuales.
Estimadores insesgados
Observaciones
◮
La restricción de que E(θ̂) = θ para todo θ es importante.
Significa que si
θ̂ = g(x),
con
se tiene que cumplir que
Z
E(θ̂) =
∞
−∞
◮
◮
◮
◮
x = [x[0], x[1], . . . , x[N − 1]]T ,
g(x)p(x; θ)dx = θ
∀θ
Podrı́a ocurrir que se cumpla para algunos valores de θ pero no para
otros.
Un estimador que es insesgado no garantiza que es un buen
estimador. Solo indica que en promedio alcanza el valor verdadero
del parámetro.
Los estimadores sesgados introducen un error sistemático en la
estimación, siendo su desempeño pobre.
Compromiso sesgo-varianza: en algunos casos, los estimadores
sesgados tienen menor variabilidad.
Estimadores insesgados
Combinación de estimadores
◮
◮
◮
◮
◮
La propiedad de insesgado tiene implicancias importantes al
combinar estimadores.
o
n
Se dispone de varios estimadores del
θ̂1 , θ̂1 , . . . , θ̂n
mismo parámetro:
n
1X
Un procedimiento para mejorar la
θ̂i
θ̂ =
n i=1
estimación podrı́a ser su promediado:
Asumiendo que los estimadores son insesgados, de igual varianza y
no correlacionados, se ve que
var(θ̂1 )
n
Cuantos mas estimadores se combinan, mas decrece la varianza.
E(θ̂) = θ
var(θ̂) =
lim var(θ̂) → 0
⇒
n→∞
◮
lim θ̂ = θ.
n→∞
Los estimadores insesgados se pueden combinar para obtener uno
mejor.
Estimadores insesgados
Combinación de estimadores
◮
◮
En el caso en que los estimadores θi son sesgados,
n
1X
E(θ̂i ) = θ + b(θ)
E(θ̂i ) = θ + b(θ)
E(θ̂) =
n i=1
Sin importar cuantos estimadores se promedien, θ̂ no converge al
valor verdadero.
p(θ̂)
p(θ̂)
Estimador
Insesgado
θ
θ̂
n crece
p(θ̂)
θ
θ̂
θ
θ̂
p(θ̂)
Estimador
Sesgado
E(θ̂)
◮
θ
θ̂
Sesgo de un estimador: b(θ) = E(θ̂) − θ
E(θ̂)
Criterio de Mı́nima Varianza
◮
◮
◮
En la búsqueda de estimadores óptimos es necesario adoptar algún
criterio de optimalidad.
Uno natural es la minimización del error cuadrático medio (MSE,
Mean Square Error),
i
h
mse(θ̂) = E (θ̂ − θ)2 .
Análisis del error cuadrático medio
h
i2 θ̂ − E(θ̂) + E(θ̂) − θ
2 2 h
i
= E θ̂ − E(θ̂)
+ 2 E θ̂ − E(θ̂) E(θ̂) − θ +E E(θ̂) − θ
{z
}
|
mse(θ̂) = E
E 2 (θ̂)−E(θ̂)θ−E 2 (θ̂)+E(θ̂)θ=0
=E
θ̂ − E(θ̂)
= var(θ̂) +
| {z }
depende
del estimador
2 + E(θ̂) − θ
b2 (θ)
| {z }
depende
del parámetro
.
2
Criterio de Mı́nima Varianza
Estimador MSE del nivel de DC en WGN
x[n] = A+w[n],
◮
n = 0, 1, . . . , N −1,
Se considera como estimador la media muestral modificada,
N −1
a X
Ǎ =
x[n],
N n=0
◮
w[n] i.i.d. con w[n] ∼ N (0, σ 2 )
◮
a constante.
Se quiere encontrar el valor de a que minimice el MSE.
Media
Sesgo
E(Ǎ) = aA
b(A) = (a − 1)A
◮
El estimador es insesgado
si y solo si a = 1.
Varianza
var(Ǎ) =
Sustituyendo en b(A) y var(Ǎ) en la ecuación del MSE queda
mse(Ǎ) =
a2 σ 2
+ (a − 1)2 A2
N
a2 σ 2
N
Criterio de Mı́nima Varianza
Estimador MSE del nivel de DC en WGN
◮
Diferenciando respecto a a, se tiene que
2aσ 2
d mse(Ǎ)
=
+ 2(a − 1)A2
da
N
◮
e igualando a cero para encontrar el valor de aopt se obtiene que
aopt =
◮
A2
.
A2 + σ 2 /N
El estimador que produce el menor error cuadrático medio es
!
N −1
1 X
A2
x[n]
Ǎ =
A2 + σ 2 /N
N n=0
Problema: el estimador del parámetro desconocido depende del valor del
parámetro desconocido.
Criterio de Mı́nima Varianza
Observaciones
◮
En general los estimadores que minimizan el error cuadrático medio
dependen del parámetro desconocido y por lo tanto no son
realizables.
◮
◮
Comparación de los estimadores del nivel de DC en WGN
aopt =
A2
≤1
+ σ 2 /N
 = x̄
Ǎ = aopt x̄
E(Â) = A
var(Â) = σ 2 /N
mse(Â) = σ 2 /N
E(Ǎ) = aopt A
var(Ǎ) = a2opt σ 2 /N
mse(Ǎ) = aopt σ 2 /N
◮
◮
Esto es porque el MSE es función del sesgo (ver ecuación del MSE),
y el sesgo depende del parámetro desconocido.
A2
El estimador insesgado tiene mayor varianza y error cuadrático medio.
Compromiso sesgo-varianza: en general, reducir la varianza de un
estimador tiene el costo de hacerlo sesgado.
Criterio de Mı́nima Varianza
Estimadores MVU
◮
◮
◮
El enfoque de minimizar el MSE debe ser abandonado ya que
conduce a estimadores irrealizables.
La alternativa es restringirse a estimadores insesgados y minimizar la
varianza.
Como mse(θ̂) = var(θ̂) + b2 (θ),
si b(θ) = 0
◮
⇒
mse(θ̂) = var(θ̂)
Como el error cuadrático medio de estimadores insesgados es la
varianza, minimizar la varianza equivale a minimizar el MSE.
Estimadores insesgados de varianza mı́nima
(MVU, Minimum Variance Unbiased)
Estimadores MVU
Existencia de estimadores MVU
◮
Se dice que existe un estimador MVU si hay un estimador de menor
varianza que el resto de los posibles estimadores para todo θ.
Estimador MVU:
◮
No hay estimador MVU
En general, el estimador MVU no tiene porque existir.
◮
Por ejemplo, esto ocurre si la PDF de los datos cambia con el valor
del parámetro.
Estimadores MVU
Ejemplo: no existencia de estimador MVU
◮
◮
Se dispone de dos observaciones independientes x[0] y x[1] con PDF
N (θ, 1) si θ ≥ 0
x[0] ∼ N (θ, 1)
x[1] ∼
N (θ, 2) si θ < 0
y se quiere estimar θ.
Se proponen los siguientes estimadores,
θ̂1 =
◮
1
(x[0] + x[1]),
2
θ̂2 =
2
1
x[0] + x[1].
3
3
Es fácil verificar que ambos estimadores son insesgados.
Estimadores MVU
Ejemplo: no existencia de estimador MVU
◮
La varianza de los estimadores es


1
var(θ̂1 ) = (var(x[0]) + var(x[1])) =

4


4
1
var(θ̂2 ) = var(x[0]) + var(x[1]) =

9
9
◮
var(θ̂)
1
2
3
4
=
5
9
6
9
=
=
=
18
36
27
36
si θ ≥ 0
20
36
24
36
si θ ≥ 0
si θ < 0
si θ < 0
Se cumple que
en θ ≥ 0,
en θ < 0,
θ̂2
θ̂1
◮
θ
θ̂1 MVU
θ̂2 MVU
No existe un estimador MVU
entre los dos estimadores
propuestos.
Estimadores MVU
Existencia de estimadores MVU
◮
No solo puede no existir el estimador MVU, si no que incluso puede
no existir un único estimador insesgado.
◮
En este caso, la búsqueda del estimador MVU no tiene sentido.
No existencia de estimador insesgado
◮
◮
Se dispone de una única observación x[0] y se sabe que
x[0] ∼ U [0, 1/θ] con θ > 0. Se quiere estimar θ.
Para eso, se considera un estimador genérico de la forma θ̂ = g(x[0])
y se buscan funciones g de forma que sea insesgado.
E(θ̂) = E(g(x[0]))
Z ∞
(a)
g(u)pU (u)du
=
−∞
(b)
=θ
(c)
=θ
Z
1
θ
g(u)du
0
(a) Definición de esperanza.
(b) Como U ∼ U[0, 1/θ],
θ si 0 ≤ u ≤ 1/θ
pU (u) =
0 en otro caso
(c) Condición de insesgado.
Estimadores MVU
No existencia de estimador insesgado
◮
Se llegó a que para que el estimador sea insesgado se tiene que
cumplir que
Z θ1
g(u)du = 1,
∀θ > 0.
0
◮
◮
No existe una función g que cumpla la condición ∀θ > 0.
Se concluye que no existe un estimador insesgado en este problema.
Estimadores MVU
Búsqueda estimadores MVU
◮
◮
Aún cuando existe un estimador MVU, puede no ser posible
encontrarlo. No hay ninguna regla infalible para encontrar
estimadores MVU.
Enfoques de búsqueda:
1. Determinar la cota inferior de Cramér-Rao (CRLB, Cramér Rao
Lower Bound), y ver si algún estimador la verifica.
◮
◮
La CRLB determina un lı́mite inferior en la varianza de cualquier
estimador insesgado.
Si un estimador tiene varianza igual a la CRLB para todos los valores
de θ, es el estimador MVU.
Estimadores MVU
Búsqueda estimadores MVU
◮
Enfoques de búsqueda:
2. Buscar estadı́sticos suficientes y aplicar el teorema de
Rao-Blackwell-Lehmann-Scheffe (RBLS).
◮
Puede existir un estimador MVU que no alcance la CRLB.
3. Restringir la clase de estimadores no sólo a los insesgados, sino
también a los insesgados lineales con los datos, y encontrar el MVU
en esta clase.
◮
Este estimador no será óptimo, a menos que el estimador MVU sea
lineal en ese problema particular.
Extensión a vector de parámetros
En el problema general de estimación de parámetros, los parámetros
desconocidos pueden ser varios.
Estimador insesgado
◮
Si hay p parámetros desconocidos, se construye el vector de
parámetros desconocidos,
T
θ = [θ1 θ2 . . . θp ] .
◮
Se dice que un estimador θ̂ = [θ̂1 θ̂2 . . . θ̂p ]T es insesgado si
E(θ̂i ) = θi ,
para todo i = 1, 2, . . . , p.
◮
Definiendo la esperanza de un
vector de variables aleatorias como
◮
un estimador insesgado cumple la
propiedad
a i < θ i < bi



E(θ̂) = 

E(θ̂1 )
E(θ̂2 )
..
.
E(θ̂p )
E(θ̂) = θ





Extensión a vector de parámetros
Estimador MVU
◮
Un estimador MVU tiene la propiedad adicional de que
var(θ̂i ) mı́nima,
para i = 1, 2, . . . , p
entre todos los estimadores insesgados.
Propiedades de la varianza
Varianza
La varianza de un variable aleatoria X es el segundo momento central,
var(X) = E (X − E(X))2
Ejercicio: demostrar las siguientes propiedades
1. Una formulación alternativa de la varianza es,
var(X) = E(X 2 ) − E 2 (X)
2. Si X es una variable aleatoria con varianza finita, para cualquier
constante a y b se cumple que,
var(aX + b) = a2 var(X)
3. Si X1 y X2 son variables aleatorias independientes,
var(X1 + X2 ) = var(X1 ) + var(X2 )
Referencias I
Kay, S. M. (1993).
Fundamentals of Statistical Signal Processing, Volume I: Estimation
Theory, chapter 2.
Prentice Hall, 1st edition.
Descargar