Transparencias de Teoría de la Estimación

Anuncio
Teoría de la estimación
Índice
 Conceptos básicos
 Calidad de los estimadores
 Cota de Cramer Rao
 Estimador de máxima verosimilitud
 Estimador bayesiano
 Estimador lineal de error cuadrático medio mínimo
1. Conceptos básicos
 Teoría de la Estimación: Rama del procesado de señales y la
estadística, que estudia las técnicas utilizadas para proporcionar
un valor apróximado a un parámetro o variable, a partir de datos
empíricos o medidas.
 Modelo de Estimación. El modelo normalmente utilizado, está
compuesto por los siguientes elementos:
 Espacio de parámetros. Es un espacio no observable, cuyos
elementos son los posibles parámetros de los que depende la
generación de datos.
 Espacio de observaciones. Es el espacio cuyos elementos son los
datos empíricos o medidas, que se van a utilizar en la estimación.
 Regla de transición probabilística. Distribución estadística de las
observaciones, dependiendo del parámetro o parámetros.
 Estimador. Función de los datos empíricos, que se utiliza para generar
la medida o estima.
1. Conceptos básicos
Estimador
Θ*(z)
Objetivo: Medir (estimar) el valor de θ utilizando un
instrumento de medida (estimador), diseñado usando
algún criterio
1. Conceptos básicos
 Modelo en Teoría de la Detección (caso binario):
Objetivo: decidir si se ha enviado un “0” o un “1” dividiendo el
espacio de observaciones en regiones, asignadas a una u otra
hipótesis. Para ello se utiliza un estadístico que se compara con
un umbral
1. Conceptos básicos
 Diferencias entre Teoría de la Detección y Teoría de
la Estimación:
 En los problemas de detección, los parámetros
desconocidos pueden tomar un conjunto de valores finito y
numerable, de forma que el número de hipótesis posibles
es finito.
 En los problemas de estimación, los valores que puede
tomar el parámetro desconocido son infinitos, por lo que no
tiene sentido aplicar la teoría de la detección. Las
observaciones (datos medidos) se utilizan para estimar o
inferir el valor del parámetro.
 El parámetro a estimar puede ser determinista o
aleatorio.
1. Conceptos básicos
 El parámetro θ cuyo valor desconocido queremos estimar
(medir de forma aproximada) puede ser:
 Determinista. Por ejemplo, cuando queremos estimar la
media de una variable aleatoria, utilizando un número de
realizaciones de la misma.
 Aleatorio. Por ejemplo, la fase desconocida de una
señal sinusoidal. Las señales observadas son
realizaciones de una señal aleatoria, cuya fase
instantánea depende de una variable aleatoria,
normamente con distribución uniforme en [0, 2π).
x ( t ) = Acos(ω 0 t + ϕ )
ϕ, es variable aleatoria
1. Conceptos básicos
 Los datos se generan atendiendo a la f.d.p. definida en el
mecanismo de transición probabilística y tienen, por tanto,
carácter aleatorio.
 El estimador del parámetro θ, denotado como θ*, es una
función de los datos (θ*(z)), y también tiene carácter aleatorio
(función de un vector aleatorio)
 El estimador del parámetro es una variable aleatoria,
independientemente de si el parámetro es determinista o
aleatorio.
 El estimador del parámetro, al ser una variable aleatoria, se
puede caracterizar por su función de densidad de
probabilidad, f(θ*(z))
1. Conceptos básicos
 El estimador puede interpretarse como un instrumento de
“medida” del valor que toma el parámetro
 El error es inherente al proceso de medida, por alguno de los
siguientes factores:
 Defectos en el diseño del instrumento de medida, que pueden
dar lugar a errores sistemáticos. Por ejemplo, voltímetro mal
calibrado.
 Es imposible obtener datos precisos. Por ejemplo, al medir una
señal contaminada con ruido, o al medir con un voltímetro real,
que “carga” al circuito en el que se mide.
 No se dispone de suficientes datos, porque no es posible
obtenerlos, o porque no es práctico. Por ejemplo, estimación de
la intención de voto en base a resultados de encuestas (es
imposible encuestar a toda la población)
 OBJETIVO: Diseñar instrumentos de medida donde la
influencia de los errores sea pequeña
Índice
 Conceptos básicos
 Calidad de los estimadores
 Cota de Cramer Rao
 Estimador de máxima verosimilitud
 Estimador bayesiano
 Estimador lineal de error cuadrático medio mínimo
2. Calidad de los estimadores
 El error que se comete al estimar el valor del parámetro
desconocido (θ) mediante el estimador θ*, o “error de
estimación”, es, formalmente:
ε = θ − θ*
 El error de estimación es una v.a., ya que el estimador tiene
carácter aleatorio (el parámetro también puede ser aleatorio).
 Si el error de €estimación es una variable aleatoria, podría
caracterizarse estadísticamente por su f.d.p.
 En general, debido a las dificultades encontradas para obtener
la f.d.p. del error de estimación, se estudian unicamente los
estadísticos de primer y segundo orden del mismo.
2. Calidad de los estimadores
 SESGO (BIAS): Se define como el valor medio del error de
estimación, o la diferencia entre la media del estimador y el valor
medio del parámetro a estimar:
[
]
S(θ * ) = E θ * (z) − θ = E[θ * (z)] − E[θ ]
 El sesgo nos da una idea del “error sistemático” cometido en la
medida o estimación. No informa sobre la dispersión de los
resultados de la medida o estimación.
€
 Estimador insesgado: Es aquel estimador en el que el sesgo es
nulo, o lo que es lo mismo, la media del estimador coincide con el
valor medio del parámetro (si es aleatorio), o con el valor real del
parámetro, si es determinista.
2. Calidad de los estimadores
 Varianza del estimador: Es una medida de la dispersión de las
estimas (resultados de la estimación), con relación al valor
medio de las mismas:
σε2
2
 *
*
= E  θ (z) − E(θ (z)) 


{
}
 Valor cuadrático medio del error. Ofrece de forma conjunta,
información €sobre el valor medio del error y la dispersión del
mismo:
2
 *
MSE = E  θ (z) − θ 


{
€
}
2. Calidad de los estimadores
 Relación entre Sesgo, Varianza y MSE en la estimación de
parámetros deterministas:
[
MSE(θ * ) = E (θ * − θ ) 2
]
[ { } { } ]


MSE(θ ) = E {(θ − E {θ }) + ( E {θ } − θ )} 


MSE(θ * ) = E (θ * − E θ * + E θ * − θ ) 2
*
*
*
*
2
2
 *
*
*
MSE(θ ) = E  θ − E θ + S(θ ) 


2

MSE(θ * ) = E  θ * − E θ *  + S 2 (θ * ) + 2S(θ * )E θ * − E θ *


*
{(
{ })
(
{ })
( )
MSE(θ * ) = var θ * + S 2 (θ * )
€
}
[
{ }]
2. Calidad de los estimadores
Ejemplo 1: Supongamos que X es una v.a. normal o gaussiana, de la que
sólo disponemos de N muestras tomadas de forma independiente. El valor
de la media (η) es desconocido y es, precisamente, el parámetro que nos
gustaría estimar. Se propone como estimador la media muestral:
El estimador es una v.a.
Normal
2.Calidad de los estimadores
 En el ejemplo anterior, la varianza del estimador depende del
número de datos. Al aumentar el número de datos, la varianza
disminuye. Este hecho invita a definir una propiedad que permita
comparar los estimadores en base a la varianza de los mismos.
2. Calidad de los estimadores
 Problema: En general, el estimador ideal depende del parámetro
cuyo valor se quiere estimar
 Sólo es aplicable en algunos casos sencillos
2. Calidad de los estimadores
 Eficiencia: Un estimador es más eficiente o preciso que otro, si
la varianza del primero es menor que la del segundo. El
estimador para el que la varianza se hace mínima se denomina
Estimador de Mínima Varianza. Si el estimador es insesgado y
de mínima varianza, recibe el nombre de Estimador Insesgado
de Mínima Varianza (MVUE).
 Consistencia: Un estimador es consistente si al aumentar el
tamaño de la muestra el valor del estimador tiende a ser el valor
del parámetro. Para que ocurra eso, debe cumplirse lo siguiente:
lim S θ N* = θ
{ }
lim var{θ N* } = 0
N →∞
N →∞
Estimador asintóticamente
insesgado
2. Calidad de los estimadores
es
más
eficiente
que
2. Calidad de los estimadores
 Ejercicio 2 : Estudiar si la media muestral es un estimador
consistente de la media de una variable aleatoria gaussiana
 Si los datos son realizaciones independientes, se puede
demostrar que el estimador es una variable aleatoria
gaussiana, con f.d.p. N(η,σ2/N), por lo que es insesgado, y la
varianza tiende a cero al aumentar N. Es, por lo tanto, un
estimador consistente.
2. Calidad de los estimadores
Ejemplo: ¿Qué estimador es mejor?
Índice
 Conceptos básicos
 Calidad
 Cota de Cramer Rao
 Estimador de máxima verosimilitud
 Estimador bayesiano
 Estimador lineal de error cuadrático medio mínimo
3. Cota de Cramer-Rao
 ¿Se puede conseguir siempre que la varianza de un estimador
sea tan pequeña como se quiera?
 ¿Hasta dónde se puede reducir la varianza de un estimador?
 La varianza de un estimador es siempre mayor o igual que la
cota de Cramer-Rao (CCR)
CCR =
€
−1
∂ ln[ f (z | θ )]
E
∂ 2θ

2
(
)



=
1

∂ ln[ f (z | θ )]

E 

∂θ


(
)
2 
 
 
 
3. Cota de Cramer-Rao
Ejercicio 3 (propuesto): Supongamos que X es una va normal o
gaussiana, de la que sólo disponemos de N muestras tomadas de
forma independiente. El valor de la media es desconocido y es,
precisamente, el parámetro que nos gustaría estimar. Sabiendo que
el estimador de la media es:
calcule la CCR del estimador de dicho parámetro.
Índice
 Conceptos básicos
 Calidad
 Cota de Cramer Rao
 Estimador de máxima verosimilitud
 Estimador bayesiano
 Estimador lineal de error cuadrático medio mínimo
4. Estimador de Máxima Verosimilitud
 Se considera una familia de funciones de densidad de
probabilidad parametrizadas, dependientes del parámetro θ
(puede extenderse fácilmente a la estimación de vectores). El
parámetro θ puede ser determinista o aleatorio.
 Se conoce un vector de datos generados con un modelo
probabilístico descrito por la familia de funciones de densidad de
probabilidad parametrizadas.
 El objetivo de la estima de máxima verosimilitud es encontrar un
estimador del parámetro θ, dependiente de los datos conocidos.
 Conociendo un vector de datos y el modelo probabilístico
subyacente, la estima de máxima verosimilitud toma el valor del
parámetro que da lugar a la distribución con la que los datos son
más probables.
4. Estimador de Máxima Verosimilitud
A) Si el parámetro es determinista
4.Estimador de Máxima Verosimilitud
Dada la observación, zobs, el objetivo es calcular el valor del parámetro
θj para el cual la fdp alcanza el valor máximo. Ese valor es
precisamente la estima de máxima verosimilitud.
4. Estimador de Máxima Verosimilitud
 Método: Para calcular el máximo de la funcion f(z|θ) se aplica el
método general para el cálculo del máximo de una función. En este
caso, la variable dependiente es el parámetro desconocido:
∂
f ( z θ )} = 0 → θ = θˆML
{
∂θ
€
 2

 ∂ { f ( z θ )}

<
0
⇒
máximo
 ∂θ 2

θ =θ ML


 Puede ser conveniente aplicar una función monótona para facilitar
el cálculo, teniendo en cuenta que el valor del parámetro que
maximiza la función no varía al aplicar este tipo de transformación:
€
∂
Tmono ( f ( z θ ))} = 0 → θ = θˆML
{
∂θ
4. Estimador de Máxima Verosimilitud
B) Si el parámetro es una variable aleatoria, es necesario
caracterizar de forma conjunta al parámetro y a los datos, que
tienen carácter aleatorio.
f ( z,θ ) = f ( z θ ) ⋅ f (θ )
 Si se aplica la función logaritmo, que es monótona creciente:
€
ln[ f ( z,θ )] = ln[ f ( z θ )] + ln[ f (θ )]
 En estos casos, es común el suponer que el parámetro tiene
distribución uniforme (p.e. la fase de una portadora se supone
con€distribución uniforme en [0,2π) ), o tiene variación lenta en θ
comparada con f(z|θ).
4. Estimador de Máxima Verosimilitud
∂
Tmono ( f ( z,θ ))} = 0 → θ = θˆML
{
∂θ
€
∂
∂
∂
ln f ( z, θ ) =
ln f z θ +
ln f (θ )
∂θ
∂θ
∂θ
[
[ ( )]
]
[
]
Suponiendo que se cumple:
∂
∂
ln f (θ ) <<
ln f z θ
∂θ
∂θ
[
€
]
[ ( )]
El estimador de Máxima Verosimilitud se obtendría a partir de:
€
∂
ln[ f ( z θ )] ≈ 0 → θ = θˆML
∂θ
4. Estimador de Máxima Verosimilitud
 Ventaja
 Se puede aplicar tanto para estimar parámetros
deterministas como aleatorios
 Desventaja
 No tiene en cuenta los criterios de calidad (sesgo,
varianza)
 Solución: Estimador bayesiano
5. Estimador bayesiano
 Consideramos el parámetro a estimar como una realización de
una variable aleatoria θ, de la cual se tiene cierto conocimiento
a priori, reflejado en la función de densidad de probabilidad de
dicho parámetro, f(θ)
 El vector de datos observado tiene, asimismo, carácter
aleatorio, y su comportamiento probabilístico depende del
parámetro a estimar a través de f(x|θ).
 La estimación bayesiana se basa en la minimización del riesgo
bayesiano, o coste medio. Es necesario, por lo tanto, definir un
coste asociado a la estima, que normalmente dependerá del
error de estimación.
5. Estimador bayesiano
Objetivo: minimizar una función de coste medio asociado al error
de estimación. En primer lugar, es necesario definir la función de
coste cuyo valor medio queremos minimizar:


C (ε ) = C ( y − y ) = C ( y, y )
ε = y − yˆ
El coste
€ medio del error de estimación es, formalmente:
€
E [C (ε )] =
+∞
∫

∫ C ( y, y ) ⋅ f ( y, x) ⋅ dx ⋅ dy
−∞ x
Es necesario conocer la f.d.p. conjunta del estimador y de los datos
€
5. Estimador bayesiano
+∞
E [C (ε )] =
∫

∫ C ( y, y ) ⋅ f ( y, x) ⋅ dx ⋅ dy
−∞ x
Problema: Es difícil conocer la f.d.p. CONJUNTA de las N+1
variables aleatorias (Y, X1, …, XN). Una solución es expresarla en
función de la f.d.p. CONDICIONAL y de la MARGINAL:
€
+∞
E [C (ε )] =
∫

∫ C ( y, y ) ⋅ f ( y x) ⋅ f (x) ⋅ dx ⋅ dy
−∞ x
+∞
E [C (ε )] =
€

C
y,
y
∫ [ ( ) ⋅ f ( y x) ⋅ dy] ⋅ f (x) ⋅ dx
∫
x −∞
=
∫
x

I ( y ) ⋅ f (x) ⋅ dx
5. Estimador bayesiano
 Al ser f(x) una función no negativa, para minimizar el coste
medio, es suficiente minimizar I(ŷ).
 ¿Qué propiedades debe tener la función de coste?
 De ser nula en el origen, es decir, el coste asociado al error
cero debe ser nulo.
 Debe ser una función no negativa.
 En general, conviene que sea simétrica.
 Ejemplos de funciones de coste:
 Valor cuadrático del error:
 Valor absoluto del error:
C(y, yˆ (x)) = (y − yˆ(x))2
C(y, yˆ (x)) = y − yˆ(x)
 Coste uniforme:
0 | y €
− yˆ (x) |≤ Δ / 2
C(y − y(x)) = 
− yˆ (x) |> Δ / 2
1 | y €
5. Estimador Bayesiano
Estimador bayesiano de error cuadrático medio mínimo:
+∞
E [C (ε )] =
∫
x

C
y,
y
∫ [ ( ) ⋅ f ( y x) ⋅ dy] ⋅ f (x) ⋅ dx
−∞

con I ( y ) =
+∞
 2
y
−
y
∫ ( ) ⋅ f ( y x) ⋅ dy
−∞
Como f(x) es una fdp (por definición, no negativa), minimizar el
coste medio es equivalente a minimizar I(ŷ(x)):
€
∞
∂ 

 I ( y ) = 0 ⇒ yopt = ∫ y ⋅ f ( y x) ⋅ dy = E [ y x]
∂y
−∞
5. Estimador Bayesiano

yopt =
∞
∫ y ⋅ f ( y x) ⋅ dy = E [ y x]
−∞
• €
• Este estimador es difícil de obtener pues requiere conocer
f(y|x), la fdp de la variable a estimar dependiente de los datos.
Una alternativa más práctica consiste en construir un estimador
sub-óptimo que sea más fácil de calcular: por ejemplo,
obligando a que sea una combinación lineal de los datos.
6. Estimador LINEAL de error cuadrático
medio mínimo
Para evitar los problemas mencionados, se propone un estimador
que sea una combinación lineal de los datos conocidos.
N

y = ∑ ai xi
i=1
OBJETIVO: encontrar el valor de los coeficientes ai que minimizan
el error cuadrático medio:
€
 
2 
N
 
∂  
 E  y − ∑ ai xi   = 0,

∂a j   i=1


 
j = 1,2,, N ⇒
6. Estimador LINEAL de error cuadrático
medio mínimo

 

 
N
⇒ E y − ∑ ai xi  x j  = 0, 1 ≤ j ≤ N

 
i=1
  
 

 y− y=ε  
[ ]
E ε x j = 0, 1 ≤ j ≤ N
€
€
Rε x j = 0, 1 ≤ j ≤ N
Principio de ortogonalidad:
El error (de estimación) debe
ser ortogonal (en el sentido
estadístico) a los datos, es
decir, la correlación entre las
variables aleatorias ε y xj
debe ser nula
6. Estimador LINEAL de error cuadrático
medio mínimo

 

 
N
E y − ∑ ai xi  x j  = 0, 1 ≤ j ≤ N ⇒

 


 
 i=1

 y− y =ε  
N
∑ ai E [ xi x j ] = E [ y x j ] = 0, 1 ≤ j ≤ N
€
i=1
o, equivalentemente,
N
∑€ai Rx x
i
i=1
j
= Ry x j , 1 ≤ j ≤ N
Ecuaciones
normales o de
Wiener-Hopf
6. Estimador LINEAL de error cuadrático
medio mínimo
N
∑ RX X ai = RY X ,
i
i=1
j
j
1≤ j ≤ N
Ecuaciones
normales o de
Wiener-Hopf
RX X …RX X  a  RYX 
1 1
1 N
1
1

  

     =   

RX X …RX X  a N  RYX 
 N 1
 N
N N 
€
€
6. Estimador LINEAL de error cuadrático
medio mínimo
U.lizando
esta
propiedad
2
+E y
[ ] = E[ε ] [ ]
E y
2
2
y
teniendo
en
cuenta
las
ecuaciones
de
Wiener
Hopf
€
[
[
E y x j = ∑ ai E xi x j
se
llega
a
que:
€
]
N
i=1
]
1≤ j ≤ N
€
Estimador LINEAL de error cuadrático
medio mínimo
N
[ ] = E[ y ] − ∑ a E[ y x ]
E ε
2
2
i=1
i
i
R y xi
¡ Para disminuir el error de este estimador hay que
añadir datos (xi) que estén correlados con la v.a. (y) a
estimar!
Si añadimos nuevos datos ortogonales (correlación
nula), no se disminuye el€
error de estimación
Estimador LINEAL de error cuadrático
medio mínimo
Aplicación 1: Filtro de Wiener-Kolmogorov
La señal (s) y el ruido
(n) son procesos
estacionarios con
autocorrelación y
correlación cruzada
conocidas
El objetivo es calcular los
coeficientes del filtro que
estiman la “señal limpia”
El
criterio
de
diseño
es
minimizar
el
valor
cuadrá.co
medio
del
error
de
es.mación
Ello es equivalente a resolver
las ecuaciones normales
Estimador LINEAL de error cuadrático
medio mínimo
Aplicación 2: Predicción lineal
es la muestra de X cuyo valor desconocido estamos interesados en
estimar. Los datos disponibles son los p muestras anteriores
El predictor lineal de la muestra x[n] tiene la forma
y
sus
p
coeficientes
se
calculan
u.lizando
las
ecuaciones
normales,
o
lo
que
es
lo
mismo,
minimizando
el
valor
cuadrá.co
medio
del
error
de
es.mación
(predicción):

Descargar