MAXIMUM LIKELIHOOD

Anuncio
MAXIMUM LIKELIHOOD
Jesús A. González y Eduardo Morales
Maximum Likelihood Estimation (MLE)
2
¨ 
¨ 
Método preferido para estimación de parámetros en
estadística
Indispensable para muchas técnicas de modelado estadístico
¤ 
¨ 
Modelado no-lineal con datos que no siguen una distribución normal
La meta del modelado es deducir la forma de un proceso al
probar la viabilidad de el modelo
25/02/13 2:53 pm
Maximum Likelihood Estimation (MLE)
3
¨ 
Al especificar un modelo y sus parámetros para un
conjunto de datos
¤  Evaluar
qué tan bien se ajusta el modelo a los datos
observados
¨ 
El “buen ajuste” se evalúa al encontrar los
parámetros del modelo que mejor se ajustan a los
datos
¤  Este
proceso se conoce como
n  Estimación
de parámetros
25/02/13 2:53 pm
Estimación de Parámetros
4
¨ 
Dos métodos generales para estimación de parámetros:
1. 
Least-squares estimation (LSE)
n  Estimación
por mínimos cuadrados
n  Utilizado en varios conceptos
Regresión lineal
n  Suma de errores cuadrados
n  Desviación de la raíz del cuadrado de la media
n 
n  No
requiere (o mínima) asunción de la distribución
n  Útil para obtener medida descriptiva para sumarizar los datos
observados
n  No tiene base para pruebas de hipótesis o construir intervalos de
confianza
25/02/13 2:53 pm
Estimación de Parámetros
5
¨ 
Dos métodos generales para estimación de parámetros:
1. 
Maximum likelihood estimation (MLE)
n  Estimación
por máxima verosimilitud
n  Estándar para estimación de parámetros e inferencia en
estadística
n  MLE tiene muchas propiedades óptimas en la estimación
Información completa del parámetro de interés contenido en su
estimador MLE
n  Consistencia: sobre el valor del parámetro verdadero que generó
los datos, que se recupera asintóticamente (con suficientes datos)
n  Eficiencia: se obtiene la menor-posible varianza de los estimados
del parámetro, recuperado asintóticamente
n  Invarianza a la parametrización (obtiene la misma solución MLE
independientemente de la parametrización utilizada)
n 
25/02/13 2:53 pm
Estimación de Parámetros
6
¨ 
Muchos métodos estadísticos de inferencia están
basados en MLE
¤  Prerequisito
para
Prueba chi-square
n  Prueba G-square
n  Métodos bayesianos
n  Inferencia con valores faltantes
n  Modelado de efectos aleatorios
n  Modelos de criterios de selección: criterio de información de
Akaike y criterio de información Bayesiana
n 
25/02/13 2:53 pm
Especificación del Modelo
7
¨ 
Función de densidad de probabilidad
¤  Muestra
n  y
¤  La
aleatoria de una población desconocida
= (y1, …, ym)
meta del análisis de datos
n  Identificar
cuál es la población más probable de haber
generado la muestra
¤  En
estadística, cada población se identifica por su
correspondiente distribución de probabilidad
¤  A cada distribución se asocia un valor único del
parámetro del modelo
25/02/13 2:53 pm
Especificación del Modelo
8
¨ 
Función de densidad de probabilidad
(continuación…)
¤  Cambiar
el valor del parámetro, genera diferentes
distribuciones de probabilidad
¤  Un modelo se define como una familia de distribuciones
de probabilidad indexada por los parámetros del
modelo
¨ 
f(y|w) à función de densidad de probabilidad
¤  Nos
dice la probabilidad de observar el vector de
datos y dado el parámetro w
25/02/13 2:53 pm
Especificación del Modelo
9
¨ 
Función de densidad de probabilidad
(continuación…)
¤  w
= (w1, …, wk)
Vector definido en el espacio de parámetros multi-dimensional
n  Si yi’s son estadísticamente independientes una de otra
n 
n 
n 
De acuerdo a teoría de probabilidad
La PDF de los datos y=(y1, …, ym) dado el vector de parámetros w se
puede expresar como una multiplicación de PDFs de observaciones
individuales
f (y = (y1, y2 ,..., yn ) | w) = f1 (y1 | w) f2 (y2 | w)... fn (ym | w).
25/02/13 2:53 pm
Ejemplo
10
¨ 
Caso más simple: una observación y un parámetro
¤  m
=k=1
¤  Los datos, y representan una secuencia de sucesos de
10 tiradas Bernoulli (tirar una moneda 10 veces)
n  Probabilidad
de éxito en cada tirada, w = 0.2
25/02/13 2:53 pm
Ejemplo
11
¨ 
Distribución binomial para el experimento con n =
10, y variando w: 0.2, 0.7
f (y | n = 10, w = 0.2) =
10!
(0.2) y (0.8)10−y
y!(10 − y)!
(y = 0,1,...,10)
10!
f (y | n = 10, w = 0.7) =
(0.7) y (0.3)10−y
y!(10 − y)!
(y = 0,1,...,10)
n!
(w) y (1− w)n−y
y!(n − y)!
(0 ≤ w ≤ 1; y = 0,1,..., n)
f (y | n, w) =
25/02/13 2:53 pm
From a statistical standpoint, the data vector y ¼
ðy1 ; y; ym Þ is a random sample from an unknown
population. The goal of data analysis is to identify the
population that is most likely to have generated the
sample. In statistics, each population is identified by a
corresponding probability distribution. Associated with
each probability distribution is a unique value of the
Ejemplo
12
number of successes in a sequence of 10 Bernoulli trials
(e.g. tossing a coin 10 times) and that the probability of
a success on any one trial, represented by the parameter
w; is 0.2. The PDF in this case is given by
f ðy j n ¼ 10; w ¼ 0:2Þ ¼
10!
ð0:2Þy ð0:8Þ10$y
y!ð10 $ yÞ!
ðy ¼ 0; 1; y; 10Þ
Fig. 1. Binomial probability distributions of sample size n ¼ 10 and probability parameter w ¼ 0:2 (top) and w ¼ 0:7 (bottom).
25/02/13 2:53 pm
ð2Þ
Ejemplo
13
¨ 
En la distribución binomial del ejemplo:
¤  El
número de intentos (tiradas), n, se considera un
parámetro
¤  La función de y especifica la probabilidad de los datos
y para valores dados de n y w
¤  A la colección de todas las PDFs generadas al variar
los parámetros en el rango (0-1en este caso para w,
n>=1) define un modelo.
25/02/13 2:53 pm
Función de Verosimilitud (likelihood)
14
Dado un conjunto de valores de parámetros
¨  La PDF correspondiente muestra que algunos datos
son más probables que otros
¨  En el ejemplo, con w = 2, y = 2 es más probable de
ocurrir que y = 5 (0.302 vs. 0.026)
¨ 
25/02/13 2:53 pm
Función de Verosimilitud (likelihood)
15
¨ 
Sin embargo, tenemos el problema inverso
¤  Ya
observamos los datos
¤  Dados los datos observados y un modelo de interés
n  Encontrar
la PDF, entre todas las densidades de
probabilidad que provee el modelo, que tiene la mayor
probabilidad de haber producido los datos
¨ 
Para resolver el problema se define la función de
verosimilitud invirtiendo los roles del vector de datos
y y el vector de parámetros w en f(y|w)
¤  LL(w|y)
= f(y|w).
25/02/13 2:53 pm
Función de Verosimilitud (likelihood)
16
¨ 
L(w|y) representa la verosimilitud del parámetro w
dados los datos observados y.
¤  Por
ejemplo, con y = 7 y n = 10:
L(w | n = 10, y = 7) = f (y = 7 | n = 10, w)
10! 7
=
w (1− w)3 (0 ≤ w ≤ 1).
7!3!
25/02/13 2:53 pm
Given a set of parameter values, the corresponding
PDF will show that some data are more probable than
other data. In the previous example, the PDF with w ¼
0:2; y ¼ 2 is more likely to occur than y ¼ 5 (0.302 vs.
0.026). In reality, however, we have already observed the
data. Accordingly, we are faced with an inverse
problem: Given the observed data and a model of
likelihood function is a function of the parameter given
a particular set of observed data, defined on the
parameter scale. In short, Fig. 1 tells us the probability
of a particular data value for a fixed parameter, whereas
Fig. 2 tells us the likelihood (‘‘unnormalized probability’’) of a particular parameter value for a fixed data set.
Note that the likelihood function in this figure is a curve
Función de Verosimilitud (likelihood)
17
Fig. 2. The likelihood function given observed data y ¼ 7 and sample size n ¼ 10 for the one-parameter model described in the text.
25/02/13 2:53 pm
Función de Verosimilitud (likelihood)
18
¨ 
Diferencia importante entre las funciones PDF f(y|w)
y de verosimilitud L(w|y) (ver figuras).
¤  Se
definen sobre ejes diferentes
¤  No son directamente comparables
¤  f(y|w) se define en la escala de datos
n  Función
de los datos dado un conjunto de valores de
parámetros
¤  L(w|y)
se define en la escala de parámetros
n  Función
del parámetro, dado un conjunto particular de datos
observados
25/02/13 2:53 pm
other sources (e.g., Bickel & Doksum, 1977, Chap. 3;
Casella & Berger, 2002, Chap. 7; DeGroot & Schervish,
2002, Chap. 6; Spanos, 1999, Chap. 13).
vector w can be expressed as a multiplication of
for individual observations,
f ðy ¼ ðy1 ; y2 ; y; yn Þ j wÞ ¼ f1 ðy1 j wÞ f2 ðy2 j wÞ
?fn ðym j wÞ:
Función de Verosimilitud (likelihood)
2. Model specification
2.1. Probability density function
To illustrate the idea of a PDF, consider the si
case with one observation and one parameter, t
m ¼ k ¼ 1: Suppose that the data y represen
number of successes in a sequence of 10 Bernoull
(e.g. tossing a coin 10 times) and that the probab
a success on any one trial, represented by the par
w; is 0.2. The PDF in this case is given by
From a statistical standpoint, the data vector y ¼
ðy1 ; y; ym Þ is a random sample from an unknown
population. The goal of data analysis is to identify the
population that is most likely to have generated the
10!
f ðy j n ¼ 10; w ¼ 0:2Þ ¼
ð0:2Þy ð0:8Þ10$y
sample.
In statistics, each population
is identified by a
92
I.J. Myung / Journal of Mathematical Psychology 47 (2003) 90–100
y!ð10 $ yÞ!
corresponding probability distribution. Associated with
ðy all
¼ 0;
1; y; 10Þ
each
probability
is a unique
value
of theinterest, find the one PDF, among
the probability
which
is knowndistribution
as the binomial
distribution
with
19
¨ 
¨ 
Fig. 1 nos dice la
probabilidad de un valor
de datos en particular para
un parámetro fijo.
Fig. 2 nos dice la
verosimilitud (“probabilidad
no normalizada”) de un
parámetro particular para
un conjunto de datos fijo.
parameters n ¼ 10; w ¼ 0:2: Note that the number of
trials ðnÞ is considered as a parameter. The shape of this
PDF is shown in the top panel of Fig. 1. If the
parameter value is changed to say w ¼ 0:7; a new PDF
is obtained as
10!
f ðy j n ¼ 10; w ¼ 0:7Þ ¼
ð0:7Þy ð0:3Þ10$y
y!ð10 $ yÞ!
ðy ¼ 0; 1; y; 10Þ
ð3Þ
whose shape is shown in the bottom panel of Fig. 1. The
following is the general expression of the PDF of the
binomial distribution for arbitrary values of w and n:
n!
wy ð1 $ wÞn$y
f ðyjn; wÞ ¼
y!ðn $ yÞ!
ð0pwp1; y ¼ 0; 1; y; nÞ
ð4Þ
densities that the model prescribes, that is most likely to
have produced the data. To solve this inverse problem,
we define the likelihood function by reversing the roles of
the data vector y and the parameter vector w in f ðyjwÞ;
i.e.
LðwjyÞ ¼ f ðyjwÞ:
ð5Þ
Thus LðwjyÞ represents the likelihood of the parameter
w given the observed data y; and as such is a function of
w: For the one-parameter binomial example in Eq. (4),
the likelihood function for y ¼ 7 and n ¼ 10 is given by
Lðw j n ¼ 10; y ¼ 7Þ ¼ f ðy ¼ 7 j n ¼ 10; wÞ
10! 7
¼
w ð1 $ wÞ3 ð0pwp1Þ:
7!3!
ð6Þ
The shape of this likelihood function is shown in Fig. 2.
which as a function of y specifies the probability of data
There exist an important difference between the PDF
y for a given value of n and w: The collection of all such
f ðyjwÞ and the likelihood function LðwjyÞ: As illustrated
PDFs generated by varying the parameter across its
in Figs. 1 and 2, the two functions are defined on
range (0–1 in this case for w; nX1) defines a model.
different axes, and therefore are not directly comparable
to each other. Specifically, the PDF in Fig. 1 is a
2.2. Likelihood function
function of the data given a particular set of parameter
values, defined on the data scale. On the other hand, the
Given a set of parameter values, the corresponding
likelihood function is a function of the parameter given
PDF will show that some data are more probable than
a particular set of observed data, defined on the
other data. In the previous example, the PDF with w ¼
parameter scale. In short, Fig. 1 tells us the probability
0:2; y ¼ 2 is more likely to occur than y ¼ 5 (0.302 vs.
of a particular data value for a fixed parameter, whereas
0.026). In reality, however, we have already observed the
Fig. 2 tells us the likelihood (‘‘unnormalized probabil1. Binomial we
probability
distributions
of sample
10 and
¼ 0:2 for
(top)
and wdata
¼ 0:7
(bottom).
data. Fig.
Accordingly,
are faced
with an
inversesize n ¼ity’’)
of aprobability
particularparameter
parameterwvalue
a fixed
set.
problem: Given the observed data and a model of
Note that the likelihood function in this figure is a curve
Fig. 2. The likelihood function given observed data y ¼ 7 and sample size n ¼ 10 for the one-parameter model described in the text.
25/02/13 2:53 pm
Ecuación de Verosimilitud
20
Las estimaciones “MLE” pueden no existir o pueden
no ser únicas.
¨  Veremos sólo cuando existen y son únicas.
¨  Por conveniencia, MLE se obtiene maximizando la
función log-likelihood: lnL(w|y)
¨ 
¤  lnL(w|y)
y L(w|y) están monotónicamente relacionadas
una a la otra
n  Se
obtiene el mismo estimado MLE maximizando cualquiera
de ellas
25/02/13 2:53 pm
Ecuación de Verosimilitud
21
¨ 
Asumiendo que lnL(w|y) es diferenciable, si wMLE
existe, debe satisfacer la siguiente ecuación
diferencial parcial conocida como “likelihood
equation”
∂ln L(w | y)
=0
∂wi
¤  con
wi = wi,MLE para todo i = 1, …, k.
25/02/13 2:53 pm
Ecuación de Verosimilitud
22
¨ 
¨ 
La ecuación representa una condición necesaria para la
existencia de un estimado MLE
Condición adicional a satisfacer para asegurar que lnL(w|y)
sea un máximo y no un mínimo
¤ 
La primera derivada no revela esta condición
n 
¤ 
Para ser un máximo, la forma de la función “log-likelihood” debe ser
convexa (representar un pico y no un valle) en la vecindad de wMLE
Se puede verificar con la segunda derivada de “log-likelihoods” y
mostrando si son todos negativos en wi = wi,MLE para i = 1, …, k
∂2 ln L(w | y)
<0
2
∂w i
25/02/13 2:53 pm
Ejemplo
23
¨ 
Con L(w|n = 10, y = 7), obtenemos el log-likelihood como:
10!
ln L(w | n = 10, y = 7) = ln
+ 7ln w + 3ln(1− w)(9)
7!3!
¨ 
La primera derivada del log-likelihood:
d ln L(w | n = 10, y = 7) 7
3
7 −10w
= −
=
.
dw
w 1− w w(1− w)
¨ 
Se requiere que esta ecuación sea cero y el estimado MLE
deseado se obtiene como: wMLE = 0.7
25/02/13 2:53 pm
Ejemplo
24
¨ 
Para asegurar que la solución representa un
máximo y no un mínimo, se obtiene la segunda
derivada del log-likelihood en w = wMLE
d 2 ln L(w | n = 10, y = 7) 7
3
= 2−
= −47.62 < 0.
2
2
dw
w (1− w)
¨ 
es negativo, como se desea.
25/02/13 2:53 pm
Ecuación de Verosimilitud
25
¨ 
En la práctica, (usualmente) no es posile obtener una
solución en forma analítica para el estimado MLE
¤  Aún
más cuando el modelo tiene muchos parámetros y su
PDF es altamente no-lineal.
¤  En esas situaciones, el estimado MLE se debe ser buscado
numéricamente usando algoritmos de optimización nolineales
n  Buscar
subconjuntos mucho más pequeños del espacio de
parámetros multi-dimensional, en lugar de búsqueda exhaustiva
de todo el espacio de parámetros
n 
Intratable conforme aumenta el número de parámetros
25/02/13 2:53 pm
Ecuación de Verosimilitud
26
94
I.J. Myung / Journal of Mathematical Psychology 47 (2003) 90–100
Fig. 3. A schematic plot of the log-likelihood function for a fictitious one-parameter model. Point B is the global maximum whereas points A and C
are two local maxima. The series of arrows depicts an iterative optimization process.
searching much smaller sub-sets of the multi-dimensional parameter space rather than exhaustively searching the whole parameter space, which becomes
tries to improve upon an initial set of parameters that is
25/02/13
2:53
pm are chosen
supplied by the user. Initial
parameter
values
either at random or by guessing. Depending upon the
Referencia
27
¨ 
In Jae Myung, Tutorial on maximum likelihood
estimation. Journal of Mathematical Psychology 47,
pp. 90 – 100, 2003.
25/02/13 2:53 pm
Descargar