Una nota sobre el método de máxima verosimilitud

Anuncio
ESTADISTICA ESPAÑOLA
Vol. 34, Núm. 131, 1992, págs. 395 a 405
Una nota sobre el método de máxima
verosimilitud
por
VICENTE NOVO y LUIS RODRIGUEZ MARIN
Departamento de Matemática Aplicada
ETSI Industriales (UNED)
RESUMEN
Se utilizan técnicas de diferenciación generalizada para obtener
estimadores de máxima verosimilitud cuando la función de verosimilitud no es diferenciable en el sentido clásico.
Palabras clave: Estimador, máxima verosimilitud, derivada generalizada.
C/asificación AMS: 62F 10.
1.
INTRODUCCION
Dada una variable aleatoria x con dístribución de probabilidad f(x;U) (discreta o continua) dependiente del parámetro nE S2 (escalar o vectorial) desconocido, se plantea el problema de definir estirnadores de dicho parámetro. Uno de
los métodos clásicos es el de máxima verosimilitud, consistente en definir como
estimador de O el valor O que hace máxirna la función de verosimilitud L:S^-^R
dada por L(U; x^, ..., xn )=f(x^, ..., x^; O) cuando tal valor exista. Se trata, por lo
tanto, de un problema de optimización.
Si L(• ; x^, ..., x^ ) es diferenciable en cada punto de S2, son aplicables las
técnicas de optirnización del cálculo diferencial clásico. Sin embargo, no existe
un método general aplicable al caso en que L no sea diferenciable.
f`^T ^^I)I^+I I( ^ f tif'^\til y^ ^
Z^)f^
Las teorías de diferenciación generalizada desarralladas en los últimos años
---véanse Rockafellar (197^0), Aubin (1978), Clarke (1981) (1990), Hiriart-Urruty
(1985), Cominetti Correa (1990), Novo (1990)- proporcionan técnicas matemáticas para el estudio de problemas de optimización de funciones no diferenciables.
EI propósito de este trabajo es la descripción de una técnica para obtener
estimadores de máxima verosimilitud para una clase de funciones de verosimilitud más arnplia que las diferenciables, a las que denorninaremos fuertemente
continuas, y que contiene además a las funciones convexas, cáncavas y localmente lipschitzianas. Esta técnica se basa en la utilización de una derivada
generalizada, in#roducida en Novo (1990), que denorninaremos G-derivada, de
forma que la técnica clásica es un caso particular debido a que la G-derivada se
reduce a la derivada clásica para funciones derivables.
Se trata únicamente el caso unidimensional, es decir, cuando s2cR, aunque
1as definiciones y propiedades de la G-derivada han sido extendidas al caso de
funciones entre espacios de dirnensión finita y al caso de funcionales reales
definidas sobre un espacio normado - Novo (1990); Novo, Rodríguez Marín
(1991) . EI trabajo se estructura como sigue. En 2 se dan las definiciones y
propiedades básicas de la G-derivada; en 3 se recogen condiciones de extremo
para funciones fuertemente continuas en términos de G-derivadas, y en 4 se
ilustra 1a aplicación de estos resultados obteniendo estimadores de máxima
verosimilitud ( MV) para una distribuc^ón de Laplace.
Se utilizan las notaciones siguientes. IcR es un intervalo abierto o cerrado
con la topología inducida, f:l--^R. Conv(I ), LL(l ), CF(I ) y C(/ ) representan
los conjuntos de funciones convexas, localmente lipschitzianas, fuertemente
continuas y continuas en l, respectivamente. f+'(x), f'(x), f'(x} son las derivadas
clásicas; aRf(x) es la derivada en el sentido del análisis convexo
--Rockafellar (1970)-, y ^f(x) es la G-derivada. Dados x, yE I denotaremos
F(x^ Y)=^f (Y)-f (x)J^(Y-x}.
2.
G-DERIVADA. PROPIEDADES
Definición 2.1
f es de clase CF en a E I si existen un entorno reducido V de a y una
constante k>0 tales que
^F(a, y)^<_k, para todo yE V
Se demuestra fácilmente que Conv(I )cLl(1)cCF(I )(I abierto), siendo los
contenidos estrictos, que la composición de funciones de clase CF es una
l'ti,^ ^1^)^f,^ S(^ ^ E3FtE E-.L ^tE^T^^^)[)^^^) LaE^ ^1^^\fti1^^ ^.^f^^k^)ti11111 1^11 ^[>
función de clase CF y que [CF (I ), +, •] es una subálgebra densa en C(/)
(/ cerrado) que contiene a las funciones derivables y, en particular, a las polinómicas.
Definición 2.2
Se dice que (x„ )--^a, xn E l, es una sucesión de G-derivabilidad de f en a si
existe y es finito el límite
1( f, a, x^ )=^i m F( a, x^ )
Se denota por S(f, a) el conjunto de sucesiones de G-derivabilidad de f en a.
A partir de la definición 2.1 es claro que si f es CF en a, entonces cada
sucesión (xn )-^a de elementos de I contiene una subsucesión de G-derivabilidad
de f en a, lo que hace que tenga sentido la siguiente definición de G-derivada.
Definición 2.3
Se Ilarna G-derivada de una función f de clase CF en a al siguiente conjunto
no vacío de números reales
c^f (a)=CO {! ( f, a, xn ): (xn )E S(f, a)}
en donde co A denota la envoltura convexa de A.
Análogamente se definen las G-derivadas laterales ^+f y^-f utilizando sucesiones ( xn )cl convergentes a a por la derecha y por la izquierda, respectivamente. ^f(a), ^+f(a) y ^-f(a) son subconjuntos no vacíos, convexos (por definición) y
compactos de R. ^f(a)=co {a+f(a) ^ c^-f(a)}. En Novo (1990) se demuestra que la
G-derivabilidad de f en a es equivalente a que f sea CF en a, que la G-derivada
de f en a se reduce a la derivada clásica si f es derivable, coincide con la
derivada del análisis convexo si f es convexa y se cumple la siguiente regla de
la cadena
^(f^9') (a)c^^f[9'(a)J•^^9(a)
F^`^ T:^t)I`^ill ^^ F^^P^^ti^ ^ I ^1
yh
En la proposición siguiente se recogen las reglas de cálculo de G-derivadas,
Como las demostraciones son sencillas, sólo desarrollamos una de ellas.
Proposición 2.4
Dadas f y g de clase CF en a y rE R, se verifica
{i)
(ii)
(iii)
(iv)
rf es G-derivable en a y a(rf)(a)=raf(a).
f+g es G-derivable en a y ^(f+g}(a)caf(a)+ag(a).
fg es G-derivable en a y a(fg)(a)cf(a)^g(a)+g(a))f(a).
Si además g(a)^0, f/g es G-derivable en a y
^^(f/g) (a)^[g (a)^f (a)-f (a)^g (a) ] ^ [9'(a)l2.
Demostración
(ii) Como f y g son CF en a, f+g es CF en a y, en consecuencia, G-derivable en a. Sea (x^ ) E S (f+g, a). AI ser f G-derivable en a, existe una subsucesión (xp ) de (x„ ) con I{f, a, xP ) finito, y corno g es G-derivable en a, dada la
sucesión (xp ), existe una subsucesión (xq ) de ésta con 1(g, a, x^ ) finito; luego
1(f+g, a, x^ )=1(f+g, a, xQ )=1(f, a, xq )+l (g, a, xq ), de donde 1(f+g, a, xn )E ^f{a)+ag(a}
para toda (xn ) E S{f+g, a). Por ser a(f+g)(a) y af(a)+ág{a) conjuntos convexos,
se tiene finalmente que
^(f +g)(a)c^f(a)+^9'(a)
Esta propiedad ( ii) se extiende de forma natural a ia suma de una familia
finita de funciones CF en a. En general, los contenidos anteriores son estrictos.
Por ejemplo, considerando f(x)=(x^ y g (x)=-^x^ se tiene que ^(f+g)(Cl)=0, mientras que af(o)+ag(^}=[-2,2]. Es de gran interés el estudio de las condiciones en
las cuales se dan las igualdades. En la siguiente proposición se estudia una
condición suficiente para que se verifique la igualdad en el caso de la suma.
Proposición 2.5
Sean / abierto y f:l --^R, i=1, 2, ..., k. Si f. es convexa (cóncava) para cada
i=1, 2, ..., k, entonces
^(f^+f2+...fk )(a)=t^f^(a)+^^f2(a)+...+^fk (a)
para cada aE/
l^N^^ tiOiA tiOi;Kt EL_ ti1ETO[)O I)E ^1.^^1^1,^ ^ f ft^^ti1^111 lil'[^
3y^)
Demostración
Como para cada i, f es convexa, resulta que f E CF(1) y, en cansecuencia,
G-derivable en cada punto de /; luego por 2.4.(ii) se tiene el primer contenido.
Por otra parte, al tratarse de funciones convexas, ^f (a)=aR f(a) para cada i y
cada a E/. En estas condiciones, un resuttado conocido del análisis convexo
-Rockafellar ( 1970), 23.8--- nos permite asegurar que
^R f(a)^ ^R f, (a)+d R f2(a)+...+t^R fk (a)
para cada aE/. AI ser f suma de funciones convexas, es convexa, con lo que
^f(a)=^Rf(a) para cada a E I y se tiene la igualdad.
Para f cóncava basta tener en cuenta que -f es convexa y que por 2.4.(i)
^(-f )(a)=-^f (a).
Ejemplo 2.6
Sean f (x)=^x-1 ^ y g (x)=^x-2^, (f+g)(x)=3-2x si x<1, (f+g)(x)=1 si 1<_ x<_ 2
Y (f+g)(x)=2x-3 si x>2.
^f (x)=-1 si x< 1; af (1)=[-1,1 ]; ^f (x)=1 si x> 1.
^g (x)=-1 si x<2; ag (2)=[-1,1 ]; ^g (x)=1 si x >2.
^(f+9)(x)=-2 si x<1; a(f+9')(1)=[-2,OJ; ^(f+9')(x)=0 si --1 <x<1;
^(f+g)(2)=[0^21^ ^(f+9')(x)=2 si x>2.
Se comprueba fácilmente que ^(f+g)(x)=^f(x)+^^g(x) para cada xE R. Nótese
que f y g son convexas en R.
3.
OPTIMIZACION DE FUNCIONES NO DERIVABLES
En Novo (1990) se demuestra la siguiente versión del teorema del valor
medio en este contexto. Si fE CF [a, b], entonces existen c E(a, b) y A E^f(c)
tales que f(b)-f(a)=A(b-a).
Proposición 3.1
Si fE CF ( 1) (I abierto) y a E I es un extremo refativo de f, entonces OE ^^f (a).
-ll)()
E-^^ T.aDI^^T lc^:t F^P.^wc ^l ,^
Demostración
Supongamos que a es un mínimo reiatívo de f, existe b>0 tal que f(x)-f(a)?0
para todo x con +x--a^<b. Sea (x,^) E S'(f, a), como {xn)--^a' para n suficientemente
grande se tiene que f(xn)-f(a)>o; luego F{a, x„ )>_0 y I+(f, a, xn )?o, es decir, que
a`f(a) contiene al menos un número no negativo. An^logamente se demuestra
que a!f(a) contiene al menos un número no positivo, y al ser ^f(a)=ca[a^f{a) ^^`(a)],
resulta que 0^ af(a). La demostración es similar si a es un máximo relativo
d e f.
Esta condición necesaria de extremo contiene como caso particular a la
clásica f'(a)=0 si f es derivable. La siguiente proposíción establece un criterio de
monotonía para funciones CF utilizando G-derivadas.
Proposición 3.2
Sean f^ CF[a, b] y h, kE {a, b) h<k, si para todo xE (h, k), áf(x) c R+
(resp. R^), entonces f es estrictamente creciente ( resp. decreciente) en (h, k}.
Demastracíón
1/eamos únicamente el primer caso. En efecto, si x^, x2 E(h, k) con x2-x^>0,
por el teorema del valor medio indicado an#eriormente, existen c E(x^, x2} y
A E af(c) tales que
f (x2}-f (x1)=A(x2-x^ )
y como af(x)cR+ para todo x E(h, k), A > 0 y f es estrictamente creciente en
{h, k).
Se enuncian a continuación dos condiciones suficientes de extremo relativo,
cuyas demostraciones pueden verse en Novo (1990). La primera es una extensión natural de la teoría clásica, mientras que la segunda es propia de esta
teoría.
Proposición 3.3
Sean I abierto, fE CF (/) y a E 1 tal que OE df(a). Si existen l^=(a-b, a}c/ e
12=(a, a+b)cl tales que ^f(x)cR+ ( resp. R-} para todo xE I^ y^f(x)cR ( resp. R+}
para todo xE 12, entonces a es un máximo ( resp. mínimo) relativo de f.
U!^fA f^t)^^I^A SUF^31tF: E^^L_ MET(1[)O DE ti1A^lti1^^ ^`Fkt ^ ^I1tll_ITI^C:)
-^OI
Proposición 3.4
Dada fE CF ( I ), se verifica:
(i)
Si OE af(a}^[^`f(a)^c^^f(a)], a^f(a)cR^- ( resp. R+) y^`f(a)cR4 ( resp. R-),
entonces a es un mínimo ( resp, máximo) relativo de f.
(ii} Si OE Int ^'f(a)vlnt ^-f(a), entonces a no es extremo de f.
En el caso en que OE Fra'f(a)^Fr^^f(a), nada se puede asegurar sobre la
naturaleza del punto a.
4.
APLICACION AL ESTUDIC^ DE ESTIMADORES MV
Estas técnicas de optimización basadas en el uso de G-derivadas nos
permiten obtener estimadores MV en el caso de una función L(^; x,, ..., x^ ) de
clase CF en S2 no necesariamente derivable, de forma que la técnica clásica
queda engiobada en ésta como caso particular. Con objeto de ilustrar ei método, consideremos una población descrita por la variable X con distribución de
Laplace de parámetro O desconocido, cuya función de densidad continua viene
dada por
f(x; O)= -i exp [-^x-p ]; -^<x<^, OE R
(
2
Dada una muestra aleatoria simple, supondremos por comodidad que ya
está ordenada y que, además, todos los elementos son distintos, es decir,
x^<x^<...<xn . La función de verosimilitud L(^; x,, ..., x^ ): R-^R en este casa es
L(O; X^, ... , xn )=
1
2n
exp
n
-^ ^X^-O)
i=1
Por brevedad pondremos L(O). Como L no es derivable, no se pueden
aplicar los criterios clásicos de optimización; sin embargo, al ser LE CF(R),
podremos utlizar las técnicas anteriormente indicadas. Lo mismo que en el caso
clásico obtendremos el máximo de IogL, que coincide con el de L por ser log una
función monótona.
n
1
La función IogL(O)=nlog- ^^x;-O^ es la suma de n+1 funciones cóncavas,
2 i=1
la primera constante y n del tipo - ^x; -O^, de forma que la G-derivada de IogL(O)
es, por 2.5, la suma de las G-derivadas. Como ^(nlog 1 /2)=0 para cada O E R y
para cada i=1, ..., n(véase ejemplo 2.6)
t ^r a«i^Tic ^^ E^s^^,^tit ^t ,>
-^^ ^ ^?
^l^xr-U^=
-1
si C)<x ,
^-1, 1]
si (^=x ,
1
si C)>x ^
resulta que la G-derivada de IogL es
n
si
4<min (x^, ..., xR )
[n-^ w nl
n-2
si
si
U=x,
x1 <O<x2
En-^, n-2]
si
0=x^
n-4
si
x2<O<x3
-n+2
si
x^ ._, <^<x„
[-n, -n+2]
si
U=xn
-n
SI
O>max (x1, ,.., xn }
Supongamos que el tamaño muestral n es impar; en este caso, e! único valor
de O que anula la G-derivada es xtn +1^^2, de forma que
o E ^IogL(x^n+,,,^)=[-1,1 ]
con G-derivadas laterales
^^ IagL(x^^ ^ +,^,2)=1 cR+ y^+ IogL(x^n+,^,2)=-1 cR .
Por 3.^4.(i) se concluye que 0=xt„+,^,2 es un máximo de IogL que, además, es
única; pero x^,^+^^,2 es la mediana muestral {med.), luego el estimador MV de (J es
0=med {x^, ..., xn )
Si n es par OE ^ IogL(O) para tado O E [xn,2, xn^2+,]. Por 3.2 se tiene que IogL es
creciente si O<xn^2, puesto que 71agL(C))cR+ y es decreciente si U>Xn^2+1 al ser
a logL(O)cR ^. Además, como ^ IogL(O)=0 para todo O E (x^^2, xn^2+^), resulta que
cualquier valor del intervalo [x^^2, xn,^+^] es máximo de IogL, can lo que cualquier
valar de ese intervalo es un estimador de máxima verosimilitud del parámetro O.
Nótese que en este caso la unicidad del estimador de máxima verosimilitud
depende de! tamaño rnuestral.
l^^lA tiO'T;^ ^OEiRE F•L !1^1f-:^TC)[)^) UE^ ^1.^X1!^1.^ ^ F.K.( ^ 511111 ITl't)
aU^^
Esta técnica para obtener estimadores MV es aplicable igualmente al caso
de un parámetro O vectorial (S2cR^ ) utilizando las condiciones de extremo para
funciones G-diferenciables de R^ en R dadas en Novo (1990).
Es conocido que el estimador dada para el parámetro O de la distribución de
Laplace se puede obtener sin necesidad de recurrir a técnicas de diferenciación
generalizada. Se ha seleccionado este ejernplo a modo de ilustración de la
aplicación de estas técnicas que pueden conducir a resultados de rnucho mayor
interés estadístico. En particular estamos estudiando, mediante la utilización de
G-derivadas, propiedades asintóticas de los estimadores de máxima verosimilivéase Huber (1981) . En problemas relacionatud y de los M-estimadores
dos con los estimadores robustos ya se han aplicado diversas teorías de diferenciación. Hampel (1974) introduce la función de influencia lC(x; T, F) a partir
de la diferencial Gateaux y, en este misrno contexto, Reeds (1976), Clarke
(1983), Fernholz (1983) y otros utilizan la diferencial compacta en el sentido de
Averbukh y Smolyanov (1968). Esta función de influencia ha resultado de gran
utilidad en el estudio de estimadores robustos. Es claro que si T es un funcional
estadístico de clase CF se puede definir una multifunción de influencia, que se
reduciría a la función de influencia de Hampel si Tes diferenciable Gateaux. Las
conclusiones que se puedan obtener a partir de esa rnultifunción de influencia
constituyen otra de las cuestiones a estudio.
Huber (1981) generaliza los estimadores de máxima verosimilitud e introduce los M-estimadores como sigue. Tn es un M-estimador del parárnetro 4 si es
solución del problema de optimización
n
rnin ^ p(x^; O)
^ i=1
en donde p es una función arbitraria [si p(x; O)=-log f(x; O) se obtiene el
estimador de máxima verosimilitud], de forma que si p es derivable como función
de O, Tn es solución de la ecuación implícita
n
^, `^(x ; ; o)=o
i=,
con `^(x^; O)=p'(x^; O). Si p es de clase CF en O(no necesariamente derivable en
el sentido clásico), la ecuación anterior puede ser sustituida por una condición
de la forma
n
OE ^, ^3p(x^ ; O).
i=1
-l(1-^
Eti'TAC)ISTI(^^A E^_SF'A^J(^[_.^
REFERENCIAS
Aue^N, J. P. {1978): «Mathematical Methods of Game and Economic Theory».
NOrt Holland.
AVERBUKN, V. 1. - SMOLYANOV, O. G. (1968): «The various definitions of #he
derivative in linear topological spaces». Russian Math. Surv., 23, 67-113.
CLARKE, B. R. (1983): «Uniqueness and Fréchet differentiability of functional
solutions to maximun likelihood type equations». Am. Statist., 11, 11961205.
CLARKE, F. H. (1981 }: «Generalized gradients of Lipschitz functionals». Adv. in
Math., 40, 52-67.
CLARKE, F. H. (1990): «Optimization and Nonsrnooth Analysis, Classics in Applied
Mathematics». SIAM.
COMINETTI, R. - CORREA, R. (1990): «A generalized second-order derivative in
nonsmooth optimization». 5iam J. Control and Optimization, 24, 4, 789-809.
FERNHOLZ, L. T. (1983): «Von Mises calculus for statistical functionals». Lect.
Notes in Stat., 19, Springer, New York.
HAMPEL, F. R. (1974): «The influence curve and its role in robust estimation».
Jour. Amer. Statist. Ass., 62, 1179-1186.
HIRIART-URRUTY, J. B. (1985):
«Miscellanies of nonsmooth analysis and
optimization». Lect. Notes in Econ. and Math. Syst., 255, 8-24.
HUBER, P. J. (1981): «Robust statistics». Wiley series in probability and mathematical statistics.
Novo, V. (1990): «Diferenciación generalizada». Tesis doctoral. Serv. de Investigación UN ED.
Novo, V. - R©DRiGUEZ MARiN, L. (1990): «An extension of the inverse function
theorem». Rev. de la Real Acad. de C. Exactas, Físicas y Naturales, 84,
Cuaderno, 575-588.
REEDS, J. A. (1976): «an the definition of von Mises functionals». Ph. D. thesis,
Dept. Statistics. Harvard Univ. Cambridge, Mass.
ROCKAFELLAR, R. T. (1970): «Convex Analysis». Princeton Mathematics Ser., vol.
28, Princeton Univ. Press.
l_INA NOTA SOBRE E=L. h1ETC)I^O [)F^ ti1,A^íIM.A ^'F-K( ^ ^;Iti11LlTl!C)
A NOTE ON MAXIMUN LIKELIHOOD ESTIMATES
SUMMARY
This work deals with maximun likelihood method when the rnaxirnun
likelihood function is non-smooth. We explore some technics using
generalized derivatives.
Key words: Estimate, maximun likelihood, generalized derivative.
AMS C/assification: 62F 10.
^(1^
Descargar