Tema 2. Estimación puntual.

Anuncio
Estimación puntual
Estadística aplicada a la empresa II
Prof. D. Juan José Pérez Castejón
1
ESTIMACIÓN PUNTUAL
Tras hacernos a la idea en el tema anterior de lo que la
inferencia estadística es y persigue, en este tema y en los que
siguen, comenzaremos la revisión detenida de los diferentes
métodos de llevarla a cabo. En particular, en el tema que ahora
comienza comentaremos todo lo relacionado con la cuestión de la
estimación puntual.
La primera sección realmente estará dedicada a dar una visión
general de los propósitos y forma de proceder de las distintas
técnicas inductivas, y de las diferencias existentes entre ellas. Y
también servirá para establecer algunas hipótesis generales bajo
las que todas se realizarán. Las tres restantes secciones son las
que verdaderamente se centran en la estimación puntual. La
primera de las tres contiene una exposición de dos métodos de
obtención del estimador, la herramienta fundamental para estimar.
La segunda, define y comenta las propiedades básicas que los
estimadores deben tener. La tercera, y última del tema, expone
resultados acerca de cuáles de esas propiedades cumplen los
estimadores que se ha aprendido a calcular.
Las diferentes técnicas de inferencia estadística.
La inferencia inductiva estadística, cuyos fines se expusieron
en el tema anterior, se puede llevar a efecto a través de tres
procedimientos diferentes, escogiéndose uno u otro según el tipo de
resultado inductivo al que se quiera llegar. Son estos tres
procedimientos los siguientes: estimación puntual; estimación por
intervalos y regiones de confianza; y contraste de hipótesis.
Realmente, procesos de carácter puramente inductivo son
solamente los dos últimos, mientras que el primero sufre de algunas
carencias que obligan a no considerarlo como tal. A pesar de ello,
estudiaremos en este tema y en los siguientes, los tres, incluso el
no estrictamente inductivo, ya que algunos de los resultados
asociados a este último, son fundamentales para los otros dos.
El proceso de estimación puntual consiste en lo siguiente. Sea
c una cantidad –unidimensional– poblacional desconocida derivada
de la distribución de la v.a. X que afecta a todos los individuos de la
población. Supongamos que se precisa estimar c, esto es, obtener
Prof. D. Juan José Pérez Castejón
2
una cantidad que aproxime lo mejor posible su verdadero valor. La
forma habitual de conseguir esa estimación puntual pasa por
seleccionar un estadístico muestral unidimensional T y tomar, como
valor estimado de c, la realización muestral de T, t. Se dice
entonces que ese estadístico T es el estimador –puntual– de c,
ĉ = T . Si c no es unidimensional, sino que está compuesta de r
componentes, c=(c1,...,cr), precisándose en ese caso una
estimación de cada una de ellas, T entonces tendrá que tener el
mismo número de componentes, T=(T1,...,Tr), empleándose Ti en la
estimación de la correspondiente ci, ĉ i = Ti .
Sea c de nuevo la cantidad unidimensional citada antes.
Supongamos que mejor que una estimación puntual de c, lo que se
requiere es determinar un intervalo de la recta real del que podamos
tener un cierto grado de confianza de que contenga a c. En tal caso
se dirá que lo que se busca es una estimación por intervalo de
confianza de c. Para hacerla es preciso determinar dos estadísticos
muestrales T1 y T2 adecuados, cuyas realizaciones muestrales
sirvan para establecer los extremos inferior y superior del intervalo.
La estimación por confianza también cubre el caso general en el
que c=(c1,...,cr), precisándose entonces una región de Rr que
contenga a c con un determinado nivel de confianza. El estadístico
muestral que se escoja debe ser tal que su realización sirva para
establecer los límites de esa región. No es necesario ser más
preciso en la especificación del procedimiento para cantidades
poblaciones de dimensión superior a 1 pues sólo se tratará ese
caso, durante este curso, de manera marginal.
El último de los tres procedimientos inductivos citados
anteriormente, surge cuando lo que se plantea es cierta hipótesis
acerca de c y existe la necesidad de desarrollar un criterio a partir
del cual aceptar la validez o no de tal hipótesis. Se denomina
contraste de hipótesis a una regla o criterio de decisión como el
señalado. Los contrastes se construyen a partir de un estadístico
muestral T, produciéndose la aceptación o rechazo de la hipótesis
planteada según cuál sea el valor muestral de ese estadístico.
El objetivo principal del presente tema es el de la introducción
al primero de los tres procedimientos inductivos, el de la estimación
puntual. A temas posteriores se retrasan introducciones análogas
de los procedimientos de estimación por confianza y de contraste
de hipótesis.
Prof. D. Juan José Pérez Castejón
3
La mayor parte de la inferencia que se estudia en este tema y
en los siguientes, es de tipo paramétrico. Se califica de esa manera
a todo proceso inductivo que se lleva a cabo suponiendo de
antemano que la variable –poblacional– X sigue cierta distribución –
poblacional– continua o discreta, X~fπ(x) ó pπ(x), que ha sido
especificada completamente excepto en lo que se refiere al valor de
una cierta cantidad π, valor que es desconocido. π puede ser cierto
número real o, incluso, un vector de k componentes, π=(π1,...,πk). Lo
único que se conoce del valor de π es que cae dentro de cierto
subconjunto de Rk, π∈Π⊆ Rk, subconjunto que se conoce con el
nombre de espacio paramétrico.
El fin general de la inducción paramétrica es aumentar la
nuestro conocimientos sobre π mediante el análisis de la muestra
de X disponible. La ventaja de la inferencia paramétrica radica en
que los problemas que aborda pueden ser expresados siempre en
términos del único elemento de la distribución poblacional
desconocido, π, hecho que simplifica bastante todas las tareas a
realizar. Como ya se ha dicho, de las técnicas que analicemos a
continuación, solo una pequeña parte de ellas serán no
parámetricas. Para concretar más este punto señalaremos que solo
se revisarán algunas estimaciones de confianza de ese tipo,
mientras que en lo que se refiere a los tests de hipótesis, uno de los
dos temas dedicados a su presentación estará completamente
inmerso en el ámbito no paramétrico.
Hay que señalar también en este instante que los métodos que
aquí revisaremos están situados dentro de la Inferencia Estadística
Clásica, existiendo otra área de la Estadística Inductiva, la
Estadística Inductiva Bayesiana, en la que no nos adentraremos.
Como resultado de combinar el tipo de procedimiento inductivo
que se estudia en este tema, la estimación puntual, con las
hipótesis de partida de todas las técnicas paramétricas, podremos
fijar ya de manera muy precisa el planteamiento y objetivos de las
cuestiones y problemas que se tratan en las secciones siguientes.
Supondremos que la variable poblacional es X~fπ(x) ó pπ(x) siendo π
una cte. o vector de constantes de valor desconocido. Estaremos
interesados en conseguir una estimación puntual de cierta cantidad
poblacional de interés, c=h(π), cantidad que puede tener varias
componentes h(π)=(h1(π),...,hr(π)). Las preguntas que surgen de
forma inmediata son, ¿cómo seleccionar el estimador, ĥ( π) ?, ¿qué
Prof. D. Juan José Pérez Castejón
4
propiedades debe tener el estimador seleccionado para
asegurarnos de que proporcione una buena estimación?. Las
secciones siguientes son las que se dedican a responderlas.
Señalemos antes de empezar, dos características que deben
cumplir los estimadores, características que no se han podido
señalar mientras que no se ha formalizado adecuadamente la
hipótesis paramétrica de partida. Por razones obvias, un estimador
nunca podrá depender de parámetros desconocidos, y en particular,
nunca podrá depender del propio π. Y también resulta obvio que los
valores que el estimador de h(π) puede tomar, deben estar incluidos
en h(Π) por ser este el conjunto donde se sabe que h(π) se
encuentra.
Métodos de estimación.
Existen diferentes procedimientos para obtener estimadores.
No siempre son todos aplicables a cualquier situación, dependiendo
a veces el que se puedan emplear, de que se cumplan ciertas
condiciones adicionales. Revisaremos a continuación dos de los de
uso más general: el método de los momentos y el de máxima
verosimilitud.
Dos puntos importantes a tener en cuenta a la hora de decidir
entre aplicar un determinado método de estimación u otro, son las
posibilidades reales de poder llevar a efecto cada uno de ellos en la
práctica, y las propiedades que tengan los estimadores que
produzcan. Una vez que en secciones posteriores se analicen las
propiedades deseables en los estimadores, se comentarán las que
tienen los generados por los métodos de estimación que ahora se
analicen. Por otro lado, si las dificultades técnicas permiten aplicar o
no a una situación un método de estimación determinado, es algo
que debe decidir el investigador combinando el análisis detenido de
esa situación con su experiencia previa.
METODO DE ESTIMACIÓN DE LOS MOMENTOS.
Para presentar inicialmente este método, supondremos primero
que la cantidad a estimar es el propio π, esto es, h(π)=π y k=r.
Normalmente, es posible expresar las k componente de π en
función de determinados momentos ordinarios de la distribución de
Prof. D. Juan José Pérez Castejón
5
X. Supongamos por ejemplo, que eso se puede hacer recurriendo
únicamente a sus k primeros momentos ordinarios. Si ello es así,
tendremos π1=g1(E(X),E(X2),...,E(Xk)), ..., πk=gk(E(X),E(X2),...,E(Xk)).
El estimador de los momentos de cada πi se obtendrá sustituyendo
en esas expresiones cada momento ordinario por su estimación
natural, esto es, por el momento ordinario muestral Ok:
π̂1=g1(O1,...,Ok), ..., π̂k =gk(O1,...,Ok).
Deben tenerse en cuenta dos puntos al aplicar lo señalado. Por
un lado, como puede ocurrir que al expresar las πi como funciones
de las E(Xi) sean válidas varias posibilidades según que se recurra
a momentos de uno u otro orden, siempre se emplearán aquellas
expresiones que empleen los momentos de ordenes más bajos
posibles. Por otro, si de lo que se dispone son de igualdades que
expresan las E(Xi) como función de las πi, al revés de cómo se
indicó, las expresiones que se requieren se obtienen despejando los
πi en esas igualdades.
En general, cuando la cantidad a estimar h(π) es una función
cualquiera de π, su estimador de los momentos se obtiene
aplicando h a la estimación por los momento de π, ĥ (π)=h( π̂ ).
METODO DE ESTIMACIÓN DE MÁXIMA VEROSIMILITUD.
Igual que hicimos con el método de los momentos, la
exposición de este otro método de estimación, comenzará por el
caso en el que h(π)=π y k=r.
Una idea intuitiva y bastante sencilla es la que subyace detrás
del método de estimación de máxima verosimilitud, el mas popular y
empleado de los métodos existentes. Con este método lo que se
persigue es estimar como valor de π, aquel que hace mas probable
(verosímil) la realización de la muestra que se observe. La mayor
dificultad se va a encontrar a la hora de formalizar esa idea. El
proceso de formalización se va a llevar a cabo a continuación.
Sea una muestra (aleatoria o de cualquier otra clase) extraída
de la población en estudio. Sea su función de probabilidad conjunta
o su función de densidad, pπ(x1,....,xn) o fπ(x1,....,xn). De manera
directa (caso discreto ) o proporcionalmente y de forma aproximada
(caso continuo) esa función mide la probabilidad (verosimilitud) de
que la muestra caiga en el punto (x1,....,xn) en el que se valore.
Prof. D. Juan José Pérez Castejón
6
Como el tratamiento e interpretación que de ella se va a hacer, es el
mismo tanto para poblaciones continuas como discretas, en lo que
sigue adoptaremos siempre la notación del caso continuo y se
escribirá siempre fπ(x1,....,xn), aunque sin perdida de generalidad
pues todo lo que se diga será aplicable también al caso discreto.
La anterior función es una función determinista que tiene una
particularidad en la que hasta ahora hemos hecho poco hincapié.
Además de depender de las n variables (x1,....,xn), también es
función de π. Esa dependencia lo que indica es que según los
diferentes valores que puede tomar el parámetro desconocido, la
probabilidad de que la muestra valga (x1,....,xn) es diferente, mayor
o menor. Como función de él, se comporta como otra función
ordinaria cualquiera, por ejemplo, tendrá sus asíntotas, maximos,
minimos, opcionalmente será derivable, etc.
Si se valora ahora esa función, no en el punto (x1,....,xn) que se
desee, sino en lo que la muestra valga, (X1,...,Xn), obtenemos una
función que se denota como Lπ(X1,...,Xn)=fπ(X1,...,Xn). Dos hechos
caracterizan a Lπ. Por una lado, el que sea una variable aleatoria
pues el valor que toma dependerá de lo que a su vez valga la
muestra, siendo el valor de esta última una cantidad de carácter
totalmente aleatorio sin duda. Por otro lado, Lπ(X1,...,Xn), por la
interpretación de la función de densidad o probabilidad conjunta
comentada antes, medirá la probabilidad de que la muestra tome el
valor que de ella se observe.
Lπ(X1,...,Xn) se conoce como la función de verosimilitud de la
muestra. Si alguna vez tenemos que manejar al mismo tiempo
Lπ(X1,...,Xn) y la función Lπ(x1,...,xn)=fπ(x1,...,xn) ó pπ(x1,...,cn) definida
inicialmente, las distinguiremos entre sí denominándolas,
respectivamente, la versión aleatoria y determinista de la función de
verosimilitud.
Una vez definida Lπ, la estimación de π que se buscaba, se
obtendrá sencillamente tomándola igual al valor de esa variable que
maximiza Lπ: πˆ = arg max L π ( X1,..., Xn ) . El estimador π̂ así obtenido,
π∈Π
se conoce como el estimador máximo–verosímil (e.m.v. de π).
El problema de maximización planteado en la definición
anterior, es el que al ser resuelto, elimina la dependencia de π que
presenta
y
permite
que
el
estadístico
muestral
Lπ
Prof. D. Juan José Pérez Castejón
7
arg max L π ( X1,..., Xn ) sea, inicialmente, un estadístico aceptable
π∈Π
para ser usado como estimador pues no depende de parámetros
desconocidos.
Por otro lado, resulta obvio que el mayor problema técnico que
presentará la aplicación de la definición anterior, será precisamente
la resolución de ese problema. Podríamos encontrarnos con un
rango de situaciones que va desde las que no poseen solución,
hasta las que poseen más de una. Hagamos a continuación algunos
comentarios que pueden ser muy útiles para la tarea que hay que
realizar:
1.- Como la función logaritmo es una función creciente y
Lπ(X1,...,Xn)>0 siempre, se dará la igualdad siguiente:
arg max logL π ( X1,..., Xn ) = arg max L π ( X1,..., Xn ) . Por otro lado, la
π∈Π
π∈Π
experiencia demuestra que resolver la maximización de
logLπ(X1,...,Xn) suele ser más sencillo que la de Lπ(X1,...,Xn). Como
norma, optaremos por resolver siempre la maximización de logLπ.
2.- En este problema, se puede emplear las técnicas estándar
de optimización. En especial, es aconsejable recurrir a resolver las
condiciones de primer orden ( ∂L π ∂πi = 0 ) contrastando, mediante
las de segundo orden, que la solución que se obtenga sea un
máximo y no un mínimo. Sin embargo, hay que recordar que el uso
de estas condiciones está sujeto a algunas limitaciones y cuidados.
Destaquemos, que por un lado, un máximo solo está obligado a
cumplirlas si tal máximo es realmente un punto interior del recinto
de maximización, en este caso, Π. Mientras que, por otro lado, el
cumplir las condiciones de primer y segundo orden no es condición
necesaria de ser el máximo absoluto de una función, pudiéndose
tratar solamente de un máximo local.
Cuando la cantidad a estimar sea una función cualquiera h(π)
del parámetro desconocido, el método correcto de estimación
pasaría por redenominar a esa cantidad con otro nombre, por
ejemplo, λ=h(π) y hacer una reparametrización de Lπ en términos de
λ –y de parámetros adicionales si fuera preciso–. Una vez
conseguido ese objetivo, se debería comenzar el proceso de
estimación de λ desde el principio siguiendo todo el procedimiento
explicado.
Prof. D. Juan José Pérez Castejón
8
Existe un caso importante en el que el procedimiento de
estimación de h(π) explicado puede obviarse. Se trata de aquel en
el que h sea una función inyectiva (y por ello, biyectiva sobre el
nuevo espacio paramétrico, Λ=h(Π), al que pertenece λ). Si se da
esa circunstancia y ya se ha hallado el estimador máximo–verosímil
de π̂ , es fácil demostrar que entonces el estimador de h(π) cumple
que ĥ (π)=h( π̂ ).
Propiedades de los estimadores.
Como ha quedado establecido desde un principio, la
estimación de h(π) no pretende coincidir con exactitud con el valor
de esa cantidad, sino solo dar una buena aproximación –
estimación– de ella.
El anterior comentario queda reforzado aún más por el
siguiente hecho. La estimación se extrae del valor de la realización
muestral de un estadístico dado, y por ello lo que vale no será lo
mismo según cual sea la realización que se obtenga al extraer la
muestra. Si ese valor ni siquiera es siempre el mismo en todas las
realizaciones muestrales posibles, no se puede pretender tampoco
que sea igual a la cantidad a estimar.
Llegados a este punto conviene entonces plantearse la
siguiente cuestión. Puesto que la estimación que se obtenga va a
depender de la realización muestral de cierto estimador, ¿qué
propiedades se le deben exigir a ese estimador para estar seguro
de que tales realizaciones –al menos un alto porcentaje de ellas–
sean una buena estimación de h(π)?
Resolver una cuestión como esa traerá otros beneficios
adicionales. En la sección anterior quedaba abierta la cuestión de
qué criterios pueden seguirse a la hora de seleccionar un método
de estimación u otro. Claramente, el escoger aquel que genere los
estimadores de mejores propiedades debe ser uno de tales
criterios, y de hecho debe ser uno de los de mayor importancia.
PROPIEDAD DE INSESGADEZ.
Como se ha razonado, no tiene sentido exigirle a un estimador
que su realización muestral sea igual a h(π). Si no se le puede exigir
tal cosa, sí que parece aconsejable que por lo menos se le pida que
Prof. D. Juan José Pérez Castejón
9
si consideramos la media de todas sus realizaciones a lo largo de
todas las muestras posibles –esto es, su esperanza– con ella
obtengamos el valor que se quiera estimar. Esta propiedad es la
que se conoce como la de insesgadez: Eπ(ĥ (π))=h(π). En caso de
darse, al estimador se le califica de estimador insesgado. Hay que
notar que como la distribución de la muestra depende del parámetro
desconocido, ya que así ocurría con la de X, pasa lo mismo con la
distribución de cualquier estadístico y con cualquiera de sus
características, en particular con su esperanza Esto último, en la
igualdad anterior se hace notar mediante el subíndice π. Como el
verdadero valor de π es desconocido, la insesgadez de un
estimador se dará solo si la igualdad anterior se cumple para ∀π.
Es posible incluso relajar aún más lo que exige la propiedad de
insesgadez. Aunque la igualdad Eπ(ĥ (π))=h(π) no se cumpla de
manera exacta, puede bastar con que se cumpla de manera
aproximada, siendo tal aproximación mayor cuanto mayor sea la
información muestral de la que se disponga –tamaño muestral–.
Dicho de otra forma, también es admisible la propiedad de
insesgadez asintótica: limnÆ∞Eπ(ĥ (π))=h(π).
La insesgadez, al menos asintótica, es una las propiedades
mínimas exigibles a un estadístico para que pueda ser considerado
estimador de h(π).
Conviene hacer en este momento un alto para establecer cierta
terminología muy empleada al tratar las propiedades de los
estimadores. Propiedades como la insesgadez, que se cumple para
todo n independientemente de cómo de grande o pequeña sea esa
cantidad, se denominan propiedades de muestra finita. Por su lado,
las que son del tipo de la insesgadez asintótica, que lo que suponen
es una aproximación más cierta cuanto mayor sea el tamaño
muestral, se las conoce como propiedades asintóticas o de muestra
grande.
PROPIEDAD DE CONSISTENCIA.
Aun siendo la insesgadez un requisito mínimo a exigir, no es
sin embargo una propiedad que por sí sola garantice un estimador
aceptable. Aunque la media del estimador sea igual a h(π), eso no
garantiza que sus realizaciones muestrales no se alejen con
Prof. D. Juan José Pérez Castejón
10
frecuencia de esa media, con lo que se permite la posible existencia
de una alta probabilidad de estimaciones inexactas.
Lo que se acaba de señalar viene a indicar que también se
requiere una propiedad que controle el alejamiento entre los valores
de ĥ (π) y h(π). Veamos qué propiedad puede ser esa, centrándonos
primero en el caso en el que r=1 con lo que el estimador y la
cantidad a estimar son ambos unidimensionales. Mas tarde la
extenderemos al caso general.
Aunque la distancia citada en los párrafos anteriores parece
medida de manera natural por la cantidad |ĥ (π)–h(π)|, si en su lugar
consideramos esta otra, (ĥ (π)–h(π))2, obtendremos al final una
medida de mejores propiedades algebraicas y estadísticas. Puesto
que esa cantidad, que mide la distancia cuadrática entre h(π) y su
estimación, es una magnitud que varia de muestra en muestra, y
nuestro propósito es hacerla pequeña para el conjunto de todas las
muestras, parece bastante evidente que nuestro interés debe
dirigirse a hacer pequeña su media, esto es, E(ĥ (π)–h(π))2. A partir
de ahora a tal media la denominaremos error cuadrático medio
asociado al estimador ĥ (π), ECM de ĥ (π). Intuitivamente debe
entenderse como la distancia o diferencia cuadrática media –a lo
largo de todas las muestras posibles– existente entre la cantidad a
estimar y su estimación.
Como ya se ha señalado, lo que interesa del ECM de un
estimador es hacerlo pequeño. De todas formas, como no podemos
hablar de una cantidad lo suficientemente pequeña que en cualquier
problema pueda considerarse una cota aceptable del ECM, quizá
sea mejor enfocar la propiedad buscada desde otro punto de vista
ligeramente diferente. Lo que se puede exigir al estimador es que
aumentando lo suficiente la información muestral disponible –esto
es, aumentando el tamaño muestral–, el ECM se haga todo lo
pequeño que se precise. Tal cosa implica que limnÆ∞ECM=0.
Diremos que un estimador es consistente cuando cumpla esa
igualdad asintótica.
Es muy fácil demostrar la descomposición del ECM de
cualquier estimador en la suma de las dos cantidades mayores o
iguales que cero siguientes: ECM=var(ĥ (π))+(Eπ(ĥ (π))-h(π))2.
Gracias a ella se puede concluir que condición necesaria y
suficiente para que un estimador sea consistente, es que sea
Prof. D. Juan José Pérez Castejón
11
asintóticamente insesgado además de tener una varianza que
tienda a cero si n→∞. En el caso de estimadores insesgados, se
tendrá que ECM=var(ĥ (π)) y para demostrar su consistencia,
bastará con comprobar que su varianza tienda a cero.
Otra forma de entender la consistencia se obtiene al apreciar
que su definición lo que exige es que la sucesión ĥ (π), que varía
con el tamaño muestral, converja en media cuadrática a h(π).
Cuando en temas anteriores se definieron los diferentes tipos de
convergencia de una sucesión de vv.aa., se razonó que la
consecuencia más importante de la convergencia en m.c. a una
constante es que la sucesión de variables se concentre cada vez
más y con mayor probabilidad alrededor de esa constante,
conforme n crece.
Existe una definición alternativa de la propiedad de
consistencia, que lo único que requiere de ĥ (π) es que converja en
probabilidad a h(π). Podemos diferenciar una y otra definición entre
sí, llamandolas, respectivamente, consistencia en probabilidad y en
m.c. Obviamente, la consistencia en m.c. implica consistencia en
probabilidad. El nuevo tipo de consistencia se basa en una
definición menos exigente que la expuesta inicialmente, y sin
embargo ambas tienen la misma implicación fundamental sobre el
comportamiento del estimador. De todas formas, nosotros hemos
adoptado, como definición, la más estricta basada en la
convergencia en m.c., pues a nuestro nivel, lo estimadores que
empleemos serán consistentes en ambos sentidos y siempre es
mas sencillo el trabajo con la consistencia en m.c.
Cuando h(π) sea todo un vector de r componente diferentes, la
definición de consistencia se extiende de forma natural exigiendo la
consistencia de cada una de las r componentes de su estimador.
Así, diremos que ĥ (π) es un estimador consistente de h(π), si cada
una de sus componentes ĥ i(π) lo es de la correspondiente hi(π).
PROPIEDAD DE EFICIENCIA Y DE MINIMA VARIANZA.
La propiedad de insesgadez –asintótica al menos– y de
consistencia, pueden considerarse como las propiedades mínimas
exigibles a un estimador para ser considerado como tal. Se
necesitaría ahora una propiedad adicional que permitiera
seleccionar entre estimadores cuando hay disponibles varios de
Prof. D. Juan José Pérez Castejón
12
ellos que cumplan esos requisitos mínimos. Una propiedad así es la
que se analizará en esta sección. Para simplificar, supondremos
que tanto π como h(π) son cantidades unidimensionales. Al final de
la sección, levantaremos en parte esas restricciones.
Lo que se hecha en falta es un criterio que ayude a comparar
estimadores entre sí. Tal criterio lo puede suministrar el ECM
asociado a un estimador y que ya empleamos antes. Antes de
seguir, modifiquemos un poco la forma de denotarlo. Puesto que
será necesario, en aquellas referencias al ECM en las que se
precise añadiremos dos símbolos que nos recuerden que el valor de
esa cantidad depende del parámetro y que se trata del error
asociado a un determinado estimador: ECMπ(ĥ (π))
Ya que el ECM es una medida del error cometido al estimar
h(π), parece bastante lógico escoger para trabajar, aquellos
estimadores con menor ECM. Por ello, dados dos estimadores
ĥ 1(π) y ĥ 2(π), diremos que el primero es mejor que el segundo si
ECMπ(ĥ 1(π))<ECMπ(ĥ 2(π)). Esa desigualdad debe ser cierta ∀π.
Cuando la clase de los estimadores a considerar se restringe
aún un poco más, y se descartan todos aquellos que no son
insesgados en muestra finita, es posible ahondar más en la
definición anterior, y buscar el mejor de todos ellos. Dado un
determinado ĥ (π) insesgado, diremos que es el estimador
insesgado de mínima varianza uniformemente (e.i.m.v.u.) si para
cualquier otro ĥ ’(π) se cumple que ECMπ(ĥ (π))≤ECMπ(ĥ ’(π)). Esa
desigualdad debe ser cierta ∀π.
La definición de e.i.m.v.u. resulta muy atractiva. Caso de existir,
el e.i.m.v.u. es claramente el estimador que debería emplearse para
estimar h(π).
Hay que advertir, sin embargo, que la definición no nos
asegura la existencia del e.i.m.v.u. Dos condiciones implícitas se
exigen en ella. Por un lado, para que exista el e.i.m.v.u. debe existir
una cota inferior para la varianza de los estimadores insesgados de
h(π). Esa cota variará con π y si se denota como COTA(π), debe
cumplir que COTA(π)≤ECMπ(ĥ ’(π)) ∀π y ∀ĥ ’(π) insesgado. Pero
además, debe ocurrir también que exista un estimador específico,
ĥ (π), que será el e.i.m.v.u., que alcance expresamente esa cota:
Prof. D. Juan José Pérez Castejón
13
COTA(π)=ECMπ(ĥ (π)) ∀π. En el momento en el que una de esas
dos condiciones no se dé, y esto es factible que ocurra, no existiría
tampoco el e.i.m.v.u.
Cabe preguntarse hasta qué punto existen resultados que
aseguren el cumplimiento de una u otra de las dos condiciones
comentadas en el párrafo anterior. Esta cuestión ha sido analizada
y fruto de su análisis surgió un resultado estadístico muy
importante, el Teorema de Frechet, Cramer y Rao (FCR), que a
continuación vamos a exponer. Su enunciado exige primero
establecer las condiciones que debe cumplir una determinada
situación estadística para que el teorema pueda ser aplicado. Esa
es la tarea inicial que realizaremos aunque de manera muy
resumida. Después enunciaremos el teorema en sí.
Para empezar, indiquemos que seguiremos suponiendo todas
las hipótesis que se han venido comentando referidas a la
estimación que se pretende: las que afectan a la dimensión de π y
de h(π), etc. Añadamos la condiciones siguientes:
a) La distribución de la v.a. poblacional cumple que el conjunto
donde su función de densidad o de probabilidad no se anula, es
independiente de π. Por su lado, el espacio paramétrico Π debe ser
un conjunto abierto, acotado o no –subconjunto de R mientras
sigamos suponiendo que π es unidimensional–.
b) La esperanza E( ∂ ln L π ( X) ∂π )2 existe. En esa expresión se
emplea el símbolo de derivada parcial, ∂, en lugar del derivada total
que sería mas correcto al suponer π unidimensional. Lo hacemos
para que al tratar después el caso de π multidimensional, las
mismas expresiones que ahora se escriban sigan siendo válidas.
c) Son ciertas varias condiciones de ‘regularidad’ generales
adicionales que no enunciaremos de manera detallada.
Supuesto que todo lo anterior se cumple, el teorema
comentado afirma:
Prof. D. Juan José Pérez Castejón
14
Teorema (cota FCR).- Si ĥ (π) es un estimador insesgado
entonces varπ(ĥ (π))=ECMπ(ĥ (π)) es ∀π mayor o igual que la
siguiente cota:
cotaFCR(π)=( ∂h( π) ∂π )2/(–E( ∂ 2 ln L π ( X1,..., Xn ) ∂ 2 π ))
Además un cierto estimador ĥ (π) insesgado cumplirá que su
varianza es de hecho igual a esa cota –y por ello será el e.i.m.v.u–
si y solo si es cierta la siguiente descomposición:
∂ ln L π ( X1,..., Xn ) ∂π = (ĥ (π)-h(π))g(π)
donde g(π) representa una función que no puede depender de las Xi
pero sí de π.
El importante teorema anterior debe entenderse y usarse
correctamente, y no emplearlo para obtener conclusiones falsas. En
primer lugar, antes de aplicarlo, deberá comprobarse la veracidad
de sus condiciones de aplicación. Caso de no darse esas
condiciones, debe tenerse presente que la cotaFCR no es
relevante, y que el hecho de que un estimador la alcance ya no nos
asegura nada.
Una vez comprobado que las condiciones de aplicación son
ciertas, deberá calcularse la cotaFCR, que sería ya una cota inferior
de la varianza de todos los estimadores insesgados de h(π). En este
punto, sabríamos que la primera condición de existencia del
e.i.m.v.u. –la de la existencia de cota– se da.
La pregunta a contestar a continuación es si algún estimador
insesgado es tal que su varianza iguale a la cota hallada –segunda
condición para que exista el e.i.m.v.u.–. Para ello nos podemos
ayudar de las descomposición indicada en el enunciado del
teorema. Una respuesta afirmativa a esta nueva cuestión, daría
lugar a la finalización con éxito de nuestra búsqueda.
Sin embargo, una respuesta negativa a esta segunda cuestión
no debe llevar a la negación de la existencia del e.i.m.v.u.
Realmente, quedarían abiertas dos posibilidades y no podríamos
decidir cuál es la cierta, al menos empleando únicamente el
teorema FCR para hacerlo. La primera posibilidad es que el
e.i.m.v.u. exista pero su varianza sea superior a la cotaFCR, por lo
que no la habríamos detectado nosotros. La segunda posibilidad es
que realmente no exista e.i.m.v.u.
Prof. D. Juan José Pérez Castejón
15
Como se ve, hay dos características que no son siempre
equivalentes: “ser e.i.m.v.u” y “que la varianza alcance la cota”.
Añadamos por ello una definición adicional: un cierto estimador ĥ (π)
se dice eficiente si varπ(ĥ (π))=cotaFCR(π) ∀π.
Merece la pena incluir ahora dos notas de tipo técnico, que
ayuden a aplicar del teorema enunciado:
1.– De entre sus condiciones previas, solo contrastaremos
inicialmente y de forma expresa, la que se refiere al dominio donde
se anula la función de densidad o probabilidad de la población. La
comprobación de las restantes condiciones va implícita en el
desarrollo de los pasos posteriores.
2.– El denominador de la cota FCR, siempre de difícil cálculo,
tiene una expresión alternativa. Se cumple que:
–E( ∂ 2 ln L π ( X1,..., Xn ) ∂ 2 π )=E( ∂ ln L π ( X1,..., Xn ) ∂π )2
Si además estamos trabajando con una m.a.s, existen otras dos
expresiones alternativas para él:
–nE( ∂ 2 ln L π ( X) ∂ 2 π ) y nE( ∂ ln L π ( X) ∂π )2
En cada problema puede emplearse aquella que resulte más fácil
de aplicar.
Para terminar esta sección, vamos a eliminar las restricciones
sobre π y h(π) –que ambas sean unidimensionales– con las que al
principio encorsetábamos todo lo explicado. Lo haremos
minimamente, pero asegurándonos, al menos, de no dejar fuera por
completo un caso importante, el caso normal en el que π=(µ,σ).
Para ello permitiremos que π tenga la dimensión que sea aunque
mantendremos el hecho de que h(π) sea unidimensional añadiendo
la restricción de que sea función solo de una determinada
componente de π: h(π)=h(πi). En este caso, lo que ocurre es que
todo lo comentado sigue siendo totalmente válido y solo hay que
saber que en la expresiones anteriores en las que aparecen
derivadas parciales respecto de π, deben estas sustituirse por
derivadas parciales respecto de la componente πi que interviene en
h(πi).
Prof. D. Juan José Pérez Castejón
16
PROPIEDAD DE SUFICIENCIA.
La propiedad de suficiencia no es tanto una propiedad de los
estimadores, sino que se plantea para los estadísticos en general. Y
tampoco está directa y únicamente dirigida a la estimación de una
función de h(π), sino que está relacionada con el problema de la
inferencia sobre π en general, independientemente del tipo de
proceso inductivo que se emplee para llevarla a cabo. De todas
maneras, la incluimos aquí de forma que esta sección se convierta
en una pequeña revisión de algunas de las propiedades más
relevantes relacionadas con la cuestión de la inducción estadística.
Podemos cifrar el origen de la necesidad de disponer de
estadísticos suficientes, en lo siguiente. Manejar una muestra
completa puede convertirse en algo pesado por la gran cantidad de
datos que puede incluir. Cabe preguntarse hasta qué punto es
posible encontrar un estadístico con las componentes necesarias de
forma que sus valores muestrales aporten la misma información
sobre el parámetro π que la que aporta la propia muestra. Si se
pudiera hallar, tendríamos que el conjunto de toda la muestra se
puede resumir y sustituir por los valores del estadístico, sin perder
la información relevante que aquella incluía sobre el parámetro. Con
ello conseguiríamos seguramente un notable ahorro de medios:
tiempo, dinero, ....
De nuevo encontramos aquí una idea muy sugerente pero cuya
formalización resulta complicada. Son varios los elementos que
tenemos que expresar en términos estadísticos. Primero está la
idea de ‘información sobre π suministrada por la muestra’. Notemos
que en el hecho de que la densidad o probabilidad conjunta de la
muestra dependa de π, es aquel en el que hasta ahora nos hemos
basado –y así seguiremos haciendo– para obtener conclusiones
sobre ese parámetro. Piénsese en los métodos de estimación ya
explicados. La información a resumir aportada por la muestra se
concentra pues en la dependencia respecto de π de fπ(x1,...,xn) –o
de pπ(x1,...,xn) en el caso discreto–.
Por otro lado, una vez conocido el valor muestral t que
presente determinado estadístico T, la información sobre π que
queda en la muestra una vez eliminada la que va asociada al propio
t, la aportaría la función de densidad –probabilidad– condicionada
fX1,...,Xn/T=t,π(x1,...,xn) –pX1,...,Xn/T=t,π(x1,...,xn)–.
Prof. D. Juan José Pérez Castejón
17
Esta última función condicionada, en principio, podría depender
del parámetro desconocido ya que las distribuciones originales así
lo hacen. De hecho, si esa dependencia se da de forma efectiva,
encontraríamos que incluso extrayendo la información aportada por
T, en la muestra aún queda información relevante para π.
Podemos ya definir el concepto de estadístico suficiente. Dada
una muestra X1,...,Xn de cierta población X que se distribuye según
fπ(x) ó pπ(x), el estadístico muestral T se dice que es un estadístico
suficiente para π si fX1,...,Xn/T=t,π(x1,...,xn) ó pX1,...,Xn/T=t,π(x1,...,xn) es, de
hecho, una función realmente independiente del parámetro
desconocido π.
Tres puntos adicionales deben de precisarse aún en esa
definición:
1.– Para que realmente el valor muestral de T sea un valor
conocido y pueda ser empleado en la práctica, en sustitución de la
realización completa de la muestra disponible, x1,...,xn, T debe ser
un estadístico cuya fórmula también esté libre de parámetros
desconocidos, como ya dijimos que debe ocurrir, por ejemplo, con
un estadístico que se piense usar como estimador.
2.- La independencia respecto de π de la función de densidad o
de probabilidad condicionada, debe comprobarse para todo valor
posible, lo que implica que debe ser cierta ∀(x1,...,xn), incluso, por
ejemplo, para aquellos en los que se anula, y ∀t al que sea posible
condicionar.
3.– T es un estadístico con la dimensión necesaria, dimensión
que no tiene por qué ser ni 1 ni igual a la de π. Por otro lado, si T
resultara ser de la misma dimensión que π, tampoco debe
entenderse que entonces cada componente Ti pueda ser suficiente
para cada πi ni nada similar. La única definición que se ha hecho es
la que determina si un cierto T es suficiente de manera conjunta
para el parámetro π, tenga este la dimensión que sea.
En la práctica, hallar candidatos a estadístico suficientes y
comprobar si lo son, empleando la definición de suficiencia, es una
tarea complicada incluso en el caso de las distribuciones mas
Prof. D. Juan José Pérez Castejón
18
sencillas. El siguiente resultado propone otro método mas simple de
encontrar estadísticos suficientes :
Teorema (criterio de factorizacion): En las condiciones que
se vienen planteando, el estadístico T(X1,...,Xn) definido a partir de
la función determinista T(x1,...,xn), es suficiente para π si y solo si es
cierta una descomposición como la que sigue:
fπ(x1,...,xn) ó pπ(x1,...,xn) = h(x1,...,xn)gπ(T(x1,...,xn))
La descomposición anterior debe ser cierta en todo vector
(x1,...,xn). En ella, h representa una función que no puede depender
de π. Por su lado, g sí depende de π pero en cambio, no depende
directamente de las (x1,...,xn), sino que lo hace a través de una
función de ellas, en concreto de la misma función con la que se
define T. Intuitivamente, lo que exige la descomposición anterior es
que la dependencia respecto de las (x1,...,xn) que f presente de
manera conjunta e inseparable de π, se pueda expresar realmente
en términos de T, mientras que el resto de dependencia de las
(x1,...,xn), está libre de π.
Una última propiedad de los estadísticos suficientes afirma lo
siguiente:
Teorema: Si T es un estadístico suficiente y g es una
aplicación inyectiva de la dimensión adecuada, entonces g(T)
también es suficiente.
PROPIEDAD DE FAMILIA EXPONENCIAL.
Tal y como se hizo en el apartado anterior, en este de ahora se
comenta una propiedad, que más que estar específicamente
relacionada con la estimación puntual, lo está con todo el conjunto
de técnicas de la inferencia estadística. Examinaremos una
propiedad de ciertas familias de distribuciones, la propiedad de
familia exponencial.
En lo que sigue, llamaremos familia de distribuciones a un
conjunto de distribuciones estadísticas que tienen una función de
densidad o de probabilidad que puede ser expresada según una
formula general común. Todos los elementos que intervienen en
esa fórmula están perfectamente identificados, a excepción de un
cierto conjunto de parámetros, conjunto que representaremos por π.
Prof. D. Juan José Pérez Castejón
19
Precisamente es π quien al ir tomando sus diferentes valores
posibles, va generando las diferentes funciones de probabilidad o
de densidad de las distribuciones que componen la familia. fπ(x) ó
pπ(x) designará a la fórmula general a la que se ajusta la función de
densidad o de probabilidad de las distribuciones pertenecientes a la
familia que se analice. Aunque nos limitaremos a trabajar con
distribuciones unidimensionales, π=(π1,...,πk) podrá tener la
dimensión necesaria.
El concepto que se acaba de definir, no es realmente nada
nuevo y desconocido. Todas las distribuciones en su momento
estudiadas, tales como las diferentes distribuciones de Bernouilli
que dependían de la probabilidad p de éxito, o las distribuciones
normales que dependían de µ y σ, y así cualquier otra, son casos
concretos de familias de distribuciones. Por otro lado, la hipótesis
paramétrica sobre la que estamos desarrollando todo el análisis
inductivo, lo que en el fondo hace es suponer que la distribución
poblacional pertenece a una determinada familia de distribuciones.
Una familia de distribuciones se dirá que es una familia
k
∑ c i ( π )d i ( x )
exponencial si fπ(x) –ó pπ(x)– cumple: fπ ( x ) = a( π)b( x )e i=1
.
Esa descomposición debe ser cierta ∀x y ∀π. Nótese que a(π)
representa una función que depende de π pero no de x, mientras
que con b(x) ocurre lo contrario. A su vez, en el exponente de la
potencia aparecen, como máximo, tantos sumandos como
componentes tiene π.
Aunque el hecho de ser familia exponencial dota al
correspondiente conjunto de distribuciones estadísticas de muy
buenas propiedades, no emplearemos por ahora más este
concepto. Solo pondremos un ejemplo que ilustre la relación entre
las familias exponenciales y algunas de las restantes propiedades
ya comentadas. Se trata de una propiedad de fácil demostración,
que razona cómo obtener un estadístico suficiente si se dispone de
una familia exponencial:
Teorema: Dada una familia exponencial que cumpla una
descomposición como la señalada, entonces el siguiente estadístico
n
n
i =1
i =1
k dimensional es suficiente para π: T=( ∑ d1( Xi ) ,..., ∑ dk ( Xi ) ).
Prof. D. Juan José Pérez Castejón
20
Propiedades de algunos de los estimadores obtenidos.
Es conveniente cerrar el tema comprobando si los estimadores
obtenidos mediante los métodos de estimación que se comentaron
inicialmente, cumplen algunas de las propiedades que se han
expuesto. Lo haremos solamente para el e.m.v. ya que es el
estimador de uso más común, a la vez que el que mejor
propiedades posee.
Las propiedades del e.m.v. se derivan del resultado que se va
a comentar a continuación. Podemos considerar que sus
condiciones de aplicación son, básicamente, las de aplicación del
teorema FCR. Haremos un enunciado parcial del resultado,
recogiendo únicamente aquellos aspectos que precisemos para
derivar las propiedades del e.m.v. que después se expongan.
Teorema: El e.m.v. cumple que:
L
(ĥ (π)–h(π))/(cotaFCR(π))½ → N(0,1)
Las implicaciones de este resultado suponen muy buenas
propiedades para el e.m.v. Para empezar, la convergencia en ley
indicada provoca que ĥ (π)≈(cotaFCR(π))½N(0,1)+h(π), siendo la
aproximación entre el comportamiento probabilístico de los dos
términos de esa expresión, más exacta cuanto mayor sea el tamaño
muestral. Equivalentemente podemos expresar esa aproximación
como ĥ (π)≈N(h(π),cotaFCR(π)).
De tales aproximaciones, se deduce primero que
limn→∞E(ĥ (π))=h(π), o lo que es lo mismo, que el e.m.v es
asintóticamente insesgado. También podemos deducir que
var(ĥ (π))≈cotaFCR(π) y que ambas series tendrán el mismo límite.
Si se revisa la expresión de la cota, esta es una serie que converge
a cero (véase, por ejemplo su fórmula cuando se maneja una
m.a.s., aunque también es cierta la convergencia a cero para otro
tipo de muestras). Así, se podrá decir que lo mismo ocurre con
var(ĥ (π)) y que, por ello, el e.m.v. también es consistente.
La propiedad de ser e.i.m.v.u. no tiene sentido plantearla en
general para todo e.m.v. puesto que no hemos podido demostrar
que sea insesgado. La propiedad de eficiencia tampoco será cierta
Prof. D. Juan José Pérez Castejón
21
pues solo es var(ĥ (π))≈cotaFCR(π). Lo que sí que queda
demostrado con esa proximación es que el e.m.v. es
asintóticamente eficiente en el sentido de que su varianza y la
cotaFCR se aproximan entre sí todo lo que queramos conforme
aumenta el tamaño muestral.
Muy útil es otro implicación derivada del resultado anterior. Nos
referimos al comportamiento probabilístico normal –al menos
asintóticamente– del e.m.v. En más de una ocasión en la que la
distribución exacta en muestra finita de ese estimador no se
conozca, saber al menos que si el tamaño muestral es grande esa
distribución se puede aproximar bastante bien por la distribución
normal, facilitará la realización de más de un procedimiento
inductivo, aunque estaremos limitados a considerar que sus
conclusiones son válidas solo como aproximación.
Debe hacerse hincapié en que las propiedades comentadas
son asintóticas –no son propiedades exactas en muestra finita– y
basadas en aproximaciones. No es descartable que en situaciones
particulares se demuestren propiedades más fuertes para el e.m.v.,
por ejemplo, insesgadez en vez de solo insegadez asintótica, etc. Al
mismo tiempo, si se dispone de la versión exacta y no aproximada
de una de estas propiedades –por ejemplo, la distribución exacta
frente a la asintótica– siempre sería preferible usarla para realizar
inferencia si ello es factible.
Prof. D. Juan José Pérez Castejón
22
Descargar