ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M. 1 Introducción En este capı́tulo, vamos a abordar la Estimación Puntual, que es uno de los tres grandes conjuntos de técnicas que utilizaremos en la Inferencia Estadı́stica. La situación general que vamos a considerar es la siguiente: Disponemos de una muestra aleatoria (X1 , ..., Xn ) de una caracterı́stica X de una población. Pensamos que esta caracterı́stica puede ser adecuadamente modelizada mediante un modelo de probabilidad con función de masa Pθ (x) (en el caso discreto) o con función de densidad fθ (x) (en el caso continuo). En cualquiera de los casos, lo único que nos falta por conocer es el valor del parámetro θ ∈ Θ que es desconocido. Lo que tratamos de hacer en este capı́tulo es encontrar estimaciones puntuales de este parámetro desconocido. En primer lugar, se plantearán dos ejemplos sencillos que servirán como motivación. Ejemplo 1.- En los ejercicios de cálculo de probabilidades, siempre se suele hablar de monedas equilibradas pero, naturalmente, no todas lo son. Nos gustarı́a conocer aproximadamente (estimar) la probabilidad de cara de una determinada moneda, y llamamos p = P (Cara). Necesitamos datos, para lo cual lanzamos la moneda, por ejemplo, 100 veces, y anotamos los resultados. Supongamos que obtenemos 55 caras y 45 cruces. Desde un punto de vista formal, las caras y las cruces pueden ser codificadas mediante unos y ceros, de modo que tenemos una muestra aleatoria (X1 , ..., X100 ) de ( X= 1 (si sale cara) con probabilidad p 0 (si sale cruz) con probabilidad 1 − p y, por tanto, X puede ser modelizada mediante un modelo de Bernoulli con parámetro p desoconocido. En este caso sencillo, parece razonable estimar la probabilidad de cara de la siguiente forma: p̂ = Frecuencia relativa de caras = 55 Número de caras obtenidas = = 0, 55 Número de lanzamientos 100 1 Ejemplo 2.- Estamos interesados en conocer aproximadamente (estimar) el nivel medio de colesterol, µ, de las personas de una población. No se puede abordar el estudio en toda la población porque el número total de individuos es muy grande. Necesitamos datos para poder dar una estimación de µ. Mediremos el nivel de colesterol de, por ejemplo, 100 individuos elegidos al azar. Supongamos que el nivel medio de colesterol que obtenemos en la muestra es de 190 unidades. Desde un punto de vista formal, lo que tenemos es una muestra aleatoria (X1 , ..., X100 ) de la caracterı́stica X = “Nivel de colesterol”, que puede ser modelizada mediante una distribución N (µ; σ), con parámetros µ y σ desconocidos. En este caso sencillo, parece razonable estimar el nivel medio de colesterol de la siguiente forma: µ̂ = Nivel medio de colesterol en la muestra = x̄ = 190 Obsérvese que µ es el nivel medio de colesterol (desconocido) de toda la población, mientras que x̄ es el nivel medio de colesterol (conocido) de la muestra. Si todas las situaciones a las que nos tuviéramos que enfrentar fueran tan sencillas e intuitivas como las de los ejemplos anteriores, seguramente no necesitarı́amos desarrollar una metodologı́a general de la estimación puntual. Pero, por un lado, los problemas no siempre son tan sencillos y, por otro lado, la intuición, a veces no nos dice nada, y otras veces nos resulta engañosa. Por este motivo, vamos a dar una metodologı́a general que nos permita enfrentarnos a este tipo de problemas de un modo sistemático y lo más objetivo posible. 2 Estimadores puntuales En primer lugar, vamos a definir lo que entenderemos por un estimador puntual del parámetro θ: Definición.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracterı́stica X de una población con función de masa Pθ (x) (caso discreto), o con función de densidad fθ (x) (caso continuo), donde θ ∈ Θ es desconocido. Un estimador puntual de θ es una función T que a cada posible muestra (x1 , . . . , xn ) le hace corresponder una estimación T (x1 , . . . , xn ) de θ. 2 Observaciones: 1. Lo que vamos a estimar habitualmente es θ pero, en algunos casos, podrı́a interesarnos estimar alguna función de θ. Por ejemplo, cuando X ∼ N (µ; σ), nos puede interesar estimar la desviación tı́pica σ, pero también podemos estar interesados en estimar la varianza σ 2 . En lo que sigue, sólo nos referiremos a la estimación de θ, pero teniendo claro que no habrı́a ningún problema en extender las ideas a la estimación de alguna función de θ. 2. Evidentemente, T = T (X1 , . . . , Xn ) es una variable aleatoria. En realidad, un estimador puntual no es más que un estadı́stico con una misión especial: acercarse lo más posible al verdadero y desconocido valor del parámetro. 3. La definición que hemos dado de estimador puntual es enormemente general y engloba, tanto estimadores muy razonables, como estimadores completamente absurdos. Por este motivo, lo siguiente que vamos a hacer es indicar alguna propiedad deseable para un estimador razonable. 3 Error cuadrático medio. Estimadores insesgados Definición.- El error cuadrático medio de un estimador T , para estimar θ, se define como: ECM (T ) = E[(T − θ)2 ] = E[(T (X1 , ..., Xn ) − θ)2 ] El objetivo de la definición está bastante claro: (a) T (X1 , ..., Xn ) − θ mide el error que se comete al estimar θ mediante T (X1 , ..., Xn ). (b) Consideramos el cuadrado de ese error para evitar que las diferencias positivas se compensen con las negativas. (c)Finalmente, calculamos cuanto vale, en promedio, este error cuadrático. Esta idea del error cuadrático medio ya fue utilizada para definir la recta de regresión. Por supuesto, lo que nos interesa es utilizar estimadores con 3 un error cuadrático pequeño. Para ver como puede conseguirse un error cuadrático pequeño, veamos una forma alternativa de expresarlo: E[(T − θ)2 ] = E[((T − E[T ]) + (E[T ] − θ))2 ] = E[(T − E[T ])2 ] + (E[T ] − θ)2 = V (T ) + (Sesgo de T )2 donde: Sesgo de T = E[T ] − θ De este modo, el error cuadrático medio se puede reducir, bien reduciendo la varianza del estimador, o bien reduciendo su sesgo. Una manera de eliminar completamente el sesgo es trabajar con estimadores insesgados: Definición.- Un estimador T es insesgado (o centrado) para estimar θ, cuando verifica: E[T ] = θ Los estimadores insesgados, no sólo son interesantes porque contribuyan a reducir el error cuadrático medio; son interesantes por sı́ mismos ya que, en promedio, sus estimaciones aciertan con el objetivo de estimar θ. Es sencillo encontrar ejemplos de estimadores insesgados: Ejemplo 1 (continuado).- Consideramos una muestra aleatoria (X1 , . . . , Xn ) de X ∼ Bernoulli(p) (recordemos que este modelo será utilizado siempre que se quiera estimar una proporción p). Se habı́a considerado que un estimador razonable para p podı́a ser: p̂ = Frecuencia relativa de éxitos = 1X Xi = X̄ n Es muy sencillo comprobar que este estimador es insesgado para p: E[p̂] = E 1X 1X 1 Xi = E[Xi ] = (np) = p n n n También es muy sencillo hallar su error cuadrático medio: ECM (p̂) = ECM (X̄) = V (X̄) + (Sesgo)2 = 4 V (X) p(1 − p) = n n Ejemplo 2 (continuado).- Consideramos una muestra aleatoria (X1 , . . . , Xn ) de una caracterı́stica X ∼ N (µ; σ). Se habı́a considerado que un estimador razonable para µ podı́a ser: µ̂ = 1X Xi = X̄ n Es muy sencillo comprobar que este estimador es insesgado para µ: 1X 1X 1 E[µ̂] = E Xi = E[Xi ] = (nµ) = µ n n n También es muy sencillo hallar su error cuadrático medio: V (X) σ2 ECM (µ̂) = ECM (X̄) = V (X̄) + (Sesgo) = = n n 2 En cualquier caso, la cuestión fundamental sobre los estimadores puntuales es la que se planteaba en la introducción y sigue todavı́a sin respuesta: ¿Es posible dar una metodologı́a general que nos permita construir estimadores puntuales de un modo sistemático y lo más objetivo posible? Vamos a dar respuesta a esta cuestión en las dos siguientes secciones. 4 Método de los momentos En el Ejemplo 2 de la Introducción, se proponı́a estimar el nivel medio de colesterol de toda una población, mediante el nivel medio de colesterol en una muestra. La idea intuitiva que hay detrás de este modo de proceder es que, seguramente, la media muestral (conocida) será bastante parecida a la media de toda la población (desconocida). Esta idea intuitiva es la que se utiliza para formalizar el método de los momentos: Definición.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracterı́stica X con función de masa Pθ (x) (o función de densidad fθ (x)), donde θ = (θ1 , . . . , θk ). El estimador de θ por el método de los momentos es el formado por los valores θ̃1 , . . . , θ̃k que se obtienen al resolver en θ1 , . . . , θk el siguiente sistema de k ecuaciones: P E[X] = n1 ni=1 Xi P E[X 2 ] = n1 ni=1 Xi2 ... ... ... ... 1 Pn k k E[X ] = n i=1 Xi 5 Observaciones: 1. La justificación del método de los momentos es sencilla: se basa en la intuición de que los momentos de la población (E[X], E[X 2 ], . . . ) se P P “parecerán” a los respectivos momentos de la muestra ( n1 Xi , n1 Xi2 , . . . ). En consecuencia, consideramos k ecuaciones derivadas de esta intuición (tantas como componentes tiene el parámetro que necesitamos estimar). El nombre del método procede de que utilizamos los momentos (poblacionales y muestrales). 2. Hay que señalar, no obstante, que el método de los momentos presenta a veces graves inconvenientes. Por ejemplo, es perfectamente posible que la estimación obtenida corresponda a valores que están fuera del espacio paramétrico. Obviamente, esto último no es muy aconsejable. 5 Método de máxima verosimilitud El método más ampliamente utilizado para construir estimadores puntuales es el método de máxima verosimilitud. Está basado también en una idea intuitiva muy sencilla y no presenta inconvenientes serios como le ocurre a veces al método de los momentos. En el ejemplo siguiente vemos las ideas básicas que nos llevarán a la definición general. Ejemplo 3.- Consideramos una urna con 4 bolas, que pueden ser blancas o negras, pero no sabemos en qué proporción. Llamaremos θ a la proporción (desconocida) de bolas blancas en la urna, que puede tomar los valores 1 1 3 θ ∈ Θ = 0, , , , 1 4 2 4 Para obtener información sobre este parámetro, extraemos de la urna 2 bolas con reemplazamiento (de esta forma, las observaciones son independientes). Supongamos que la primera bola observada es blanca y la segunda negra, de modo que la muestra obtenida es (B, N ). La probabilidad que los diferentes valores de θ le dan a la muestra obtenida recibe el nombre de función de verosimilitud y es de la siguiente forma: L(θ) = Pθ (B, N ) = 0 si θ = 0 3/16 si θ = 1/4 4/16 si θ = 1/2 3/16 si θ = 3/4 0 6 si θ = 1 La idea del método de máxima verosimilitud es muy sencilla y muy razonable: tomar como estimación de θ, aquel valor que hace más probable (más verosı́mil) la muestra obtenida. Por tanto, en este caso, si la muestra obtenida era (B, N ), la estimación de máxima verosimilitud serı́a: θ̂ = 1/2 Esta idea intuitiva del Ejemplo 3 es la que se utiliza para formalizar el método de máxima verosimilitud: Definición.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracterı́stica X con función de masa Pθ (x) (o función de densidad fθ (x)), donde θ = (θ1 , . . . , θk ). La función de verosimilitud de θ es: L(θ) = Pθ (x1 , ..., xn ) = Pθ (x1 ) . . . Pθ (xn ) L(θ) = fθ (x1 , ..., xn ) = fθ (x1 ) . . . fθ (xn ) (caso discreto) (caso continuo) El estimador de máxima verosimilitud de θ es el formado por los valores (θ̂1 , . . . , θ̂k ) que maximizan la función de verosimilitud L(θ). Observaciones: 1. La función de verosimilitud expresa la probabilidad (o la densidad) que los diferentes valores de θ le dan a la muestra obtenida. Lo que hacemos, por tanto, es maximizar esa probabilidad (o densidad), es decir, elegir el valor de θ que hace más verosı́mil la muestra obtenida. 2. Por la propia definición, la estimación de máxima verosimilitud siempre es un valor del espacio paramétrico (algo que no siempre ocurre con el método de los momentos). 3. El procedimiento más habitual para obtener el estimador de máxima verosimilitud es el siguiente: • Obtenemos la función de verosimilitud: L(θ) = Pθ (x1 , ..., xn ) = Pθ (x1 ) . . . Pθ (xn ) Por supuesto, si estamos en un caso continuo, utilizarı́amos la función de densidad del modelo utilizado. • Obtenemos ln L(θ) en vez de L(θ), ya que es más fácil de manejar y presenta los mismos máximos y mı́nimos. 7 • Despejamos θ1 , . . . , θk del siguiente sistema de ecuaciones: ∂ ln L(θ) ∂θ1 = 0 ... ... ... ... ∂ ln L(θ) = 0 ∂θk Por supuesto, hay que tener precaución con este procedimiento, ya que el punto crı́tico obtenido no tiene por qué corresponder a un máximo. También puede ocurrir que la función de verosimilitud se maximice en un extremo y no obtengamos nada con este procedimiento. 8