Muestreo y estimación

Anuncio
TEMA 7
MUESTREO Y ESTIMACIÃ N
DISTRIBUCIONES ASOCIADAS A LA NORMAL
Estas distribuciones podrÃ−an haber sido tratadas en el tema anterior, pero dado que su aplicación está
relacionada con la materia de este tema van a ser comentadas ahora.
I.- Distribución X2 de Pearson.- Sean X1 ,..., Xn , variables aleatorias independientes que siguen una N(0,
1). Entonces , donde n son los grados de libertad.
La media de esta distribución es y su varianza es Ï 2 = 2·n.
II.- Distribución t de Student.- Sean X, Y1, ..., Yn variables aleatorias independientes que siguen una N(0,
1), entonces , con media μ = 0.
Propiedades:
Es simétrica en torno a la media, o lo que es lo mismo en este caso, con respecto al 0.
Para un n grande, tn es aproximable por una N(0, 1).
III.- Distribución F de Fisher - Snedecor.- Se consideran dos v.a., llamadas X e Y , tales que:
La media de esta distribución es .
Fórmula.- Se trata de una propiedad importante:
INFERENCIA ESTADÃ STICA
En este curso se han estudiado dos partes netamente diferenciadas: la EstadÃ−stica descriptiva y los
Modelos de probabilidad.
La EstadÃ−stica descriptiva se caracterizaba porque partiendo de la realidad y utilizando rudimentarias
herramientas matemáticas se obtenÃ−an conclusiones referidas a la misma realidad.
En cambio, en la segunda parte del curso, partiendo de modelos matemáticos abstractos, se concluÃ−a sobre
la realidad.
Este esquema incompleto adquiere plenitud con la EstadÃ−stica inferencial, también llamada
Estocástica ó EstadÃ−stica matemática. AquÃ− se parte de la realidad, a continuación se elaboran
modelos matemáticos y por último se retorna a la realidad aportando conclusiones.
POBLACIÃ N Y MUESTRAS
La EstadÃ−stica se ocupa del estudio de las caracterÃ−sticas de los individuos que componen una
población. Puesto que el estudio exhaustivo de toda la población (censo) es generalmente inviable, se
observará una muestra de la población, y a partir de ella se realizará el modelo de probabilidad que sigue
toda la población. A este proceso es al que se llama inferencia estadÃ−stica.
1
El tipo de muestreo más importante es el muestreo aleatorio simple, que se caracteriza porque todos los
elementos de la muestra tienen la misma probabilidad de ser elegidos. La elección se realiza con
independencia, y por tanto con reemplazamiento.
Si la caracterÃ−stica a estudiar es una v.a. X con una cierta distribución, desconocida totalmente a través
de sus parámetros y se obtiene una muestra aleatoria simple (m.a.s.) de tamaño n, se dirá que x1,....,xn
son independientes e idénticamente distribuidos según X.
Asimismo se cumple por ser independientes las v.a., que su densidad conjunta es:
En la práctica se utilizan los siguientes tipos de muestreo, equivalentes al anterior:
Muestreo sistemático.- Con los elementos de la población ordenados en una lista se selecciona al azar un
primer elemento (elemento de arranque), y los demás elementos de la muestra se cogen a intervalos
regulares. Es como dividir la población en varios grupos, eligiendo siempre el elemento n de cada grupo.
Este tipo de muestreo funciona bien cuando en el sistema no hay ciclos.
Muestreo estratificado.- Si la población no es homogénea, se divide en estratos en los cuales si haya
homogeneidad. La muestra se toma asignando a cada estrato un número proporcional de miembros.
Muestreo por conglomerados.- Un conglomerado es un conjunto de elementos muy diversos entre si, pero
cuyo funcionamiento es muy parecido al de otro conglomerado (Como las provincias de un paÃ−s). Si la
población está dividida en conglomerados, y es homogénea entre ellos, se escogen al azar algunos
conglomerados, de los que se extrae una m.a.s.
Muestreo polietápico.- Es una combinación de los tipos anteriores. Es el que aparece en los sondeos de
opinión de los periódicos.
ESTIMACIÃ N PUNTUAL
En muchos casos, de una v.a. se conoce (o supone conocido) el tipo de distribución que sigue (binomial,
normal...), pero se desconocen los parámetros de la distribución.
Estimación puntual.- Es la obtención, a partir de la muestra, de valores para los parámetros desconocidos
de la distribución. Esto se hace utilizando una v.a. llamada estimador.
Sea X una v.a. cuya distribución depende de un parámetro θ, y se desea estimar el valor de θ a partir de
una m.a.s. Se llamará estimador de θ a una función de la muestra que da el valor estimado de θ.
Si se tiene una muestra concreta, el valor del estimador será un número al que se llama estimación de θ.
Es de destacar que es una v.a., y por tanto tendrá una distribución llamada distribución del estimador en
el muestreo, no siempre fácil de calcular, que dependerá de la distribución de X y de n. Sin embargo, para
muestras grandes (n â ¥ 30), el teorema central del lÃ−mite va a permitir aproximar en muchas ocasiones la
distribución de por la distribución normal.
ESTIMADORES DE LA MEDIA, VARIANZA Y DE UNA PROPORCIÃ N
Suponiendo que se da una m.a.s. x1,....,xn, de una v.a. X, que sigue una distribución cualquiera de
media μ, y varianza Ï 2, se definirán los siguientes estimadores:
I.- Estimador para la media.- Se estima la media teórica de la población (μ) utilizando la media muestral
2
():
que es una v.a. con media:
y varianza:
Si X es normal, entonces . Aunque X no sea normal, para tamaños muestrales grandes (n ⠥ 30), el teorema
central del lÃ−mite dice que la distribución es aproximable por una distribución normal.
II.- Estimador para la varianza.- Sea X una v.a. de media μ conocida, y varianza Ï 2 desconocida.
Entonces, se puede utilizar el estimador:
cuya esperanza es .
En el caso de que μ también sea desconocida, entonces la varianza muestral será:
que tiene una esperanza , de lo que se deduce que el estimador es sesgado.
Cuasivarianza muestral.- Se define para corregir el error anterior, y se calcula:
cuya esperanza es .
Si X es una v.a. normal, entonces .
III.- Estimador para una proporción−.- Si en una población hay individuos de dos clases (que serán
denominadas A y B, en proporción q y p = 1 - q, respectivamente, un estimador de la proporción p a partir
de una muestra es la proporción muestral , donde xn es el número de individuos de clase A en la muestra, y
sigue una distribución binomial Bi( n, p).
Esperanza.Varianza.Si n es grande (n ⠥ 30) se puede aproximar la distribución binomial por una normal , que deberá ser
tipificada.
Tipificando el estimador se deduce que .
PROPIEDADES DESEABLES DE LOS ESTIMADORES
El sesgo de un estimador se calcula Sesgo() = θ -E(). Se considera que es un estimador insesgado de θ si E()
= θ, cualquiera que sea el tamaño de la muestra.
Un estimador insesgado se dice eficiente si
En algunas situaciones es difÃ−cil la obtención de estimadores centrados de alta eficacia, pero es posible
obtener muestras de tamaño grande. En tales situaciones el requisito mÃ−nimo que se le exige a un
estimador es que sea consistente, lo que quiere decir que al aumentar el tamaño muestral el estimador se
aproxima al parámetro.
Métodos de obtención de estimadores.- Históricamente, el primer método que se utiliza es el
método de los momentos, que consiste en igualar los momentos teóricos con los muestrales. El método
3
más importante de los utilizados es el método de máxima verosimilitud.
TEMA 8
ESTIMACIÃ N CON INTERVALOS DE CONFIANZA
Determinación del tamaño muestral.- A diferencia de la estimación puntual, en la estimación por
intervalos de confianza lo que interesa es la obtención de un intervalo aleatorio en el que, con una
probabilidad prefijada, pueda garantizarse que se encuentra el verdadero valor del parámetro, esto es, se trata
de encontrar dos v.a. θ1 y θ2 tales que P( θ1 ⠤ θ ⠤ θ2 ) = 1 - α, donde θ es el parámetro desconocido
y θ1 y θ2 son v.a. que dependen de la muestra.
Cuando se disponga de una muestra concreta se podrá contener o no a θ . Se trata de garantizar que, si se
realiza el experimento muchas veces, en el 100·( 1 - α )% de ellos θ estará en el intervalo. A α se le
llama nivel de significación, y a 1 - α nivel de confianza. α es fijado de antemano, y en la práctica sus
valores más habituales son 0.05, 0.01 y 0.005.
I.- Intervalo de confianza para la media de una población normal.
I.1) Con la varianza poblacional (Ï 2 ) conocida.
El estimador puntual de μ es , que sigue una ; tipificando se obtiene el estadÃ−stico pivote, que se
caracteriza porque su distribución es totalmente conocida:
Para un nivel de confianza 1 - α se tiene que , donde el cuantil es un número que verifica:
fig 8.1.- Esquema de división de probabilidades para una N(0, 1).
Aunque la población no sea normal, para n ⠥ 30, la expresión anterior es aplicable por el teorema central
del lÃ−mite.
El intervalo de confianza se calcula con la expresión:
I.2) Con Ï 2 desconocida.
Puede calcularse w, aplicando
El intervalo de confianza se calculará:
Para n â ¥ 30, el teorema central del lÃ−mite garantiza que la aproximación por la normal será válida.
EJEMPLO (Estimación de una media):
Se estudia el contenido medio en grasa de 35 hamburguesas, obteniéndose una media de 30.2 gramos
de grasa con una desviación tÃ−pica de 3.8 gramos.
a) Hallar el contenido medio de grasa para un nivel de confianza del 95%.
Se pide hallar μ. Como el valor de la varianza poblacional (Ï 2) es desconocida, hay que aplicar la
expresión . Se sabe ya que α = 0.05.
Hay que calcular el valor de :
4
Este valor no aparece en las tablas, y ha sido hallado mediante una regla de 3, ya que los valores de t30 y t40
sÃ− están tabulados.
Ahora sólo falta hallar el valor Sn-1 . Para hallarlo utilizaremos la varianza muestral Sn:
Sólo resta aplicar la fórmula:
b) ¿Cuál es el tamaño muestral necesario para, con una confianza del 90%, estudiar el contenido
medio de grasa con un error inferior a 0.1 gr.?
En este caso α = 0.1. El error viene dado por la inecuación
Previsiblemente n â ¥ 30, por lo cual .
Sn-1 se aproxima por el valor hallado en el apartado anterior:
II.- Intervalo de confianza para la media de una población normal (μ1 - μ2 ).
Sean dos variables aleatorias X e Y. Entonces:
â
EstadÃ−stico pivote.
El intervalo de confianza se construye:
,
siendo .
Cuando los datos vienen dados en pares, que miden dos observaciones realizadas sobre un mismo individuo
en el que ha variado una sola observación, se llaman datos apareados, y lo que se hace es trabajar con las
diferencias de pares. De este modo puede ser calculado un intervalo de confianza para la media μD = μx
-μy.
III.- Intervalo de confianza para la varianza en poblaciones normales.
El estadÃ−stico pivote utilizado es:
El intervalo de confianza para Ï 2 es:
IV.- Intervalo de confianza para la razón de varianzas
Interesa calcular un intervalo de confianza para .
El estadÃ−stico pivote va a ser:
El intervalo se construirá con:
V.- Intervalo de confianza para una proporción.
Como estimador de la proporción será usado , siendo xn el “número de éxitos en una muestra de
tamaño n”.
5
Se utilizará como estadÃ−stico pivote:
que para un n grande sigue una N(0,1).
El intervalo de confianza se calculará con:
Este intervalo de confianza es función del parámetro p desconocido (En la fórmula general no se emplea
el estimador dentro de la raÃ−z, sino simplemente p). Esto se soluciona con una aproximación, con lo que el
intervalo de confianza será calculado como:
Esta aproximación puede ser por exceso o por defecto, debiendo procurarse que la aproximación sea por
exceso, para lo cual hay que maximizar p·( 1 - p). Por eso la aproximación da lugar a un intervalo más
largo.
Como criterio general se utilizará la primera de las fórmulas para hallar los intervalos de confianza y la
segunda para hallar los tamaños muestrales.
VI.- Intervalo de confianza para la diferencia de proporciones.
Es igual que en el caso anterior. Los intervalos de confianza serán:
y
TEMA 9
CONTRASTE DE HIPÃ TESIS
Contraste de hipótesis.- Una técnica diferente de inferencia estadÃ−stica es el contraste de hipótesis.
AquÃ− se realiza alguna afirmación sobre la población base, sobre su forma o sobre el valor numérico
de uno o más de sus parámetros, que se contrasta luego mediante una muestra aleatoria extraÃ−da de la
población.
La esencia de probar una hipótesis estadÃ−stica es decidir si la afirmación se encuentra apoyada por la
evidencia experimental. En general, la información involucra algún parámetro o alguna forma funcional
no conocida de la distribución de interés, de la que hemos obtenido una muestra aleatoria. La decisión de
si los datos muestrales apoyan estadÃ−sticamente la afirmación se toma con base en la probabilidad, y si
ésta es mÃ−nima será rechazada.
El planteamiento general de un problema de contraste es el siguiente: se formula una hipótesis acerca de la
población y se trata de ver si como consecuencia de un conjunto de valores muestrales debemos aceptar o
rechazar la hipótesis formulada con unos márgenes de error previamente fijados.
Si los valores muestrales difieren mucho de los teóricos que cabrÃ−a esperar bajo la hipótesis formulada,
podrÃ−a pensarse en rechazar la hipótesis, pues podrÃ−a decirse que las diferencias son significativas. Se
considera una distribución teórica bajo la hipótesis formulada, una distribución de la muestra y por
último una medida de la diferencia entre ambas mediante un estadÃ−stico y según el valor de esta medida
se aceptara o rechazara la hipótesis propuesta.
Para realizar un contraste de hipótesis han de seguirse los siguientes pasos:
• Formular la hipótesis.
• Experimentar (obtener información)
6
• Decir si los resultados del experimento apoyan estrictamente los resultados de partida.
Hipótesis estadÃ−stica.- Es cualquier conjetura sobre las caracterÃ−sticas de interés de un modelo de
probabilidad. Se llama hipótesis paramétrica cuando es una afirmación sobre el valor de parámetros
desconocidos. Las hipótesis paramétricas pueden ser simples o compuestas.
Se llaman hipótesis paramétricas simples si asignan valores únicos a los parámetros, y si asignan un
rango de valores a los parámetros se denominan hipótesis paramétricas compuestas.
Para formular el contraste de hipótesis hay que determinar las llamadas hipótesis nula y alternativa.
La hipótesis nula (H0) es la hipótesis que el experimentador asume como correcta, y que por tanto no
necesita ser probada. La aceptación de H0 no implica que sea correcta o que haya sido probada, sino que los
datos no han proporcionado evidencia suficiente como para refutarla. De acuerdo con esto, si el
experimentador quiere respaldar con contundencia un argumento, este nunca podrá ser la hipótesis nula. H0
ha de contener siempre el sÃ−mbolo “=“. Rechazar H0 significa asumir como correcta una hipótesis
complementaria denominada hipótesis alternativa.
Para comparar estas dos hipótesis se utilizara el llamado estadÃ−stico de contraste. El valor especÃ−fico
que toma el estadÃ−stico de contraste para una muestra dada recibe el nombre de valor crÃ−tico del
contraste. Cuando el valor crÃ−tico haya sido obtenido y pertenezca a una parte de la distribución con
probabilidad alta, no habrá razones para rechazar H0. Si por el contrario, pertenece a una zona de
probabilidad baja, habremos obtenido un valor que no esperábamos, y por tanto rechazaremos H0.
Existen dos tipos de errores a la hora de realizar los contrastes de hipótesis:
• Error de tipo I.- Se produce cuando H0 es cierta y resulta rechazada.
• Error de tipo II.- Se produce cuando H0 es falsa y resulta aceptada.
Estos dos errores llevan asociados unas probabilidades.
Nivel de significación (α) de un contraste.- Probabilidad de cometer un error de tipo I.
Una forma de reducir ambos errrores a la vez es aumentando el tamaño muestral. Se acota el error de tipo I,
asignando un valor pequeño para α y después se intenta que la probabilidad del error de tipo II sea lo
más pequeña posible.
Un contraste de hipótesis puede ser bilateral (o de dos colas) o unilateral (o de una cola):
Contraste bilateral (o de dos colas):
• fig 9.1.- Contraste bilateral.
• En este caso
• Es de dos colas porque se rechaza H0 cuando el valor del estadÃ−stico está en cualquiera de las dos colas.
• Contraste unilateral (o de una cola):
Si la cola de rechazo es la de la derecha se cumple que
fig 9.2.- Contraste unilateral con cola de rechazo a la derecha.
Sólo se rechazará el estadÃ−stico si está en la cola de la derecha.
7
Si la cola de rechazo es la de la izquierda se cumple que
fig 9.3.- Contraste unilateral con cola de rechazo a la izquierda.
Sólo se rechazará el estadÃ−stico si está en la cola de la izquierda.
El nivel crÃ−tico (p) o p-valor es la probabilidad de obtener una discrepancia, medida en términos del
estadÃ−stico pivote, entre la hipótesis nula y la evidencia muestral mayor o igual a la observada, supuesta
H0 cierta. Por tanto p sólo puede calcularse una vez tomada la muestra.
Un valor de p muy pequeño significa una elevada incompatibilidad entre la hipótesis nula y la muestra
observada, y por tanto conducirá al rechazo de H0.
Si previamente hemos fijado un valor para α, el cálculo de p no es imprescindible para tomar una
decisión. La relación entre α y p es:
si p < α se rechaza H0.
si p > α se acepta H0.
Si no se ha fijado un valor para α, el cálculo de p es imprescindible. En este caso:
• Si p < 0.01, generalmente se rechaza H0
• Si 0.01 < p < 0.05, se interpreta como una zona de incertidumbre , y se sugiere aumentar el tamaño
muestral antes de tomar una decisión.
• Si p > 0.05, generalmente se acepta H0
EJEMPLO (Contraste de hipótesis):
Un fármaco para dormir, por experiencias de años, garantiza 8 horas de sueño, con una
desviación de dos horas. Se saca al mercado una nueva versión del fármaco, asegurando que
produce más horas de sueño. En un hospital se quiere comprobar esta afirmación y se experimenta
en 100 enfermos, obteniendo una media de 9 horas de sueño. Al nivel del 5%, ¿puede afirmarse que
el segundo producto produce más sueño que el primero? Hallar el nivel crÃ−tico.
Los datos disponibles son n = 100, Ï = 2, α = 0.05.
Lo primero es definir la hipótesis nula. Se tiene en cuenta que se desea demostrar que se aumentan las horas
de sueño.:
unilateral con rechazo por la derecha.
Como es un contraste para la media , se utiliza el estadÃ−stico:
Ahora se busca Z en la tabla de la normal, buscando el número que deje a la derecha un 5% (0.95), y se
hallará Z = 1.64. El valor del estadÃ−stico pivote se encuentra en la zona de rechazo, puesto que 5 > 1.64,
y por tanto se rechaza H0. Por lo tanto puede decirse que la empresa farmaceútica no mentÃ−a.
Para hallar el nivel crÃ−tico habrÃ−a que calcular el área que queda a la derecha de 5. En el gráfico
puede verse que esta área va a ser muy próxima a cero, y en la tabla de la normal vemos que para 3.49,
que es el mayor valor tabulado, el área ya es muy próxima a cero. El nivel crÃ−tico serÃ−a por tanto muy
aproximadamente 0.
8
EstadÃ−stica 1º E.T.I.S. Facultade de Informática da Coruña Curso 1.997-1.998
50
9
Descargar