guia de estimación - parte a

Anuncio
PROYECTO DE CARRERA: INGENIERÍA INDUSTRIAL
ASIGNATURA: ESTADÍSTICAS II
UNIDAD III: TECNICAS DE ESTIMACIÓN
ESTIMACIÓN POR INTERVALOS
INTRODUCCIÓN
En temas anteriores se establecieron las bases que permiten a los estadísticos extraer
conclusiones acerca de los parámetros de la población a partir de datos experimentales. Esto
implica el conocimiento de la distribución muestral del estadístico y de la relación establecida
con el parámetro.
La teoría de inferencia estadística consiste en aquellos métodos por los que se realizan
inferencias o generalizaciones acerca de una población. Esta se puede dividir en dos áreas
principales: La estimación y la prueba de hipótesis.
A continuación se exponen los conceptos de esta teoría, así como algunos ejemplos y
ejercicios propuestos para su análisis.
EL PROBLEMA DE ESTIMACIÓN
Se puede hacer dos tipos de estimaciones concernientes a una población:
1) La estimación puntual y
2) La estimación por intervalo.
Una estimación puntual es un solo número que se utiliza para estimar un parámetro
desconocido. A menudo, una estimación puntual es insuficiente debido a que sólo tiene dos
opciones: es “correcta” o está “equivocada”. Por otra parte, no se tiene certeza de que la
estimación sea confiable en alguna medida. Por tal motivo, una estimación puntual es mucho
más útil si viene acompañada por una estimación del error que podría estar implicado.
La estimación por intervalo, en cambio, es un rango de valores que se utiliza para
estimar un parámetro. Una estimación de este tipo indica el error de dos maneras:
1) Por extensión del intervalo y
2) Por la probabilidad que el parámetro esté contenido en el intervalo.
De esta manera se tiene una mejor idea de la confiabilidad de la estimación.
PROPIEDADES DE LOS ESTIMADORES PUNTUALES
Algunos estadísticos son mejores estimadores que otros. Afortunadamente, éstos
pueden ser comparados en relación a ciertas propiedades o características deseables, tales
como:
1) Sesgo
2) Consistencia
3) Eficiencia
4) Suficiencia
Para encontrar estimadores con esas propiedades se usan dos métodos principalmente:
el método de cuadrados mínimos y el método de máxima verosimilitud. Sin embargo, existen
otros métodos como el método de los momentos y el método de estimación de Bayes.
A continuación se describirá en que consiste cada una de éstas propiedades para los
estadísticos en general.
Estimador Insesgado
Se dice que un estadístico θ (léase tita sombrero) es un estimador insesgado del
parámetro θ, sí µ ^ = E( θ^ ) = θ.
θ
Ejemplo:
Muestre que X
¯ es un estimador insesgado de la media poblacional µ
Solución:
 ∑ xi
µ x = E( x¯ ) = E 
 n
¯


=


∑ E ( x ) = ∑ µ = nµ = µ
i
n
n
n
2
Estimador Consistente
Sea θ^
(que se calcula a partir de la muestra X1 , X2 , … , Xn ) un estimador del
parámetro poblacional θ. Sí P( θ^ → θ) → 1 cuando n → ∞ , entonces θ^ se denomina un
estimador consistente de θ.
Estimador Eficiente
Sí se encontrara un estimador con varianza inferior a la de cualquier otro estimador, se
utilizaría este como base de la medida de la eficiencia; en términos de eficiencia se dice que
este estimador de varianza más pequeña es un estimador eficiente.
Si consideramos todos los posibles estimadores insesgados de algún parámetro θ, el de
menor varianza se llamará: estimador más eficaz de θ.
Estimador Suficiente
Un estadístico suficiente es un estimador que utiliza toda la información que posee una
muestra para estimar el parámetro. Por ejemplo, X
¯ y p son estadísticos suficientes para µ y
π, respectivamente, dado que el cálculo de estos estadísticos involucra a cada uno de los
valores observados en la muestra.
ACTIVIDAD PARA EL ALUMNO
Investigar los distintos métodos que existen para obtener estimadores con las
propiedades deseables que se mencionaron anteriormente.
LA ESTIMACIÓN POR INTERVALO
Como ya se dijo antes, es preferible determinar un intervalo, el cual esperaríamos que
contuviera el valor del parámetro, en contraposición a suponer que una estimación puntual
obtenida de una muestra, sea exactamente igual al parámetro poblacional. En este sentido, la
estimación por intervalo complementa la estimación puntual dado que considera dicho valor
puntual del estadístico más o menos un error de estimación, el cual se estudiará más adelante.
3
La estimación por intervalo de un parámetro de población, θ, encierra un rango de
^
^
valores (o intervalo) de la forma θ LI < θ < θ LS, donde θ^ LI y θ^ LS representan lo extremos o
límites inferior (LI) y superior (LS) del intervalo y dependen tanto del valor del estadístico θ^,
para una muestra específica, como de su distribución muestral, ƒ ( θ^ ).
A continuación se definen tres conceptos estrechamente relacionados en la
construcción de intervalos de confianza: Estos son: Intervalo de Confianza, Nivel de
Confianza y Valor Crítico.
Intervalo de Confianza, IC
Un intervalo de confianza es un conjunto o rango de valores que se usan para estimar el
valor real de un parámetro poblacional.
Nivel de Confianza, 1-α
El nivel de confianza es la probabilidad 1-α indicativa de la proporción de veces que el
IC realmente contiene el parámetro de la población, suponiendo que el proceso de estimación
se repite un gran número de veces.
Valor Crítico, Zα/2
Un valor crítico es un número que está en la frontera que separa aquellos valores del
estadístico que probablemente ocurrirán, de aquellos valores del estadístico que no tienen
posibilidades de ocurrir.
Por ejemplo, el valor crítico Zα/2 que corresponde a un nivel de confianza (1-α) del
95%, es la puntuación Z con la propiedad de que separa un área de α/2 = 0,025 en la cola
derecha de la distribución normal estándar, tal como se muestra en la siguiente figura 1.
4
Nivel de Confianza del 95%
1- α = 0,95
α/2 = 0,025
α/2 = 0,025
- Zα/2 = -1,96
Z=0
Zα/2 = 1,96
Figura 1. Curva de la distribución normal indicando las áreas y valores críticos para un nivel
de confianza del 95%. Fuente: Autor.
Algunos de los valores críticos Zα/2 usados con mayor frecuencia en la estimación por
intervalos, cuando la distribución muestral del estadístico corresponde a una distribución
normal, se indican en la siguiente tabla:
Tabla 1.
Valores críticos más utilizados en la construcción de IC con estadísticos cuya
distribución muestral corresponde a la distribución normal estandarizada.
Valor crítico
Nivel de confianza
(1- α)
α
α/2
Zα/2
90%
0,10
0,05
1,645
95%
0,05 0,025
1,96
99%
0,01 0,005
2,575
ACTIVIDAD PAR EL ALUMNO
Encuentre los valores críticos correspondientes a los niveles de confianza del 90, 95 y
99 por ciento, sabiendo que la distribución muestral del estadístico es la distribución t de
student, con ν = 11 grados de libertad (g.l.).
5
ERROR DE ESTIMACIÓN
Cuando se utilizan los datos de una muestra aleatoria simple para estimar un parámetro
poblacional θ, el margen de error que se denota con la letra mayúscula E, representa la
diferencia máxima probable (con probabilidad 1-α) entre el valor del estadístico θ^ calculado a
partir de la muestra y el valor real del parámetro θ.
El error de estimación también se conoce como “error máximo del estimado” o “error
^
de estimación” y se calcula multiplicando el valor crítico θ α/2, por la desviación estándar del
estadístico, σ^θ , como se muestra en la siguiente fórmula:
E = θ^ α/2 * σ ^θ
Una vez conocido el error de estimación se puede construir el intervalo de confianza
siguiendo el procedimiento que a continuación se detalla.
PROCEDIMIENTO GENERAL PARA CONSTRUIR UN INTERVALO DE CONFIANZA
1. Verificar que los supuestos requeridos se satisfagan.
2. Calcular el valor crítico correspondiente al nivel de confianza que se deseado.
3. Evaluar el margen de error E.
4. Calcular los valores correspondientes a los límites de confianza del intervalo:
a. ^θ = θ^ - E
LI
b. ^θ LS = θ^ + E
5. Exprese el intervalo en alguno de los siguientes formatos:
a. ( θ^ LI , θ^ LS )
b.
c.
θ^ ± E
^θ < θ < θ^
LI
LS
A continuación se darán algunos ejemplos de cómo obtener intervalos de confianza
para la media poblacional, siguiendo los pasos descritos en el procedimiento anterior.
6
Estimación de la media poblacional µ mediante un intervalo de confianza (cuando se
conoce la desviación estándar de la población, σ).
1. Verificar que los supuestos requeridos se satisfagan. (Ver condiciones de validez del
teorema).
− La muestra es aleatoria simple.
− Se conoce el valor de la desviación estándar poblacional σ.
− La población está normalmente distribuida o n > 30.
Nota:
La media muestral, X
¯ , es el mejor estimador puntual de la media de la población dado
que es un estimador insesgado, consistente, eficiente y suficiente como se había
mencionado antes.
2. Calcular el valor crítico correspondiente al nivel de confianza que se deseado. Por
ejemplo, si el nivel de confianza es de 95% (1-α = 0,95), el valor crítico es Zα/2 = 1,96.
Nota:
Recuérdese que según el teorema del límite central, podemos esperar que la
distribución muestral de X
¯ esté distribuida de forma aproximadamente normal con media
µx = µ y desviación estándar σx = σ / √ n
De aquí que el estadístico
Z=( X
¯ - µx ) / σx
=( X
¯ - µ ) / ( σ / √ n ) siga una
distribución normal estandarizada: Z N(0,1).
^
3. Evaluar el margen de error E = θ α/2 * σ
^θ
Nota:
En este caso θ^ es reemplazado por X
¯ , el cual tiene una distribución normal (como se
explica en el paso anterior) y que será equivalente a la variable aleatoria Z, una vez que se
haya hecho la estándarización. Por lo tanto,
θ^ es en este caso: Z
α/2
y
De aquí que,
σ θ^
α/2
es igual a: σ / √ n
E = Zα/2 * σ / √ n
7
4. Calcular los valores correspondientes a los límites de confianza del intervalo:
^θ = θ^ - E X
¯ LI = X
¯ - (Zα/2 * σ / √ n)
LI
^θ = θ^ + E X = X + (Z * σ / √ n)
¯ LS ¯
LS
α/2
5. Exprese el intervalo en alguno de los siguientes formatos:
a. ( θ^ LI , θ^ LS)
(X
¯ LI , X LS)
¯
b.
c.
θ^ ± E
^θ < θ < θ^
LI
LS
X
¯ ±E
X
¯ LS
¯ LI < θ < X
Nota:
Cualquiera de estas tres formas de expresar el intervalo es similarmente correcta.
Estimación de la media poblacional µ mediante un intervalo de confianza (cuando NO se
conoce la desviación estándar poblacional σ).
Como se dijo antes, la media muestral X
¯ es el mejor estadístico para estimar la media
poblacional µ, sin embargo, el hecho de que la desviación estándar de la población sea
desconocida obliga a redefinir la distribución muestral de X
¯ . Por lo tanto, en este caso
particular, X
¯ puede ser descrita con mayor exactitud mediante la distribución t de student, a la
cual ya se ha hecho referencia en otras oportunidades. Con esto en mente, sígase el
procedimiento general para la construcción de intervalos de confianza expuesto antes.
1. Verificar que los supuestos requeridos se satisfagan.
− La muestra es aleatoria simple.
− La población está normalmente distribuida o n > 30.
2. Calcular el valor crítico correspondiente al nivel de confianza que se deseado.
Hallar por medio de la tabla de la distribución t, el valor tα/2 con ν = n-1 (g.l.).
3. Evaluar el margen de error E.
X
¯
8
Para este caso, el estadístico
, tiene una desviación estándar σx equivalente a S/√n,
por lo tanto el error de estimación viene dado por: E = tα/2 * S/√n
4. Calcular los valores correspondientes a los límites de confianza del intervalo:
X
¯ LI = X
¯-E
X
¯ LS = X
¯ +E
5. Exprese el intervalo en alguno de los siguientes formatos:
( X
¯ LI , X
¯ LS )
X
¯ ±E
X
¯ LI <
µ < X
¯ LS
Estimación de la varianza (σ2) y la desviación típica (σ) de la población mediante un
intervalo de confianza, para un nivel de confianza del (1-α)%.
Sea S2 la varianza de una muestra aleatoria de tamaño n de una población normal,
entonces el estadístico: (n-1)*S2/σ2 , es una variable aleatoria, llamada χ2 , cuya distribución
muestral corresponde a una distribución chi-cuadrada con n-1 grados de libertad.
Para la construcción del intervalo de confianza en este caso, el procedimiento difiere
un poco del caso general esplicado antes, dado que la distribución chi-cuadrada no es
simétrica y además está definida solo para valores positivos.
En consecuencia de esto, se deben obtener los límites de confianza como se indica a
continuación:
^2
σ
LI
= (n-1)*S2/χ2 α/2, n-1
y
^2
σ
LS
= (n-1)*S2/χ2 1-α/2, n-1
Luego se expresa el intervalo en uno de los modos acostubrados.
Observaciones:
1. S2 es la varianza muestral y se calcula mediante la fórmula: S2 = ∑(xi - x¯ )2 / (n -1)
2. Los valores críticos, χ2 α/2, n-1 y χ2 1-α/2, n-1 , para el Nivel de Confianza del (1-α)%, son
obtenidos de la distribución chi-cuadrada con n-1 g.l. y corresponden a aquellos
9
valores bajo la curva que dejan un área de α/2 en cada cola de dicha distribución, como
se muestra en la gráfica siguiente.
Gráfica de la Distribución χ2
α/2
α/2
χ2 α/2, n-1
χ2 1-α/2, n-1
χ2
Figura 2. Distribución Chi-cuadrada indicando los valores críticos para el Nivel de Confianza
del (1-α)%. Fuente: Autor.
3. En el caso de la desviación estándar, los límites de confianza para el nivel de (1-α)%
son los siguientes:
^
σ
= √(n-1)*S2/χ2 α/2, n-1
LI
y
^
σ
LS
= √(n-1)*S2/χ2 1-α/2, n-1
INTERVALOS DE CONFIANZA PARA LOS PARÁMETROS MAYORMENTE UTILIZADOS
A continuación se resumen los intervalos de confianza de aquellos parámetros que se
utilizan con mayor frecuencia en problemas de estimación estadística, así como el estadístico
utilizados.
10
Parámetro
Estadístico
µ
x−µ
(σ conocida)
σ/ n
µ
Intervalo de confianza
→ N (0,1)
x ± Z α / 2σ / n
x ± tα / 2 S / n
x− µ
→ t n −1
S/ n
(σ desconocida)
x ± Zα / 2 S / n
 (n − 1)S 2 (n − 1)S 2 
 2

, 2
 χ

 α / 2 , n −1 χ1−α / 2, n −1 
σ2
(n −1)S 2
σ2
→ χ n2−1
σ
∧
p− p
p
∧
p1 – p2
p1 B(n,p1) y p2 B(n,p2)
µ1-µ2
(σ1 y σ2 conocidas)
→ N (0,1)
p⋅ (1 − p )
n
p B(n,p)
1
)
− x 2 − (µ 1 − µ 2 )
σ 12
n1
+
σ 22
n2




(n − 1)S 2 , (n − 1)S 2
χ α2 / 2,n −1
∧
χ12−α / 2,n−1




∧
p± Zα / 2
p⋅ (1 − p)
n
(cuando np > 5 y nq > 5)

 ∧ ∧ 
 p 1 − p 2  −  p1 − p 2 


 
→ N (0,1)
∧
 ∧  ∧  ∧ 
p 1 1 − p 1  p 2 1 − p 2 

+ 

n1
n2
(x
(sí n > 30)
→ N (0,1)
∧ ∧ 
 p1 − p 2  ± Zα / 2


∧
 ∧  ∧  ∧ 
p 1 1 − p 1  p 2 1 − p 2 

+ 

n1
n2
x1 − x 2 ± Z α / 2
σ 12
n1
+
σ 22
n2
Parámetro
Estadístico
(x
1
Intervalo de confianza
)
− x 2 − (µ 1 − µ 2 )
S12 S 22
+
n1 n2
µ1-µ2
→tf
x 1 − x 2 ± tα / 2, f
2
(σ1 ≠ σ2 no dadas)
 S12 S 22 


+
n1 n 2 

f =
−2
2
2
S12 / n1
S 22 / n 2
+
n1 + 1
n2 + 1
(
(x
µ1-µ2
1
) (
)
− x 2 − (µ 1 − µ 2 )
Sp
(σ1 = σ2 no dadas)
S p2 =
1
1
+
n1 n2
)
S12 S 22
+
n1 n2
(cuando n1, n2 > 30)
→ t n1+ n 2−2
x1 − x 2 ± tα / 2,n1+ n 2−2 ⋅ S p
1
1
+
n1 n 2
(n1 − 1) S12 + (n 2 − 1) S 22
n1 + n2 − 2
σ 12 / σ 22
S12 / σ 12
→ Fn1−1,n 2−1
S 22 / σ 22
σ1 /σ 2
x1 − x 2 ± Z α / 2
S12 S 22
+
n1 n 2


S12 / σ 12
S12 / σ 12


,
 F

F
 α / 2,n1−1,n 2−1 1−α / 2,n1−1,n 2−1 


S12 / σ 12
S12 / σ 12


,
 F

F
 α / 2,n1−1,n 2−1

1
−
α
/
2
,
n
1
−
1
,
n
2
−
1


12
Descargar