Estadística Inferencial

Anuncio
Estadística Inferencial
Estadística Inferencial
2
Estadística Inferencial
El presente documento es una guía para el curso de inferencia
estadística impartido en el Instituto Nacional de Estadística
Geografía e Informática (INEGI), en el edificio de capacitación;
y no tiene más que esa finalidad. La sección de ejercicios será
presentada por el instructor de acuerdo a su preferencia,
además de agregar los temas que él considere pertinentes.
La parte inicial es una ubicación teórica que presenta algunos
de los conceptos más importantes y resultados que serán
utilizados en la parte formal. En ningún momento deberá
seguirse al pie de la letra la secuencia de exposición, el
instructor tomará la secuencia que considere trascendental en
su impartición.
La segunda parte es todo el curso que se debe impartir, y se
tocan los temas pero desde un punto de vista más “informal”, y
el tema de estimación ya nada más se revisa en su formalidad
detallada en la primera parte.
La razón de la estructura de este documento es que
normalmente la persona que lo elaboró1, imparte la parte teórica
para generalizar el objetivo y la ubicación de la inferencia
estadística y resultados importantes que serán formalmente
utilizados por aquellos interesados en la formulación
estadística- matemática.
Ernesto Cervantes López, INEGI
3
Estadística Inferencial
PARTE UNO
El objetivo de la estadística es hacer inferencia con respecto a
la población basándose en la información contenida en una
muestra.
Las poblaciones se describen mediante medidas numéricas
denominadas parámetros y el objetivo de la mayoría de las
investigaciones estadísticas es hacer inferencia con respecto a
uno o más parámetros de la población.
El proceso de obtener un resultado observado de un fenómeno
físico es denominado un experimento.
Suponga que el resultado de un experimento es una variable
aleatoria x, y f ( x,θ ) representa la función de densidad la cual
refleja la distribución de las medidas de los individuos en la
población.
Aunque el experimento no permite especificar completamente a
f ( x,θ ) , y esto es posible si se puede asumir que f ( x,θ ) es un
miembro de alguna familia conocida de distribución y que θ es
un parámetro no conocido tal como la media o la varianza de la
población. El objetivo de la estimación puntual es asignar un
valor apropiado a θ basado sobre las observaciones de la
población, es decir, se asume que un conjunto de n variables
independientes x1 , x 2 ,..., x n cada una con f ( x,θ ) observada de
un conjunto de datos x1 , x 2 ,..., x n el cual puede representarse
como
f ( x1 , x 2 ,..., x n : θ ) = f ( x1 ,θ ) f ( x 2 ,θ )... f ( x n ,θ )
Se asume que la distribución de la población de interés puede
ser representada por un miembro de alguna familia especifica
conocida f ( x,θ ) , indexada por el parámetro θ . En algunos
casos el parámetro puede ser un vector y se denota por Θ .
Se denotara por Ω como el espacio paramétrico que denota el
conjunto de todos los posibles valores que el parámetro θ
puede asumir. Si Θ es un vector entonces Ω será un
subconjunto del espacio euclidiano de la misma dimensión y la
4
Estadística Inferencial
dimensión de Ω va a corresponder al número de parámetros
reales no conocidos.
Se asume que x1 , x 2 ,..., x n es una muestra aleatoria de f ( x,θ ) y
que τ (θ ) es una función de θ .
Definición
Un estadístico T = ι ( x1 , x 2 ...x n ) que es usada para estimar el
valor de τ (θ ) es denominado un estimador de τ (θ ) y un valor
observado de el estadístico t = ι ( x1 , x 2 ,..., x n ) es denominado
una estimación de τ (θ ) .
Equivalentemente se puede abusar y decir que un estimador es
una regla que establece cómo calcular una estimación basada
en las mediciones contenidas en una muestra.
Es posible obtener varios estimadores (reglas para la
estimación) diferentes para un mismo parámetro poblacional.
Esto nos lleva a tratar de definir cuales son buenos o malos en
la aproximación.
Para ello debemos recordar algunos conceptos teóricos que se
utilizaran.
Definición.
Sea g (Y1 , Y2 ,..., Yn ) una función de las variables aleatorias
Y1 , Y2 ,..., Yn que tienen una función de probabilidad
p ( y1 , y 2 ,..., y n ) . Entonces el valor esperado de g (Y1 , Y2 ,..., Yn ) es
E ( g (Y1 , Y2 ,..., Yn )) = ∑∑ ...∑∑ g ( y1 , y 2 ,..., y n ) p ( y1 , y 2 ,..., y n )
y n y n −1
y2
y1
Si Y1 , Y2 ,..., Yn son variables aleatorias continuas con la función
de densidad conjunta f ( y1 , y 2 ,..., y n ) entonces
E ( g (Y1 , Y2 ,..., Yn )) =
∫ ∫ ... ∫ ∫ g (y , y
1
y n y n −1
2
,..., y n ) f ( y1 , y 2 ,..., y n )dy1 dy 2 ...dy n −1 dy n
y 2 y1
5
Estadística Inferencial
Teorema
Sea c una constante entonces E (c) = c
Teorema
Sean g (Y1 , Y2 ) una función de las variables aleatorias Y1 ,Y2 , y
sea c una constante. Entonces E (cg (Y1 , Y2 )) = cE ( g (Y1 , Y2 ))
Teorema
Sea Y1 ,Y2 dos variables aleatorias con la función de densidad
conjunta f ( y1 , y 2 ) y sea g 1 (Y1 , Y2 ), g 2 (Y1 , Y2 )...g k (Y1 , Y2 ) funciones
de Y1 ,Y2 . Entonces
E ( g1 (Y1 , Y2 ) + g 2 (Y1 , Y2 ) + ... + g k (Y1 , Y2 )) =
E ( g1 (Y1 , Y2 )) + E ( g 2 (Y1 , Y2 )) + ... + E ( g k (Y1 , Y2 ))
Propiedades de los estimadores
Estimador Insesgado
Definición
Un estimador T es un estimador insesgado de τ (θ ) sí
E (T ) = τ (θ ) para todo θ ∈ Ω , de otra manera se dice que T es
un estimador sesgado de τ (θ ) .
Ejemplo
Considere una muestra aleatoria de una distribución f ( x, Θ) ,
con Θ = ( µ , σ 2 ) , donde µ y σ 2 son la media y la varianza de la
población.
Ahora bien la media muestral es un estadístico con la función
t ( x1 , x 2 ,..., x n ) = ( x1 + x2 + ... + x n ) / n y este estadístico
−
n
xi
que se usa como una
i =1 n
estimación de la media poblacional µ = E (x) , para X 1 , X 2 ,..., X n
variables aleatorias, y la función
usualmente se denota con
−
x =∑
−
−
t ( x1 , x 2 ,..., x n ) = (( x1 − x )+ ( x 2 − x)+ ... + ( x n − x )) / n − 1
6
Estadística Inferencial
n
Permite obtener S 2 =
ambos µ y σ 2 .
−
∑ (x
i =1
1 − x)
n −1
como estimador de σ 2 , y
Ejercicio: Verificar que son insesgados.
−
1. E (x) =µ
2. E ( S 2 ) =σ 2
Después de verificar la afirmación se tiene que los parámetros
son insesgados , el espacio paramétrico asociado es un
subconjunto de dos dimensiones del espacio euclidiano. En
particular Ω es el producto cartesiano Ω = (−∞, ∞) x(0, ∞) , para
µ y σ2.
En pocas palabras nos gustaría que la media del valor
esperado de la distribución de las estimaciones fuera igual al
punto estimado, es decir, E (θˆ) =θ
Definición
El sesgo B de un estimador puntual θˆ está dado por
B = E (θˆ) − θ .
(a)
θ
θˆ
(b) θ θˆ
La adecuada sería (b) ya que una menor varianza garantiza que
en el muestreo repetitivo una mayor fracción de valores de θˆ
quede cerca de θ , es decir que la varianza V (θˆ) sea mínima.
7
Estadística Inferencial
Dados dos estimadores insesgados de un parámetro θ
seleccionamos el estimador con la menor varianza,
permaneciendo constante en todas las condiciones restantes.
Algo que se utiliza en lugar del sesgo y la varianza para
describir la bondad de un estimador puntual es el valor
esperado de (θˆ − θ ) 2 .
Definición
Sea X 1 , X 2 ,..., X n una muestra aleatoria de tamaño n de
f ( x;θ ) . Un estimador T * de τ (θ ) es denominado un estimador
insesgado uniforme de mínima varianza de τ (θ ) sí
1. T * es insesgado para τ (θ )
2. Para cualquier otro estimador insesgado T de τ (θ ) ,
Var (T * ) ≤ Var (T ) para todo θ ∈ Ω
En algunos casos la cota inferior puede ser derivada de la
varianza de un estimador insesgado. Si T es un estimador
insesgado de τ (θ ) , entonces la cota inferior Cramer- Rao
basada sobre una muestra aleatoria es
(τ ′(θ )) 2
Var (T ) =
asumiendo la condición de
∂
nE ( ln f ( x;θ ))
∂θ
diferenciabilidad, se puede obtener dicha expresión.
Definición
La media del cuadrado del error de un estimador puntual θˆ y se
define como el valor esperado de (θˆ − θ ) 2 , es decir, E (θˆ − θ ) 2 .
La media del cuadrado del error de un estimador θˆ , MCE (θˆ) es
una función al mismo tiempo de su varianza y sesgo
MCE (θˆ) = V (θˆ) + B 2
Enseguida se muestran algunos estimadores de parámetros
poblacionales.
8
Estadística Inferencial
E (θˆ)
σ θˆ 2
µ
σ2
n
p
pq
n
Y1 − Y2
µ1 − µ 2
σ1 σ 2
+
n1
n2
pˆ1 − pˆ 2
p1 − p2
p1q1 p2 q2
+
n1
n2
Parámetro
objetivo θ
Tamaño de La(s)
muestra(s)
Estimador
puntual
µ
n
Y
p
n
pˆ =
µ1 − µ 2
n1 y
p1 − p2
n1
n2
y n2
Y
n
2
y σ 2 son las varianzas de las poblaciones 1 y 2
σ1
respectivamente.
2
2
La manera de evaluar la bondad de cualquier procedimiento de
estimación puntual estriba en términos de la distancia entre las
estimaciones generadoras y el parámetro objetivo.
Definición
El error de estimación ε es la distancia entre un estimador y
su parámetro objetivo, es decir, ε =| θ − θˆ | .
9
2
Estadística Inferencial
Eficiencia relativa
Definición
Dados dos estimadores insesgados θˆ1 y θˆ2 , de un parámetro
θ , con varianzas V( θˆ ) y V( θˆ ), respectivamente, entonces la
1
2
eficiencia relativa de θˆ1 con respecto de θˆ2 se define como la
V (θˆ2 )
razón eficiencia =
.
V (θˆ1 )
Consistencia
Definición
El estimador θˆn es un estimador consistente de θ si para
cualquier número positivo ε se tiene que lim P(| θˆn − θ |≤ ε ) = 1 o
n→∞
en forma equivalente lim P(| θˆn − θ |≥ ε ) = 0
n→∞
Suele utilizar el siguiente resultado para probar la consistencia
de un estimador
Teorema
El estimador insesgado θˆn para θ es un estimador consistente
de θ sí lim V (θˆ ) = 0
n→∞
n
Suficiencia
En seguida se presentan algunos métodos para encontrar
estadísticos que en cierto sentido resumen toda la información
en una muestra con respecto a un parámetro objetivo, y tales
estadísticos tienen la propiedad de la suficiencia.
Definición
Sean y1 , y2 ,..., yn observaciones muestrales para las variables
aleatorias correspondientes Y1 , Y2 ,..., Yn . Entonces si Y1 , Y2 ,..., Yn
son variables aleatorias discretas, la verosimilitud (factibilidad)
de la muestra, L = L( y1 , y2 ,..., yn ) se define como la probabilidad
conjunta de y1 , y2 ,..., yn . Si Y1 , Y2 ,..., Yn son variables aleatorias
10
Estadística Inferencial
continuas, la verosimilitud L( y1 , y2 ,..., yn ) se define como la
densidad conjunta evaluada en y1 , y2 ,..., yn .
El siguiente teorema relaciona la propiedad de suficiencia con la
verosimilitud.
Teorema
Sea U un estadístico basado en una muestra aleatoria
Y1 , Y2 ,..., Yn . Entonces U es un estadístico suficiente para la
estimación de un parámetro θ si y sólo si la verosimilitud L se
puede factorizar en dos funciones no negativas
L( y1 , y2 ,..., yn ) = g (u,θ )h( y1 , y2 ,..., yn ) en donde g (u ,θ ) es una
función solamente de u y θ , y h( y1 , y2 ,..., yn ) no es una función
de θ .
En general se desea encontrar un estadístico suficiente que
reduzca los datos en la muestra hasta donde sea posible. Los
estadísticos que cumplen con ése objetivo se denominan
estadísticos de mínima suficiencia.
Suficiencia mínima y estimación insesgada de mínima
varianza
Tales estadísticos fueron desarrollados por Lehmann y Scheffé.
Suponga que Y1 , Y2 ,..., Yn representa una muestra aleatoria de
una función de probabilidad p ( y ) , o una función de densidad
f(y) con un parámetro desconocido θ . El conjunto de variables
Y1 , Y2 ,..., Yn puede tomar varios valores, supongamos que
y1 , y2 ,..., yn y x1 , x2 ,..., xn son dos conjuntos de valores posibles,
el método utiliza la razón de verosimilitudes evaluadas en esto
L( x1 , x2 ,..., xn )
dos puntos
. Varias veces es posible encontrar
L( y1 , y2 ,..., yn ) n
una función g ( x1 , x2 ,..., xn ) tal que la razón mencionada no
presente el parámetro desconocido θ sí y sólo sí
g ( x1 , x2 ,..., xn ) = g ( y1 , y2 ,..., yn ) . Si se puede encontrar tal función
g, entonces g (Y1 , Y2 ,..., Yn ) es un estadístico de mínima
suficiencia para θ .
11
Estadística Inferencial
Método de los momentos
Ya que el método de anterior no siempre es aplicable, el
siguiente método es uno de los más antiguos, aunque el más
sofisticado el de máxima verosimilitud.
Para ello recuerde que el k-ésimo momento de una variable
aleatoria, tomando con respecto al origen, es µ ' k = E (Y k ) , el
correspondiente k-ésimo momento de la muestra es el
1 n k
promedio m'k = ∑ Yi .
n i =1
Método de los momentos: Elija estimaciones aquellos valores
de los parámetros que son soluciones de las ecuaciones
µ ' k = mk ' , con k=1,2,...,t en donde t es igual al número de
parámetros.
Método de la máxima verosimilitud.
El método implica determinar alguna función de un estadístico
de mínima suficiencia que sea un estimador insesgado del
parámetro – objetivo. El método de los momentos generalmente
no lleva a mejores estimadores, contrario al de máxima
verosimilitud.
Método de la máxima verosimilitud: Escoja como
estimaciones aquellos valores de los parámetros que
maximizan la verosimilitud.
12
Estadística Inferencial
PARTE DOS
1. Introducción
Todas las herramientas estadísticas con las que se cuenta
hasta ahora, tales como tablas, gráficos y cálculo de medidas
descriptivas se podrían englobar en el término Estadística
Descriptiva, puesto que ellas esencialmente permiten describir,
presentar y resumir información que ha sido recolectada de
alguna forma.
Sin embargo las técnicas de la Estadística Descriptiva no
permiten responder interrogantes que pueden surgir cuando no
se dispone de la información sobre todos los individuos de la
población de interés sino sólo de una parte de ella, es decir,
que los datos provienen de una muestra de individuos de la
población bajo estudio. Ejemplos de esta situación son:
Si se conoce que la ganancia promedio de ventas de
una muestra de 50 automóviles nuevos es de $935,
¿qué se puede decir sobre la ganancia media de
todas las ventas de automóviles nuevos?
Si se encontró que una curso de capacitación ayuda a
encontrar trabajo a 16 de 20 jóvenes de una ciudad,
¿qué porcentaje de todos los jóvenes que buscan
trabajo se puede esperar que encuentren trabajo
después de tomar el curso?
Para responder este tipo de preguntas la Estadística dispone de
una gran cantidad de métodos que se engloban dentro de la
llamada Estadística Inferencial, los cuales se usan
esencialmente para determinar la probabilidad de que una
conclusión sacada a partir de los datos de una muestra sea
cierta en la población muestreada.
Las poblaciones pueden ser ventas, personal de una empresa,
consumidores de un producto, etc.
El proceso conocido como inferencia estadística, requiere
consideraciones de cómo fue seleccionada la muestra y cuánto
varían las observaciones de una muestra a otra. De esta
manera, los métodos de selección de los individuos que se
usarán en la investigación son de considerable importancia para
la obtención de resultados y conclusiones válidas.
El requisito fundamental de una buena muestra es que sea
representativa de la población que se trata de describir
13
Estadística Inferencial
(Población Objetivo – Figura 1). Hay, por supuesto muchas
formas de obtener una muestra no representativa. Una obvia
falta de representatividad ocurre cuando la muestra se toma de
la población equivocada. Por ejemplo, se quiere conocer la
proporción de personas que consumen un determinado
producto y la muestra se obtiene de los clientes de un solo
supermercado.
Aún cuando se esté seguro que la muestra se obtiene de la
apropiada población, otra fuente potencial de error en el
muestreo, especialmente en las encuestas de opinión son las
respuestas sesgadas. Cuestionarios mal redactados o
técnicas de entrevistas inadecuadas pueden dar lugar a
respuestas que no reflejan la realidad que se quiere evaluar.
Por otra parte, en muchas ocasiones no es posible obtener la
muestra a partir de todos los individuos que definen la población
objetivo, sino sólo a partir de una subpoblación que es
accesible al investigador en el momento de hacer la selección
de los individuos de la muestra y ella recibe el nombre de
población muestreada (Figura 1).
Población objetivo
Se requiere sentido común para
hacer inferencias del muestreo a
la población objetivo
Población muestreada
Para hacer inferencias estadísticas
de la muestra a la población
muestreada se requiere que la
muestra sea aleatoria
Muestra
Figura 1: Alcances de las inferencias
realizadas de una muestra.
Consideremos, por ejemplo, un sondeo telefónico que realizó la
cadena de televisión ABC inmediatamente antes de las
14
Estadística Inferencial
elecciones de 1980 entre Carter y Reagan. La ABC invitó a sus
televidentes a llamar (por larga distancia) para dar a conocer
sus preferencias presidenciales. En vez de lograr una muestra
del sentir real de los electores, la ABC obtuvo una muestra de
las preferencias de los votantes que estaban suficientemente
interesados en desviar el resultado del sondeo como para
invertir en las llamadas telefónicas de larga distancia. Es claro
que la ABC no realizó un muestreo aleatorio de la población de
posibles votantes. Más demócratas hicieron las llamadas de
larga distancia, y la ABC pronosticó así una victoria electoral de
Carter. Antes de extender cualquier conclusión, es necesario
evaluar qué factores selectivos y sesgos distinguen a la
población realmente muestreada (todos los votantes que
hicieron las llamadas de larga distancia) de la población objetivo
(todos los posibles votantes).
Los métodos de la Inferencia Estadística permiten generalizar
los resultados de la muestra sólo a los individuos que
componen la población muestreada y la generalización hacia la
población objetivo está fuera del alcance de la Estadística. Sin
embargo, si es posible suponer que la población muestreada es
similar a la población objetivo no se cometería un error grande
en generalizar los resultados hacia la población objetivo.
Aún cuando se esté seguro que la muestra se obtiene de la
población apropiada, es igualmente importante que la muestra
se saque de una manera objetiva e insesgada.
Muestras casuales o muestras seleccionadas sobre la base de
que es fácil de recolectar, son raramente representativas de la
población. Hay varios métodos adecuados para seleccionar una
muestra que permiten evitar los sesgos, y la mayoría tiene
como base el concepto de muestra aleatoria o probabilística,
en la cual cada individuo en la población de interés es
seleccionado (o no) a través del uso de mecanismos aleatorios
descriptos claramente. Por ejemplo, el caso más simple, es el
denominado esquema de muestreo aleatorio simple en el
cual cada posible muestra es igualmente probable, lo que
implica que cada individuo tiene igual probabilidad de ser
seleccionado para pertenecer a la muestra. Más adelante se
tratará con más detalle los distinto tipos de muestreo.
En cualquier estudio, los investigadores deben escribir de
manera completamente explícita la manera en la cual las
muestras han sido elegidas y cuando se escribe o se lee
cualquier trabajo de investigación uno debería hacerse las
siguientes preguntas:
15
Estadística Inferencial
¿El autor define claramente la población muestreada?
¿El autor discute similitudes y posibles diferencias
entre la población muestreada y la población objetivo?
¿El autor describe claramente el mecanismo de
muestreo que usó?
¿El mecanismo de muestreo es aleatorio? (Si no lo es,
porque?).
¿Los métodos de análisis de datos son adecuados
para el esquema de selección usado?
¿Qué ocurre si el investigador no ha usado un muestreo
aleatorio para seleccionar los individuos de la muestra?
Supongamos por ejemplo que él simplemente usó los datos de
los clientes de un supermercado para evaluar las preferencias
de los consumidores respecto a distintas marcas de un
producto. Muchos, sino la mayoría, de los estudios son de este
tipo. Los datos son analizados luego, como si ellos hubieran
surgido a partir de una muestra aleatoria de consumidores. El
problema aquí es que estamos perdiendo la vital vinculación
entre un esquema de muestreo aleatorio y el apropiado método
de inferencia estadística, el cual supone siempre que hubo una
selección aleatoria de la muestra.
En estas circunstancia, ¿se debería entonces abandonar la
inferencia estadística? Probablemente no, pero deberíamos
siempre estar muy preocupados de tomar estos resultados muy
seriamente. Las bases de la inferencia, en este caso, han sido
severamente debilitadas (“destruida”, dirían algunos). En rigor
de verdad, deberíamos decir: “si pretendemos que tenemos una
muestra aleatoria, entonces …”. La palabra pretender ha sido
usada deliberadamente ya que no es una suposición, puesto
que nosotros sabemos que la muestra no es aleatoria. Al final,
nosotros deberíamos aceptar que estamos usando la inferencia
estadística sólo como una guía, como una manera de ayudar a
que los datos tengan algún sentido, por todo esto, nuestra
inferencia en estos casos debería estar basada más en el
sentido común que en la teoría estadística.
En las Unidades anteriores se estudió las reglas básicas de
probabilidad y distintas distribuciones de probabilidad como la
binomial, Poisson, Normal y exponencial. En esta unidad se
usarán estas reglas de probabilidad junto con el conocimiento
de las distribuciones de probabilidad para analizar cómo ciertas
16
Estadística Inferencial
medidas (media, proporción) pueden usarse para hacer
inferencias respecto a los parámetros poblacionales.
La inferencia estadística involucra dos áreas principales:
Estimación y Prueba de Hipótesis, pero antes de tratar estos
importantes temas es necesario manejar el concepto de
Distribución en el Muestreo o Distribución Muestral que es la
base para comprender los métodos y herramientas de la
inferencia estadística.
1. Distribución muestral
Un objetivo que se presenta frecuentemente en las
investigaciones de diferentes áreas es conocer el promedio de
alguna característica cuantitativa o la proporción de individuos
que poseen determinada característica cualitativa. Por ejemplo,
la edad media de las “mujeres de una dada región que usan
determinado servicio” (Población Objetivo); o la proporción de
“egresados universitarios de un país” (Población Objetivo) que
hacen una carrera de postgrado. En general, las características
de interés en un estudio se denominan parámetros
poblacionales. En los ejemplos dados los parámetros
poblacionales son la media y la proporción y generalmente se
denotan con a lamedia y con a la proporción.
Para determinar los parámetros poblacionales se requiere
conocer los valores de la variable para todos los individuos de
la población, por ejemplo para determinar la edad media se
requiere conocer la edad de todas las mujeres que usan el
servicio. Sin embargo, no siempre es posible obtener la
información de todos los individuos que componen la población
por razones de costo en tiempo y dinero, y cuando eso ocurre
se hace necesario recurrir a una muestra de la población.
Luego, a partir de los datos de la muestra se busca una manera
de combinar la información de la muestra para obtener la
característica de interés.
En el ejemplo donde el parámetro de interés es la edad media,
se toma una muestra de n (tamaño de la muestra) mujeres de
la población y se calcula el promedio de las edades en la
muestra. Surge entonces el interrogante a cerca de cual medida
de promedio se usará (media aritmética o mediana). Cualquiera
sea la medida que se use, cada una de ellas recibe el nombre
de estimador o estadístico. Si se conviene en usar la media
17
Estadística Inferencial
aritmética, o sea, la media muestral x , ella es en este caso el
estimador de la media poblacional 
Se debe observar que para obtener el valor de x se debe
combinar los valores observados en la muestra (suma de los
datos divida en el número de observaciones) y esto ocurre con
cualquier estadístico o estimador de una parámetro, de manera
que formalmente se puede dar la siguiente definición:
Definición 1: Un estadístico o estimador es una función de
los valores observados en los individuos que componen la
muestra, es decir, es la expresión matemática que indica la
forma de combinar los datos.
La Tabla 1 muestra los símbolos de los parámetros y sus
respectivos estimadores de uso más frecuentemente.
Tabla 1: Símbolos usuales para parámetros y estadísticos
Características
Media
Desviación
estándar
Varianza
Correlación
Proporción
Símbolo del parámetro Símbolo del Estadístico
µ
x
σ
s
s2
σ2
ρ
r
p
π
El valor que toma el estimador para una particular muestra se
denomina una estimación del parámetro poblacional. Por
ejemplo, si en una muestra de 100 mujeres se calcula el valor
de la media aritmética de las edades y se obtiene x = 25.5
años, entonces 25.5 representa un particular valor de x , es
decir es una estimación del estimador. Obviamente con cada
posible muestra se tendría un valor diferente del estimador, es
decir, se obtendría una estimación diferente para el parámetro
de interés. Por lo tanto, un estimador toma diferentes valores
para cada muestra, es decir, varía de muestra en muestra.
Teniendo en cuenta este aspecto de un estimador se puede dar
una segunda definición de estimador:
Definición 2: Un estadístico o estimador es una variable que
toma diferentes valores para cada muestra seleccionada.
18
Estadística Inferencial
De esta manera, las estimaciones dependen de la particular
muestra con que estemos trabajando.
En resumen, Si se está interesado en conocer algún parámetro
de una población de interés (media, proporción, coeficiente de
correlación, etc.), y no es posible observar o medir a todos los
individuos de la población para obtener el valor de dicho
parámetro, entonces, una posibilidad es obtener una muestra
de tamaño n y conseguir una estimación de parámetro usando
un estimador del parámetro.
Por otra parte, si se pudiera extraer todas las posibles muestras
del mismo tamaño (n) de la población de interés y con cada una
de ellas se calcula el valor del estimador o estadístico
correspondiente, se obtendría todas las estimaciones posibles
del parámetro. Luego a partir de ellos se podría construir la
distribución de probabilidad del estadístico, tal distribución
de probabilidad que recibe el nombre de distribución muestral
del estadístico de interés.
Cabe preguntarse por qué es tan importante el concepto de
distribución muestral, la respuesta es simple, cuando se quiere
estimar un parámetro poblacional (característica de la
población) a partir de una muestra surgen otros interrogantes
como:
¿Qué tan buena es la estimación obtenida?
¿Se puede llegar a la conclusión de que el parámetro
de la población es idéntico al estadístico de la
muestra o es probable que exista algún error?.
Si es así, ¿qué tan grande es dicho error?
Para responder a estas preguntas se debe comparar los
resultados obtenidos a partir de las muestras con los
resultados “esperados”. Los resultados esperados surgen
justamente a partir de la distribución muestral del estadístico y
de allí la importancia de ella.
Surge ahora otro problema, es más costoso (y a veces
imposible) obtener todas las muestras aleatorias de tamaño n
para construir la distribución muestral del estadístico o
estimador, que observar a todos los individuos de la población.
De manera que se plantean ahora nuevos interrogantes: ¿cómo
obtener la distribución muestral si se tiene sólo una muestra de
19
Estadística Inferencial
la población? Para responder esta pregunta se debe tener en
cuenta que la distribución muestral del estadístico depende de:
La distribución de la población, es decir, de la distribución
de probabilidad de la variable de interés (por ejemplo
edad de las mujeres que usan un servicio)
Del parámetro de interés (media, variabilidad)
Del estadístico que se elija para estimar el parámetro
(media aritmética o mediana, desviación estándar
muestral)
De la forma de selección aleatoria de la muestra.
Del tamaño de la muestra.
La relación existente entre la distribución de probabilidad de la
población y distribución muestral del estimador) es la que nos
permite hacer afirmaciones sobre el parámetro poblacional y
cuantificar el error de dichas afirmaciones.
En efecto, la teoría estadística inferencial provee de
herramientas que permiten conocer, aunque sea
aproximadamente, la distribución muestral del estadístico, y
luego, como ya se dijo, a partir de ella conocer el valor
esperado del estadístico. De esta manera, es posible evaluar la
precisión de la estimación obtenida con la muestra y cuantificar
el error de las afirmaciones que se hagan sobre el parámetro
poblacional.
Para clarificar estos conceptos, se considera el caso en que el
parámetro poblacional es la media µ y el estadístico para
estimarla es la media aritmética x , obtenida a partir de una
muestra de tamaño n de la población.
Como ya se dijo, si se quiere obtener la distribución muestral de
x, extrayendo todas las muestras de tamaño n, esto consumiría
más tiempo que el requerido para tomar la información de toda
la población y, en consecuencia, sería poco práctico. En su
lugar, es posible usar la teoría estadística para determinar la
distribución muestral de la media aritmética en cualquier
situación particular, siempre que se cumplan algunas
condiciones para la distribución de probabilidad de la variable
que se está estudiando (Ver Figura 2).
Ejemplo 1: En una planta embotelladora de bebida se
encuentra que la máquina embotelladora está presentando una
20
Estadística Inferencial
notable variabilidad en el llenado. Para analizar este problema
se lleva a cabo un estudio donde se define que la variable de
interés X será la cantidad de bebida que contienen las botellas.
Supongamos que la distribución de probabilidad de X es tal que
la media poblacional es µ = 1,2 litros de bebida, con un
desviación estándar σ = 0,2 litros. Supongamos ahora, que se
desconoce esta información y se quiere estimar la media
poblacional µ tomando una muestra aleatoria de tamaño n=100
de la población de botellas. La media aritmética calculada a
partir de la muestra dio un valor x =1,22 litros.
Para hacer afirmaciones sobre la precisión de la estimación que
dé algún grado de confianza en el valor encontrado a través de
la muestra, se necesita conocer la distribución muestral de x.
Las propiedades de la distribución muestral de x son la base
para uno de los teoremas más importantes de la teoría
estadística, llamado Teorema del Límite Central, que se
enuncia a continuación sin mucha formalidad.
Dada una población con media µx y desviación estándar σx
(finita), la distribución muestral de la media basada en muestras
aleatorias repetidas de tamaño n (grande) tiene las siguientes
propiedades:
1. La media de la distribución muestral de x, es decir,
el valor esperado µx = E( x) de la distribución de
probabilidad de x, es igual a la media µx de la
distribución de probabilidad de la variable X.
2. La desviación estándar en la distribución muestral de
σ
. Esta cantidad es denominada error
n
estándar de la media (SEM).
x es igual a
3. Con muestras de tamaño grande, la distribución
muestral de x sigue un modelo teórico denominado
modelo de distribución normal, sin importar la forma
de la distribución de la población original, siempre que
se cumplan las condiciones mencionadas.
Otra manera de expresar este resultado y que resulta útil para
expresar los resultados de los métodos de inferencia es la
siguiente:
21
Estadística Inferencial
Teorema del límite central:
Independiente de la distribución que tenga la variable aleatoria
X, siempre que tenga media µ y varianza σ2 finitas, al hacerse
lo bastante grande el tamaño de muestra n, entonces la
distribución del estadístico
−
Z =
X −µ
(1)
σ/ n
es Normal con media 0 y varianza 1, es decir, N(0, 1).
DISTRIBUCIÓN MUESTRAL DE LA MEDIA ARITMÉTICA (X)
DISTRIBUCIÓN DE LA POBLACIÓN DE X
DISTRIBUCIÓN DE LA POBLACIÓN DE X CON
MEDIA
µ
DESVÍO
ESTÁNDAR
σ
NORMAL CON
MEDIA
µ
DESVÍO
ESTÁNDAR
σ
n
ERROR ESTÁNDAR
x1
M1
x2
M2
x3
x4
M3
M4
...
µ−σ/ n
µ
µ+σ/ n
.
X
Mm
POBLACIÓN DE X
xm
POBLACIÓN DE X
MUESTRAS DE TAMAÑO n
Figura 2: Distribución muestral de la media aritmética
(estadístico).
El resultado enunciado da la base para toda la inferencia
estadística sobre la media.
Observación:
Aunque siempre hay excepciones, tamaños de muestras de n =
30, o más, en la gran mayoría de los casos aseguran la validez
del teorema del límite central, es decir, la distribución muestral
22
Estadística Inferencial
para x tendrá aproximadamente una distribución normal para n
≥ 30 si σ es conocido.
En el ejemplo, y de acuerdo a lo enunciado, la distribución
muestral de x será aproximadamente normal con media µ x =
1,20 litros y con un error estándar dado por
SE( x) = SEM =
0.2
σ
=
= 0.2/10 = 0.02.
n
100
La importancia del SEM y del resultado enunciado radica en
que a partir de él se puede hacer la siguiente afirmación: si el
tamaño de muestra es grande aproximadamente el 95% de
las muestras darían valores de x en un intervalo que va
desde µ -2SEM a µ +2SEM, es decir, existe una probabilidad
del 95% de que el valor calculado de x se encuentre dentro
de ese intervalo.
Obviamente, en la práctica siempre se desconoce el valor de µ
y casi siempre el valor de σ, de manera que esto es sólo el
respaldo teórico de toda la inferencia estadística, como se verá
en las secciones subsiguientes.
Ejemplo 2: En el ejemplo anterior si µ y σ son conocidos,
entonces se puede afirmar que aproximadamente el 95% de
las muestran de tamaño n = 100 darían valores de x entre 1,2 0.04 y 1,2 + 0.04, es decir entre 1,16 litros y 1,24 litros, o bien
que existe una probabilidad del 95% que el valor encontrado
para x se encuentre dentro de ese intervalo.
Como ya se dijo, la distribución muestral del estimador depende
del estadístico elegido para estimar el parámetro poblacional,
por ejemplo, si el estimador elegido para estimar la media
poblacional no es x sino la mediana, entonces el cálculo de su
error estándar y su distribución muestral no sigue exactamente
lo enunciado para el caso de x. La teoría que permite
establecer la distribución muestral de la mediana está fuera del
alcance de este curso, de manera que no será tratada aquí.
Del mismo modo que la media poblacional µ, por lo general, es
desconocida, es probable que la desviación estándar de la
población σ, tampoco sea conocido.
23
Estadística Inferencial
En el caso en que σ sea desconocido, él debe ser estimado
usando los datos de la muestra. Un estimador razonable para σ,
como ya se vio en las unidades previas, es la desviación
estándar de la muestra
−

∑  xi − x 

S = i =1
n −1
n
2
(2)
Reemplazar σ por S en (1) resulta razonable ya que se puede
demostrar que S2 es un estimador insesgado de σ2, es decir,
E[S2] = σ2. Sin embargo, la distribución muestral del estadístico
que resulta de esa sustitución, es decir,
−
X −µ
t=
S/ n
ya no es N(0,1) debido a que se usa una estimación para σ y en
consecuencia se introduce en la expresión (3) una variabilidad
adicional. En efecto, el estadístico t definido en (3) posee una
distribución denominada t de Student, la cual tiene una
apariencia similar a la distribución normal, simétricas y en forma
de campana, pero la distribución t es más dispersa. El único
parámetro de la distribución t de Student es el denominado
grados de libertad y que en este caso se encuentra relacionado
al tamaño de muestra n, y ello se expresa diciendo que el
estadístico t dado en la expresión (3) tiene distribución t de
Student con (n – 1) grados de libertad.
2. Estimación
En esta Sección se dará algunas propiedades que debería
cumplir un estimador para conseguir estimaciones confiables
del parámetro de interés. Se considerará diferentes formas de
estimación y se estudiará una manera de medir la precisión en
la estimación.
3.1. Estimación puntual
El valor obtenido del estadístico o estimador a partir de una
muestra, recibe también el nombre de Estimación Puntual.
24
(3)
Estadística Inferencial
En el ejemplo de la embotelladora es claro que el interés no es
conocer la cantidad de bebida promedio en el grupo particular
de botellas que pertenecen a la muestra, sino en toda la
población. Por otra parte, la media calculada a partir de los
datos de la muestra es sólo “una estimación” de la cantidad
de bebida media en la población de botellas. Cabe preguntarse
ahora cuáles son las propiedades de que debería tener un
estimador (media, mediana) para que sea considerado como
bueno y que nos facilite la elección entre un estadístico y otro.
Es claro que al obtener una estimación puntual su valor
dependerá de la muestra que se haya seleccionado y que el
valor encontrado puede cambiar de muestra en muestra. De
esta manera, las propiedades deseables serían que cada
estimación no se encuentre muy alejada del verdadero valor del
parámetro, y por otra parte, que no haya demasiada variabilidad
entre los valores del estadístico, obtenidos de muestra en
muestra. Esto se puede formalizar definiendo algunas
propiedades a tener en cuenta de los estadístico, a saber:
1. Insesgado: Informalmente esto significa ausencia de error
sistemático. De una manera más formal, un estadístico
cualquiera q se dice insesgado si la media de su
correspondiente distribución muestral es igual al parámetro
de interés Q, es decir, E[q] = Q.
2. Eficiente: Significa que las estimaciones obtenidas para
distintas muestras varían poco entre ellas. De una manera
más formal, el estimador más eficiente dentro de un
conjunto de estimadores insesgado será aquel que tiene la
menor varianza.
3. Consistente: Informalmente, un estadístico Q se dice
consistente si su variabilidad disminuye cuando aumenta el
tamaño de muestra.
Se puede demostrar que la media aritmética es un estimador
insesgado y eficiente de la media poblacional.
Si la variabilidad de las estimaciones se mide a través de la
desviación estándar, ésta desviación estándar recibe el nombre
de error estándar del estimador (SE).
25
Estadística Inferencial
Observaciones:
1. No debe confundirse “desviación estándar” de la distribución
de la población (variabilidad entre los individuos) con “error
estándar” del estimador que es la desviación estándar de la
distribución muestral (variabilidad entre las estimaciones de
las muestras).
2. Es muy probable que el estadístico insesgado más eficiente
no estime el parámetro poblacional con “exactitud”, esto se
debe a que en realidad cuando realizamos la estimación
sólo tomamos una muestra, y obtenemos uno de los
posibles valores del estadístico que en general no tiene
porque coincidir con el valor del parámetro que se quiere
estimar.
3.2. Estimación por intervalos
Si bien la precisión se incrementa con muestras grandes no hay
razón para esperar que la estimación puntual de una muestra
dada deba ser exactamente igual al parámetro poblacional que
se supone estima. Entonces, existen muchas situaciones en las
cuales es preferible determinar un intervalo dentro del cual se
esperaría encontrar el valor del parámetro, tal metodología se
conoce como estimación por intervalos y el intervalo se
denomina Intervalo de Confianza
Los Intervalos del Confianza son intervalos aleatorios obtenidos
a partir de los datos y en los cuales hay un grado de confianza
prefijado (medido en %) de que dicho intervalo contenga al
verdadero valor del parámetro que se quiere estimar.
El grado de confianza se denomina nivel de confianza y se lo
denota como 100(1-α)%, donde α se considera a menudo como
la probabilidad de cometer un error, ya que indica la proporción
de veces en que uno se equivoca o comete un error al suponer
que el intervalo contiene al parámetro poblacional. De esta
manera, 1-α será la proporción de veces que los distintos
intervalos de confianza contienen al parámetro. Usualmente el
valor 100 (1- α)% se lo fija en el 95%, lo que llevaría a
establecer que en promedio sólo en el 5% de los casos se
cometería error al suponer que el intervalo contiene al
verdadero valor del parámetro.
26
Estadística Inferencial
Para encontrar estos intervalos debemos conocer la distribución
muestral de cada estimador, que como ya se vio esto depende
del parámetro de interés y del estadístico que se elija para
estimar dicho parámetro. Sin embargo es posible dar la forma
general que adopta un intervalo de confianza en cualquier caso.
En general, si que se quiere estimar un parámetro Q de la
población a través del estadístico q, y si el error estándar de la
distribución de q, que se lo denotará con SE(q), entonces un
intervalo de confianza para Q con una confianza del 95%
(IC95%) viene dado por la expresión:
IC95% = [q – k1SE(q) , q + k2SE(q)] (4)
donde k1 y k2 dependen de la forma de la distribución muestral
de q.
Ejemplo 3: En el ejemplo de la embotelladora un intervalo de
confianza para el parámetro poblacional Q = µ, con una
confianza del 95%, correspondiente a una estimación de
q = x = 1.22 litros,
calculada a partir de la muestra de tamaño n = 100, y
suponiendo que se conoce la desviación estándar de la
población, es decir, σ = 0.2 litros, está dado por:
IC95% = [ x – k1SE( x) , x + k2SE( x)]
σ
= 0.02 y k1 = k2 = 1.96 se obtienen a
n
−
X −µ
partir de la distribución muestral de
, que como se vio en
σ/ n
la Sección anterior ella N(0, 1). Por lo tanto,
donde SE( x) = SEM =
IC95% = [1.22 – 1.96x0.02 ; 1.22 + 1.96x0.02] = [1.1808 ; 1.2592]
Otra manera alternativa de expresar los IC para la media
poblacional cuando se usa a la media aritmética como
estimador es la siguiente:
x±
zα 2 σ
(5)
n
27
Estadística Inferencial
o bien
x−
zα 2 σ
n
≤ µ≤ x +
zα 2 σ
n
donde
•
z α 2 = valor de z tal que el área debajo de la
curva de la función de densidad de una
distribución normal correspondiente al intervalo
[ z α 2 , ∞) es igual α/2 si n es grande (este valor
es 1.96).
•
n = tamaño de la muestra
•
σ = desviación estándar de al población
muestreada
Ejemplo 4: Una corporación quiere emitir algunos pagarés a
corto plazo y espera que los intereses que tendrá que pagar no
sean mayores a 11,5%. Para obtener cierta información acerca
de la tasa media de interés que habría que pagar, la
corporación pone a la venta 40 pagarés, uno a través de cada
una de 40 firmas de corretaje. Los valores del interés se
suponen que tienen una distribución normal con media µ y
varianza σ2 conocida, tal que σ = 0,31%. A partir de la muestra
de tamaño n = 40, se obtiene una estimación de µ, dada por x =
10,3%. Luego, usando la expresión (2) el IC del
100(1-α)%
para la media poblacional de una distribución normal es:
1.96 x0.31
, o bien,
40
1.96 x0.31
1.96 x0.31
10.31 −
≤ µ ≤ 10.31 +
40
40
10.31 ±
Haciendo los cálculos se obtiene que:
10.21 ≤ µ ≤ 10.41
De mismo modo que la media de la población es desconocida,
por lo general también se desconoce el valor real de la
desviación estándar y, por lo tanto, se necesita estimar dicho
parámetro a partir de los datos de la muestra utilizando el
28
(6)
Estadística Inferencial
estadístico S. En este caso la primera expresión de (6) adopta
la forma
x±
t( n−1),α / 2 S
(7)
n
donde se reemplaza σ por S y z(αα/2) por t(n-1), α/2 que es el valor
crítico de la distribución t con n-1 grado de libertad.
Ejemplo 5: Si en el estudio de tasa principal de bancos σ es
desconocido y se tiene una muestra de tamaño 50 y el valor
obtenido de x = 9,1% y como estimador de σ se usa
n =50
2
−

∑  xi − x 
 , dando en este caso el valor S = 0,24,
S = i =1 
n −1
entonces, reemplazando este valor en la expresión (7), donde
además se reemplaza z(α/2) por t(n-1), α/2. Luego, el valor
estimado del error estándar será,
SE (x ) =
S
0.24
=
= 0.034
n
50
y el valor de t(n-1),α/2 = 2.01. Luego, el intervalo de confianza para
la media poblacional con una confianza del 95% está dado por:
IC95% = [9.1 – 2.01x0.034; 9.1 + 2.01x0.034] = [8.96; 9.10]
Observaciones:
1. El valor de kiSE(q) del intervalo de confianza para el
parámetro q se lo puede entender como cota para el error
de estimación. En el último ejemplo se tiene entonces, que
esta cota es 1.96x0.034=0,07. Esto se interpreta como que
la probabilidad de que el error sea menor a 0,07 es 0,95.
Así, la cota para el error de estimación, 7%, proporciona una
medida de la exactitud para la estimación efectuada por la
empresa de investigaron de mercado.
29
Estadística Inferencial
Actividad 2:
1. Se relaciona muchas veces un incremento en la proporción
de ahorros de los consumidores a una falta de la confianza
en la economía, y se dice que ello es un indicador de una
tendencia de recesión económica. Una muestra aleatoria de
n=200 cuentas de ahorro en una comunidad local, mostró un
incremento medio en los valores de las cuentas de 7,2% en
los últimos 12 meses y una desviación estándar de 5,6%.
a) Estime el intervalo de confianza para el aumento
porcentual promedio en las cuentas de ahorro en lo
últimos 12 meses, para ahorradores de la comunidad.
b) Obtenga una cota para su error de estimación.
2. Escriba la expresión para el IC para el parámetro de la
distribución binomial cuando n es mayor de 30.
3.3. Test de hipótesis estadística
En la sección anterior tratamos la estimación y precisión de los
estimadores, que conforman una de las dos áreas principales
de la Inferencia estadística. En esta sección presentaremos una
forma diferente de obtener inferencia acerca de parámetros
poblacionales, probando hipótesis respecto a sus valores.
Un test de hipótesis es una metodología o procedimiento que
permite cuantificar la probabilidad del error que se cometería
cuando se hace una afirmación sobre la población bajo estudio,
es decir, nos permite medir la fuerza de la evidencia que tienen
los datos a favor o en contra de alguna hipótesis de interés
sobre la población.
Se introducirá la idea de tests de hipótesis a través de un
ejemplo hipotético.
Ejemplo 6: Una industria usa como uno de los componentes de
las máquinas de producción una lámpara especial importada
que debe satisfacer algunas exigencias. Una de esas
exigencias está relacionada a su vida útil en horas. Esas
lámparas son fabricadas por dos países y las especificaciones
técnicas varían de país a país. Por ejemplo el catálogo del
producto americano afirma que la vida útil media de sus
lámparas es de 15500 horas, con un SD de 1200. Mientras que
30
Estadística Inferencial
para el producto europeo la media es de 16500, y el SD es de
2000.
Un lote de esas lámparas de origen desconocido es ofrecido a
un precio muy conveniente. Para que la industria sepa si hace o
no una oferta ella necesita saber cual es el país que produjo
tales lámparas. El comercio que ofrece tales lámparas afirma
que será divulgada la vida útil media de una muestra de 25
lámparas del lote antes de la oferta. ¿Que regla de decisión
deben usar los responsables de la industria para decir que las
lámparas son de procedencia americana o europea?.
Una respuesta que surge inmediatamente es la de considerar
como país productor aquel en la cual la media de la muestra se
aproxima más a la media de la población. Así, la decisión sería
si x ≤ 16000 (el punto medio entre 15500 y 16500) diremos que
es de procedencia americana; en caso contrario diremos que es
de procedencia europea.
Suponga que en el día de la licitación se informó que, de
acuerdo con la regla de decisión diríamos que las lámparas son
de origen americano. ¿Podemos estar herrados en esa
conclusión?. O en otras palabras, ¿es posible que una muestra
de 25 lámparas de origen europeo presente una media de
15800? Si, es posible. Entonces, para un mejor entendimiento
de la regla de decisión adoptada, es interesante estudiar los
tipos de errores que podemos cometer y las respectivas
probabilidades de cometer esos errores.
Los tests de hipótesis consisten en confrontar dos hipótesis,
una llamada hipótesis nula que denotamos con Ho y otra
llamada hipótesis alternativa denotada con H1. En el ejemplo
las hipótesis que se plantean son:
En el ejemplo las hipótesis consideradas son
Ho Las lámparas son de origen europeo, esto equivale a
decir que la vida útil X de cada lámpara sigue una
distribución con media µ=16500 horas y un SD=2000
horas.
H1; Las lámparas son de origen americano, es decir la
media poblacional µ= 15500 horas con un SD=1200
horas.
31
Estadística Inferencial
Bajo este planteo un test de hipótesis estadística no es otra
cosa que un procedimiento para tomar una decisión, bajo
incertidumbre, sobre la validez de la hipótesis nula usando la
evidencia de los datos. Puesto que trabajamos bajo
incertidumbre es claro que cualquiera sea la decisión que
tomemos siempre existe una probabilidad de cometer error. A
fin de clarificar esto podemos presentar el siguiente esquema:
Tabla 2. Esquema del procedimiento
Decisión
Realidad sobre Ho
Cierta
Falsa
Rechazar Ho
Error Tipo I
Decisión correcta
No rechazar Ho
Decisión correcta
Error Tipo II
Como se puede ver en el esquema, con cada tipo de decisión
que se tome hay asociado una posibilidad de cometer un error.
Un procedimiento de este tipo sería óptimo cuando las
probabilidades de cometer un error, cualquiera sea la decisión
que se adopte, sean pequeñas. Lamentablemente, en la
mayoría de los tests de hipótesis sólo es posible controlar una
de ellas, con la circunstancia agravante de que estos errores
son competitivos, es decir, cuando se disminuye mucho la
probabilidad de uno aumenta la probabilidad del otro.
Puesto que, el interés generalmente es “rechazar Ho” la
probabilidad de error que se controla durante este
procedimiento, es justamente el error asociado a esta decisión
(Probabilidad del Error Tipo I), es decir, la probabilidad de
rechazar Ho cuando es cierta. La máxima probabilidad de error
tipo I se denota con α y recibe el nombre de nivel de
significación del test y él debe ser prefijado de antemano. La
probabilidad de Error Tipo II se denota con β y es útil para
encontrar la bondad del test que se mide en términos de la
cantidad 1-β denominada Poder del Test.
El nivel de significación que se usa generalmente es α=0.05 lo
que corresponde a un 5% en término de porcentaje.
Retomando el ejemplo vamos a indicar por RC una región
determinada por los valores de X menores que 16000, es decir
32
Estadística Inferencial
RC={X ≤ 16000}. El valor 16000 se denomina punto crítico y
se denotará como xc.
10000
12000
14000
Región de Aceptación de H0
16000
18000
20
Región de Rechazo
H0
Figura 3: Valores posibles del estadístico del test
Con las notaciones indicadas arriba, la probabilidad de cometer
cada uno de los errores puede ser escrita del siguiente modo:
P[Error Tipo I] = P[ X pertenezca a RC | H0 es
verdadera] = α.
P[Error Tipo II] = P[ X no pertenezca a RC | H0 es
falsa ] = β
Ejemplo 7: En el ejemplo 6, cuando H0 es verdadera, es decir,
las lámparas son de origen europea, sabemos del teorema
central del límite que x , o sea la media de las muestras de
tamaño 25, tendrán distribución aproximadamente normal con
2000
media 16500 y σ =
= 400 , es decir X ∼ N( µ , σ 2 ).
25
Entonces,
P[Error Tipo I] = P[ X ∈ RC | H0 es verdadera] =
= P[ X ≤ 16000 | X ∼ N(16500, 16000)] = P[ Z ≤
(16000 – 16500)/ 400]
= P[ Z ≤ -1.25] = 0.106 = 10.6%.
Para cada regla de decisión adoptada, es decir, para cada valor
crítico xc se obtiene un valor de probabilidad de error tipo 1. Por
otra parte, si xc se elige menor que 15000 α disminuye pero β
aumenta.
Sin embargo, se puede proceder de manera inversa, es decir,
fijado α encontramos la regla de decisión que corresponderá a
una probabilidad de error 1 igual a α.
33
Estadística Inferencial
Ejemplo 8: Si se toma α = 5%, y se procede a encontrar la
regla de decisión correspondiente:
5%= P[Error Tipo I]= P[ X ≤ xc | X ∼ N(16500, 16000)] =
P[Z < -1.645],
pero se sabe que, para una distribución normal estándar
− 1.645 =
xc − 16500
400
de donde xc = 15842 horas. Entonces, la regla de decisión será
“Si X fuera inferior a 15842 se dice que el lote es
americano, en caso contrario se dice que es europeo”.
Con esta regla la probabilidad de error tipo II será
P[Error Tipo II] = P[ X > 15842 | X ∼ N(15500, 15842)] =
= P[Z > 1.425] = 7.93%
34
Estadística Inferencial
AMERICANO
EUROPEO
5%
7.93%
15500
15842 16500
Figura 4: Distribución muestral de X para el caso de la
procedencia de lote de lámparas
Procedimiento general de un test de hipótesis basado en la
región de rechazo
Se da ahora una secuencia de pasos que puede ser
usada sistemáticamente para cualquier test de hipótesis.
1) Iniciar el procedimiento estableciendo, de manera
clara y explícita, cuál es la hipótesis nula, es decir, H0.
2) Usar la teoría estadística para construir un indicador
de concordancia entre los datos y la hipótesis nula.
Este indicador denominado estadístico del test será
usado para juzgar la hipótesis H0.
3) Fijar el nivel de significación deseado α, que es el
máximo error aceptable cuando se rechaza H0, y usar
este valor para construir la región crítica.
4) Calcular el valor del estadístico a partir de la muestra.
5) Si el valor del estadístico pertenece a la región crítica,
entonces rechazar H0. En caso contrario, lo que se
puede afirmar es que no hay suficiente evidencia para
rechazar H0.
6) Si se dispone de una hipótesis alternativa y de la
distribución del estadístico del test bajo la suposición
que vale la hipótesis alternativa, se puede calcular la
probabilidad de error Tipo II.
Procedimiento general de un test de hipótesis basado en el
P-value
Otro procedimiento general de un test de hipótesis más usado
en la actualidad debido a la disponibilidad de paquetes de
programas estadísticos, consiste en tomar la decisión a partir
35
Estadística Inferencial
de la probabilidad del error Tipo I que brindan las salidas de
tales paquetes de programas, denominado P-value o
simplemente P. Este procedimiento lo podemos resumir en los
siguientes pasos:
1. Suponer que Ho es cierta.
2. Para confrontar esta suposición con la información
(parcial) que proveen los datos sobre la realidad de
Ho, se forma “una especie de indicador” de
concordancia, denominado estadístico del test, el
cual es función del de los datos.
3. Como el estadístico depende de la información de los
datos, con cada muestra posible hay asociado un
valor de este estadístico y en consecuencia se genera
una nueva variable aleatoria. Asociada a esta variable
hay una cierta distribución de probabilidad, a partir de
la cual se determina la probabilidad de que la
información de los datos concuerde con la hipótesis
nula, denominado “P-value”. De esta manera, el “Pvalue” representaría la probabilidad de cometer un
error cuando se toma la decisión de rechazar Ho.
4. Es claro que si de antemano se fija que la máxima
probabilidad de error al rechazar Ho debe ser igual a
α, otra manera de tomar la decisión es comparar el
valor del P- value con α.
Si P ≤ α entonces la decisión es Rechazamos Ho
Si P > α la decisión es No hay evidencia
suficiente para rechazar Ho
3.3.2. Pruebas de hipótesis unilaterales y
bilaterales
Las pruebas o test de hipótesis se relacionan con los
parámetros poblacionales (medias o proporciones, etc.). Se
puede utilizar los estimadores puntuales de los parámetros
poblacionales como estadístico del test en cuestión.
Supongamos, como ilustración que se utiliza el símbolo θ para
denotar el parámetro poblacional de interés, por ejemplo, θ
puede ser µ, (µ1- µ2), p ó (p1-p2), y el símbolo θˆ para denotar el
estimador puntual insesgado correspondiente.
36
Estadística Inferencial
Desde el punto de vista práctico se puede tener interés en
contrastar la hipótesis nula H0: θ = θ0, contra la alternativa de
que el parámetro poblacional es mayor que θ0, o sea H1: θ > θ0.
En esta situación, se rechazará H0 cuando θ sea grande, o sea
cuando el estadístico del test sea mayor que un cierto valor
llamado valor crítico, que separa las regiones de rechazo y no
rechazo del test (Ver Figura 3).
La probabilidad de rechazar la hipótesis nula cuando es cierta
será igual al área bajo la curva de la distribución muestral del
estadístico del test sobre la región de rechazo. En el caso que
estemos trabajando con una distribución normal, y un α = 0,05,
se rechaza la hipótesis nula cuando θ se encuentre a más de
1,645 σ θˆ a la derecha de θ0. De esta manera, se puede definir
como
Una prueba estadística de una cola o unilateral es
aquella en la que la región de rechazo se localiza
solamente en una cola o extremo de la distribución
muestral del estadístico del test.
Para detectar θ > θ0, se sitúa la región de rechazo en la
extremidad de valores superiores a θ . Para detectar θ < θ0 se
ubica la región de rechazo en la extremidad izquierda de la
distribución de θ , o sea para valores inferiores a θ .
Si hay que detectar diferencias mayores o menores de θ0, la
hipótesis alternativa será
H1: θ ≠ θ 0
es decir
θ > θ0
o bien
θ < θ0
En este caso la probabilidad de error Tipo I α se repartirá
entre las dos colas de la distribución muestral del
estadístico, y se rechazará H0 para valores de θ mayores
que un valor crítico (θ0 + C) o menor que (θ0- C). Esta prueba
se llama prueba estadística bilateral o de dos colas
37
Estadística Inferencial
3.3.3. Casos particulares de pruebas de hipótesis
1) Caso 1: Prueba de hipótesis para la media de una
población
Sea una población con media µ y desviación estándar σ, y se
tiene interés de ver si la media poblacional es un dado valor
µ0. Se toma una muestra aleatoria de tamaño n de esta
población. Por lo que el procedimiento a seguir será:
a) Hipótesis nula H0: µ = µ0
b) Estimador puntual de la media poblacional x . Por el
teorema del límite central, el cual, en esencia, establece
que bajo ciertas condiciones, cualquiera la distribución de
X, la variable aleatoria X tiene una distribución
aproximadamente normal con media µ y desviación
ο
estándar
para el tamaño de muestra grande.
n
c) Hipótesis alternativa
Prueba de una cola
Prueba de dos
colas
H1: µ > µ0 (o bien µ <
µ0)
H1: µ ≠ µ 0
d) Si la población tiene una distribución normal, o estamos
trabajando con un tamaño de muestra grande (mayor a
30), y la desviación estándar es conocida, entonces el
estadístico del test será
z=
x − µ0 x − µ0
,
=
σ
σx
n
(11)
Este estadístico tiene distribución normal con media 0 y
desviación estándar 1, bajo la hipótesis nula.
e) Si la población es normal y no se conoce la desviación
estándar, se utiliza su estimación puntual s, en cuyo caso
el estadístico del test tiene la forma
t=
38
x − µ0
s
n
(12)
Estadística Inferencial
que tiene una distribución tα,(n-1) con (n-1) grados de
libertad, bajo la hipótesis nula.
f) Región de rechazo
Prueba de una cola
Prueba de dos colas
En el caso del apartado
d)
En el caso del apartado
d)
z > zα (o bien z <- zα)
z > zα 2 o z < − zα 2
En el caso del apartado
e)
En el caso del apartado
e)
t > tα,(n-1) (o bien t <- tα,(n1))
t > tα
2
, ( n −1)
o t < −t α
2
, ( n −1)
Ejemplo 9: La producción diaria en una planta industrial
química registrada durante n = 50 días, tiene una media
muestral x = 871 toneladas. Se quiere probar la hipótesis de
que el promedio de la producción diaria del producto químico
es µ = 880 toneladas por día, contra la alternativa de que la
media es distinta de 880 toneladas diarias. Supongamos que se
conoce que la desviación estándar de la población es σ = 21
toneladas diarias.
La hipótesis nula es
H0: µ=880 toneladas
Contra la alternativa
H1: µ ≠ 880 toneladas
La estimación puntual para la media poblacional es x , por lo
tanto , el estadístico del test está dado por la expresión (11)
z=
x − µ 0 871 − 880
=
= −3.03
21
σ
50
n
Para un α = 0,05, la región de rechazo es z > 1,96 o
z < -1,96.
39
Estadística Inferencial
Observación:
1. Si el estadístico del test es Z como el definido en (1) y donde
µ = µ0, entonces, si Z es menor que –1,96, entonces
decimos que se rechaza la hipótesis nula al nivel del 5%.
2. El intervalo de confianza de 100(1-α)% del parámetro θ
(parámetro poblacional de interés), está relacionado con una
prueba de hipótesis estadística, de dos colas, del parámetro
poblacional, con nivel α. En el ejemplo, el intervalo
σ
x ± 1,96
≅ 871 ± 5 ,82 es de tal manera que en un
n
muestreo repetitivo, el 100(1-α)% = 95% de los intervalos
contendrán al verdadero valor de la media poblacional.
Como el valor 880 no cae dentro de este intervalo, entonces
nos inclinamos a rechazar la hipótesis de que µ = 880.
Actividad 3:
Un vendedor de coches nuevos calcula que su compañía tiene
un 4,8% de ganancias promedio en la venta de los autos
nuevos asignados. El gerente de venta aprobó los precios para
producir ese porcentaje de ganancias. El dueño de la compañía
quiere estar razonablemente seguro de que la decisión es
correcta, para ello se toma una muestra aleatoria de 30 coches
en la cual se obtiene una media y una desviación estándar del
porcentaje de ganancia de 4,5% y 3,9% respectivamente.
a)
Examine los datos y utilizando solamente la intuición
¿Cree que ellos apoyan la hipótesis del gerente de venta?
b)
Para realizar un test de hipótesis estadística en este caso
usaría el estadístico t o z. Explique su respuesta.
c)
Usando el procedimiento de un test de hipótesis para la
ganancia media, ¿aportan los datos evidencia suficiente
que indique que la política del gerente de ventas al
aprobar los precios genera una ganancia media de 4,8%
por coche al nivel del 5%?. (Sugerencia: use uno de estos
valores para el estadístico seleccionado Z(0.025) = 1.96 y
t 0.025,(30−1) = 2.045 )
d)
El dueño de la compañía quiere estar razonablemente
seguro de que la decisión es correcta y para lograrlo, él
quiere contrastar la hipótesis nula con α = 0,01.
40
Estadística Inferencial
(Sugerencia: use uno de estos valores para el estadístico
seleccionado Z(0.005) = 2.58 y t 0.005,(30−1) = 2.7564 )
e)
Obtenga la región de rechazo para la prueba del apartado
c)
2) Caso 2: Test de hipótesis para la diferencia de las
medias de dos poblaciones.
Supongamos tener dos poblaciones con medias µ1 y µ2 y
con desviaciones estándares σ1 y σ2 respectivamente. Se
quiere realizar un test de hipótesis para la diferencia (µ1 µ2) basado en muestras independientes de tamaño n1 y
n2 observaciones. Por lo que el procedimiento a seguir
sería
a) Hipótesis nula
H0: (µ1- µ2) = D0,
donde D0 es alguna diferencia especificada que se
quiere probar. En muchos casos se deseará probar la
hipótesis de que no hay diferencias entre las medias
de las poblaciones, en cuyo caso D0 será 0 (cero).
b) Estimador puntual de la diferencia de las medias
poblacionales ( x1 − x 2 )
c) Hipótesis alternativa
Test de una cola
Test de dos colas
H1: (µ1-µ2) > D0
H1: (µ1 − µ 2 ) ≠ D0
(o H0: (µ1-µ2) < D0)
d) Si las poblaciones tienen distribución normal, o
estamos trabajando con tamaños de muestra grande
(mayor a 30), y las desviaciones estándares de las dos
poblaciones son:
1. Conocidos y diferentes, entonces el estadístico del
test será
41
Estadística Inferencial
z=
(x
1
− x 2 ) − D0 (x1 − x 2 ) − D0
,
=
σ (x1 − x 2 )
σ 12 σ 22
+
n1
n2
(13)
donde z tiene una distribución normal con media 0
y desviación estándar 1, bajo la hipótesis nula.
2. Conocidas e iguales, entonces el estadístico del
test será
z=
( x1 − x2 ) − D 0
σ
1 1
+
n1 n2
(14)
donde z tiene una distribución normal con media 0
y desviación estándar 1, bajo la hipótesis nula.
3. En el caso de que las desviaciones poblacionales
sean desconocidos e iguales entonces se utiliza el
estimador
s 2p =
(n1 − 1)s12 + (n2 − 1)s22
n1 + n2 − 2
(15)
Entonces, el estadístico del test toma la forma
t=
( x1 − x2 ) − D0
sp
1 1
+
n1 n2
que tiene una distribución t con (n1+n2-2) grados
de libertad, bajo la hipótesis nula.
Observación:
1. En la situación en que no se puede o no se desea hacer la
suposición de que las dos poblaciones con varianzas
iguales tengan distribución normal, la prueba t de varianzas
iguales es robusta (es decir, no sensible) con respecto a las
violaciones moderadas de la suposición de normalidad,
siempre y cuando el tamaño de muestra sea grande. En tal
situación, el test t de varianza conjunta puede utilizarse sin
que se vea seriamente afectado en su potencia. Por otro
42
(16)
Estadística Inferencial
lado, si el tamaño de muestra es pequeño y no se puede o
no se desea hacer la suposición de normalidad de las
poblaciones, se tiene dos alternativas: (a) llevar a cabo
alguna transformación normalizante de los datos, por
ejemplo tomar el logaritmo de los datos, y luego aplicar el
test t a los datos transformados; (b) o bien aplicar a los
datos originales un test de distribución libre o test no
paramétrico como por ejemplo el test de rangos de
Wilcoxon.
4. En el caso en que no se pueda o no se desee
hacer la suposición de que las poblaciones,
normalmente distribuidas, tienen varianzas iguales
y si las desviaciones estándares son
desconocidos, entonces el estadístico del test
tiene la forma
t′ =
(x 1 − x 2 ) − D 0 ,
(17)
s12 s 22
+
n1 n 2
donde t´ tiene una distribución t con (ν) grados de
libertad bajo la hipótesis nula, y ν está dado por
ν=
(s
(s
2
1
2
1
n1 + s22 n2
) (
2
)
2
)
n1
s2 n
+ 2 2
n1 − 1
n2 − 1
2
(18)
43
Estadística Inferencial
d) Región de rechazo
Prueba de una cola
Prueba de dos colas
Para los casos 1 y 2
Para los casos 1 y 2
z > zα (o bien z <- zα)
z > zα 2 o z < − zα 2
Para el caso 3
Para el caso 3
t > tα (o bien t <- tα).
t > tα 2 o t < −tα 2
Para el caso 4
Para el caso 4
t´ > tα (o bien t´ <- tα).
t ′ > tα 2 o t ′ < −tα 2
Observaciones:
1. El uso del estadístico t y t´ requiere que las muestras sean
independientes y tengan distribución normal
2. El uso del estadístico t´ requiere que las poblaciones
tengan distribución normal.
3. Un intervalo de confianza del 100(1-α)% para (µ1 − µ 2 ) en el
caso 1 está dado por

σ 12 σ 22 
IC95% = (x1 − x 2 ) ± zα 2
+

n1
n2 

(19)
4. Un intervalo de confianza del 100(1-α)% para (µ1 − µ 2 ) en el
caso 3 está dado por

1
1 
IC95% = (x1 − x 2 ) ± tα 2 s p
+ 
n1 n 2 

con los respectivos grados de libertad para t
44
(20)
Estadística Inferencial
5. Un intervalo de confianza del 100(1-α)% para (µ1 − µ 2 ) en el
caso 4 está dado por

s1 s 2 
+
IC 95% = (x 1 − x 2 ) ± tα′ 2

n
n2 
1

con los respectivos grados de libertad para t´.
(21)
6. De las últimas observaciones se puede inferir, sin mayores
dificultades, que un IC con una confianza del (1 - α)100%
es equivalente a un test de hipótesis de nivel α. De tal
manera que si el IC no contiene al valor del parámetro
indicado en la hipótesis nula, entonces se puede rechazar
dicha hipótesis.
7. Si se quiere evaluar las diferencias entre los parámetros de
más de dos grupos, por ejemplo la durabilidad de distintos
tipos de cubiertas, no es correcto realizar tales evaluaciones
usando el test de diferencias de medias tomando los
diferentes pares de medias por razones cuya explicación
formal está fuera del alcance del curso. Para solucionar este
problema si las mediciones resultantes son continuas y se
cumplen las siguientes suposiciones: i) los datos son
obtenidos de manera aleatoria e independiente o que los
individuos sean asignados a los grupos aleatoriamente, ii)
los valores de cada grupo están distribuidos normalmente,
iii) la varianza dentro de cada población debería ser igual
para todas las poblaciones, existe una metodología conocida
como análisis de varianza (ANOVA) para comparar la
medias de los grupos y cuya hipótesis nula es H0 : µ1 = µ2 =
…= µk. Por otra parte, si los supuestos ii) o iii) no se cumplen
existen metodologías que permiten todavía llevar cabo las
comparaciones deseadas.
Ejemplo 10: Una compañía desea comparar las expectativas
salariales anuales de su personal de ventas femenino y
masculino, según un nuevo plan de compensaciones sobre
ventas, mas comisión. Se seleccionó al azar muestras de
tamaño 40, una del personal masculino y otra del personal de
ventas femenino y se les pidió que dijeran sus ingresos
anuales bajo el nuevo plan. Las medias muestrales y las
desviaciones muestrales resultaron en
45
Estadística Inferencial
x1 = $31083
x 2 = $29745
s1 = $2312
s 2 = $2569
La pregunta que surge es, ¿proporcionan los datos evidencia
que indique una diferencia en el promedio de ingreso anual
esperado tanto entre los vendedores como las vendedoras?.
Ya que se espera una diferencia en el promedio del ingreso
anual entre las vendedoras y los vendedores, es decir, µ1 < µ2 o
bien µ1 > µ2, la hipótesis nula para el test será
H0: µ1 = µ2 es decir H0: µ1 -µ2 = D0 = 0
contra la alternativa
H 1 : µ1 ≠ µ 2
es decir
H 1 : (µ 1 − µ 2 ) ≠ 0
Si se supone que las poblaciones de los ingresos son normales
con diferentes desviaciones estándares y puesto que ellos son
desconocidos, se los estima con s1 y s2. Luego, el estadístico
del test está dado por (17), es decir,
t=
(x
1
− x2 )− 0
2
1
2
2
s
s
+
n1 n 2
=
(31083 − 29745) − 0
(2312)2 + (2569)2
40
= 2,45
40
Al utilizar una prueba de dos colas con α = 0,05, se considerará
α/2 = 0,025 en cada cola de la distribución del estadístico y se
rechaza H0 si el valor encontrado es mayor que
tα 2( n1 + n2 − 2 ) = 1.99 o menor que - tα 2( n1 + n2 − 2) = − 1.99 .
Puesto que, el valor observado t = 2,45 es mayor que 1,99, el
estadístico de la prueba cae en la zona de rechazo. Por lo tanto
se rechaza H0 y se concluye que hay evidencia suficiente
para asegurar que en las expectativas salariales anuales
para los vendedores es mayor que para las vendedoras.
Actividad 4:
1. Para comparar las aptitudes para seleccionar acciones por
parte de dos AFJP, se comparan las ganancias anuales
(menos los honorarios) para una inversión de $1000
(dólares) en cada una de las 30 acciones que se encuentran
en las listas de las “más recomendadas” de ambas
empresas. Las medias y las desviaciones estándares (en
dólares) para cada una de las muestras, se indican en la
tabla siguiente
46
Estadística Inferencial
Empresa
Estadística muestral
1
2
Tamaño
30
30
Media
264
199
Desviación estándar
157
111
¿Hay evidencia con los datos que indique una diferencia
entre las dos empresas de corretaje en las ganancias
medias por acción recomendada?
a) Establezca H0
b) Enuncie la hipótesis alternativa que más conviene
para contestar la pregunta expuesta antes.
c) Obtenga la región de rechazo para α = 0,05.
d) Realice la prueba y saque sus conclusiones.
e) Obtenga el correspondiente Intervalo de Confianza
para la diferencia de las medias y compare las
conclusiones que se pueden elaborar con él con
aquellas obtenidas por el test de hipótesis.
47
Descargar