Probabilidad y Estadística Introducción a la Inferencia

Anuncio
Probabilidad y Estadística
Introducción a la Inferencia Estadística
Raúl D. Katz
2013
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
Índice
1. Introducción
3
2. Muestreo
2.1. Muestras aleatorias simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
4
3. Inferencia estadística paramétrica
3.1. Algunos estadísticos y sus distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1. La variable aleatoria media muestral . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2. La variable aleatoria varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
6
6
4. Estimación puntual. Error de estimación. Estimación por intervalos de confianza
4.1. Estimación de µ con σ2 conocido . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Estimación de µ con σ2 desconocido . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Estimación de la proporción poblacional (p) . . . . . . . . . . . . . . . . . . . . .
4.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4. Estimación de la variancia en una población con distribución normal . . . . . .
4.4.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
7
9
9
10
11
12
12
13
5. Problemas
13
6. Bibliografía
16
Raúl Katz
2
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
1. Introducción
Si realizamos una recapitulación de lo estudiado hasta el momento, encontramos tres partes bien
diferenciadas
ESTADÍSTICA DESCRIPTIVA En ella se aprende una serie de técnicas para organizar, presentar y
analizar un conjunto finito de observaciones, que según el objetivo del estudio, constituyen
una población o una muestra.
CÁLCULO DE PROBABILIDAD En esta parte se define la probabilidad como una medida de la posibilidad de ocurrencia de cada resultado de una experiencia aleatoria, extendiendo la noción de
frecuencia relativa a las poblaciones infinitas.
DISTRIBUCIONES DE PROBABILIDAD A través de ellas se presentan modelos matemáticos del comportamiento (en términos probabilísticos) de las poblaciones. Cada distribución surge como
consecuencia de hipótesis establecidas sobre el comportamiento del fenómeno aleatorio analizado.
Tales hipótesis son las que permiten identificar una población con la correspondiente distribución. A su vez, cada distribución depende de parámetros matemáticos cuyo valor hemos
supuesto conocido.
En la cuarta y última parte de este curso se estudian métodos que nos permiten obtener los valores
de tales parámetros poblacionales basándonos en los resultados muestrales. En estos métodos se encuentra una integración de las tres partes anteriores, ya que usan a la probabilidad como una medida
de la confianza de nuestras conclusiones.
2. Muestreo
Sabemos que una muestra es un subconjunto finito de una población. Nada hemos dicho, hasta ahora, de cómo obtener la misma, es decir, de cómo se realiza la selección de las unidades elementales,
sobre las cuales se observa o mide una característica de interés (variable) y cuyos valores constituyen
la muestra.
En el párrafo anterior aparecen dos conceptos claves en todo problema de muestreo. Ellos son: unidades elementales y variable. Ambos deben ser definidos previo a la selección de la muestra.
Un planteo correcto del objetivo del muestreo, lleva implícito una definición precisa de la población
a analizar y, en consecuencia, una correcta identificación de las unidades elementales y la variable
que se hayan asociadas a tal población.
Consideremos por ejemplo un lote de 100 artículos enviados por un fabricante a un cliente. Supongamos que el cliente está interesado en analizar la calidad de los artículos. Así planteado el problema
indica que las observaciones se realizarán sobre los artículos, siendo por lo tanto cada artículo una
unidad elemental. La observación de la calidad obliga al cliente a definir qué es la calidad, es decir,
qué observará en cada artículo (unidad elemental) para decidir sobre la misma.
Si sólo le interesa clasificar los artículos en buenos o defectuosos, o si le interesa determinar un intervalo de valores para la característica en observación (longitud, diámetro, duración, etc.) En el primer
caso la variable en estudio es la calidad del artículo, en el segundo la característica elegida. Si la variable es la calidad del artículo, ésta toma dos valores: bueno o defectuoso. El planteo ambiguo del
problema con respecto al objetivo del análisis nos lleva a considerar dos opciones:
1. Si el cliente desea sólo concluir con respecto a la calidad de los artículos que componen el lote,
la población estará constituida por todos los valores (buenos o defectuosos) correspondientes
a los 100 artículos. Estamos ante una población finita.
2. Si el cliente desea concluir con respecto a la calidad del proceso de producción del fabricante,
la población estará formada por los infinitos valores (buenos o defectuosos) correspondientes
Raúl Katz
3
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
a los infinitos artículos que se producirán bajo este proceso si éste continuara operando indefinidamente. Evidentemente la población es infinita y en este caso los valores de la variable que
resultan de observar los 100 artículos del lote, son una muestra de tal población.
La diferencia crucial que determina si el lote debe ser considerado una población o una muestra dependerá del tipo de decisión a tomarse: si va a evaluarse la calidad de este lote en particular o la
calidad del proceso de manufactura del proveedor.
Una vez que el objetivo del estudio se ha especificado, la población queda identificada, y en consecuencia el conjunto de las unidades elementales. Ahora la muestra ya puede ser seleccionada.
Existen dos métodos de selección de muestras:
MÉTODOS NO PROBABILÍSTICOS En estos métodos la selección de la muestra se realiza de una
manera subjetiva, decidiendo el observador las unidades elementales a analizarse.
MÉTODOS PROBABILÍSTICOS Con ellos las unidades elementales se seleccionan a través de métodos aleatorios. La ventaja de estos métodos con respecto al primero es que permite proporcionar una medida, expresada en probabilidad, de extraer conclusiones erróneas acerca de la
población. Es decir permite controlar los llamados errores de muestreo, que son los que se
producen al inferir de la muestra a la población, por el hecho de no trabajar con la población
completa sino con un subconjunto de la misma.
Existen otro tipo de errores, no asignables al muestreo en sí, sino al plan de muestreo, y a los que el
muestreo probabilística no controla. Es muy frecuente que un plan de muestreo mal diseñado nos
lleve a muestrear una población que no es la del objeto de estudio. Así por ejemplo si se quiere analizar cierta característica de los habitantes de la ciudad de Rosario y la muestra se elige seleccionando
nombres al azar de la guía telefónica, la población física muestreada resulta ser la formada por los
habitantes de la ciudad de Rosario que poseen teléfono y todas las conclusiones que se extraigan a
partir de esta muestra serán válidas para tal población pero no para todos los habitantes de Rosario.
2.1. Muestras aleatorias simples
Sea X la variable aleatoria que representa la población en estudio y f X su función de densidad de probabilidad asociada. Diremos que una muestra extraída de esta población es de extensión n si consta
de n observaciones. Este conjunto de n observaciones puede ser representado como un vector numérico n dimensional (x 1 , x 2 , . . . , x n ).
Supongamos que extraemos sucesivas muestras aleatorias de extensión n de la mencionada población. Los vectores que representan a las distintas muestras son
¡ 1 1
¢
x 1 , x 2 , . . . , x n1
1er a muestra,
¡ 2 2
¢
x 1 , x 2 , . . . , x n2
2d a muestra,
..
..
.
.
¡ r r
¢
r
x 1 , x 2 , . . . , x n r -ma muestra,
j
siendo x i el valor de la i -ésima observación de la j -ésima muestra.
Evidentemente no tenemos por qué pensar que el valor de la primera observación, para cada una de
las muestras, va a ser el mismo. Por el contrario, es lógico suponer que existe variabilidad. El mismo
razonamiento podemos hacer para las iésimas observaciones de las r muestras. Esto quiere decir
que antes de la extracción de la muestra, cada una de las observaciones puede ser pensada como una
variable aleatoria, en consecuencia una muestra aleatoria puede ser representada como un vector
aleatorio n dimensional y la notaremos
M = (X 1 , X 2 , . . . , X n ) ,
Siendo M 0 = (x 1 , x 2 , . . . , x n ) un valor observado de la muestra aleatoria.
En particular llamaremos muestra aleatoria simple (M.A.S.) a una muestra aleatoria que verifica:
Raúl Katz
4
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
1. Cada una de las variables aleatorias X i tiene la misma función de densidad f que la variable X
en estudio y por lo tanto se verifica E (X i ) = E (X ), V (X i ) = V (X ).
2. Las variables aleatorias X i son independientes entre sí.
Observemos que el primer supuesto nos indica que para cada observación a realizar la población
debe permanecer inalterada e igual a la original. El segundo supuesto pide que la aparición de una
observación no aumente o disminuya la probabilidad de aparición de otras observaciones.
En caso de población finita estos supuestos exigen que el muestreo se realice con reposición. Si la
población es infinita el muestreo puede ser con o sin reposición.
3. Inferencia estadística paramétrica
Una vez obtenidos los valores de una muestra, ellos serán usados con el objeto de obtener información con respecto a la población de la cual la muestra fue extraída.
Recordemos nuevamente que una población queda identificada al dar: la variable aleatoria, su distribución de probabilidad y sus parámetros matemáticos; es decir al dar X y f (x, θ), función de densidad de X con parámetro matemático θ.
Supongamos que la ley f resulta conocida ya sea por experiencias pasadas o por hipótesis sobre el
fenómeno en estudio pero desconocemos el valor del parámetro. Así por ejemplo en un proceso de
producción se conoce que la introducción de una modificación en el mismo produce un desplazamiento de la distribución, es decir la ley de distribución es la misma pero se corre la esperanza matemática, siendo este nuevo valor desconocido.
Otro ejemplo es el caso de una población que surge por la variabilidad de las mediciones de una
magnitud δ con un determinado proceso de medición. Podemos suponer que las mediciones tienen
distribución normal por el teorema central del límite, y además podemos conocer la precisión del
instrumento, es decir σ2 . Luego nos interesará estimar el parámetro δ que coincide con la esperanza matemática de la distribución. Son dos los tipos de problemas a los que nos podemos enfrentar
cuando necesitamos información acerca del valor de un parámetro:
La necesidad de darle un valor numérico al parámetro que servirá como aproximación del valor
exacto, pero desconocido del mismo, por ejemplo para cálculos posteriores de probabilidades.
Nos interesa conocer no un valor particular del parámetro sino un rango de valores posibles, es
decir si excede un número dado, si es menor que éste o dentro de qué intervalo tiene su posible
valor.
El primer caso es un problema de estimación puntual mientras que el segundo es de estimación por
intervalos de confianza, aunque la separación entre ambas formas de estimación no es tan neta sino
que se encuentran íntimamente relacionadas como veremos más adelante.
3.1. Algunos estadísticos y sus distribuciones
Sea X una variable aleatoria con esperanza matemática µ y variancia σ2 y (X 1 , X 2 , . . . , X n ) una M.A.S.
de tamaño n. Si Y = H (X 1 , X 2 , . . . , X n ) es una variable aleatoria que surge como función del vector
aleatorio muestral, Y es llamado un estadístico. Los estadísticos que analizaremos en particular son:
X=
S2 =
n
1X
Xi ,
n i =1
media muestral,
´2
n ³
1 X
Xi − X ,
n − 1 i =1
variancia muestral.
Tanto X como S 2 son variables aleatorias (los valores que asumen pueden variar de una muestra a
otra).
Raúl Katz
5
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
3.1.1. La variable aleatoria media muestral
P
Si X = n1 ni=1 X i , bajo el supuesto de que (X 1 , X 2 , . . . , X n ) es una M.A.S. de X (cada variable aleatoria X i
tiene la misma distribución y los mismos parámetros que la variable aleatoria X de la cual la muestra
fue extraída, es decir E (X i ) = µ), entonces la esperanza matemática de X es
Ã
!
³ ´
n
n
1X
1X
1
E X =E
Xi =
E (X i ) = · nµ = µ.
n i =1
n i =1
n
Por otra parte la variancia de X es
Ã
!
³ ´
n
n
1X
1 X
Xi = 2
V (X i ) .
V X =V
n i =1
n i =1
Como las X i son independientes entre sí, y además V (X i ) = σ2 , ∀i , resulta
³ ´
n
σ2
1 X
V X = 2
V (X i ) =
.
n i =1
n
Por lo tanto la variancia de la variable aleatoria X es la variancia de la variable X dividido el tamaño
de la muestra.
Estas dos propiedades de los parámetros de X nos indican que
³ ´cualquiera sea la distribución de la
misma, a medida que aumenta el tamaño de la muestra, la V X tiende a cero y en consecuencia las
medias muestrales tienden a concentrarse alrededor del parámetro µ.
Con respecto a la distribución de X podemos decir que
¡
¢
2
1. si la variable
X
∼
N
µ,
σ
entonces por la propiedad reproductiva de la distribución normal,
³
´
σ2
X ∼ N µ, n ,
2. si la variable X tiene cualquier distribución, pero n es
grande, por el Teorema
´
³ convenientemente
2
Central del Límite, la distribución de X tiende a N µ, σn .
3.1.2. La variable aleatoria varianza muestral
Presentamos la distribución de la variable aleatoria S 2 sólo en el caso en que la variable en estudio
¡
¢
X ∼ N µ, σ2 .
Bajo este supuesto la variable aleatoria
de libertad. Notamos
(n−1)S 2
σ2
tiene una distribución chi-cuadrada con n − 1 grados
(n − 1)S 2
∼ χ2n−1 .
σ2
¡ ¢
¡ ¢ 2σ4
. Observamos que la media poblacional de S 2 coincide con la vaAdemás E S 2 = σ2 y V S 2 = n−1
riancia de X y la variancia de S 2 tiende a cero cuando n crece. Al crecer el número de observaciones
la distribución de S 2 se concentra cada vez más alrededor del valor σ2 .
4. Estimación puntual. Error de estimación. Estimación por intervalos de
confianza
Cuando un estadístico es usado para obtener información con respecto al valor de un parámetro poblacional se lo llama estimador. Si θ es un parámetro desconocido, al estimador de θ lo notamos θ̂.
De las propiedades analizadas en las distribuciones de X y S 2 , surge que estos estadísticos son buenos estimadores de la esperanza poblacional µ y de la varianza poblacional σ2 respectivamente, en
Raúl Katz
6
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
el sentido de que las distribuciones de probabilidad de los mismos las podemos concentrar tanto
como queramos alrededor de los parámetros desconocidos (µ o σ2 respectivamente) aumentando el
tamaño de la muestra. Luego
µ̂ = X , σˆ2 = S 2 .
Dijimos que realizar una estimación puntual es asignarle al parámetro desconocido un valor, o sea
un número. Este valor se obtiene partiendo de los resultados muestrales (x 1 , x 2 , . . . , x n ). Se calcula el
valor del estimador elegido, el que se le dará al parámetro desconocido. O sea
A µ se asigna x =
x 1 +x 2 +···+x n
,
n
A σ2 se asigna s 2 =
1 Pn
n−1 i =1
¡
¢2
xi − x .
Dado que el valor de estos estimadores está dependiendo de la muestra obtenida, no tenemos porque
pensar que el mismo coincidirá con el valor del parámetro a estimar. Sabemos que los valores posibles
de cada estimador presentan variabilidad dentro de un determinado rango. Esto nos lleva a tratar de
medir el error que cometemos cuando a un parámetro le asignamos el valor del estimador, es decir,
el error de estimación. Trataremos cada caso por separado:
Estimación de µ con σ2 conocido,
estimación de µ con σ2 desconocido,
estimación de la proporción poblacional (p),
estimación de la varianza poblacional (σ2 ).
4.1. Estimación de µ con σ2 conocido
Sea X una variable aleatoria con distribución normal, E (X ) = µ desconocida y varianza σ2 conocida.
Con la finalidad de estimar µ se extrae una muestra de tamaño n que asume los valores (x 1 , x 2 , . . . , x n ).
En la misma se calcula x. Este es el valor que se toma como estimación¯ puntual
¯ de µ. ¿Qué error se
comete al asignarle a µ el valor de x? El error de estimación se mide por ¯x − µ¯.
¯
¯
Para poder conocer con exactitud cuánto vale ¯x − µ¯ deberíamos conocer el valor exacto de µ; no es
esta nuestra situación, por lo tanto debemos contentarnos con dar una cota, ², del error de estimación, a través de analizar los valores posibles de X cuando la muestra es de tamaño n.
La situación ideal sería poder obtener el valor de ² con certeza, sin embargo sabemos que a partir de
una muestra no podemos obtener conclusiones acerca de la población con seguridad total, así es que
debemos ser menos ambiciosos y aceptar trabajar con una probabilidad 1 − α cercana a 1, llamada
coeficiente de confianza. Luego la pregunta anterior debe ser formulada de la siguiente manera: ¿cuál
es el máximo error de estimación que podemos cometer con probabilidad 1 − α, al asignarle a µ el
valor de x? Es decir debemos encontrar ² tal que se verifique
¯
³¯
´
¯
¯
P ¯ X − µ¯ < ² = 1 − α.
Esto es equivalente a:
³
´
P µ − ² < X < µ + ² = 1 − α.
Estandarizando obtenemos
El valor
verifica
²p
σ n
Raúl Katz
³ ²p
²p ´
P −
n<Z <
n = 1 − α.
σ
σ
debe ser igualado a un valor z α2 que es el valor de la variable normal estándar Z que
³
´
³
´ α
P Z ≤ −z α2 = P Z ≥ z α2 = .
2
7
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
1−α
α
2
α
2
b
b
−z α2
z α2
z
Luego
σ
(1)
² = z α2 · p .
n
Dado que σ es un valor supuesto conocido, n está dado y el valor de z también es fijo ya que depende
de la confianza fijada (1 − α), luego el valor de ² puede ser calculado.
Observemos que ² se encuentra en relación inversa al tamaño de la muestra (a mayor tamaño de
muestra, menor error de estimación), y en relación directa a la confianza (a mayor confianza, mayor
error de estimación).
Supongamos que el error calculado no resulta satisfactorio (demasiado grande), para disminuirlo
debemos disminuir la confianza o aumentar el tamaño de la muestra. Si la confianza no se quiere
modificar, nos queda como opción modificar n. ¿Cuántas observaciones son necesarias para que al
estimar µ con x,el error máximo de estimación sea ² (fijado) con una confianza (1 − α) (fijada)? De la
expresión (1) obtenemos
σ2
n = z 2α · 2 .
2
²
El valor del error obtenido en (1), indica que
µ¯
¶
¯
σ
¯
¯
α
P ¯ X − µ¯ < z 2 · p = 1 − α.
n
Trabajando algebraicamente obtenemos
¶
µ
σ
σ
P X − z α2 · p < µ < X + z α2 · p = 1 − α.
n
n
µ
¶
σ
σ
X − z α2 · p < µ < X + z α2 · p
n
n
es un INTERVALO ALEATORIO para el parámetro µ. Una vez que la muestra ha sido extraída y x
calculada, reemplazando en la expresión anterior del intervalo aleatorio, obtenemos el INTERVALO
DE CONFIANZA para µ, que es un intervalo numérico.
µ
¶
σ
σ
x − z α2 · p < µ < x + z α2 · p
n
n
En un intervalo aleatorio, la parte aleatoria son los extremos del mismo, mientras que el parámetro
es un valor fijo. Por lo tanto la probabilidad (1 − α) debe ser interpretada como la probabilidad de
que un intervalo aleatorio cubra el verdadero valor del parámetro. Pensada la probabilidad como una
frecuencia relativa nos indica que si se extraen un número suficientemente grande de muestras de
extensión n y con cada una de ellas se construye un intervalo de confianza para µ, aproximadamente
(1 − α) % de tales intervalos cubrirán en verdadero valor de µ.
µ
Raúl Katz
8
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
Cuando el intervalo de confianza ha sido calculado, éste cubre o no el verdadero valor del parámetro,
por lo tanto pierde sentido hablar de la probabilidad (1−α), este valor debe ser interpretado como una
medida de la confianza del experimentador de obtener el cubrimiento de µ con el intervalo calculado.
4.1.1. Ejemplo
Un fabricante produce anillos para los pistones de un motor de automóvil. El diámetro de un anillo
es una variable aleatoria X con distribución normal y desviación estándar σ = 0.001 mm. Para una
muestra aleatoria de 15 anillos se observó un diámetro promedio x = 74.036 mm. Obtenga un intervalo de confianza del 95 % y 99 % para el diámetro promedio, es decir E (X ).
Si x es la media muestral observada en una muestra aleatoria de tamaño n, de una variable aleatoria
X con distribución normal y variancia σ2 conocida, entonces un intervalo de confianza para µ = E (X )
del 100 (1 − α) % está dado por
µ
¶
σ
σ
α
α
x −z 2 · p ;x +z 2 · p .
n
n
Para α = 0.05 se obtiene
µ
¶
0.001
0.001
74.036 − 1.96 × p ; 74.036 + 1.96 × p
= (74.0355; 74.0365) .
15
15
Para α = 0.01 se obtiene
µ
¶
0.001
0.001
74.036 − 2.58 × p ; 74.036 + 2.58 × p
= (74.0353; 74.0367) .
15
15
Observamos que para un tamaño de muestra fijo, a mayor confiabilidad se
corresponde menor precisión ¿Es esto razonable?
4.2. Estimación de µ con σ2 desconocido
Dado que la distribución de X depende de la varianza poblacional σ2 , cuando esta es desconocida
debe ser estimada a través de S 2 . El estadístico
X −µp
n
S
deja de tener una distribución normal estandarizada y se le conoce su distribución sólo en el caso en
que la variable en estudio X esté distribuida normalmente. En tal situación la distribución del estadístico mencionado es la distribución t Student con n − 1 grados de libertad.
Esta distribución t es de forma campanular y simétrica con eje de simetría en x = 0, siendo su parámetro matemático un número natural n llamado grados de libertad. Cuando el número de grados de
libertad tiende a infinito, la distribución t -Student se aproxima a una distribución normal estandarizada.
¡
¢
Para estimar la esperanza matemática de una variable aleatoria X ∼ N µ, σ (ambos parámetros desconocidos), extraemos una M.A.S. de tamaño n y sobre ella calculamos x, que tomaremos como valor
del parámetro µ. Realizando el mismo razonamiento que en 4.1, el análisis del error de estimación
se efectúa a través de la distribución de X . Es decir que fijado el tamaño de la muestra y la confianza
deseada, queremos calcular la cota de error partiendo de:
¯
´
³¯
¯
¯
P ¯ X − µ¯ < ² = 1 − α,
(2)
donde ² es desconocido. Recordemos que
X −µp
n ∼ t n−1 .
S
Raúl Katz
9
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
La expresión (2) puede transformarse en
¯
!
ï
¯ X −µp ¯ ² p
¯
¯
n¯ <
n = 1 − α.
P ¯
¯ S
¯ S
p
El valor S² n debe ser igualado a t n−1, α2 , donde t n−1, α2 es el valor de una variable aleatoria t -student
con n − 1 grados de libertad que verifica
Ã
!
Ã
!
X −µp
α
X −µp
α
P
n > t n−1, α2 = , y P
n < −t n−1, α2 = .
S
2
S
2
Luego
o equivalentemente
µ
¶
S
S
P −t n−1, α2 × p ≤ X − µ ≤ t n−1, α2 × p = 1 − α,
n
n
¶
µ
S
S
P X − t n−1, α2 × p ≤ µ ≤ X + t n−1, α2 × p = 1 − α.
n
n
µ
¶
S
S
X − t n−1, α2 × p ≤ µ ≤ X + t n−1, α2 × p
n
n
es un intervalo aleatorio de µ, mientras que
¶
µ
s
s
x − t n−1, α2 × p ≤ µ ≤ x + t n−1, α2 × p
n
n
es un intervalo de confianza (sus extremos son valores numéricos).
Observemos que ² = t n−1, α2 psn depende al igual que en 4.1, de la confianza fijada y del tamaño de
muestra elegido, pero se diferencia de aquel en que depende del valor que asume la variable aleatoria
S. Por lo tanto la cota del error resulta ser aleatoria. Una vez que la muestra fue extraída, si el valor
de ² resulta inapropiado, podemos disminuirlo reduciendo la confianza o aumentando el tamaño
de la muestra. Señalemos que en este caso, el valor de n necesario para obtener la cota del error
deseada, no puede ser determinado algebraicamente, en razón de que el valor de t también depende
del tamaño de la muestra. Lo único que podemos concluir es que el tamaño de muestra debe ser
aumentado, pero no sabemos cuánto.
4.2.1. Ejemplo
Se seleccionaron al azar 15 resistores de la producción de un proceso. La resistencia media observada
en la muestra fue de 9.8 ohms, mientras que la desviación estándar muestral fue de 0.5 ohms. Determine un intervalo de confianza del 95 % para la resistencia media poblacional. Se supone que la
variable en estudio tiene distribución normal.
Si x y s son la media aritmética y la desviación estándar observada en una muestra de tamaño n,
de una variable X con distribución normal y variancia σ2 desconocida, entonces un intervalo de
confianza para µ X = E (X ) del 100 (1 − α) % está dado por
µ
¶
s
s
x − t n−1, σ2 × p < µ < x + t n−1, σ2 × p .
n
n
Para α = 0.05 se obtiene de la tabla el valor t = 2.145 resultando el intervalo de confianza para µ X :
µ
¶
2.145 × 0.5
2.145 × 0.5
9.8 −
; 9.8 +
= (9.523; 10.077).
p
p
15
15
Raúl Katz
10
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
4.3. Estimación de la proporción poblacional (p)
En ocasiones nos interesa conocer la proporción p o frecuencia relativa de veces que se presenta
cierto suceso A en una población, o lo que es equivalente, conocer la probabilidad de que ocurra el
suceso A. Sea por ejemplo el suceso
A: ’una unidad producida por un proceso es defectuosa’.
Supongamos que P (A) = p es desconocida. Para estimar p vamos a considerar una variable aleatoria
X a la que le asignamos el valor 1 cuando ocurre el suceso A (una unidad es defectuosa) y el valor 0
cuando ocurre el suceso A (una unidad es buena). La variable aleatoria X que asume los valores 0 y
1 con probabilidades 1 − p y p respectivamente, se denomina variable aleatoria con distribución de
Bernoulli, de parámetro p. Para tal variable verifique que E (X ) = p y V (X ) = p(1 − p).
Si se inspeccionan en forma independiente n unidades del proceso de producción y se anotan los
valores para X 1 , X 2 , . . . , X n donde X i = 1 si la i -ésima unidad inspeccionada tiene defectos y X i = 0 si
no es así, entonces una variable de interés es Y = X 1 + X 2 + · · · + X n que representa el número total
de unidades defectuosas en la muestra de tamaño n. (X 1 , X 2 , . . . , X n constituye una M.A.S de X ). La
variable aleatoria
Y
X1 + X2 + · · · + Xn
=
n
n
denota la frecuencia relativa de unidades defectuosas en una muestra de tamaño n y verifica
µ
¶
µ ¶
X1 + X2 + · · · + Xn
1
Y
1
=E
= (E (X 1 ) + E (X 2 ) + · · · + E (X n )) = · np = p.
E
n
n
n
n
¶
µ
¶
X1 + X2 + · · · + Xn
1
p(1 − p)
Y
1
=V
= 2 (V (X 1 ) + V (X 2 ) + · · · + V (X n )) = 2 · np(1 − p) =
.
V
n
n
n
n
n
µ
Por el teorema del límite central Y /n tiende a distribuirse normalmente con parámetros p yp(1 −
p)/n.
Usaremos Y /n como estimador de p por cuanto para n convenientemente grande la¯ variable alea¡¯
¢
toria Y /n asume valores que se concentran alrededor de p. Si planteamos P ¯ Yn − p ¯ < ² = 1 − α y
operamos del mismo que en 4.1 resulta
s
s
Ã
!
Y
p(1 − p)
Y
p(1 − p)
P
−z
< p < +z
= 1 − α,
n
n
n
n
donde z es un valor que se obtiene de la tabla normal estándar o reducida, que verifica P (Z ≤ z) =
1 − α/2 o equivalentemente P (Z ≥ z) = α/2. Observamos la existencia de un problema que no había
aparecido antes. Los límites del intervalo aleatorio que hemos obtenidos están dependiendo del parámetro que se desea estimar.
El problema puede superarse si sustituimos el valor de p por el valor de la frecuencia relativa observada en la muestra, es decir el valor que asume Y /n en la muestra y que notamos con f A (frecuencia
relativa del suceso A en la muestra) De este modo

s ¡
s ¡
¢
¢
fA 1− fA
fA 1− fA
fA − z

, fA + z
n
n
constituye un intervalo de confianza para p.
q
p(1−p)
Observación: Podemos obtener una cota del error ²z
si tenemos en cuenta que la función
n
cuadrática g (p) = p(1 −q
p) para 0 ≤ p ≤ 1 asume su valor máximo cuando p = 1/2. Parap = 1/2,
g (1/2) = 1/4, luego ² ≤ z
Raúl Katz
1
4n
=
z
p
.
2 n
11
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
4.3.1. Ejemplo
Una inspección cuidadosa de 70 soportes de concreto precolado reveló que 28 estaban fisurados.
Construya un intervalo de confianza del 95 % de la verdadera proporción de soportes con fisura.
Sea A: ’un soporte de concreto precolado está fisurado’. De acuerdo a los datos f A = 28/70.
De la tabla de la normal estándar o reducida se obtiene para un nivel de confianza del 95 % el valor
z = 1.96 (P (Z ≤ 1.96) = 0.975) Luego un intervalo aproximado del 95 % de confianza para p es

 28 − 1.96
70
s
28
70
s ¡
¡
¢
¢
28
28
1 − 28
1
−
70 28
70 
;
+ 1.96 70
= (0.285; 0.515).
70
70
70
4.4. Estimación de la variancia en una población con distribución normal
Ya hemos visto que la variable aleatoria S 2 es un buen estimador de la variancia σ2 en razón de que
¡ ¢
¡ ¢ 2σ4
. En la unidad anterior se vio que si X 1 , X 2 , . . . , X n son n variables aleatorias
E S 2 = σ2 y V S 2 = n−1
independientes, donde cada una tiene distribución N (0, 1) entonces la variable aleatoria T = X 12 +
X 22 + · · · + X n2 tiene una distribución chi-cuadrada con n grados de libertad y notamos: T ∼ χ2n . Si
¡
¢
X ∼ N µ, σ y X 1 , X 2 , . . . , X n es una M.A.S de X entonces
n µ X − µ ¶2
X
i
∼ χ2n .
σ
i =1
Cuando se sustituye la media poblacional µ por la media muestral X , la variable aleatoria resultante
tiene una distribución chi-cuadrada con n − 1 grados de libertad. Se nota:
!2
Ã
n
X
Xi − X
∼ χ2n .
σ
i =1
Siendo S 2 =
1 Pn
n−1 i =1
³
Xi − X
´2
podemos concluir que
Ã
!2
n
Xi − X
(n − 1)S 2 X
=
∼ χ2n−1
σ2
σ
i =1
cuando X 1 , X 2 , . . . , X n es una M.A.S de una variable aleatoria X , normalmente distribuida con media
µ y desviación estándar
σ.
´
³
Si planteamos P c 1 ≤
(n−1)S 2
σ2
≤ c 2 = 1 − α y operamos algebraicamente obtenemos que
P
µ
¶
(n − 1)S 2
(n − 1)S 2
≤ σ2 ≤
= 1 − α,
c2
c1
donde c 1 y c 2 son valores que se obtienen de la tabla chi-cuadrada y verifican
¶
(n − 1)S 2
α
P
≥ c1 = 1 − ,
2
σ
2
µ
y
¶
(n − 1)S 2
α
P
≥ c2 = .
2
σ
2
µ
En síntesis:
¡
¢
(n − 1)S 2 /c 2 , (n − 1)S 2 /c 1 es un intervalo aleatorio que contiene con probabilidad 1 − α a σ2 ,
siendo
µ
¶
µ
¶
(n − 1)S 2
α
(n − 1)S 2
α
P
≥
c
=
1
−
,
y
P
≥
c
1
2 = .
σ2
2
σ2
2
¡
¢
(n − 1)s 2 /c 2 , (n − 1)s 2 /c 1 es un intervalo con (1 − α)100 % de confianza para σ2 .
Raúl Katz
12
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
4.4.1. Ejemplo
En la producción de resistores, la variancia de las resistencias refleja la estabilidad del proceso de
manufactura. Se desea estimar con un nivel de confianza igual a 0.90, la variancia poblacional de las
resistencias, sabiendo que en una muestra de 15 resistores se observó una desviación estándar igual
a 0.5 ohms.
De la tabla chi cuadrado, para 14 grados de libertad, se obtienen los valores c 2 = 23.68 y c 1 = 6.57
(la probabilidad de que una variable aleatoria con distribución chi-cuadrada y 14 grados de libertad
supere los valores 23.68 y 6.57 es 0.05 y 0.95 respectivamente) A partir de los datos de la muestra, el
intervalo con 90 % de confianza para σ2 es
µ
¶
14 × 0.52 14 × 0.52
= (0.148; 0.533).
;
23.68
6.57
5. Problemas
1. A partir de una misma muestra, se calculan tres intervalos para la media de la fuerza de corte
de pernos de anclaje, con los siguientes niveles de confianza: 0.90, 0.95 y 0.99. Los intervalos
son (4.01, 6.02), (4.20, 5.83) y (3.57, 6.46). Establezca la correspondencia entre los intervalos y
los niveles de confianza. Justifique su respuesta.
2. En investigaciones hidrográficas se usan telémetros de láser manuales de bajo peso. En las
pruebas de una marca con 15 de esos aparatos, se registran los siguientes errores (en metros) al
medir la distancia de un objeto situado a 500 m:
−0.10
0.01
0.03
−0.02
−0.05
0.06
0.10
0.05
0.02
−0.03
−0.06
−0.07
0.09
0.01
0.03
a) Realice estimaciones puntuales para: la media y la desviación estándar del error, que se
comete con dichos telémetros.
b) Suponiendo que los errores de medición tienen distribución normal, encuentre e interprete un intervalo de confianza del 90 % para la media de dichos errores.
c) Un competidor afirma que con ese modelo de telémetros se sobrestima la distancia en
al menos 0.050 m. En base a los datos observados, ¿existen razones para dudar de esa
afirmación?
d) Bajo el supuesto de distribución normal ¿consideraría inusual que un error de medición
excediera el valor 0.15 m?
3. Un fabricante asegura que la capacidad media de cierta batería que produce la compañía es de
al menos 140 Ah. Un grupo para la defensa del consumidor desea probar la credibilidad de la
afirmación del fabricante y mide la capacidad de 20 baterías seleccionadas al azar, obteniendo
los siguientes valores:
137.4
139.2
141.1
138.0
140.0
141.8
139.7
140.9
138.8
137.3
136.7
140.6
139.1
133.5
136.3
136.7
144.4
138.2
135.6
134.1
a) Evalúe la afirmación del fabricante.
b) ¿Debió realizar algún supuesto? Si su respuesta es afirmativa indique cuál y cómo procedería para evaluar la validez de dicho supuesto.
c) Ejemplifique con los datos del problemas los conceptos de parámetros y estadísticos.
Raúl Katz
13
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
4. Los siguientes datos corresponden al diámetro exterior (en pulgadas) de 20 tubos que se usan
para un cableado eléctrico:
1.281
1.293
1.290
1.291
1.293
1.291
1.296
1.291
1.287
1.295
1.289
1.288
1.286
1.292
1.289
1.289
1.288
1.291
1.286
1.286
El fabricante de estos tubos sostiene que la media del diámetro exterior es de 1.29 pulgadas.
a) ¿Permiten los datos de la muestra poner en tela de juicio tal valor?
b) Para responder 4a, ¿debió realizar algún supuesto? ¿Cuál?
c) En el contexto del problema indique cuáles valores dados o calculados son parámetros y
cuáles son estadísticos.
5. El número de ciclos hasta el colapso en vigas de concreto armadas en agua es una variable
aleatoria X con E (X ) = 530 ciclos. Se realizaron 9 observaciones del número de ciclos hasta el
colapso en vigas análogas armadas en aire, obteniéndose los siguientes valores:
734
792
511
571
773
500
520
476
672
¿Con qué nivel de confianza permiten los datos inferir que el número promedio de ciclos hasta
el colapso de las vigas es mayor cuando son armadas en el aire? Explicite los supuestos que
realice y ejemplifique con los datos del problema los conceptos de parámetros y estadísticos.
6. La concentración media de dióxido de carbono en el aire en una cierta zona es de 355 p.p.m.v.
(partes por millón en volumen). Se analiza el aire en 20 puntos elegidos aleatoriamente a una
misma altura pero cerca del suelo. La media y desviación estándar muestral observada es de
520 y 180 p.p.m.v. respectivamente.
a) ¿Con que nivel de confianza puede inferir que la concentración media es mayor cuando
las mediciones se realizan cerca del suelo?
b) Explicite los supuestos que debió realizar.
c) Señale en el contexto del problema cuáles de los datos dados son parámetros y cuáles son
estadísticos.
7. La probabilidad de que un lote de un producto químico satisfaga la especificación es igual a
0.75, cuando proviene del proveedor A. En una muestra de 70 lotes comprados a un proveedor
B , 62 de los mismos satisfacen la especificación. ¿Permiten los datos inferir que la probabilidad
de que un lote que proviene de B satisfaga la especificación, es mayor que, la probabilidad de
que un lote que proviene de A satisfaga la especificación?
8. Un proceso produce ciertos cojinetes cuyo diámetro interior es de 3 cm. Se seleccionan, en forma aleatoria, 12 de estos cojinetes y se mide su diámetro interior, obteniéndose los siguientes
valores:
3.01
3.00
2.97
3.05
3.02
2.97
2.99
2.98
3.02
2.99
2.99
3.01
Suponiendo que el diámetro es una variable aleatoria con distribución normal, ¿permiten los
datos inferir con un 99 % de confianza que la variancia es inferior a 0.0025 cm2 ?
Raúl Katz
14
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
9. Los siguientes datos corresponden a 29 mediciones repetidas de la densidad, para una muestra
de Tierra, expresada como un múltiplo de la densidad del agua.
5.50
5.36
5.62
5.27
5.46
5.61
5.29
5.29
5.39
5.30
4.88
5.58
5.44
5.42
5.74
5.07
5.65
5.34
5.47
5.68
5.26
5.57
5.79
5.63
5.85
5.55
5.53
5.10
5.34
a) Represente gráficamente la información de la manera que considere más conveniente.
b) ¿Considera que existe una medición atípica?
c) A partir de esas mediciones, ¿cuál es su estimación de la densidad de la Tierra?
d) Se considera que el proceso de medición es preciso siempre y cuando la desviación estándar (poblacional) de las mediciones es inferior al 5 % de la densidad. Suponiendo que la
verdadera densidad del agua es igual a 5.48, ¿permiten los datos de la muestra inferir que
las mediciones son precisas?
10. Una empresa de servicios públicos de gas desea estimar el tiempo promedio entre la llegada de
la solicitud de servicio y la conexión del mismo. De los registros disponibles se seleccionó una
muestra aleatoria de tamaño 15. Los resultados obtenidos fueron:
114
103
114
78
117
72
96
126
104
137
86
73
78
99
86
a) Explique cuál es la población en estudio.
b) Analice si las siguientes afirmaciones son correctas:
con un nivel de confianza del 95 %, el tiempo medio de espera para la conexión es
superior a los 85 días.
con un nivel de confianza del 95 %, el tiempo medio de espera es inferior a los 110 días.
c) Al responder el ítem 10a, ¿debió realizar algún supuesto en relación a la distribución de
dicha población?
11. Un topógrafo desea estimar la altura de un acantilado. A tal fin promedia los resultados de n
mediciones independientes. Si las mediciones que realiza no tienen error sistemático y la precisión de su instrumento es σ = 1 m, ¿cuántas mediciones debe realizar para estimar la altura
del acantilado con un error de a lo sumo 0.25 m y una confiabilidad del 95 %?
12. Un ingeniero civil examina 12 especímenes de concreto y obtiene los siguientes datos para la
resistencia a la compresión:
2216
2225
2381
2237
2301
2255
2249
2281
2275
2204
2263
2295
a) ¿Con qué nivel de confianza el intervalo (2240.51, 2289.81) cubre el verdadero valor de la
resistencia media?
b) ¿Debió realizar algún supuesto?
Raúl Katz
15
I NTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
13. En un proyecto de construcción se midió la resistencia al esfuerzo cortante de 50 probetas del
terreno. La siguiente tabla sintetiza la información.
a) Represente gráficamente la información
Intervalo
de clase
[2000 − 2250)
[2250 − 2500)
[2500 − 2750)
[2750 − 3000)
[3000 − 3250)
b) ¿ Cuál es la resistencia media y la desviación estándar en la muestra, cuando se conoce que las
mediciones tienen un error sistemático por defecto de 50 unidades?
c) Bajo las condiciones del punto 13b, estime la proporción de probetas que tienen una resistencia de
al menos 2300 y dé una cota del error.
Frecuencia
absoluta
3
8
22
12
5
14. Un laboratorio produce cierto tipo de tabletas. Es importante limitar la variabilidad de los pesos
de las mismas. El Departamento de control de calidad prueba rutinariamente muestras aleatorias de tabletas de cada lote. El peso nominal de cada tableta es de 25 mg y los pesos medidos
en una muestra aleatoria de tamaño 30 fueron:
24.1
25.8
22.7
24.5
26.4
27.2
27.3
26.9
26.1
25.4
26.7
23.2
24.8
25.9
23.3
23.6
26.9
24.0
25.4
24.3
26.4
27.1
23.4
22.9
23.8
25.2
26.7
25.0
24.9
23.0
a) ¿Permiten los datos de la muestra inferir que la variancia poblacional de los pesos de dichas tabletas es inferior a 3.92 mg2 ?
b) Indique si en la resolución anterior debió realizar algún supuesto. ¿Cuál?
c) Construya un diagrama de tallo hoja. ¿Cuáles son sus observaciones en relación a los datos?
d) Indique en el contexto del problemas los valores que son parámetros y los valores que son
estadísticos. Establezca la diferencia.
6. Bibliografía
1. Canavos, G. (1988). Probabilidad y Estadística. Aplicaciones y Métodos. México: McGraw-Hill.
2. Devore, J.(2001). Probabilidad y Estadística para Ingeniería y Ciencias. México: Thomson Editores.
3. Meyer, P. (1993). Probabilidad y Aplicaciones Estadísticas. México: Addison Wesley Iberoamericana.
4. Miller I. y Freund J. (1993). Probabilidad y Estadística para Ingenieros. México: Prentice Hall.
5. Milton S. y Arnold, J. (2004). Probabilidad y Estadística con aplicaciones para ingeniería y ciencias computacionales. México: McGraw-Hill.
6. Montgomery D. y Runger, G. (1996). Probabilidad y Estadística Aplicadas a la Ingeniería. México: McGraw-Hill.
7. Navidi, W. (2006). Estadística para ingenieros y científicos. México: McGraw-Hill.
8. Scheaffer, R. y McClave, J. (1993). Probabilidad y Estadística para Ingeniería. México: Grupo
Editorial Iberoamericana.
9. Walpole, R. y Myers, R. (2001). Probabilidad y Estadística. México: McGraw-Hill.
En estos textos podrá ahondar en el tema y encontrar otros ejemplos y problemas para resolver.
Raúl Katz
16
Descargar