Tema 1. Inferencia. Estadísticos. Distribuciones en el muestreo.

Anuncio
Inferencia. Estadísticos.
Distribuciones en el muestreo
Estadística aplicada a la empresa II
Prof. D. Juan José Pérez Castejón
1
INFERENCIA. ESTADÍSTICOS
Los apartados que siguen están dedicados a desarrollar la idea
de inferencia estadística: ¿qué es?, ¿qué persigue?, ¿cómo se
efectúa?; así como a los elementos fundamentales mediante los
que se lleva a efecto: la muestra y los estadísticos muestrales. Se
examinan detenidamente estos últimos, citando los más utilizados
en general, y los que se manejan cuando la población analizada es
normal.
Inferencia estadística. Muestra y estadísticos.
Los elementos que se han introducido en temas anteriores
(probabilidades de sucesos, distribuciones univariantes o
multivariantes, características de variables o vectores aleatorios,
parámetros de una distribución,...) no son directamente observables
y, por ello, no son conocidos. Una vez que un investigador
estadístico admite su existencia, lo siguiente que debe de hacer es
obtener mayor conocimiento sobre ellos. Como los fenómenos
aleatorios afectan a toda una población, esos elementos son
propios de todos y cada uno de los individuos que forman la
población, y se les califica como poblacionales.
La población puede ser muy grande o incluso infinita y debido a
eso, entre otras razones, no puede ser observada en su totalidad.
Normalmente solo se está en condiciones de observar un grupo
extraído de ella, formado por n individuos, grupo que recibe el
nombre de muestra. La información sobre los elementos
poblacionales de los que se habló en el párrafo anterior ha de ser
conseguida observando únicamente esa muestra. El investigador
estadístico debe saber pasar de las observaciones o resultados
particulares obtenidos con una muestra (resultados muestrales), a
conclusiones generales sobre la población. En general, en el
ambiente científico, el proceso de pasar de lo particular a lo general
se conoce como inferencia inductiva o inducción. Cuando la
inducción se hace en el campo estadístico, en relación con los
fenómenos aleatorios, se la denomina inducción de tipo estadístico.
El trabajo estadístico se centra en las variables aleatorias X o
los vectores V. Nosotros, en estos temas, nos restringiremos a
considerar el trabajo con variables, quedando para cursos
posteriores, el trabajo con vectores. Según todo lo que se ha dicho
Prof. D. Juan José Pérez Castejón
2
hasta aquí, para hacer inducción sobre los elementos poblacionales
relacionados con las variables, no se pueden observar todos sus
valores sobre todos los individuos de la población a la que afectan,
sino solo sobre n de ellos. Así, tendremos los individuos 1,....,n y la
variable X que se estudia, considerada sobre cada uno de ellos,
X1,...,Xn. Todas las Xi se distribuyen como la X, Xi~X, y se dice que
constituyen una muestra suya. Se suele usar la expresión “X1,...,Xn
es una muestra extraída de la población de X”. A la cantidad n se la
conoce como el tamaño muestral.
Aunque no es la única posibilidad, los individuos que
componen la muestra suelen escogerse de manera que entre sí
sean independientes las distintas Xi. Una muestra con esa
característica se conoce como una muestra aleatoria simple (m.a.s.)
de X. Nuestro trabajo práctico será siempre con mm.aa.ss, aunque
el teórico procuraremos que sea aplicable a cualquier tipo de
muestra. Aquellos aspectos teóricos que sólo sean ciertos para
mm.aa.ss. serán señalados explícitamente si es que ello no es
obvio en el propio enunciado del resultado correspondiente.
Una vez que los individuos de la muestra sean observados, las
correspondientes variables X1,...,Xn tomarán valores concretos que
se suelen representar con letras minúsculas x1,...,xn. Al conjunto de
esos valores se le denomina ‘realización muestral’.
La inferencia estadística se realizará a través de nuevas
variables aleatorias que se obtienen a partir de las que componen la
muestra, y del valor que esas nuevas variables tomen, valor que
dependerá de la realización muestral. Esto es, continuamente
manejaremos funciones ‘deterministas’, T(x1,...,xn):Rn→Rm, que son
funciones como las que hasta ahora se han venido manejando en
cualquiera curso de matemáticas. Esas funciones dependerán de n
variables (tantas como el tamaño de la muestra) y tendrán un
número m de componentes que variará según nuestros propósitos –
desde m=1 hasta...–. Aplicadas sobre las variables que componen
la muestra, T(X1,...,Xn), darán lugar a una nueva variable o vector
aleatorio de dimensión m. Obviamente cuando se conozca la
realización de la muestra, x1,...,xn, estaremos también en
condiciones de conocer la correspondiente realización de esa nueva
variable, T(x1,...,xn)=t. Cualquier variable de esa clase es conocida
con el nombre genérico de estadístico muestral, y t será la
realización de esa estadístico. Debe quedar claro que un estadístico
es una v.a. más, y que, en consecuencia, todo lo que conocemos
Prof. D. Juan José Pérez Castejón
3
acerca de ese concepto le será aplicable: tendrá su propia función
de distribución, se podrá hablar de sus características como por
ejemplo de su media, función generatriz, ...
Todo resultado inductivo o inferencial adolece de un defecto
que lo dota de una particularidad específica. Por tratarse de un
resultado obtenido pasando de lo particular a lo general, no puede
pretender ser cierto con rotundidad. A lo más puede ser un
resultado más o menos creíble en el que depositaremos cierto
grado de confianza. Ello obliga a que cada vez que desarrollemos
un método de obtención de algún resultado inductivo, parte de sus
procedimientos estarán dedicados a medir de alguna manera su
grado de confianza.
Estadísticos
importantes.
más
usuales
y
sus
características
más
Sin justificarlos, citaremos a continuación cuáles son los
estadísticos más habitualmente manejados al hacer inferencia de
tipo estadístico. Igualmente en cada caso, y también sin
justificación, mencionaremos sobre qué elemento relacionado con la
variable X en estudio es aquel sobre el que se hace inducción
empleando cada uno de los estadísticos que se expongan. El
análisis de los estadísticos se completará razonando algunas de las
características que tengan como vv.aa.
MEDIA MUESTRAL.
Dada un muestra X1,...,Xn de la v.a. X, el estadístico media
muestral es igual a X =ΣXi/n. Este estadístico es empleado
normalmente cuando hay que hacer inducción sobre la media o
esperanza de la población o media ‘poblacional’, E(X).
La esperanza de la media muestral, E( X ), es siempre igual a la
propia E(X). Cuando la muestra sea aleatoria simple, la varianza de
X es var(X)/n (varianza ‘poblacional’ dividida por n). El alumno
puede revisar resultados de temas anteriores para establecer a qué
sería igual esa misma varianza si la muestra no fuera aleatoria.
Resulta bastante útil recordar en este punto el TCL de
Lindeberg–Lévy, para disponer de condiciones bajo las que la
Prof. D. Juan José Pérez Castejón
4
distribución del estadístico X es, al menos aproximadamente, una
normal.
VARIANZA Y CUASIVARIANZA MUESTRALES.
La varianza muestral, S2=Σ(Xi– X )2/n=(ΣX2i/n)– X 2, es uno de
los estadísticos usados para realizar inducción sobre la varianza
poblacional, var(X). Otro estadístico que también se usa con esos
fines es la cuasivarianza muestral, Sc2=Σ(Xi– X )2/(n–1)=nS2/(n–1).
Aunque laborioso, resulta fácil demostrar que si la muestra
manejada es aleatoria, E(S2)=(n–1)var(X)/n. De ahí se deduce que
E(Sc2)= var(X). Para ese mismo tipo de muestra también es posible
obtener la varianza tanto de la varianza muestral como de la
cuasivarianza, aunque la expresión que ambas tienen en función de
los momentos de la variable poblacional X es más complicada que
la que tienen las esperanzas.
MOMENTOS ORDINARIOS Y CENTRALES MUESTRALES.
En general, para hacer inferencia sobre los momentos
ordinarios y centrales poblacionales, E(Xk) y E(X–E(X))k, se
emplean los respectivos momentos ordinarios y centrales
muestrales, Ok=ΣXik/n y Ck=Σ(Xi– X )k/n.
COVARIANZA Y CUASICOVARIANZA MUESTRALES.
Aunque el tratamiento de la inferencia sobre vectores la hemos
pospuesto a cursos posteriores, podemos citar aquí a modo
testimonial, el caso en el que el vector estudiado sea bidimensional,
V=(X,Y), y la cantidad poblacional de interés sea cov(X,Y). En este
caso la muestra estaría compuesta por n vectores V1=(X1,Y1), ...,
Vn=(Xn,Yn) todos distribuidos Vi~V. Esa muestra también podrá ser
aleatoria simple –los Vi independientes entre sí– o no.
Para hacer inferencia sobre la covarianza, se emplea la
covarianza muestral, SX,Y=Σ(Xi– X )(Yi– Y )/n=Σ(XiYi)/n– X Y , o el
estadístico alternativo, Sc,X,Y=Σ(Xi– X )(Yi– Y )/(n–1)=nSX,Y/(n–1), que
se conoce como cuasicovarianza muestral.
Prof. D. Juan José Pérez Castejón
5
Si la muestra es aleatoria, se puede demostrar que E(SX,Y)=
(n–1)cov(X,Y)/n y que E(Sc,X,Y)=cov(X,Y).
Resultados muestrales más usuales cuando la población es
normal.
La presentación que se ha hecho de algunos de los
estadísticos muestrales más importantes, se puede completar con
algunos resultados adicionales en el caso en el que la variable X
muestreada sea una v.a. normal. Únicamente imponiendo un tipo de
distribución específica para esa variable, se pueden obtener
resultados más avanzados. Afortunadamente, la hipótesis de
normalidad no es una hipótesis demasiado restrictiva. Ya hemos
visto en otros temas anteriores, que la distribución normal es un tipo
de distribución de uso bastante general.
Los resultados que se van a presentar estarán organizados de
la manera siguiente. Primero se presentará un resultado (el lema de
Fisher) de uso general en cualquier proceso de inferencia acerca de
la distribución de X. Después nos centraremos en el proceso de
realización de inferencia acerca de los parámetros de los que la
distribución de X depende (µ y σ). Distinguiremos los casos en los
que la inferencia a realizar es sobre uno de ellos, de los casos en lo
que es sobre el otro. Y a su vez, dentro de cada una de esas dos
opciones, diferenciaremos entre los casos en los que el parámetro
no afectado por la inferencia es conocido o no. Siempre se trabajará
bajo la hipótesis de que se dispone de una m.a.s. de X
Lema (de Fisher–Cochran): Si las Xi forman una m.a.s. de
tamaño n de X~N(µ,σ2), entonces S2 y X son independientes,
X ~N(µ,σ2/n) y nS2/σ2~χ2n–1.
Expongamos ahora el resto de resultados. Téngase en cuenta
que aquí se trata solo de presentarlos y no de justificar porqué son
empleados o cómo se utilizan:
INFERENCIA SOBRE µ SIENDO σ CONOCIDA.
El siguiente resultado, que ya se ha demostrado y enunciado
varias veces en clase, además de estar incluido en el propio Lema
Prof. D. Juan José Pérez Castejón
6
de Fisher, será empleado continuamente en esta situación:
X ~ N(µ, σ 2 / n) .
INFERENCIA SOBRE µ SIENDO σ DESCONOCIDA.
En este caso, el resultado al que se recurre es el que afirma
X−µ
que:
~ t n −1. Su demostración es fácil a partir del Lema de
S / n −1
Fisher.
INFERENCIA SOBRE σ SIENDO µ CONOCIDA.
El resultado al que se recurre en este caso es el siguiente, de
demostración muy sencilla: Σ(Xi–µ)2/σ2~χ2n.
INFERENCIA SOBRE σ SIENDO µ DESCONOCIDA.
El propio lema de Fisher provee del resultado que se empleará
en este caso: S2~σ2χ2n–1/n.
Nótese que lo que hemos hecho es sustituir en el estadístico
del apartado anterior, el parámetro µ desconocido y molesto porque
sobre él no queremos realizar ningún tipo de inferencia, por su
‘estimación natural’ que es la media muestral –mas adelante se
justificará esa idea de estimar parámetros por estadísticos–. Las
consecuencias de ello es una pérdida de un grado de libertad en la
distribución correspondiente. Este proceso de ‘pérdida de tantos
grados de libertad’ como parámetros molestos tengamos que
estimar, se repetirá en muchas situaciones de inferencia y, como
veremos, provoca siempre resultados más imprecisos.
COMPARACION
CONOCIDAS.
DE
MEDIAS
SIENDO
LAS
VARIANZAS
Una situación en la que es preciso hacer inferencia y a la que
aún no hemos hecho referencia es la siguiente. A veces existen dos
poblaciones independientes, con variables X e Y, y se precisa
comparar cantidades análogas de una y de otra. La inferencia a
realizar se refiere a una magnitud que sirva para efectuar tal
comparación. Para llevar a cabo la comparación se dispone de dos
muestras independientes entre sí, una de X, X1,...,Xn, y otra de Y,
Prof. D. Juan José Pérez Castejón
7
Y1,...,Ym, que no tienen porqué tener el mismo tamaño (no es
necesario que m=n).
Cuando las variables X e Y son normales, N(µX,σ2X) y
N(µY,σ2Y), las comparaciones habituales deben hacerse entre las
correspondientes medias o las varianzas (desviaciones típicas).
Comencemos por tratar la comparación entre medias, en cuyo caso,
la magnitud de interés es µX–µY. Analizaremos primero ese caso si
las varianzas (o las desviaciones típicas) σ2X y σ2Y son conocidas.
El resultado que se empleará para comparar medias si las
varianzas se conocen, es un resultado sencillo y fácil de
demostrar: X − Y ~ N(µ X − µ Y , (σ 2X / n) + (σ 2Y / m) )
COMPARACION DE
DESCONOCIDAS.
MEDIAS
SIENDO
LAS
VARIANZAS
Para comparar las medias en el caso en el que σ2X y σ2Y sean
desconocidas, el resultado que se emplea es más o menos
complejo según que se sepa que esas varianzas son iguales o no:
1.– Varianzas desconocidas de las que se sabe que son iguales.
En este caso es cierto que el siguiente estadístico tiene la
n + m − 2  ( X − Y ) − (µ X − µ Y ) 
.
distribución indicada,
nm
~t
 n+m−2
2
2
n+m 
nS X + mS Y


La demostración de ese resultado se obtiene aplicando
sucesivamente el Lema de Fisher a una y otra muestra.
2.– Varianzas desconocidas sin ninguna otra información.
Si no se dispone de ninguna información sobre las varianzas, el
resultado que se usa, únicamente establece una distribución
( X − Y ) − (µ X − µ Y )
aproximada para cierto estadístico:
≈ t ν , siendo
S c2, X / n + S c2, Y / m
ν=entero más cercano a
(
(S
2
c, X
S c2, X
n
n −1
Prof. D. Juan José Pérez Castejón
n + S c2, Y m
) +(
2
8
S c2, Y
)
2
m
m −1
)
2
. Nótese que para n y
m grandes, la distribución tν se puede aproximar, a su vez, por una
N(0,1).
COMPARACION
CONOCIDAS.
DE
VARIANZAS
SIENDO
LAS
MEDIAS
Para comparar las varianzas, la magnitud sobre la que se hace
inferencia es el cociente entre ellas, σ2X/σ2Y. Para el caso en el que
se conozcan las medias, µX y µY, el siguiente resultado es muy
sencillo de demostrar y con él se obtienen los diferentes resultados
( Xi − µ X )2 /(nσ 2X )
∑
~ Fn,m .
inductivos reuqueridos:
2
2
(
Y
−
µ
)
/(
m
σ
)
∑ i Y
Y
COMPARACION DE
DESCONOCIDAS.
VARIANZAS
SIENDO
LAS
MEDIAS
Para comparar las varianzas cuando no se dispone de
información sobre las medias, el resultado que se utilizará se deriva
directamente de las conclusiones del Lema de Fisher:
2
2
nS 2X /((n − 1)σ 2X ) S c, X / σ X
~ Fn −1,m −1 .
=
mS 2Y /((m − 1)σ 2Y ) S c2, Y / σ 2Y
Prof. D. Juan José Pérez Castejón
9
Descargar