Tema previo. Sucesiones y convergencia.

Anuncio
CONVERGENCIA ESTOCÁSTICA Y
TEOREMAS LIMITE.
Estadística aplicada a la empresa I
Prof. D. Juan José Pérez Castejón
1
CONVERGENCIA ESTOCÁSTICA Y TEOREMAS LIMITE.
En este tema se persigue introducir el concepto de sucesión de
variables aleatorias y extender a él, la idea de convergencia, que ya
se conoce en el caso de sucesiones de números. En relación con
esos dos conceptos, se comentarán después ciertos resultados
estadísticos de importancia fundamental, tales como algunas leyes
de grandes números así como varias soluciones al problema central
del límite. La utilidad de estos resultados se verá directamente
cuando los empleemos para aproximar distribuciones muy difíciles
de calcular o cuando los apliquemos a variables de uso continuo en
inferencia estadística, por ejemplo, la media aritmética.
Sucesiones de variables aleatorias.
Una sucesión de variables aleatorias es un conjunto infinito
numerable de esa clase de elementos: {Xi}i∈Ν donde cada Xi es una
v.a.
Ejemplos:
–Repetimos indefinidamente y de manera independiente, un
experimento del que nos interesa cierto suceso A de probabilidad p.
Sea Xi la b(p) asociada a la i–ésima repetición. El conjunto de esas
binomiales, {Xi}, es un ejemplo de sucesión de vv.aa. que además
tienen la características de ser independientes e idénticamente
distribuidas (i.i.d.)
–A partir de las Xi anteriores definimos Yi=X1+...+Xn~B(n,p). {Yi}
es también una sucesión tal que sus elementos se distribuyen con
el mismo tipo de distribución pero esta va cambiando con n y no son
independientes entre sí.
–El conjunto { Xn =Yn/n=(X1+...+Xn)/n} es otro ejemplo típico de
sucesión de vv.aa.
Tipos de convergencia de sucesiones de vv.aa.
La extensión del concepto de convergencia a las sucesiones de
vv.aa. no es única. Existen diferentes tipos de convergencia y cada
una conlleva unos requerimientos diferentes sobre los elementos de
la sucesión. Veamos los tipos de convergencia más importantes, a
Prof. D. Juan José Pérez Castejón
2
excepción de la convergencia casi segura que excede los límites de
este curso.
CONVERGENCIA EN LEY O EN DISTRIBUCIÓN.
Sea {Xi}i∈Ν una sucesión de vv.aa. y sea X una cierta v.a.
adicional. Diremos que {Xi}i∈Ν converge a X en distribución (o en
L
ley), {Xi}i∈Ν → X, si las funciones de distribución correspondientes
i→∞
cumplen que FXi(x) → FX(x) para todo número real x en el que FX sea
continua.
La convergencia en ley no exige nada a los valores que las
variables Xi y X toman, solo a la probabilidad con la que lo hacen.
Por ello, muchas veces realmente lo que se dice es que son las
distribuciones FXi las que convergen a la distribución FX. A pesar de
su ‘debilidad’, este tipo de convergencia será ya la que nos aporte
muchos de los resultados útiles de este tema.
Las siguientes propiedades simplifican mucho la demostración
de la convergencia en distribución:
–Supongamos que las Xi y la X son vv.aa. discretas tomando
todas los mismos valores x01,...,x0n,... Sean pXi(x0n) y pX(x0n) las
correspondientes funciones de probabilidad valoradas en cada
L
punto x0n. Resulta entonces que {Xi}i∈Ν → X si y solamente si
i→∞
pXi(x0n) → pX(x0n) en todos los valores x0n.
–Supongamos que las Xi y la X son vv.aa. continuas y sean
fXi(x) y fX(x) las correspondientes funciones de densidad. Si
i→∞
L
fXi(x) → fX(x) para todo x, entonces {Xi}i∈Ν → X.
–Sean MXi(s) y MX(s) las correspondientes funciones
generatrices de momentos de las Xi y de la X, y supongamos que
todas existen en cierto intervalo común alrededor del 0, (-s0,s0). Se
i→∞
cumple que si MXi(s) → MX(s) para todo s en ese intervalo, entonces
L
{Xi}i∈Ν → X.
Como ejemplo de uso de las propiedades anteriores, en
particular de la tercera de ellas, el alumno puede demostrar que si
Xn~P(λn)
con
λn→∞
Prof. D. Juan José Pérez Castejón
entonces
3
½
L
(Xn–λn)/(λn) → X~N(0,1).
Esa
convergencia da aproximaciones válidas y muy útiles para la
distribución P(λ) cuando esta no esté en las tablas debido a que λ
tome un valor muy alto (aproximación ‘asintótica’). Esa
aproximación se debe utilizar con los cuidados habituales que se
han de tener al aproximar una distribución discreta por una
distribución normal ya que esta última es de tipo continuo
(‘corrección de continuidad’). Empléese para resolver el siguiente
problema:
Los aparcamientos de una zona comercial pueden absorber a la
hora, durante los períodos de máxima actividad, un máximo de 499
vehículos. El número de vehículo que llegan por hora buscando
aparcamiento a esa zona sigue una distribución P(475). ¿Cuál es la
probabilidad de que en una determinada hora, la zona comercial
pierda clientes que no encuentren aparcamiento en ella?.
CONVERGENCIA EN PROBABILIDAD.
Sea {Xi}i∈Ν una sucesión de vv.aa. y sea X una cierta v.a.
adicional. Diremos que {Xi}i∈Ν converge a X en probabilidad,
n→ ∞
p
{Xi}i∈Ν → X, si para cualquier ε>0 se cumple que P(|Xn-X|≤ε) → 1.
La convergencia en probabilidad sí supone ya un cierto
comportamiento en los valores que las Xn pueden tomar, en relación
a los que toma X. En concreto, este tipo de convergencia implica
que caiga donde caiga X y por muy pequeño que fijemos ε,
conforme n crece llega un momento en que la probabilidad de que
el valor que tome Xn esté como máximo a una distancia ε del de X,
se hace todo lo grande y próxima a uno que queramos.
Un caso en el que el que la convergencia en probabilidad tiene
consecuencias muy claras y relevantes es aquel en el que X=c. Lo
que ocurre en ese caso es que podemos estar seguros de que
conforme n crece, el valor de Xn estará con toda la seguridad que
queramos, todo lo cerca que deseemos de c. Esto servirá para que
más adelante, en muchas situaciones en las que c no sea conocida,
p
pero sí sepamos que {Xi}i∈Ν → c y además resulte que Xn sí sea
observable para todo n, podamos coger como valor aproximado de
c el que tome Xn cuando n sea bastante alto.
Prof. D. Juan José Pérez Castejón
4
Se puede decir que la convergencia en probabilidad es más
fuerte que la convergencia en ley pues la primera implica la
segunda.
Alguna propiedad más interesante de la convergencia en
probabilidad
es
que
p
si
p
{Xi}i∈Ν → X
p
e
p
{Yi}i∈Ν → Y,
entonces
p
{Xi±Yi}i∈Ν → X±Y, {XiYi}i∈Ν → XY y {g(Xi)}i∈Ν → g(X) (con g una función
continua cualquiera). Hay que destacar que, en general, esa misma
propiedad en el caso de la división de sucesiones no es cierta
excepto si Y=c≠0.
CONVERGENCIA EN MEDIA CUADRÁTICA.
Sea {Xi}i∈Ν una sucesión de vv.aa. y sea X una cierta v.a.
adicional. Diremos que {Xi}i∈Ν converge a X en media cuadrática,
n→ ∞
m.c .
{Xi}i∈Ν → X, si se cumple E(Xn–X)2 → 0.
Intuitivamente, la convergencia en media cuadrática lo que
implica es que la distancia o diferencia cuadrática media que existe
entre los valores de las Xn y los de la X –cantidad que siempre será
positiva o cero– se hace cada vez mas pequeña y cercana a 0
conforme n crece.
La convergencia en media cuadrática es más fuerte que la
convergencia en probabilidad pues la primera implica la segunda.
Por dos razones, un caso importante de convergencia en
media cuadrática es la que se da hacia una constante. La primera
razón es porque implicaría convergencia en probabilidad hacia ella,
con las consecuencias que eso tiene y que ya se comentaron al
hablar de la convergencia en probabilidad. La segunda es porque
en ese caso, hay dos condiciones que juntas son equivalentes a
esta convergencia, condiciones que son de una relativamente fácil
comprobación en la práctica:
n→∞ .
m.c .
n→∞ .
{Xi}i∈Ν → c ⇔ E(Xn) → c y var(Xn) → 0
La demostración de esa equivalencia la puede obtener sin mayor
dificultad el alumno si previamente es capaz de demostrar que
E(Xn–c)2=var(Xn)+(E(Xn)–c)2.
Prof. D. Juan José Pérez Castejón
5
Una aplicación de la convergencia en media cuadrática y de la
equivalencia que se acaba de establecer, será el siguiente resultado
al que se volverá en temas más avanzados: sean Xi con i=1,...
variables independientes todas con las mismas media E(Xi)=c y
m.c .
varianza var(Xi)=v2, ocurre entonces que Xn =(X1+...+Xn)/n → c
Las leyes de los grandes números.
Históricamente, una vez que se desarrollaron los conceptos de
convergencia de sucesiones de vv.aa., alrededor de ellos se
plantearon una serie de problemas tales que, cuando se
resolvieron, aportaron resultados muy útiles para diferentes
aspectos estadísticos. Uno de ellos fue la cuestión de la
‘convergencia de los grandes números’, cuestión que planteada de
manera simplificada y comprensible para nuestro nivel dice: “dadas
variables aleatorias Xi con i=1,2... equidistribuidas todas y con al
menos media finita, E(Xi)=m ∀i, y dada la sucesión formada por su
medias aritméticas Xn , ¿converge esa sucesión hacia m?, y si lo
hace, ¿de qué tipo de convergencia se trata?”.
Se han obtenido diferentes respuestas a ese problema,
respuestas que imponen condiciones variadas a las Xi y conllevan
diferentes tipos de convergencia para la sucesión citada. A tales
respuestas se las llama ‘leyes de los grandes números’ y se suele
diferenciar entre las leyes débiles (las que implican convergencia de
uno de los tipos que aquí hemos estudiado) y las fuertes (implican
convergencia casi segura, un tipo de convergencia que no hemos
analizado). Enunciaremos una de las leyes débiles más conocidas,
cuya demostración ya estamos en condiciones de realizar y que
para nuestras necesidades resultará satisfactoria:
Teorema (Ley débil de los grandes números de
Tchebychev): Si además de lo dicho, imponemos que las Xi sean
independientes y que sus varianzas existan, var(Xi)=v2 ∀i, entonces
m.c .
Xn → m. Al darse esa convergencia en media cuadrática, es obvio
que también se dará en probabilidad.
La demostración de este teorema es, precisamente, la resolución
del último ejercicio que se planteó al revisar el concepto de
convergencia en media cuadrática.
Prof. D. Juan José Pérez Castejón
6
El problema central del límite.
Las leyes de los grandes números aseguran que la media
aritmética de las Xi se concentra alrededor de m, pero ¿sigue, al
menos aproximadamente, alguna ley probabilística al hacerlo?. La
respuesta la da la solución del ‘problema central del límite’. Este
problema, planteado en unos términos sencillos que ya estemos en
condición de comprender, dice: “dadas variables aleatorias Xi con
i=1,2... equidistribuidas todas, y dada la sucesión formada por su
suma, Yn=X1+...+Xn, ¿existen sucesiones de constantes An y Bn
L
tales que (Yn–An)/Bn → N(0,1)?”. Para empezar a entrever la relación
que este problema pueda tener con la cuestión del comportamiento
probabilístico de la media aritmética, nótese que Yn es,
precisamente, el numerador de esta. Más adelante cuando
comentemos aplicaciones prácticas de todos los resultados de este
tema, terminaremos de perfilar la relación entre ambas cuestiones.
A nosotros nos resulta suficiente con conocer el siguiente
resultado que es una de las soluciones más conocidas del problema
central del límite. Su demostración queda fuera de nuestro alcance:
Teorema (Teorema Central del Límite de Lindeberg–Lévy):
Si las Xi son independientes y todas tienen media y varianza finitas,
E(Xi)=m y var(Xi)=v2, entonces se puede coger An=E(Yn)=nm y
Bn=σ(Yn)=(var(Yn))½=(nv2)½, esto es, una vez tipificada, Yn converge
en distribución a una N(0,1):
L
(Yn–nm)/(nv2)½ → N(0,1)
Citaremos que la primera solución que históricamente obtuvo el
problema del que se viene hablando, el Teorema Central del Límite
(TCL) de Moivre, es un caso particular del TCL de Lindeber–Lévy:
Teorema (Teorema Central del Límite de Moivre): Sea una
variable Yn~B(n,p) –y por tanto, suma de n vv.aa. Xi~b(p)
independientes–. Se cumple que:
L
(Yn–E(Yn))/(var(Yn))½=(Yn–np)/(npq)½ → N(0,1)
Todos estos resultados confirman la importancia que a la
distribución normal le adjudicamos, cuando la presentamos en
Prof. D. Juan José Pérez Castejón
7
temas anteriores. Vemos aquí que incluso partiendo de
distribuciones no necesariamente normales, la variable media
aritmética que será de uso continuado más adelante, se distribuye
asintóticamente como una normal.
Usos prácticos muy frecuentes de algunos de los resultados
examinados.
Algunos de los resultados que se han estudiado, o ciertas
consecuencias de ellos, son utilizados con bastante frecuencia en la
práctica. Vamos a hacer una revisión de los que mas se emplean:
1.– Aproximación asintótica de la distribución P(λ) mediante
una normal cuando el parámetro λ es muy grande y no aparece en
las tablas habituales. El resultado en el que se basa esta
aproximación y la forma en la que debe esta hacerse, ya se
revisaron anteriormente.
2.– Aproximación asintótica de la distribución B(n,p) mediante
una distribución de Poisson o mediante una distribución normal
cuando el parámetro n es muy alto, no aparece en las tablas y en
combinación con p cumple ciertas condiciones.
Un primer resultado que se puede aplicar para aproximar el
valor de la distribución de una B(n,p) cuando n es grande es el
L
propio TCL de Moivre: (B(n,p)–np)/(npq)½ → N(0,1), que en la
práctica emplearemos así:
P(B(n,p)≤x) = P((B(n,p)–np)/(npq)½≤(x–np)/(npq)½) ≈
≈ P(N(0,1)≤(x–np)/(npq)½) = P(N(np,npq)≤x)
o resumidamente: FB(n,p)(x)≈FN(np,npq)(x). Sobre el valor x que aparece
en las expresiones anteriores, aplicaremos siempre la corrección
por continuidad que se debe usar al aproximar distribuciones
discretas por una distribución normal y de la que ya hablamos al
plantear el mismo tipo de aproximación para la distribución de
Poisson.
Un segundo resultado, difícil de demostrar, dice lo siguiente:
sean Xn~B(n,pn) tales que npn→λ si n→∞, se cumple entonces que
Prof. D. Juan José Pérez Castejón
8
L
Xn → P(λ). Este resultado en la práctica nos permite aproximar de la
siguiente forma: FB(n,p)(x)≈FP(np)(x) y P(B(n,p)=x)≈P(P(np)=x).
De todas maneras, siempre surge la duda de ¿cuándo es n lo
bastante alta como para usar estas aproximaciones?. Y cuando lo
sea, ¿cuál de las dos se debe emplear?. Se han hecho estudios
numéricos acerca de esa cuestión y se ha concluido que tanto si
p>0.1 y n≥20, como si p<0.1 y np>5, la aproximación por la normal
es correcta, mientras que si n≥30, np≤5 y p≤0.1, la aproximación
mejor se consigue mediante la distribución de Poisson. Úsense
según esos criterios para resolver los dos siguientes ejercicios:
En una población muy amplia, el porcentaje de familias que
cumplen cierto requisito es igual al 0.6%. Se escogen
aleatoriamente 1000 familias. La selección será buena si más de
990 de ellas no cumplen el requisito. ¿Cuál es la probabilidad de
que lo sea y no halla que repetir la selección?.
Una fábrica produce 1% de artículos defectuosos. ¿Cuál es la
probabilidad de que 2 o más productos de entre 30 seleccionados
aleatoriamente, sean defectuosos?.
3.– Aproximación asintótica de la distribución de la media
aritmética de n variables independientes, idénticamente distribuidas
con media y varianza finitas, mediante una normal, cuando el
número n de variables promediadas es alto y la distribución exacta
de la media aritmética es desconocida o resulta inmanejable.
Dadas Xi independientes idénticamente distribuidas (i.i.d.),
todas con la misma media m y varianza v2, para calcular
probabilidades relacionadas con Xn =(X1+...+Xn)/n, en el caso en el
que la distribución de esta no se pueda hallar o bien sea de difícil
manejo, podemos usar la siguiente consecuencia práctica del TCL
de Lindeberg–Lévy aplicado a las Xi:
P( Xn ≤x)= P(( Xn –m)/(v2/n)½ ≤ (x–m)/(v2/n)½) =
= P((ΣXi–nm)/(nv2)½ ≤ (x–m)/(v2/n)½) ≈
≈ P(N(0,1) ≤ (x–m)/(v2/n)½) = P(N(m,v2/n)≤x)
Ello nos viene a decir que la distribución de Xn se puede aproximar
por la de una N(m,v2/n) si n es lo bastante grande.
Prof. D. Juan José Pérez Castejón
9
El empleo de esta aproximación siempre presenta un
problema. ¿Cuánto de grande ha de ser n para que podamos estar
seguros de que es una aproximación lo bastante precisa?. La
respuesta a esa pregunta no es rotunda. El valor de n varía según
el tipo de distribución de las Xi: lo que para una tipo de distribución
puede ser bastante, para otra puede no serlo.
Vamos a usarla para resolver los dos siguientes ejercicios:
Sean 100 vv.aa. Xi i.i.d., todas con media E(Xi)=7 y var(Xi)=225.
Sea Y100 su media aritmética. ¿Cómo aproximar P(|Y100–7|≤0.5)?.
El tiempo de vida hasta la rotura de un cierto componente
electrónico sigue una e(0.1) si se mide en horas. Un sistema
dispone de 30 de esos componentes de manera que solo uno
funciona en cada momento y ese, cuando se rompe, es sustituido
inmediatamente por otro que aún no esté averiado. ¿Cuál es la
probabilidad de que el sistema esté funcionando de manera
continuada durante más de 200 horas?.
4.– Aproximación asintótica de la t de Student y la ji–cuadrado,
mediante una distribución normal, cuando los respectivos grados de
libertad son altos. Existen resultados asintóticos para aproximar
esas distribuciones cuando los grados de libertad son altos. De
todas formas sus demostraciones son difíciles y sus consecuencias
prácticas ya están incorporadas a las tablas habituales.
Prof. D. Juan José Pérez Castejón
10
Descargar