CONVERGENCIA ESTOCÁSTICA Y TEOREMAS LIMITE. Estadística aplicada a la empresa I Prof. D. Juan José Pérez Castejón 1 CONVERGENCIA ESTOCÁSTICA Y TEOREMAS LIMITE. En este tema se persigue introducir el concepto de sucesión de variables aleatorias y extender a él, la idea de convergencia, que ya se conoce en el caso de sucesiones de números. En relación con esos dos conceptos, se comentarán después ciertos resultados estadísticos de importancia fundamental, tales como algunas leyes de grandes números así como varias soluciones al problema central del límite. La utilidad de estos resultados se verá directamente cuando los empleemos para aproximar distribuciones muy difíciles de calcular o cuando los apliquemos a variables de uso continuo en inferencia estadística, por ejemplo, la media aritmética. Sucesiones de variables aleatorias. Una sucesión de variables aleatorias es un conjunto infinito numerable de esa clase de elementos: {Xi}i∈Ν donde cada Xi es una v.a. Ejemplos: –Repetimos indefinidamente y de manera independiente, un experimento del que nos interesa cierto suceso A de probabilidad p. Sea Xi la b(p) asociada a la i–ésima repetición. El conjunto de esas binomiales, {Xi}, es un ejemplo de sucesión de vv.aa. que además tienen la características de ser independientes e idénticamente distribuidas (i.i.d.) –A partir de las Xi anteriores definimos Yi=X1+...+Xn~B(n,p). {Yi} es también una sucesión tal que sus elementos se distribuyen con el mismo tipo de distribución pero esta va cambiando con n y no son independientes entre sí. –El conjunto { Xn =Yn/n=(X1+...+Xn)/n} es otro ejemplo típico de sucesión de vv.aa. Tipos de convergencia de sucesiones de vv.aa. La extensión del concepto de convergencia a las sucesiones de vv.aa. no es única. Existen diferentes tipos de convergencia y cada una conlleva unos requerimientos diferentes sobre los elementos de la sucesión. Veamos los tipos de convergencia más importantes, a Prof. D. Juan José Pérez Castejón 2 excepción de la convergencia casi segura que excede los límites de este curso. CONVERGENCIA EN LEY O EN DISTRIBUCIÓN. Sea {Xi}i∈Ν una sucesión de vv.aa. y sea X una cierta v.a. adicional. Diremos que {Xi}i∈Ν converge a X en distribución (o en L ley), {Xi}i∈Ν → X, si las funciones de distribución correspondientes i→∞ cumplen que FXi(x) → FX(x) para todo número real x en el que FX sea continua. La convergencia en ley no exige nada a los valores que las variables Xi y X toman, solo a la probabilidad con la que lo hacen. Por ello, muchas veces realmente lo que se dice es que son las distribuciones FXi las que convergen a la distribución FX. A pesar de su ‘debilidad’, este tipo de convergencia será ya la que nos aporte muchos de los resultados útiles de este tema. Las siguientes propiedades simplifican mucho la demostración de la convergencia en distribución: –Supongamos que las Xi y la X son vv.aa. discretas tomando todas los mismos valores x01,...,x0n,... Sean pXi(x0n) y pX(x0n) las correspondientes funciones de probabilidad valoradas en cada L punto x0n. Resulta entonces que {Xi}i∈Ν → X si y solamente si i→∞ pXi(x0n) → pX(x0n) en todos los valores x0n. –Supongamos que las Xi y la X son vv.aa. continuas y sean fXi(x) y fX(x) las correspondientes funciones de densidad. Si i→∞ L fXi(x) → fX(x) para todo x, entonces {Xi}i∈Ν → X. –Sean MXi(s) y MX(s) las correspondientes funciones generatrices de momentos de las Xi y de la X, y supongamos que todas existen en cierto intervalo común alrededor del 0, (-s0,s0). Se i→∞ cumple que si MXi(s) → MX(s) para todo s en ese intervalo, entonces L {Xi}i∈Ν → X. Como ejemplo de uso de las propiedades anteriores, en particular de la tercera de ellas, el alumno puede demostrar que si Xn~P(λn) con λn→∞ Prof. D. Juan José Pérez Castejón entonces 3 ½ L (Xn–λn)/(λn) → X~N(0,1). Esa convergencia da aproximaciones válidas y muy útiles para la distribución P(λ) cuando esta no esté en las tablas debido a que λ tome un valor muy alto (aproximación ‘asintótica’). Esa aproximación se debe utilizar con los cuidados habituales que se han de tener al aproximar una distribución discreta por una distribución normal ya que esta última es de tipo continuo (‘corrección de continuidad’). Empléese para resolver el siguiente problema: Los aparcamientos de una zona comercial pueden absorber a la hora, durante los períodos de máxima actividad, un máximo de 499 vehículos. El número de vehículo que llegan por hora buscando aparcamiento a esa zona sigue una distribución P(475). ¿Cuál es la probabilidad de que en una determinada hora, la zona comercial pierda clientes que no encuentren aparcamiento en ella?. CONVERGENCIA EN PROBABILIDAD. Sea {Xi}i∈Ν una sucesión de vv.aa. y sea X una cierta v.a. adicional. Diremos que {Xi}i∈Ν converge a X en probabilidad, n→ ∞ p {Xi}i∈Ν → X, si para cualquier ε>0 se cumple que P(|Xn-X|≤ε) → 1. La convergencia en probabilidad sí supone ya un cierto comportamiento en los valores que las Xn pueden tomar, en relación a los que toma X. En concreto, este tipo de convergencia implica que caiga donde caiga X y por muy pequeño que fijemos ε, conforme n crece llega un momento en que la probabilidad de que el valor que tome Xn esté como máximo a una distancia ε del de X, se hace todo lo grande y próxima a uno que queramos. Un caso en el que el que la convergencia en probabilidad tiene consecuencias muy claras y relevantes es aquel en el que X=c. Lo que ocurre en ese caso es que podemos estar seguros de que conforme n crece, el valor de Xn estará con toda la seguridad que queramos, todo lo cerca que deseemos de c. Esto servirá para que más adelante, en muchas situaciones en las que c no sea conocida, p pero sí sepamos que {Xi}i∈Ν → c y además resulte que Xn sí sea observable para todo n, podamos coger como valor aproximado de c el que tome Xn cuando n sea bastante alto. Prof. D. Juan José Pérez Castejón 4 Se puede decir que la convergencia en probabilidad es más fuerte que la convergencia en ley pues la primera implica la segunda. Alguna propiedad más interesante de la convergencia en probabilidad es que p si p {Xi}i∈Ν → X p e p {Yi}i∈Ν → Y, entonces p {Xi±Yi}i∈Ν → X±Y, {XiYi}i∈Ν → XY y {g(Xi)}i∈Ν → g(X) (con g una función continua cualquiera). Hay que destacar que, en general, esa misma propiedad en el caso de la división de sucesiones no es cierta excepto si Y=c≠0. CONVERGENCIA EN MEDIA CUADRÁTICA. Sea {Xi}i∈Ν una sucesión de vv.aa. y sea X una cierta v.a. adicional. Diremos que {Xi}i∈Ν converge a X en media cuadrática, n→ ∞ m.c . {Xi}i∈Ν → X, si se cumple E(Xn–X)2 → 0. Intuitivamente, la convergencia en media cuadrática lo que implica es que la distancia o diferencia cuadrática media que existe entre los valores de las Xn y los de la X –cantidad que siempre será positiva o cero– se hace cada vez mas pequeña y cercana a 0 conforme n crece. La convergencia en media cuadrática es más fuerte que la convergencia en probabilidad pues la primera implica la segunda. Por dos razones, un caso importante de convergencia en media cuadrática es la que se da hacia una constante. La primera razón es porque implicaría convergencia en probabilidad hacia ella, con las consecuencias que eso tiene y que ya se comentaron al hablar de la convergencia en probabilidad. La segunda es porque en ese caso, hay dos condiciones que juntas son equivalentes a esta convergencia, condiciones que son de una relativamente fácil comprobación en la práctica: n→∞ . m.c . n→∞ . {Xi}i∈Ν → c ⇔ E(Xn) → c y var(Xn) → 0 La demostración de esa equivalencia la puede obtener sin mayor dificultad el alumno si previamente es capaz de demostrar que E(Xn–c)2=var(Xn)+(E(Xn)–c)2. Prof. D. Juan José Pérez Castejón 5 Una aplicación de la convergencia en media cuadrática y de la equivalencia que se acaba de establecer, será el siguiente resultado al que se volverá en temas más avanzados: sean Xi con i=1,... variables independientes todas con las mismas media E(Xi)=c y m.c . varianza var(Xi)=v2, ocurre entonces que Xn =(X1+...+Xn)/n → c Las leyes de los grandes números. Históricamente, una vez que se desarrollaron los conceptos de convergencia de sucesiones de vv.aa., alrededor de ellos se plantearon una serie de problemas tales que, cuando se resolvieron, aportaron resultados muy útiles para diferentes aspectos estadísticos. Uno de ellos fue la cuestión de la ‘convergencia de los grandes números’, cuestión que planteada de manera simplificada y comprensible para nuestro nivel dice: “dadas variables aleatorias Xi con i=1,2... equidistribuidas todas y con al menos media finita, E(Xi)=m ∀i, y dada la sucesión formada por su medias aritméticas Xn , ¿converge esa sucesión hacia m?, y si lo hace, ¿de qué tipo de convergencia se trata?”. Se han obtenido diferentes respuestas a ese problema, respuestas que imponen condiciones variadas a las Xi y conllevan diferentes tipos de convergencia para la sucesión citada. A tales respuestas se las llama ‘leyes de los grandes números’ y se suele diferenciar entre las leyes débiles (las que implican convergencia de uno de los tipos que aquí hemos estudiado) y las fuertes (implican convergencia casi segura, un tipo de convergencia que no hemos analizado). Enunciaremos una de las leyes débiles más conocidas, cuya demostración ya estamos en condiciones de realizar y que para nuestras necesidades resultará satisfactoria: Teorema (Ley débil de los grandes números de Tchebychev): Si además de lo dicho, imponemos que las Xi sean independientes y que sus varianzas existan, var(Xi)=v2 ∀i, entonces m.c . Xn → m. Al darse esa convergencia en media cuadrática, es obvio que también se dará en probabilidad. La demostración de este teorema es, precisamente, la resolución del último ejercicio que se planteó al revisar el concepto de convergencia en media cuadrática. Prof. D. Juan José Pérez Castejón 6 El problema central del límite. Las leyes de los grandes números aseguran que la media aritmética de las Xi se concentra alrededor de m, pero ¿sigue, al menos aproximadamente, alguna ley probabilística al hacerlo?. La respuesta la da la solución del ‘problema central del límite’. Este problema, planteado en unos términos sencillos que ya estemos en condición de comprender, dice: “dadas variables aleatorias Xi con i=1,2... equidistribuidas todas, y dada la sucesión formada por su suma, Yn=X1+...+Xn, ¿existen sucesiones de constantes An y Bn L tales que (Yn–An)/Bn → N(0,1)?”. Para empezar a entrever la relación que este problema pueda tener con la cuestión del comportamiento probabilístico de la media aritmética, nótese que Yn es, precisamente, el numerador de esta. Más adelante cuando comentemos aplicaciones prácticas de todos los resultados de este tema, terminaremos de perfilar la relación entre ambas cuestiones. A nosotros nos resulta suficiente con conocer el siguiente resultado que es una de las soluciones más conocidas del problema central del límite. Su demostración queda fuera de nuestro alcance: Teorema (Teorema Central del Límite de Lindeberg–Lévy): Si las Xi son independientes y todas tienen media y varianza finitas, E(Xi)=m y var(Xi)=v2, entonces se puede coger An=E(Yn)=nm y Bn=σ(Yn)=(var(Yn))½=(nv2)½, esto es, una vez tipificada, Yn converge en distribución a una N(0,1): L (Yn–nm)/(nv2)½ → N(0,1) Citaremos que la primera solución que históricamente obtuvo el problema del que se viene hablando, el Teorema Central del Límite (TCL) de Moivre, es un caso particular del TCL de Lindeber–Lévy: Teorema (Teorema Central del Límite de Moivre): Sea una variable Yn~B(n,p) –y por tanto, suma de n vv.aa. Xi~b(p) independientes–. Se cumple que: L (Yn–E(Yn))/(var(Yn))½=(Yn–np)/(npq)½ → N(0,1) Todos estos resultados confirman la importancia que a la distribución normal le adjudicamos, cuando la presentamos en Prof. D. Juan José Pérez Castejón 7 temas anteriores. Vemos aquí que incluso partiendo de distribuciones no necesariamente normales, la variable media aritmética que será de uso continuado más adelante, se distribuye asintóticamente como una normal. Usos prácticos muy frecuentes de algunos de los resultados examinados. Algunos de los resultados que se han estudiado, o ciertas consecuencias de ellos, son utilizados con bastante frecuencia en la práctica. Vamos a hacer una revisión de los que mas se emplean: 1.– Aproximación asintótica de la distribución P(λ) mediante una normal cuando el parámetro λ es muy grande y no aparece en las tablas habituales. El resultado en el que se basa esta aproximación y la forma en la que debe esta hacerse, ya se revisaron anteriormente. 2.– Aproximación asintótica de la distribución B(n,p) mediante una distribución de Poisson o mediante una distribución normal cuando el parámetro n es muy alto, no aparece en las tablas y en combinación con p cumple ciertas condiciones. Un primer resultado que se puede aplicar para aproximar el valor de la distribución de una B(n,p) cuando n es grande es el L propio TCL de Moivre: (B(n,p)–np)/(npq)½ → N(0,1), que en la práctica emplearemos así: P(B(n,p)≤x) = P((B(n,p)–np)/(npq)½≤(x–np)/(npq)½) ≈ ≈ P(N(0,1)≤(x–np)/(npq)½) = P(N(np,npq)≤x) o resumidamente: FB(n,p)(x)≈FN(np,npq)(x). Sobre el valor x que aparece en las expresiones anteriores, aplicaremos siempre la corrección por continuidad que se debe usar al aproximar distribuciones discretas por una distribución normal y de la que ya hablamos al plantear el mismo tipo de aproximación para la distribución de Poisson. Un segundo resultado, difícil de demostrar, dice lo siguiente: sean Xn~B(n,pn) tales que npn→λ si n→∞, se cumple entonces que Prof. D. Juan José Pérez Castejón 8 L Xn → P(λ). Este resultado en la práctica nos permite aproximar de la siguiente forma: FB(n,p)(x)≈FP(np)(x) y P(B(n,p)=x)≈P(P(np)=x). De todas maneras, siempre surge la duda de ¿cuándo es n lo bastante alta como para usar estas aproximaciones?. Y cuando lo sea, ¿cuál de las dos se debe emplear?. Se han hecho estudios numéricos acerca de esa cuestión y se ha concluido que tanto si p>0.1 y n≥20, como si p<0.1 y np>5, la aproximación por la normal es correcta, mientras que si n≥30, np≤5 y p≤0.1, la aproximación mejor se consigue mediante la distribución de Poisson. Úsense según esos criterios para resolver los dos siguientes ejercicios: En una población muy amplia, el porcentaje de familias que cumplen cierto requisito es igual al 0.6%. Se escogen aleatoriamente 1000 familias. La selección será buena si más de 990 de ellas no cumplen el requisito. ¿Cuál es la probabilidad de que lo sea y no halla que repetir la selección?. Una fábrica produce 1% de artículos defectuosos. ¿Cuál es la probabilidad de que 2 o más productos de entre 30 seleccionados aleatoriamente, sean defectuosos?. 3.– Aproximación asintótica de la distribución de la media aritmética de n variables independientes, idénticamente distribuidas con media y varianza finitas, mediante una normal, cuando el número n de variables promediadas es alto y la distribución exacta de la media aritmética es desconocida o resulta inmanejable. Dadas Xi independientes idénticamente distribuidas (i.i.d.), todas con la misma media m y varianza v2, para calcular probabilidades relacionadas con Xn =(X1+...+Xn)/n, en el caso en el que la distribución de esta no se pueda hallar o bien sea de difícil manejo, podemos usar la siguiente consecuencia práctica del TCL de Lindeberg–Lévy aplicado a las Xi: P( Xn ≤x)= P(( Xn –m)/(v2/n)½ ≤ (x–m)/(v2/n)½) = = P((ΣXi–nm)/(nv2)½ ≤ (x–m)/(v2/n)½) ≈ ≈ P(N(0,1) ≤ (x–m)/(v2/n)½) = P(N(m,v2/n)≤x) Ello nos viene a decir que la distribución de Xn se puede aproximar por la de una N(m,v2/n) si n es lo bastante grande. Prof. D. Juan José Pérez Castejón 9 El empleo de esta aproximación siempre presenta un problema. ¿Cuánto de grande ha de ser n para que podamos estar seguros de que es una aproximación lo bastante precisa?. La respuesta a esa pregunta no es rotunda. El valor de n varía según el tipo de distribución de las Xi: lo que para una tipo de distribución puede ser bastante, para otra puede no serlo. Vamos a usarla para resolver los dos siguientes ejercicios: Sean 100 vv.aa. Xi i.i.d., todas con media E(Xi)=7 y var(Xi)=225. Sea Y100 su media aritmética. ¿Cómo aproximar P(|Y100–7|≤0.5)?. El tiempo de vida hasta la rotura de un cierto componente electrónico sigue una e(0.1) si se mide en horas. Un sistema dispone de 30 de esos componentes de manera que solo uno funciona en cada momento y ese, cuando se rompe, es sustituido inmediatamente por otro que aún no esté averiado. ¿Cuál es la probabilidad de que el sistema esté funcionando de manera continuada durante más de 200 horas?. 4.– Aproximación asintótica de la t de Student y la ji–cuadrado, mediante una distribución normal, cuando los respectivos grados de libertad son altos. Existen resultados asintóticos para aproximar esas distribuciones cuando los grados de libertad son altos. De todas formas sus demostraciones son difíciles y sus consecuencias prácticas ya están incorporadas a las tablas habituales. Prof. D. Juan José Pérez Castejón 10