Jesús As´ın Lafuente Mar´ıa Dolores Berrade Ursúa C

Anuncio
Probabilidad y Procesos
Ingenierı́a de Telecomunicación
Profesores:
Jesús Ası́n Lafuente
Marı́a Dolores Berrade Ursúa
Centro Politécnico Superior
Departamento de Métodos Estadı́sticos
Curso 2009-2010
ÍNDICE
Tema 1. Conceptos Básicos:
Experimentos aleatorios versus experimentos deterministas. Espacio muestral y eventos. Algebra
de eventos. Interpretaciones de la probabilidad.
Axiomas de la probabilidad. Probabilidad condicional.Regla de Bayes. Independencia de eventos.
(Pags 4-16)
Tema 2. Variable aleatoria:
Concepto de variable aleatoria. Función de distribución. Funciones de variables aleatorias. (Pags
17-28)
Tema 3. Caracterı́sticas de una variable aleatoria:
Valor esperado de una variable aleatoria. Momentos. Varianza y coeficientes de forma. Desigualdad
de Chebishev. (Pags 29-34)
Tema 4. Modelos de probabilidad:
Modelos discretos (ensayos de Bernouilli, distribuciones binomial, geométrica, binomial negativa, hipergeométrica y Poisson). Modelos continuos (distribuciones uniforme, exponencial, Weibull, normal
y gamma). El proceso de Poisson. (Pags 35-53)
Tema 5. Variable aleatoria multidimensional:
Distribuciones conjuntas. Independencia de variables aleatorias. Teoremas lı́mite. (Pags 54-71)
1
Bibliografı́a
• Ası́n, J. et al. Probabilidad y Estadı́stica en Ingenierı́a: ejercicios resueltos. Prensas Universitarias
de Zaragoza.
• Canavos, G.C. Probabilidad y Estadı́stica. Aplicaciones y Métodos. McGraw Hill.
• León Garcı́a. A. Probability and Random Processes
for Electrical Engineering. Addison-Wesley.
• Levine, D.M., Ramsey, P.P y Smidt, R.K. (2001).
Applied Statistics for Engineers and Scientist. Using Microsoft EXCEL and MINITAB. Prentice Hall.
• Terrien, C.W. y Tummala, M. (2004). Probability
for Electrical and Computer Engineers. CRC Press
• Papoulis, A. Probabilidad, Variables Aleatorias y
Procesos Estocásticos. UNIBAR.
2
• Papoulis, A. Probability, Random Variables and Stochastic Processes.
• Peña, D. Estadı́stica Modelos y Métodos, Vol 1.
Alianza Universidad
• Ross, S.M. (2003). Introduction to Probability Models (8th edition). Academic Press.
• Ross, S.M. (2002). A First Course in Probability
(6th edition). Prentice Hall.
• Walpole, Myers, Myers, Ye (2002). Probability and
Statistics for Engineers and Scientists (7th edition).
Prentice Hall.
• Yates, R.D. y Goodman, D.J. (2005). Probability
and Stochastic Processes. A Friendly Introduction
for Electrical and Computer Engineers. 2nd edition.
Wiley
3
§TEMA 1:
ELEMENTOS BÁSICOS DE PROBABILIDAD
Relación de eclipses totales de sol hasta el año 2020:
11 de julio de 2010, 13 de noviembre de 2013 y 20 de
marzo de 2015� , 9 de marzo de 2016, 21 de agosto de
2017, 2 de julio de 2019, 14 de diciembre de 2020.
Los fenómenos que observamos se pueden clasificar en
• deterministas
• aleatorios
Un fenómeno determinista es aquel cuya ocurrencia y
resultado se conoce con antelación. En contraposición,
son aleatorios aquéllos cuyo resultado no se conoce con
total seguridad hasta después de que han tenido lugar.
Ejemplos de fenómenos aleatorios: número de llamadas
recibidas en una central telefónica en un dı́a, volumen de
lluvia caida en una ciudad en un año, valor de una señal
distorsionada por un ruido, la cotización que tendrá
mañana un activo financiero . . .
En todos los ejemplos anteriores no se dispone de una
fórmula matemática explı́cita que nos proporcione por
adelantado su valor. La evaluación de fenómenos aleatorios se realiza mediante probabilidades.
4
En la práctica, incluso en los experimentos controlados, es frecuente encontrar una componente aleatoria
asociada a cualquier experimento debido al efecto de
variables que no controlamos (ruido).
Un objetivo de interés la construcción de modelos que
incluyan tal variabilidad para que las conclusiones de
nuestros análisis no queden invalidadas.
Al igual que en otras áreas de la Ingenierı́a, los modelos aleatorios van a constituir aproximaciones a sistemas fı́sicos reales, si bien se contempla la posibilidad
de variaciones en las salidas del sistema aunque no se
haya producido cambio de las variables bajo control.
Ejemplo: si en el diseño de un sistema de telefonı́a no
se tiene en cuenta que las llamadas se reciben de forma
aleatoria ası́ como la variabilidad de su duración, el sistema resultará inadecuado para su uso práctico.
Un experimento que proporciona diferentes resultados
aún cuando se realiza en idénticas condiciones, se llama
experimento aleatorio.
Por ejemplo, si medimos la corriente en un cable de
cobre, según la ley de Ohm se tiene
voltaje
resistencia
Sin embargo, un modelo más realista podrı́a ser
corriente =
corriente =
voltaje
+ error
resistencia
5
Espacio muestral y sucesos
El conjunto de todos los posibles resultados del experimento aleatorio se llama espacio muestral y lo denotaremos por Ω. Algunos ejemplos son:
i) Lanzamiento de un dado. Ω = {1, 2, 3, 4, 5, 6}
ii) Si se controla el número de defectos en las piezas
procedentes de una producción industrial, por ejemplo ruedas para vehı́culos, los posibles resultados
son todos los números naturales incluido el cero.
iii) Radiación emitida por una antena de telefonı́a móvil
Ω = (0, ∞)
Los espacios muestrales pueden ser finitos o no, ası́
como discretos o continuos.
Cualquier subconjunto del espacio muestral, E, se denomina suceso.
En el ejemplo i), ‘sale par’ se corresponde con E = {2, 4, 6}
mientras que en el ejemplo iii), el suceso ‘la radiación
es superior a 450 microvatios por cm2 ’ equivale a F =
(450, ∞).
6
Operaciones y álgebra de sucesos
Sean E y F dos sucesos cualesquiera en Ω. Se definen
las siguientes operaciones:
- Unión de E y F , denotada E ∪ F , es el conjunto
formado por los elementos que están en E en F o
en ambos a la vez.
- Intersección de E y F , E ∩ F , es el conjunto formado
por los resultados del experimento que están en E
y en F .
De la unión de dos sucesos se puede obtener la totalidad
del espacio muestral, también llamado suceso seguro.
Por ejemplo, E = ‘sale par’y F = ‘sale impar’.
Por el contrario, la intersección de los sucesos anteriores
no tiene elementos comunes dando lugar al conjunto
vacio o suceso imposible. En este último caso E y F
se dicen excluyentes o incompatibles.
Para cualquier suceso E se define el complementario de
E, denotado E c , el cual está formado por todos los posibles resultados del experimento aleatorio que no están
en E. Por tanto se tiene que E c ocurre si y sólo si E no
tiene lugar, es decir, ambos son excluyentes.
7
Las operaciones anteriores se pueden extender a n sucesos: A1, A2, . . . , An
• A1 ∪ A2 ∪ . . . ∪ An
• A1 ∩ A2 ∩ . . . ∩ An
A1, A2, . . . , An se dicen mutuamente excluyentes si
Ai ∩ Aj = ∅
i �= j
Sean A, B y C tres sucesos de Ω.
siguientes propiedades
Se verifican las
A ∪ ∅ = A,
A ∩ ∅ = ∅,
A∪A=A∩A=A
A ∪ Ω = Ω,
A ∩ Ω = A,
A ∪ Ac = Ω
• ∅c = Ω,
A ∩ Ac = ∅
Ωc = ∅
• (A ∪ B) ∪ C = A ∪ (B ∪ C),
(A ∩ B) ∩ C = A ∩ (B ∩ C)
• A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
• A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
• (A ∪ B)c = Ac ∩ B c ,
(A ∩ B)c = Ac ∪ B c
8
Ejemplo: Lanzamiento de un dado Ω = {1, 2, 3, 4, 5, 6}
E1 = Salir múltiplo de 3 = {3, 6}
E2 = Salir par = {2, 4, 6}
E3 = Salir 6 = {6}
E4 = Salir impar = {1, 3, 5}
E1 ∩ E2 = {6},
E1 ∪ E2 = {2, 3, 4, 6}, E1c = {1, 2, 4, 5}
E3 ⊂ E2 ,
E3 ⊂ E1 ,
E 4 ∩ E2 = ∅
Interpretaciones de la probabilidad
1.- En experimentos que pueden ser repetidos en las
mismas condiciones, la probabilidad se interpreta
como el lı́mite de la frecuencia relativa a medida
que crece el número de experimentos. Por ejemplo, el número de caras en infinitos lanzamientos de
moneda se aproxima a 12 o la estimación del número
de piezas defectuosas en una producción es del 1%.
2.- En experimentos que no son susceptibles de ser
repetidos una y otra vez, la probabilidad viene a significar una medida de certidumbre. Ası́ por ejemplo
puedo apostar 10 a 1 a que el caballo A ganará al B
en una carrera, significando que veo 10 veces más
posible el éxito del caballo A.
9
Representación gráfica de la interpretación frecuentista de la probabilidad
Simulación de 235 lanzamientos de una moneda legal. El valor 1 está asociado a la
ocurrencia de cara.
01011011111010100100110100101000101001110110000
00010010001001001110010001000000000101000010111
11010101010111111100010111011010101000100011001
01001001111010000001101011110101011101101011011
01010101011001110101100111110001111010110001000
0,8
Frecuencia relativa
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0
100
200
Número de intento
Se constata cómo limn→∞ número nde caras →
1
2
10
Espacio muestral con resultados igualmente verosı́miles
Si el espacio muestral consta de N resultados posibles,
un modelo razonable es asignar a cada uno de ellos una
probabilidad N1 .
Un espacio muestral como este está ligado a situaciones
de elección ‘al azar’ , sin sesgos.
Si el suceso que se analiza está constituido por varios
resultados de Ω, la probabilidad vendrá dada por la suma
de las probabilidades de cada uno de ellos.
Axiomas de la probabilidad
Para modelar un experimento aleatorio, se construye
una función P que a cada suceso, A, le asigna un valor
numérico P (A). Los siguientes axiomas aseguran que
tal función puede ser interpretada en términos de frecuencias relativas y de modo que sea consistente con
las relaciones que estas verifican.
La probabilidad es un número asociado a cada suceso
E del espacio muestral Ω que verifica las siguientes
propiedades:
1.- 0 ≤ P (E) ≤ 1
2.- P (Ω) = 1
3.- Si {Ei }∞
� j entonces
i=1 verifican Ei ∩ Ej = ∅, i =
�∞
�
∞
�
�
P
Ei =
P (Ei )
i=1
i=1
11
Las principales consecuencias de los axiomas de probabilidad son
• P ( ∅) = 0
• P (E c ) = 1 − P (E)
• Si E1 ⊆ E2 , entonces P (E1 ) ≤ P (E2)
• Sean E1, E2�, . . . , En� tales
que Ei ∩ Ej = ∅ i �= j,
�
entonces P ∪ni=1Ei = ni=1 P (Ei)
• P (Ei ∪ Ej ) = P (Ei) + P (Ej ) − P (Ei ∩ Ej )
Asimismo se tiene la siguiente fórmula que generaliza la
unión de n sucesos:
P (∪ni=1 Ei) =
−
+
n
�
i=1
�
i<j
P (Ei) −
P (Ei ∩ Ej ) +
�
i<j<k
P (Ei ∩ Ej ∩ Ek ) + . . . +
+ . . . + (−1)
n
�
i1 <i2 <...<in−1
P (Ei1 ∩ . . . ∩ Ein−1 )
+ (−1)n+1 P (E1 ∩ E2 ∩ . . . ∩ En)
12
Probabilidad Condicional
En ocasiones la probabilidad asignada a un suceso en
unas condiciones experimentales dadas, debe ser revisada al conocerse cierta información adicional que puede afectar al resultado de aquél. La probabilidad de un
suceso, cuando se conoce que otro ha tenido lugar, se
denomina probabilidad condicional.
Ejemplo En sistema de comunicación la tasa de error
es de un bit por cada mil transmitidos. Los errores
se producen raramente pero cuando ocurren tienden a
hacerlo de modo que afectan a varios bits consecutivos.
Si se transmite sólo un bit, será erróneo con probabilidad 1/1000; sin embargo, si el bit anterior era erróneo,
podrı́amos pensar en que el siguiente lo será también
con probabilidad mayor que 1/1000.
Ejemplo Supongamos que en un lote de 100 unidades
de un determinado producto hay 2 que no cumplen las
especificaciones, resultando, por consiguiente, defectuosas. Si se eligen dos unidades al azar, ¿cuál es la probabilidad de que la segunda sea defectuosa, siendo que la
primera no lo era?, ¿cómo se modifica la probabilidad
anterior si la primera resultó ser defectuosa?
Definición 1 La probabilidad condicional de un suceso
B dada la ocurrencia de otro, A, tal que P (A) > 0, se
denota P (B|A) y viene dada del siguiente modo
P (B|A) =
P (A ∩ B)
P (A)
13
Regla del producto
La definición de probabilidad condicional se puede reescribir del siguiente modo.
Sean dos sucesos A y B tales que P (A) > 0 y P (B) > 0,
entonces se verifica
P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A)
De manera más general, se tiene


n
�

P
Aj  =
j=1
= P (A1 )P (A2 |A1)P (A3 |A1 ∩ A2 ) . . . P (An|A1 ∩ . . . ∩ An−1 )
Regla de la probabilidad total
�∞
Sean {Ai}∞
tales
que
A
∩
A
=
∅
,
i
=
�
j,
i
j
i=1
i=1 Ai = Ω
(sistema completo de sucesos) y P (Ai ) > 0, para todo
i. Sea B otro suceso, entonces
P (B) =
∞
�
P (B|Ai)P (Ai)
i=1
La regla de la probabilidad total constituye un método
de cálculo de probabilidades de un suceso que depende
de otros.
14
Regla de Bayes
En ocasiones, conocemos cuál es la probabilidad de un
suceso condicionado a la ocurrencia de otro, sin embargo desearı́amos saber la probabilidad condicionada a
la inversa. Ası́ ocurre, por ejemplo, en las pruebas que
se realizan en el diagnóstico de algunas enfermedades.
En general, se suele conocer cuál es la probabilidad de
error en el sentido de que la prueba de un resultado
positivo siendo que la persona está sana; esta situación
se denomina falso positivo. En este caso nos interesa
conocer la probabilidad de que la persona padezca la
enfermedad cuando la prueba da un resultado positivo.
�∞
Sean {Ai}∞
tales
que
A
∩
A
=
∅
,
i
=
�
j,
i
j
i=1
i=1 Ai = Ω
(sistema completo de sucesos) y P (Ai ) > 0, para todo
i. Sea B otro suceso, entonces
P (B|Ai)P (Ai)
P (Ai|B) = �∞
j=1 P (B|Aj )P (Aj )
Independencia de sucesos
En algunos casos, la probabilidad de un suceso B no
depende de la ocurrencia, o no, de otro A. En estas
situaciones, el conocimiento de que A ha tenido lugar,
no afecta a la probabilidad de que el experimento aleatorio de B como resultado.
15
Dos sucesos A y B son independientes si y sólo si se
verifica cualquiera de las siguientes condiciones
• P (A ∩ B) = P (A)P (B)
• P (B|A) = P (B) si P (A) > 0
• P (A|B) = P (A) si P (B) > 0
Teorema 1 Si A y B son dos sucesos independientes,
entonces se tiene:
• A y B c son independientes
• Ac y B son independientes
• Ac y B c son independientes
Sucesos mutuamente independientes
La anterior definición de independencia se refiere a parejas de sucesos. Si tenemos la independencia entre A
y B, B y C ası́ como la de A y C, no se infiere que
P (A ∩ B ∩ C) = P (A)P (B)P (C).
Los sucesos (Ai)ni=1 se dicen mutuamente independientes cuando para cualquier subconjunto se verifica
P
��
Aij
�k
j=1
=
k
�
j=1
P (Aij ), ∀1 ≤ i1 < i2 . . . ik ≤ n, 2 ≤ k ≤ n
16
§TEMA 2:
VARIABLE ALEATORIA
Ejemplo: Transmisión de un mensaje con n dı́gitos con
posibilidad de error. Se emite un mensaje al azar, nos
interesa saber:
• número de dı́gitos enviados correctamente
• tiempo empleado en la transmisión del mensaje
Supongamos ahora la siguiente codificación:
Anotamos un 1 por cada dı́gito bien emitido y 0 en caso
contrario.
Cada mensaje emitido es el resultado de un experimento
aleatorio al cual se le asignan dos valores numéricos que
responden a las preguntas anteriores: el número de unos
y el tiempo que haya durado su emisión. Puesto que el
resultado particular del experimento, el mensaje, no se
conoce por adelantado, ocurre lo mismo con los resultados numéricos asociados, pudiéndose obtener resultados
distintos cada vez que emitamos un nuevo mensaje.
Definición 2 Una variable aleatoria, X, es una función
medible que asigna un número real a cada posible resultado del espacio muestral en un experimento aleatorio
X : Ω −→ RX
17
RX , denominado rango, recorrido o soporte es el conjunto de todos los posibles valores de X, siendo RX un
subconjunto de los reales. Importante: a cada ω en Ω,
X le asigna un único valor.
Ejemplo: Se lanza una pareja de dados, obteniéndose
premio si la suma de las puntuaciones de sus caras es 3.
Ω = {(x1 , x2 ); x1 = 1, 2, . . . , 6; x2 = 1, 2, . . . , 6}
RX = {2, 3, . . . , 12}
La probabilidad de obtener premio es
P (X = 3) = P ((1, 2) ∪ (2, 1)) =
1
1
1
= P ((1, 2)) + P ((2, 1)) =
+
=
36
36
18
En general, para cualquier B ⊂ RX , se tiene
P (B) = P ({s ∈ Ω|X(s) ∈ B})
Para evaluar probabilidades podemos utilizar la función
de distribución
Definición 3 La función de distribución, FX (x), de una
variable aleatoria X se define:
FX (x) = P (X ≤ x),
−∞ < x < ∞
Dado que FX (x) es una probabilidad, para cualquier x
se debe tener 0 ≤ FX (x) ≤ 1. Además, FX (x) es no
decreciente en x.
18
Dependiendo de su rango las variables aleatorias se clasifican en
• discretas: si RX es finito o infinito numerable
• continuas: si RX es un intervalo finito o infinito
Ejemplos de variables discretas: número de bits recibidos
con error en una transmisión, número de arañazos en
una superficie, número de unidades defectuosas en un
lote, . . .
Ejemplos de variables continuas: corriente eléctrica que
atraviesa un cable, radiación emitida por una antena de
telefonı́a móvil, valor de una señal que se ve afectada
por la presencia de un ruido, . . .
Variable discreta
Sea X : Ω −→ RX una variable discreta, RX = {x1 , x2, . . .}
La función de probabilidad es una descripción de las
probabilidades asociadas a los posibles valores de X:
�
p(xi) = P (X = xi) =
P (s), i = 1, 2 . . .
{s∈Ω:X(s)=xi }
19
Definición 4 Una función de probabilidad debe satisfacer las siguientes propiedades
a) p(xi) ≥ 0, para todo i
�
b)
xi ∈RX p(xi ) = 1
Si X toma sólo un número finito de valores, por ejemplo, x1 , x2 , . . . , xN , entonces p(xi ) = 0 para i > N , convirtiéndose el sumatorio anterior en una suma finita.
Conocida la función de probabilidad de masa, se pueden
calcular probabilidades de sucesos definidos mediante la
variable X. Sea A ∈ RX , entonces
�
P (X ∈ A) =
p(xi )
i:xi ∈A∩RX
Para una variable aleatoria discreta el valor de la función
de distribución en x se obtiene sumando las probabilidades de todos aquellos xi ∈ RX tales que xi ≤ x, es
decir,
�
FX (x) =
p(xi)
xi ≤x
Ejemplo: Supongamos que X es una variable aleatoria
discreta con la siguiente función de probabilidad


1, P (X = 1) = 0.2
X = 2, P (X = 2) = 0.4

4, P (X = 4) = 0.4
20
La función de distribución asociada es


0, si x < 1



0.2, si 1 ≤ x < 2
FX (x) =

0.6, si 2 ≤ x < 4


1, si x ≥ 4
FX (x) es discontinua en los puntos x = 1, 2, 4, en los
cuales da ‘saltos’ cuyas magnitudes respectivas son
P (X = 1) = 0.2, P (X = 2) = 0.4, P (X = 4) = 0.4
La función de distribución de cualquier variable aleatoria
discreta, X, verifica las siguientes propiedades:
i) FX (x) es no-decreciente, es decir, FX (x) ≤ FX (y)
para todo x ≤ y
ii) limx→−∞ FX (x) = 0, limx→∞ FX (x) = 1
iii) FX (x) es continua por la derecha, es decir,
lim FX (x + h) = FX (x), para todo x
h→0
�
� −�
Denotaremos por FX
y FX x los lı́mites de FX (h)
cuando h converge a x por la derecha y por la izquierda
repectivamente. En el ejemplo anterior se advierte que
x+
�
P (X = 1) = FX (1) − FX (1− ) = 0.2
P (X = 2) = FX (2) − FX (2− ) = 0.4
P (X = 4) = FX (4) − FX (4− ) = 0.4
21
Para una variable aleatoria discreta, X, las probabilidades de cualquier valor x se obtienen
P (X = x) = FX (x) − FX (x− )
Asimismo, se tiene que para cualesquiera a y b reales
tales que a < b se verifica
P (a < X ≤ b) = FX (b) − FX (a)
Variable continua
Las variables continuas se caracterizan por tomar un
número infinito no numerable de valores. Supongamos
una rueda de la fortuna a la que se hace girar hasta que
se para en un punto señalado por la punta de la flecha.
Si la rueda no está trucada todos los puntos tienen la
misma probabilidad de ser elegidos, en consecuencia,
esta probabilidad no puede ser diferente de cero.
En este caso no podemos hablar del i-ésimo valor de la
variable y por tanto la función de probabilidad pierde su
significado. En el caso de variables continuas, sustituimos p(x) por una función, f (x), definida para todo x de
acuerdo a la siguiente definición:
Definición 5 Se dice que X es una variable aleatoria
continua si existe una función f (x), denominada función
de densidad, que verifica las siguientes condiciones:
i) f (x) ≥ 0, para todo x
ii)
�∞
−∞
f (x)dx = 1
22
f(x)
C
D
La definición anterior significa que X es una variable
continua si puede tomar todos los valores dentro de un
intervalo (c, d), donde c y d pueden ser −∞ e ∞, respectivamente. La existencia de una función de densidad es
un artificio para simplificar los cálculos que involucran a
una variable aleatoria continua.
�d
P (c < X < d) = c f (x)dx y por tanto P (c < X < d)
representa el área bajo la curva f (x) entre c y d.
23
Notas:
Si X sólo toma valores en un intervalo finito [a, b], se
establece que f (x) = 0 para todo x que no pertenezca
a [a, b].
f (x) no es una probabilidad. Sólo cuando la función se
integra entre dos lı́mites genera una probabilidad. Sin
embargo, se puede dar la siguiente interpretación:
� x+∆x
P (x ≤ X ≤ x + ∆x) =
f (s)ds = ∆xf (ξ)
x
siendo x ≤ ξ ≤ x + ∆x
Por tanto, si ∆x es suficientemente pequeño
f (x)∆x � P (x ≤ X ≤ x + ∆x)
Definición 6 La función de distribución de una variable aleatoria continua con función de densidad f se
define como
� x
FX (x) =
f (u)du
−∞
La función de distribución de una variable aleatoria continua es continua para todo x. Por tanto:
P (X = x) = FX (x) − FX (x− ) = 0
y en consecuencia
P (X ≤ x) = P (X < x)
24
Además se tiene el siguiente resultado:
Sea FX (x) la función de distribución de una variable
aleatoria con función de densidad f (x), entonces se tiene
dFX (x)
dx
para todo x en el cual F es diferenciable
f (x) =
En cuanto al cálculo de probabilidades:
P (X < a) = P (X ≤ a) = F (a) =
�
a
f (x)dx
−∞
� ∞
P (X > b) = P (X ≥ b) = 1 − F (b) =
f (x)dx
b
� b
P (a < X < b) = P (a ≤ X ≤ b) =
f (x)dx
a
Distribución de la función de una variable aleatoria
Supongamos que X es una señal aleatoria cuya función
de densidad es f (x) y sea la función Y = h(X) = aX.
Si a > 1, Y representa una versión amplificada de X,
o atenuada en el caso a < 1. Y es, a su vez, una
variable aleatoria y para cualquier suceso asociado con
el recorrido de Y se tiene
P (Y ∈ C) = P (h(X) ∈ C) = P (X ∈ h−1(C))
Si X es una variable discreta, Y es también discreta.
25
Ejemplo


−1, P (X = −1) =
X = 0, P (X = 0) = 12

1, P (X = 1) = 1
6
1
3
Sea Y = X 2
�
1, P (Y = 1) = P (X = −1) + P (X = 1) =
Y =
0, P (Y = 0) = P (X = 0) = 12
1
2
Si X es una variable continua, Y puede ser discreta o
continua.
Ejemplo Supongamos que X es una variable aleatoria
continua cuyo recorrido es toda la recta real. La variable
Y = X 2 es también continua. Sin embargo, en el caso
�
1, X > 0
Y =
−1, X < 0
se tiene que Y es una variable aleatoria discreta.
La situación de mayor interés y que se encuentra con
más frecuencia, aparece cuando X es una variable aleatoria continua con función de densidad f (x) e Y =h(X) es
asimismo una variable aleatoria con función de densidad
g. Si tal es el caso, se distinguen las dos situaciones
siguientes:
26
• h(x) es una función inyectiva: x1 �= x2 ⇒ h(x1 ) �=
h(x2)
• h(x) no es inyectiva: existen x1 , . . . , xk tales que
h(x1) = . . . = h(xk ) = y
Resultado 1: Sea X una variable aleatoria continua
cuya función de densidad es f (x) con f (x) > 0 para a <
x < b. Supóngase que la función y = h(x) es inyectiva
y derivable para todo x. La variable aleatoria Y = h(X)
tiene una función de densidad g(y) dada por
� −1
�
�
�
dh
(y)
−1
�
�
g(y) = f (h (y)) �
dy �
Si h es creciente el soporte de Y está dado por los valores
h(a) < y < h(b). Por el contrario, si h es decreciente, el
soporte de Y viene dado por h(b) < y < h(a).
Resultado 2: Sea X una variable aleatoria continua
cuya función de densidad es f (x) con f (x) > 0 para a <
x < b. Supóngase que la función y = h(x) es derivable
para todo x y tal que existen x1 , . . . , xk tales que h(x1 ) =
. . . = h(xk ) = y. La variable aleatoria Y = h(X) tiene
una función de densidad g(y) dada por
�
�
k
�
� dxi(y) �
�
g(y) =
f (xi(y)) ��
�
dy
i=1
27
§TEMA 3:
CARACTERÍSTICAS DE LAS V. ALEATORIAS
Valor esperado de una variable aleatoria
Uno de los conceptos más importantes en teorı́a de
la probabilidad es el de valor esperado o esperanza
matemática de una variable aleatoria X, denotado E(X).
Si X es una v. a. discreta con valores posibles x1, . . . , xn . . .
cuyas probabilidades son p(xi) = P (X = xi), se tiene
E(X) =
definida siempre que
�∞
∞
�
xip(xi)
i=1
i=1 |xi |p(xi )
<∞
es decir, la esperanza representa una media ponderada
de todos los posibles valores que X puede tomar, ponderando cada valor por la probabilidad de su ocurrencia.
Supongamos que X es una variable aleatoria continua
con función de densidad f (x). Cuando dx es pequeño,
se verifica
f (x)dx ≈ P (x < X < x + dx)
de donde se sigue que una media ponderada de todos
los posibles valores de X, siendo el peso la probabilidad
de que X esté cerca de x, es justamente la integral de
xf (x)dx a lo largo de todos los posibles valores x. Ası́,
se define
� ∞
E(X) =
xf (x)dx
−∞
28
E(X) existe siempre que
Notas:
�∞
−∞
|x|f (x)dx < ∞
• El concepto de esperanza es análogo al concepto
fı́sico de centro de gravedad de una distribución de
masas.
• E(X) y X vienen dadas en las mismas unidades.
Propiedades de la esperanza
• Esperanza de la función de una v.a Y = h(X)
Si X es discreta con función de masa p(x)
�
E(Y ) =
h(x)p(x)
x
Si X es continua con función de densidad f (x)
� ∞
E(Y ) =
h(x)f (x)dx
−∞
• Esperanza de una transformación lineal Y = aX + b
E(aX + b) = aE[X] + b
29
La información que E(X) proporciona acerca de X es
muy limitada. Por ejemplo si E(X) = 0 puede ser que
X = 0 o bien que X tome con igual probabilidad valores
de signo opuesto. La variación de X en torno a su media
la proporciona la varianza.
Varianza de una variable aleatoria
Sea X una variable aleatoria con media E(X) = µ, la
varianza de X denotada V ar(X) se define como
σ 2 = V ar(X) = E(X − µ)2 = E(X 2 ) − (µ)2
Propiedades de la varianza
Sea c una constante, entonces se tiene
• V ar(c) = 0
• V ar(X + c) = V ar(X)
• V ar(cX) = c2 V ar(X)
|
La varianza y su raı́z cuadrada σ = (V ar(X)) 2 , denominada desviación tı́pica, constituyen medidas de dispersión de X.
La desviación tı́pica viene expresada en las mismas unidades de X, mientras que la varianza está en las unidades de X al cuadrado.
30
Una medida que compara la dispersión relativa de dos
distribuciones de probabilidad es el coeficiente de variación
σ
CV =
µ
Momentos de una v.a.
Los momentos de una v.a. son una colección de medidas
descriptivas que pueden emplearse para caracterizar su
distribución. Su uso particularmente útil en el caso de
que no se conozca la distribución de probabilidad.
Definición 7 Sea X una variable aleatoria. El momento de orden r respecto del origen se define como
E(X r ) y viene dado por
�
r
E(X ) =
xr p(x), si X es discreta
E(X r ) =
�x ∞
xr f (x)dx,
si X es continua
−∞
Definición 8 Sea X una variable aleatoria. El momento de orden r respecto de la media se define como
E((X − µ)r ) y viene dado por
�
r
E(X − µ) =
(x − µ)r p(x), si X es discreta
E(X − µ)r
=
�x ∞
−∞
(x − µ)r f (x)dx,
si X es continua
Todas las definiciones anteriores están sujetas a la existencia de las correspondientes sumas o integrales.
31
La esperanza es el momento de orden uno respecto del
origen, mientras que la varianza es el momento de orden
dos respecto de la media.
Para la descripción de una v.a. son útiles asimismo los
coeficientes de asimetrı́a (CAs) y de apuntamiento o
curtosis (CAp)
E(X − µ)3
E(X − µ)4
CAs =
CAp =
σ3
σ4
CAs mide el grado de asimetrı́a respecto de la media,
mientras que CAp es una medida de cuán puntiaguda es
la distribución de probabilidad.
Otras medidas de centralización
Otras medidas de interés en la caracterización de una
v.a. son los percentiles, xp , que dividen a la distribución
de X en 100 partes iguales. Si X es una variable aleatoria continua, se tiene
P (X ≤ xp ) = p
Por ejemplo x0.1 verifica que P (X ≤ x0.1 ) = 0.1.
Caso particular, los cuartiles: x0.25 , x0.5 , x0.75 .
El percentil del 50%, x0.5 o segundo cuartil, también
se denomina mediana y divide a la distribución en dos
partes iguales.
Definición 9 Para cualquier variable aleatoria X se define la moda como el valor que maximiza la función de
probabilidad si X es discreta, o la función de densidad,
si X es continua.
32
Si conocemos la función de probabilidad o la de densidad
de una variable aleatoria X, podemos calcular E(X) y
V ar(X). Sin embargo, a partir de la media y la varianza
no podemos reconstruir la distribución de probabilidad
de X. Si bien no se pueden evaluar probabilidades de
manera exacta, sı́ que es posible dar una cota superior
o inferior para tales probabilidades mediante la llamada
desigualdad de Chebyshev:
Si X es una v.a. cuya media y varianza son, respectivamente µ y σ 2, para cualquier valor k > 0 se verifica:
P (|X − µ| < kσ) ≥ 1 −
P (|X − µ| ≥ kσ) ≤
1
k2
1
k2
De la desigualdad de Chebyshev se infiere que cuanto
mayores son las desviaciones respecto de la media, son
tanto más improbables. Por otra parte, cuanto menor
sea la varianza, más concentrados tienden a estar sus
valores en torno a la media.
Lo más notable del resultado anterior, es que no hacemos ninguna suposición respecto a la distribución de
probabilidades de la v.a., basta sólo que su media y su
varianza sean conocidas.
33
Expresiones aproximadas de la media y de la varianza
Según se ha indicado, para evaluar E(Y ) y V ar(Y ) donde
Y = h(X), no necesitamos conocer la distribución de
probabilidades de Y , sino que podemos trabajar directamente con la distribución de probabilidades de X.
Si la función h(X) es muy complicada, el cálculo de de
la media y varianza de Y puede involucrar integraciones
o sumas muy complejas. Por este motivo, las siguientes
aproximaciones puede ser de utilidad.
Resultado: Sea X una v.a. con E(X) = µ y V ar(X) = σ 2 .
Supongamos que Y = h(X), en tal caso se tiene:
h�� (µ) 2
E(Y ) � h(µ) +
σ
2
�
�2
V ar(Y ) � h� (µ) σ 2
A fin de hacer útiles las aproximaciones anteriores, necesitamos que h sea diferenciable dos veces para H = µ.
34
§TEMA 4:
MODELOS DE PROBABILIDAD
Modelos de probabilidad discretos:
Distribución uniforme sobre n puntos
Una variable aleatoria X cuyo soporte está dado por
{x1, x2 , . . . , xn }, se dice con distribución uniforme si su
función de probabilidad está dada por:
�1
, X = xi
p(X = xi) = n
0, en otro caso
Su función de distribución:


0, x < min{x1, x2, . . . , xn} = x(1)
FX (x) = ni , x(i) ≤ x < x(i+1)

1, x ≥ max{x , x , . . . , x } = x
n
1
2
(n)
Su valor medio:
E(X) =
n
�
i=i
1
xi =
n
�n
i=i xi
n
=X
35
Ensayos de Bernoulli
Estan asociados con cualquier fenómeno aleatorio que
se manifieste como una dicotomı́a: ‘éxito’o ‘fracaso’de
un experimento, pieza defectuosa o no defectuosa, nivel
de renta ≤ 10.000 ó > 10.000 euros , nivel de radiación
de antenas de telefonı́a móvil ≥ 450 microvatios o inferior.
X es una variable de Bernoulli si
�
X = 1, P (X = 1) = p
X = 0, P (X = 0) = 1 − p = q
E(X) = p, V ar(X) = p(1 − p)
La distribución binomial está asociada a una repetición
de varios ensayos de Bernoulli independientes y donde la
probabilidad p permanece constante en todos ellos. Por
ejemplo, denotemos por p a la probabilidad de producir
una pieza defectuosa y supongamos que se producen n
piezas de manera independiente. El estado de la pieza
i se describe mediante Xi:
�
Xi = 1, si la pieza i es defectuosa
Xi = 0, si es no defectuosa
El número de piezas defectuosas
�n en una muestra de
n piezas viene dado por X =
i=1 Xi , X se dice con
distribución binomial con parámetros n y p.
36
La función de probabilidad de X con distribución B(n, p),
está dada por
�
�
n
P (X = k) =
pk (1 − p)n−k , X = 0, 1, 2, . . . , n
k
E(X) = np, V ar(X) = np(1 − p). E(X) representa la
frecuencia esperada de ‘éxitos’en n repeticiones independientes de un experimento.
Está asociada a
• Muestreo con reposición en poblaciones finitas
• Muestreo con o sin reposición en poblaciones infinitas
Propiedad: Sean Xi, i = 1, . . . , n tales que Xi ∼ B(ni, p)
independientes, en tal caso se tiene
� n
�
n
�
�
Y =
Xi ∼ B
ni, p
i=1
i=1
37
Distribución geométrica
Está asociada también a ensayos de Bernoulli para representar situaciones de espera. Por ejemplo, sea A el
suceso tener seis aciertos en la primitiva una semana
cualquiera cuya probabilidad es p. Sea X el número de
semanas que debemos esperar hasta que ocurre A, X
se dice con distribución geométrica con parámetro p,
(G(p)), y su función de probabilidad está dada por
E(X) =
P (X = k) = (1 − p)k−1 p,
1
p
y V ar(X) =
k = 1, 2, . . .
1−p
p2
Supongamos que llevamos un tiempo jugando sin haber
obtenido premio, la probabilidad de que tengamos que
esperar, por ejemplo, 5 semanas más para obtener el
premio es independiente del tiempo que llevemos jugando. Esta propiedad se denomina ausencia de memoria y su expresión formal viene dada por
P (X ≥ s + t|X > s) = P (X ≥ t)
para cualesquiera s y t enteros positivos.
38
Distribución binomial negativa
Se considera de nuevo un experimento dicotómico, por
ejemplo, (éxito/fracaso) y la repetición de ensayos de
Bernoulli hasta conseguir r ‘éxitos’. Sea X la v.a. que
contabiliza el número de pruebas realizadas hasta lograr
los r éxitos.
La v.a. X sigue una distribución binomial negativa
BN (r, p) y su función de probabilidad viene dada por
�
�
k−1
P (X = k) =
pr (1−p)k−r , k = r, r+1, r+2, . . .
r−1
r(1−p)
p2
E(X) = pr , V ar(X) =
La distribución binomial negativa modela fenómenos de
espera hasta que un determinado suceso ocurre r veces.
En el caso r = 1 se tiene la distribución geométrica.
Propiedad: Sean Xi , i = 1, . . . , n tales que Xi ∼ Ge(p)
independientes, entonces
Y =
n
�
i=1
Xi ∼ BN (n, p)
En el caso de que Xi ∼ BN (ni, p) independientes, entonces
� n
�
n
�
�
Y =
Xi ∼ BN
ni , p
i=1
i=1
39
Distribución hipergeométrica
Se utiliza para modelar extracciones sin reemplazamiento.
Supongamos un almacén conteniendo N piezas de las
que r son defectuosas. Si se extrae una muestra de
n piezas del almacén, el número de defectuosas en la
muestra es una v.a. X hipergeométrica (H(N, n, r)) cuya
función de probabilidad es
� ��
�
r
N −r
k
n−k
�
�
P (X = k) =
N
n
E(X) = n Nr
Si
n
N
< 0.1, H(N, n, r) → B(n, p), siendo p =
r
N
40
Distribución de Poisson
Con frecuencia existen situaciones en las que la probabilidad de ocurrencia de un suceso es muy pequeña, por
ejemplo, el fallo de un componente electrónico, mientras
que es muy grande el número de unidades a verificar.
El cálculo de probabilidades con la binomial resulta muy
costoso, sin embargo con p → 0 y n → ∞, la binomial
se puede aproximar a X con distribución de Poisson con
parámetro λ = np. Un criterio razonable para la aproximación es p < 0.1 y np > 1. La función de probabilidad
de la poisson está dada por
k
−λ λ
P (X = k) = e
k!
,
k = 0, 1, 2, . . .
E(X) = V ar(X) = λ
Esta distribución se suele denominar como ley de los
sucesos raros ya que se utiliza para contar el número
de veces que ocurre un suceso cuya probabilidad de ocurrencia es baja. Ası́ ocurre, por ejemplo, con los accidentes de avión, escapes radioactivos, defectos en una
superficie, . . .
Propiedad: Sean Xi, i = 1, . . . , n tales que Xi ∼ ℘(λi)
independientes, entonces
� n
�
n
�
�
Y =
Xi ∼ ℘
λi
i=1
i=1
41
Modelos de probabilidad continuos:
Distribución uniforme continua
La distribución uniforme en el intervalo [a, b] corresponde a la variable aleatoria que resulta de elegir un número
completamente al azar en tal intervalo. Está asociada
a la idea de elección al azar, sin preferencias.
�
1
, a≤x≤b
f (x) = b−a
0, en otro caso
F (x) =
E(X) =
a+b
,
2


0,
�
x<a
=
x>b
x 1
du
a b−a

1,
V ar(X) =
x−a
,
b−a
a≤x≤b
(b−a)2
12
Distribución exponencial
Con frecuencia, la distribución exponencial se utiliza
para modelar tiempos hasta el fallo de sistemas. Su
función de densidad viene dada por
� −λx
λe
, x≥0
f (x) =
0 x<0
�
1 − e−λx ,
F (x) =
0 x<0
E(X) = 1λ , V ar(X) =
x≥0
1
λ2
42
La distribución exponencial sirve para modelar tiempos
de espera y es la única distribución continua que presenta la propiedad de ausencia de memoria, esto significa que el tiempo de espera que nos resta no depende
del que llevemos esperando. Es decir, para cualesquiera
s, t > 0 se verifica
P (X > s + t|X > t) = P (X > s)
Propiedad: Sean Xi, i = 1, . . . , n tales que Xi ∼ Exp(λ)
independientes, entonces
Y =
n
�
i=1
Distribución gamma
Xi ∼ γ(n, λ)
X se dice con distribución gamma, γ(p, a), p > 0 y a > 0,
si su función de densidad está dada por
� p
a
−ax xp−1 ,
e
x≥0
f (x) = Γ(p)
0, x < 0
Γ(p) es la función gamma de Euler:
� ∞
Γ(p) =
e−xxp−1dx, p > 0
0
43
Γ(p) verifica
� Γ(p + 1) = pΓ(p)
� Γ(n + 1) = n! con n entero positivo
� Γ
�1�
2
=
√
π
E(X) = ap , V ar(X) =
p
a2
Propiedad: Xi ∼ γ(ni, λ) independientes, entonces
� n
�
n
�
�
Y =
Xi ∼ γ
ni, λ
i=1
i=1
44
Distribución normal
Constituye la distribución de mayor relevancia en la teorı́a
y práctica estadı́sticas, apareciendo asociada a los errores de medida. Está caracterizada por su valor medio,
µ, y su desviación tı́pica, σ. Su función de densidad es
de la forma
�
�
1
(x − µ)2
f (x) = √
exp −
, −∞ < x < ∞
2σ 2
2πσ
Esta distribución se indica, abreviadamente, N (µ, σ) y
es simétrica respecto µ. Por consiguiente, el coeficiente
de asimetrı́a es nulo.
La función de distribución asociada a la normal estándar,
Z = N (0, 1), está tabulada:
� s
1
2
φ(s) = √
e−x /2 dx
2π −∞
por lo que el cálculo de probabilidades relativo a una
normal no estándar, X = N (µ, σ), se realiza tras hacer
el siguiente cambio de escala
X −µ
σ
Por ejemplo:
�
�
�
�
X −µ
a−µ
a−µ
P (X ≤ a) = P
≤
=P Z≤
σ
σ
σ
La distribución Z = N (0, 1) es simétrica respecto 0 y
por tanto
P (Z < −a) = P (Z > a)
45
Propiedad: Xi ∼ N (µi , σi), independientes, entonces
�


�
n
n
n
�
�
��
Y =
Xi ∼ N 
µi , �
σi2 
i=1
i=1
i=1
La convergencia en distribución significa que la función
de distribución correspondiente a (X1 + X2 + . . . + Xn)
converge a la de N (µ, σ), a medida que n → ∞.
Aproximación de otras variables aleatorias a la normal
• Aproximación binomial-normal
Si X es B(n, p) con np(1 − p) > 5, entonces
�
�
�
X ≈ N µ = np, σ = np(1 − p)
• Aproximación Poisson-normal
Si X es ℘(λ) y λ es suficientemente grande, entonces
�
√ �
X ≈ N µ = λ, σ = λ
46
Al aproximar una distribución discreta por una continua,
es preciso salvar la discrepancia entre ambas debida a
el hecho de que los puntos pueden tener probabilidad
positiva para la variable discreta y, sin embargo, ésta
es nula para las variables continuas. Este inconveniente
se resuelve mediante la denominada corrección por continuidad o corrección del medio punto.
Si X es una v.a cuya distribución es B(n, p) tal que
np(1 − p) > 5:
�
�
a − 0.5 − np
b + 0.5 − np
P (a ≤ X ≤ b) = P �
≤ N (0, 1) ≤ �
np(1 − p)
np(1 − p)
Si X es una v.a cuya distribución es ℘(λ) con λ > 5:
�
�
a − 0.5 − λ
b + 0.5 − λ
√
√
P (a ≤ X ≤ b) = P
≤ N (0, 1) ≤
λ
λ
47
La función caracterı́stica
El cálculo de los momentos de variables aleatorias suele
implicar cálculos costosos. La función caracterı́stica
simplifica notablemente esas operaciones.
Definición 10 Sea X una v.a. continua. La función
caracterı́stica, denotada ϕX (ω) se define como
� ∞
� jωX �
ϕX (ω) = E e
=
ejωx fX (x)dx
con j =
√
−∞
−1
Es decir, la función caracterı́stica puede verse como el
valor esperado de una función de X, ejωX .
ejωX es una variable aleatoria con valores complejos:
ejωX = cosωX + jsenωX
�
�
E ejωX = E (cosωX) + jE (senωX)
Ejemplo: Sea X v.a. exp(λ).
� ∞ jωx −λx
� ∞ −(λ−jω)x
ϕX (ω) = −∞ e λe
dx = λ −∞ e
=
λ
λ−jω
Si X es una v.a. discreta, la función caracterı́stica se
define como
�
ϕX (ω) =
p(X = x)ejωx
x
48
Ejemplo: Sea X v.a. Ge(p).
ϕX (ω) =
∞
�
e
k=1
=
jωk
(1 − p)
pejω
1 − (1 − p)ejω
k−1
p = pe
jω
n
�
�
k=1
(1 − p)ejω
�k−1
Propiedades de la función caracterı́stica
• La función caracterı́stica siempre está definida.
• |ϕX (ω)| ≤ 1
• E(X n) =
1 dn ϕX (ω)
|ω=0
j n dω n
Ası́, en el ejemplo de la exponencial, se tiene
E(X) =
1 dϕX (ω)
1
jλ
1
|ω=0 =
|
=
ω=0
j dω
j (λ − jω)2
λ
y en el de la geométrica:
1 dϕX (ω)
1
pieiω
1
E(X) =
|ω=0 =
|
=
ω=0
j dω
j (1 − (1 − p)ejω )2
p
49
=
Resumen propiedades reproductivas de variables aleatorias
Sean�
Xi, i = 1, . . . , n tales que Xi independientes y sea
Y = ni=1 Xi
• Xi ∼ B(ni , p), entonces, Y ∼ B
��n
i=1 ni , p
• Xi ∼ Ge(p), entonces, Y ∼ BN (n, p)
• Xi ∼ BN (ni, p), entonces Y ∼ BN
• Xi ∼ ℘(λi ), entonces Y ∼ ℘
��n
��n
i=1 ni , p
i=1 λi
• Xi ∼ Exp(λ), entonces Y ∼ γ(n, λ)
• Xi ∼ γ(ni, λ), entonces Y ∼ γ(
�n
• Xi ∼ N (µi, σi), entonces Y ∼ N
�
�
�
i=1 ni , λ)
��
n
i=1 µi ,
��n
2
i=1 σi
50
�
El proceso de Poisson
Se considera una situación en la que los eventos asociados a un experimento aleatorio ocurren con tasa constante λ en el espacio o en el tiempo. Por ejemplo, la
ruptura de un componente en un sistema, las llamadas
a una centralita telefónica, llegadas de clientes a un
servicio . . .
ξ(0, t)=‘número de ocurrencias en [0, t] ’ = Nt
1.- ξ(0) = 0.
2.- Si t1 < t2 < t3 < t4 , ξ(t1 , t2 ) y ξ(t3 , t4) son independientes.
3.- ξ(t1 , t2 ) y ξ(t1 +h, t2 +h) tienen idéntica distribución
4.- limh→0 P (ξ(t,t+h)=1)
=λ>0
h
5.- limh→0 P (ξ(t,t+h)≥2)
=0
h
Si se verifican los postulados anteriores, entonces
−λt (λt)
k
P (ξ(0, t) = k) = e
, k = 0, 1, 2, . . .
k!
Es decir, Nt = ξ(0, t) es v.a. de Poisson de parámetro
λt.
Una colección de variables aleatorias {Nt, t ≥ 0} que
satisface las anteriores propiedades, es un proceso de
Poisson de tasa λ
51
Las propiedades que caracterizan al proceso de Poisson
se resumen considerando un intervalo [0, t] dividido en
subintervalos de corta duración δ = nt y los siguientes
supuestos
1.- La probabilidad de que tenga lugar más de una
ocurrencia en un subintervalo es nula.
2.- El hecho de que en un subintervalo tenga lugar o
no un evento es independiente de lo que ocurra en
los restantes subintervalos.
Relación entre la exponencial y el proceso de Poisson
Sea {Nt, t ≥ 0} un proceso de Poisson de tasa λ y denotemos por Xn al tiempo aleatorio entre las ocurrencias
n − 1 y n. Xi se denominan tiempos entre llegadas del
proceso.
Propiedad: X1 , X2 , . . . son v.a. independientes con distribución exponencial de tasa λ.
X1 representa el tiempo hasta la primera ocurrencia
P (X1 > t) = P (ξ(0, t) = 0) = e−λt
y por tanto X1 es exponencial de parámetro λ.
52
Asimismo se tiene que para s, t > 0
P (X2 > t|X1 = s) = P (ξ(s, s+t) = 0) = e−λt = P (X2 > t)
se advierte que X2 es independiente de X1 y que tiene
tambien distribución exponencial de parámetro λ. Reiterando el argumento, se tiene el resultado.
Consecuencia: Las propiedades reproductivas de la exponencial implican que el tiempo que transcurre hasta
que se producen n ocurrencias, Tn = X1 + . . . + Xn, tiene
distribución γ(n, λ).
Dada la relación entre la v.a. gamma y el proceso
de Poisson se concluye que, si el tiempo transcurrido
hasta que se producen n eventos es inferior a t unidades
de tiempo, de modo equivalente en esas t unidades de
tiempo se habrán producido, como mı́nimo, n eventos,
es decir:
∞
�
i
(λt)
P (T ≤ t) = P (γ(n, λ) ≤ t) = P (℘(λt) ≥ n) =
e−λt
i!
i=n
Propiedad: Si los tiempos entre ocurrencias de un proceso, X1 , X2, . . ., son v.a. independientes y con distribución exponencial de parámetro λ, entonces se verifica que las ocurrencias tienen lugar de acuerdo a un
proceso de Poisson.
53
§TEMA 5:
VARIABLES ALEATORIAS N-DIMENSIONALES
Con frecuencia, un experimento aleatorio involucra a
varias variables aleatorias. Se puede medir, por ejemplo,
el voltaje en n puntos diferentes de un circuito, o bien
hacer medidas repetidas de una determinada cantidad.
Ejemplo: En la recepción de información digital cada
bit se clasifica, dependiendo de la calidad de la señal
recibida, en aceptable, medio o inaceptable. Las probabilidades de que un bit sea asignado a cada una de las
clases son 0.9, 0.08 y 0.02 respectivamente.
Supongamos que se emiten 4 bits. Sean X e Y las v.a.
que cuentan el número de bits aceptables y medios. X ∼
B(4, 0.9) e Y ∼ B(4, 0.08). Por tanto, X = 0, 1, 2, 3, 4 e
Y = 0, 1, 2, 3, 4. Sin embargo, si y = 3, se tiene x = 0 ó
x=1
En este tema analizaremos el comportamiento conjunto
de dos o más variables aleatorias. En particular nos interesará determinar si un conjunto de variables aleatorias son independientes, ası́ como establecer al grado de
relación entre ellas cuando no lo son.
Consideremos un sistema de tres componentes en serie
cuyos respectivos tiempos son v.a X1 , X2 y X3 . El
tiempo hasta el fallo del sistema en su totalidad está
dado por
min(X1 , X2 , X3 )
P (min(X1 , X2 , X3 ) ≤ a)
54
La función de distribución conjunta de dos variables
aleatorias X e Y se define como:
FXY (x, y) = P ((X ≤ x) ∩ (Y ≤ y)) = P (X ≤ x, Y ≤ y)
55
Propiedades de la función de distribución conjunta
1.- 0 ≤ FXY (x, y) ≤ 1
2.- FXY (x1 , y1 ) ≤ FXY (x2 , y2 ),
x 1 ≤ x2 , y 1 ≤ y 2
3.- P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = FXY (x2 , y2 )+FXY (x1, y1 )−
FXY (x1, y2 ) − FXY (x2, y1 )
4.- FXY (−∞, y) = FXY (x, −∞) = FXY (−∞, −∞) = 0
5.- FXY (∞, ∞) = 1
6.FX (x) = P (X ≤ x) = P (X ≤ x, Y ≤ ∞) = FXY (x, ∞)
FY (y) = P (Y ≤ y) = P (X ≤ ∞, Y ≤ y) = FXY (∞, y)
Un vector aleatorio (X, Y ) puede ser
• discreto si solo toma valores en un conjunto discreto
• continuo si presenta un rango continuo de valores
• mixto si no es discreto ni continuo
56
Variable aleatoria bidimensional discreta
El vector de v.a. (X, Y ) es una variable aleatoria bidimensional dicreta si los posibles valores de (X, Y ) se
pueden representar como (xi, yj ), i = 1, 2, . . . , n, . . . ; j =
1, 2, . . . , n, . . .
La función de probabilidad conjunta,
p(xi, yj ) especi�
fica las probabilidades de (X = xi) (Y = yj )
Definición 11 La función de probabilidad conjunta de
(X, Y ) satisface las siguientes propiedades
1.- p(xi, yj ) ≥ 0 para todo (xi, yj )
2.-
�∞ �∞
i=1
j=1 p(xi , yj )
=1
La probabilidad de un evento A viene dada por la suma
de las probabilidades de todos los pares (xi , yj ) que estén
en A:
��
P (A) =
p(xi, yj ), (xi, yj ) ∈ A
i
j
En el ejemplo de los bits, denotemos por A, M e I los
sucesos bit aceptable, medio e inaceptable
P (X ≤ 1, Y ≤ 1) =
= P (IIII) + P (AIII) +
+ P (IIIM ) + P (AIIM )
57
Distribuciones de probabilidad marginales
Cuando se tienen definidos vectores aleatorios es importante distinguir entre el comportamiento conjunto
de las variables y el que presenta cada una de ellas
aisladamente. Las distribuciones individuales de cada
variable lo proporcionan las funciones de probabilidad
marginales:
pX (xi) = P (X = xi) =
∞
�
p(xi , yj )
j=1
y similarmente
pY (yj ) = P (Y = yj ) =
∞
�
p(xi, yj )
i=1
Las distribuciones marginales son v.a. unidimensionales.
En general, no es posible deducir la distribución conjunta
de X e Y a partir de sus marginales.
Funciones de distribución marginales
FX (x) =
FY (y) =
∞
��
xi ≤x j=1
∞
��
yj ≤y i=1
p(xi, yj ) =
�
pX (xi)
xi ≤x
p(xi , yj ) =
�
pY (yj )
yj ≤y
58
Variable aleatoria bidimensional continua
Un vector aleatorio (X, Y ) es continuo si existe una
función fXY (x, y) no negativa denominada función de
densidad conjunta tal que
� x � y
P (X ≤ x, Y ≤ y) =
fXY (u, v)dudv
−∞
−∞
La función de densidad conjunta se define como
∂2
∂2
fXY (x, y) =
FXY (x, y) =
FXY (x, y)
∂x∂y
∂y∂x
Propiedades de la función de densidad conjunta
1.- fXY (x, y) ≥ 0 para todo x, y
2.-
�∞ �∞
f (u, v)dudv
−∞ −∞ XY
3.- FXY (x, y) =
4.-
=1
�x �y
f (u, v)dudv
−∞ −∞ XY
FX (x) = FXY (x, ∞) =
FY (y) = FXY (∞, y) =
�
x
�
∞
−∞
� −∞
∞ � y
−∞
fXY (u, v)dudv
fXY (u, v)dudv
−∞
59
5.- fX (x) =
6.-
�∞
f (x, y)dy,
−∞ XY
fY (y) =
P (x1 < X ≤ x2 , y1 < Y ≤ y2) =
�
x2
x1
�∞
f (x, y)dx
−∞ XY
�
y2
f (x, y)dxdy
y1
De la condición 5 se infiere que si (X, Y ) es un vector
aleatorio continuo, las marginales X e Y también lo son.
Distribuciones condicionadas
Con frecuencia, muchos problemas prácticos consisten
en analizar cómo es el comportamiento de una v.a. Y
condicionada por el hecho de que una segunda variable
X toma un valor especı́fico x. Ası́, por ejemplo, supongamos que Y representa el tiempo hasta el fallo de
una máquina mientras que X es ritmo de trabajo que
realiza. En otro caso, Y puede ser la señal a la salida de
un canal de comunicación mientras que X representa la
señal a la entrada. En estos casos nos interesa computar
probabilidades de sucesos concernientes a la v.a. Y ,
dado que X = x. Asimismo es relevante la denominada
esperanza condicional o valor esperado de Y siendo que
X = x, es decir E (Y |X = x).
60
Si (X, Y ) constituyen un vector aleatorio discreto, la
función de probabilidad condicionada de Y cuando X =
xk está dada por
pY |X (y = yj |xk ) =
P (Y = yj , X = xk )
P (X = xk )
dado que P (X = xk ) > 0.
La función de distribución condicional se define como
�
FY |X (y|xk ) =
pY |X (y = yj |xk )
yj ≤y
Si (X, Y ) constituyen un vector aleatorio continuo, la
función de densidad condicionada de Y cuando X = x
está dada por
fY |X (y|x) =
fXY (x, y)
fX (x)
dado que fX (x) > 0.
La función de distribución condicional se define como
� y
FY |X (y|x) =
fY |X (v|x)dv
verificándose además
−∞
fY |X (y|x) =
dFY |X (y|x)
dy
61
Del mismo modo se definen las funciones de probabilidad
o densidad condicionadas de X respecto a Y , siempre
que P (Y = yk ) > 0 o fY (y) > 0, dependiendo de que el
vector aleatorio sea discreto o continuo.
Independencia de variables aleatorias
Dos v.a. (X, Y ) son independientes si y sólo sı́ para todo
x e y se verifica
FXY (x, y) = FX (x)FY (y)
Si el vector (X, Y ) es discreto con X e Y independientes,
las siguientes afirmaciones son equivalentes
pXY (X = xj , Y = yk ) = pX (X = xj )pY (Y = yk ), ∀xj , yk
pY |X (Y = yk |X = xj ) = pY (Y = yk ), ∀xj , yk , con P (X = xj ) > 0
pX|Y (X = xj |Y = yk ) = pX (X = xj ), ∀xj , yk , con P (Y = yk ) > 0
Si el vector (X, Y ) es continuo con X e Y independientes, las siguientes afirmaciones son equivalentes
fXY (x, y) = fX (x)fY (y), ∀x, y
fY |X (y|x) = fY (y), ∀x, y, con fX (x) > 0
fX|Y (x|y) = fX (x), ∀x, y, con fY (y) > 0
62
Funciones de variables aleatorias n dimensionales
Consideremos la variable aleatoria bidimensional (X, Y ).
(X, Y ) pueden representar, por ejemplo, los tiempos
hasta el fallo de las componentes de un sistema. Si las
componentes están dispuestas en serie o en paralelo, el
tiempo hasta el fallo del sistema vendrá dado, respectivamente por las funciones min(X, Y ) y max(X, Y ).
Otras variables que nos pueden interesar son X + Y ,
X/Y , etc.
El problema que nos ocupa ahora es el de encontrar
las distribución de funciones de variables aleatorias n
dimensionales.
Teorema 2 Sea (X, Y ) es una variable aleatoria bidimensional continua cuya función de densidad conjunta
es f (x, y). Supongamos que las funciones U = h1 (X, Y )
y V = h2 (X, Y ) satisfacen las siguientes propiedades:
a) Las ecuaciones u = h1 (x, y) y v = h2 (x, y) tienen
una única solución (x(u, v), y(u, v)).
b) Existen las derivadas parciales
tinuas.
∂x ∂x ∂y ∂y
, , ,
∂u ∂v ∂u ∂v
Entonces, la función de densidad de (U, V )
por
� ∂x ∂x
�
∂v
g(u, v) = f (x(u, v), y(u, v)) �� ∂u
∂y
∂y
∂u
∂v
y son conviene dada
�
�
�
�
63
Esperanza y momentos
Al igual que en el caso de la v.a. unidimensional, la
esperanza y los momentos de las v.a multidimensionales no constituyen una descripción completa de las v.a,
sin embargo contienen información relevante respecto
aquellas.
El valor esperado o esperanza de una función g(x, y)
de dos variables aleatorias X e Y , E(g(X, Y )), se define
como
�� �
g(x , y )P (X = xi, Y = yk ), (X, Y ) discreto
� ∞i � k∞ i k
g(x, y)fXY (x, y)dxdy, (X, Y ) continuo
−∞ −∞
En particular se definen E(X p Y q ), E((X −µX )p (Y −µY )q ).
El cálculo de esperanzas de funciones de las v.a. marginales
se puede realizar por dos vı́as:
En el caso discreto
��
g(xi)P (X = xi )
E(g(X)) = �i �
i
k g(xi )P (X = xi , Y = yk )
En el caso continuo
��
∞
g(x)fX (x)dx
E(g(X)) = �−∞
∞ �∞
g(x)fXY (x, y)dxdy
−∞ −∞
Para E(g(Y )) se tienen fórmulas simétricas.
64
Esperanza condicional
Dado un vector aleatorio (X, Y ) la esperanza condicional
de Y dado X = x se define como
� ∞
E(Y |x) =
yfY |X (y|x)dy, si Y es continua
−∞
�
E(Y |x) =
yj P (Y = yj |X = x), si Y es discreta
yj
La esperanza condicional E(Y |x) se puede interpretar
como una función de x: g(x) = E(Y |x). Se trata, por
consiguiente, de una función de una variable aleatoria
que es a su vez otra v.a., E(Y |X), y por tanto podemos
calcular su esperanza: E(E(Y |X)), verificándose que
E(Y ) = E(E(Y |X))
El resultado anterior se puede extender para la esperanza de cualquier función de Y :
E(g(Y )) = E(E(g(Y )|X))
65
Relación entre dos variables aleatorias
En el caso de que dos variables aleatorias no sean independientes, nos interesa cuantificar el grado de relación
existente entre ellas.
La covarianza de dos variables aleatorias X e Y se define como
Cov(XY ) = E((X − µX )(Y − µY )) = E(XY ) − E(X)E(Y )
La covarianza depende de las unidades de medida, lo
que nos lleva a definir:
El coeficiente de correlación
ρ=
Cov(XY )
σX σY
Propiedades del coeficiente de correlación:
• ρ mide el grado de relación lineal entre X e Y .
• −1 ≤ ρ ≤ 1
• ρ = 1 ó ρ = −1 ⇔ Y = aX + b
• ρ es grande (pequeño) indica una fuerte (débil)
relación lineal entre X e Y .
66
• Si ρ = 0, X e Y se dicen incorreladas
• Si X e Y son independientes, entonces ρ = 0
• Incorrelación no implica independencia
• Aunque ρ = 0, X e Y pueden estar vinculadas por
una relación de tipo no lineal.
67
Propiedades de la esperanza y de la varianza
La media de una suma ponderada de n variables aleatorias, es igual a la suma ponderada de las medias de cada
una de ellas:
� n
�
n
�
�
E
a i Xi =
aiE(Xi)
i=1
i=1
En general, la esperanza del producto de variables aleatorias no coincide con el producto de sus esperanzas. Sin
embargo, si X1 , X2 , . . . , Xn son variables aleatorias independientes, entonces
E (g1 (X1 )g2 (X2 ) . . . g(Xn)) =
n
�
E (g(Xi))
i=1
La varianza de una combinación lineal de dos variables
aleatorias
V ar (aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(XY )
Si X e Y son dos variables aleatorias incorreladas se
tiene:
V ar (aX + bY ) = a2 V ar(X) + b2 V ar(Y )
La expresión anterior se puede extender a n variables
aleatorias. Sean Xi, i = 1, 2 . . . , n tales que Xi y Xj son
incorreladas para cada i �= j, entonces
� n
�
n
�
�
V ar
a i Xi =
a2i V ar(Xi)
i=1
i=1
68
Distribución normal multivariante
Dos v.a. X e Y tienen distribución normal bivariante si
su función de densidad conjunta está dada por:
�
�
��
2
2
(X−µX )
(Y −µY ) 2ρ(X−µX )(Y −µY )
1
− 2(1−ρ2 )
+ σ2 −
1
σX σY
σ2
X
Y
�
fXY (x, y) =
e
2πσX σY 1 − ρ2
con −∞ < x < ∞, −∞ < y < ∞
2 , σ 2 , ρ son las medias, varianLos parámetros µX , µY , σX
Y
zas y coeficiente de correlación de X e Y .
La distribución normal bivariante verifica las siguientes
propiedades:
• X e Y son normales N (µX , σX ) y N (µY , σY )
• E(X|Y = y) = µX|Y = µX +ρ σσXY (y − µY ), V ar(X|Y ) =
2
2 (1 − ρ2 )
σX|Y
= σX
• E(Y |X = x) = µY |X = µY +ρ σσXY (x − µX ), V ar(Y |X) =
σY2 |X = σY2 (1 − ρ2 )
• Las distribuciones condicionadas son normales
�
�
�
�
X|Y ∼ N µX|Y , σX|Y , Y |X ∼ N µY |X , σY |X
• X e Y independientes ⇔ X e Y incorreladas
69
Teorema Central del Lı́mite
Este es el resultado más importante asociado a la distribución normal ya que explica el motivo por el que
muchas variables aleatorias siguen una distribución normal. Por ejemplo, el consumo diario de gas en una
ciudad resulta ser la suma de los consumos de todos los
usuarios y su distribución es aproximadamente normal.
En general, si se tienen X1, X2, . . . , Xn variables aleatorias independientes cuyas medias y varianzas son µi y σi2
se tiene
E (X1 + X2 + . . . + Xn) =
V ar (X1 + X2 + . . . + Xn) =
n
�
i=1
n
�
µi
σi2
i=1
Si n es suficientemente grande (n > 30), se tiene que
�n
+
X
+
.
.
.
+
X
−
(X1
n)
2
i=1 µi
��n
→ N (0, 1)
2
i=1 σi
70
Si X1 , X2 , . . . , Xn son variables aleatorias independientes
e idénticamente distribuidas con media µ y varianza σ 2
se tiene
��n
�
n
� �
X
1�
i=1 i
E X
= E
=
µ=µ
n
n i=1
��n
�
n
� �
X
1 � 2
σ2
i=1 i
V ar X
= V ar
= 2
σ =
n
n i=1
n
Si n es suficientemente grande (n > 30), se tiene que
X −µ
√ → N (0, 1)
σ/ n
La convergencias anteriores lo son en distribución.
71
Descargar