- Departamento de Ciencias de la Computación

Anuncio
Curso de
Procesamiento Digital de Imágenes
Impartido por: Elena Martínez
Departamento de Ciencias de la Computación
IIMAS, UNAM, cubículo 408
http://turing.iimas.unam.mx/~elena/Teaching/PDI-Lic.html
[email protected]
Repaso de Probabilidad
Objetivo:
Proveer del material necesario sobre probabilidad y
variables aleatorias que serán de utilidad para los temas del
curso de Procesamiento Digital de Imágenes que se basan en
éstos tópicos.
Material extraído de: www.imageprocessingbook.com
© 2001 Gonzalez & Woods.
Conjuntos y operaciones sobre
conjuntos
Los eventos probabilísticos son modelados como conjuntos, por
lo que es costumbre iniciar el estudio de la probabilidad con los
conjuntos y algunas operaciones simples sobre ellos.
Un conjunto es una colección de objetos, cada uno de los cuales
generalmente se les refiere como elementos o miembros del
conjunto. Ejemplos familiares incluyen el conjunto de todos los
libros de procesamiento de imágenes en el mundo, el conjunto de
los números primos, y el conjunto de planetas que circundan el
sol. Típicamente, los conjuntos se representan con letras
mayúsculas como A, B y C, y a los miembros de los conjuntos
por letras minúsculas como a, b y c.
Conjuntos y operaciones sobre
conjuntos
Denotamos el hecho de que un elemento a pertenece a un
conjunto A como:
Si a no es elemento de A, entónces escribimos:
Un conjunto puede ser especificado por una lista de todos
sus elementos, o por una lista de las propiedades en común
de todos sus elementos. Por ejemplo, supongase que I es el
conjunto de todos los enteros. Un conjunto B que consiste de
cinco elementos diferentes de cero se especifica con la
siguiente notación:
Conjuntos y operaciones sobre
conjuntos
El conjunto de todos los enteros menores de 10 se especifica
utilizando la notación:
la cual leemos como “C es el conjunto elementos c que
pertenecen a los enteros tal que todos sus miembros son
menores de 10”. La condición “tal que” se detonta por el
símbolo “|” . Como se ve en las dos ultimas ecuaciones, los
elementos del conjunto se encierran entre llaves.
El conjunto sin elementos se llama vacío o el conjunto nulo,
y se denota con el símbolo  .
Conjuntos y operaciones sobre
conjuntos
Se dice que dos conjuntos A y B son iguales sí y sólo sí
contienen los mismos elementos. El conjunto igualdad se
denota por:
Si los elementos de dos conjuntos no son iguales, entónces
decimos que los conjuntos son diferentes, y se denota por:
Si todo elemento de B es también elemento de A, decimos
que B es un subconjunto de A:
Conjuntos y operaciones sobre
conjuntos
Finalmente consideramos el concepto de conjunto universal, el
cual denotamos como U y se define como el conjunto que
contienen todos los elementos de interés en una situación dada.
Por ejemplo, en un experimento de lanzar una moneda, existen
dos resultados diferentes (realísticamente): cara o cruz. Si
denotamos cara por H y cruz por T, el conjunto universal en este
caso será {H,T}. De manera similar, el conjunto universal del
experimento de lanzar un solo dado tiene seis posibles resultados,
en este caso U={1, 2, 3, 4, 5, 6}. Por razones obvias, al conjunto
universal generalmente se le llama espacio de muestreo, que se
denota por S. Por lo tanto, para cualquier conjunto A, asumimos
que   A  S, y para cada elemento a, a  S y a  .
Operaciones básicas con conjuntos
Dos conjuntos que no tienen elementos en común se dice que
son disconjuntos o mutuamente exclisuvos, en cuyo caso:
El complemento de un conjunto A se define como:
Claramente (Ac)c=A. Algunas veces el complemento de A se
denota como
La diferencia de dos conjuntos A y B, denotada como A-B, es
el conjunto de elementos que pertenecen a A, pero que no
pertenecen a B. En otras palabras:
Operaciones básicas con conjuntos
Se puede verificar que:
La operación de unión se aplica a múltiples conjuntos. Por
ejemplo, la unión de los conjuntos A1,A2,…,An es el conjunto
de puntos que pertenecen a por lo menos uno de estos
conjuntos. De manera similar se aplica para la intersección
de múltiples conjuntos.
La siguiente tabla sumariza algunas relaciones importantes
entre conjuntos. Las pruebas de estas relaciones se pueden
encontrar en cualquier libro de teoría elemental de conjuntos.
Operaciones básicas con conjuntos
Operaciones básicas con conjuntos
Es común representar a los conjuntos y a las operaciones sobre
ellos con los llamados diagramas de Venn, en donde S se
representa como un rectángulo, los conjuntos se representan
como áreas (típicamente círculos), y los elementos se asocian con
puntos. El siguiente ejemplo muestra su uso.
Ejemplo: Las áreas sombreadas (conjunto de puntos) son el
resultado de las operaciones que se indican en la figura. Los
diagramas de la fila superior se explican por sí mismos. Los
diagramas en la fila inferior se utilizan para probar la validéz de
la expresión:
Operaciones básicas con conjuntos
Frecuencia relativa & Probabilidad
Un experimento aleatorio es un experimento en donde no es
posible predecir el resultado. Tal vez el experimento aleatorio
más conocido es el de lanzar una moneda al aire. Asumiendo que
la moneda no está sesgada, utilizamos el concepto que dice que,
en promedio, la mitad de las veces se produce cara (H) y la otra
mitad cruz (T). Lo anterior es intuitivo y no lo cuestionamos. De
hecho, muy pocos de nosostros nos hemos tomado el tiempo para
verificar si es verdadero. Si lo hemos hecho, hemos utilizado el
concepto de frecuencia relativa. Sea n el total de número de veces
que lanzamos la moneda al aire, nH el número de caras mostradas
y nT el número de cruces. Claramente tenemos:
Frecuencia relativa & Probabilidad
Dividiendo ambos lados entre n nos da:
El término nT/n se llama frecuencia relativa del evento al que
hemos llamado H, y de manera similar nT/n .Si realizamos el
experimento de lanzar la moneda un número muy grande de
veces, encontraremos que cada una de estas frecuencias
relativas tienden a estabilizarse, limitando el valor. A este
valor lo llamamos probabilidad del evento, y se denota por
P(evento).
Frecuencia relativa & Probabilidad
En el ejemplo anterior las probabilidades de interés son P(H) y
P(T). Sabemos que en este caso que P(H)=P(T)=1/2. Note que el
evento de un experimento no significa un sólo resultado. Por
ejemplo, en el lanzamiento de la moneda podemos hacer a D un
evento que denote “cara o cruz” (así definimos el evento) y al
evento E, “ni cara ni cruz”. Entónces, P(D)=1 y P(E)=0.
La primera propiedad importante de P es que para un evento A
Esto es, la probabilidad de un evento es un número positivo entre
0 y 1. Para un cierto evento S:
Frecuencia relativa & Probabilidad
Aqui “un cierto evento” significa que el resultado es del
conjunto universal o del espacio de muestreo, S.
Similarmente, tenemos que para un evento imposible Sc :
Esta es la probabilidad de que un evento esté fuera del
conjunto universal o del espacio de muestreo. En el ejemplo
dado anteriormente, S=D y Sc=E.
Frecuencia relativa & Probabilidad
El evento que puede ser la ocurrencia de cualquiera de los
evento A o B o ambos es simplemente la unión de A y B
(recuerde que los eventos pueden ser conjuntos).
Anteriormente denotamos la unión de dos conjuntos como
AB. Generalmente encontramos una notación equivalente
A+B de manera indistinta en algunos libros de probabilidad.
Similarmente, el evento de que ambos A y B ocurran está
dado por la intersección de A y B, que denotamos como
AB. La notación equivalente sería AB que es utilizada con
más frecuencia para denotar la ocurrencia de ambos eventos
en un experimento.
Frecuencia relativa & Probabilidad
Supóngase que conducimos nuestro experimento n número
de veces. Sea n1 el número de veces que ocurre el evento A;
sea n2 el número de veces que ocurre el evento B; n3 el
número de veces que ocurre AB; y n4 el número de veces que
ocurre el evento no A no B. Claramente, n1+n2+n3+n4=n.
Utilizando estos números obtenemos las siguientes
frecuencias relativas:
Frecuencia relativa & Probabilidad
y
Utilizando la definición de probabilidad basada en
frecuencias relativas tenemos el resultado importante:
Si A y B son mutuamente exclusivos se tiene que el conjunto
AB es vacío y, consecuentemente, P(AB)=0.
Frecuencia relativa & Probabilidad
La frecuencia relativa de la ocurrencia de un evento A, dado
que ocurre un evento B, está dada por:
Esta probabilidad condicionada se denota por P(A|B), donde
el símbolo “|” denota ocurrencia condicional. Es
terminología común referirse a P(A|B) como la probabilidad
de A dado B.
Frecuencia relativa & Probabilidad
De manera similar, la frecuencia relativa de la ocurrecia de B
dada la ocurrencia de un evento A es:
Llamamos a ésta la frecuencia relativa de probabilidad de B
dado A, y se denota por P(B|A).
Frecuencia relativa & Probabilidad
Un poco de manipulación del resultado anterior da lugar a la
siguiente relación importante:
y
La segunda expresión puede ser escrita como:
la cual es conocida como el Teorema de Bayes, llamada así
por ser planteada por Thomas Bayes en el siglo 18.
Frecuencia relativa & Probabilidad
Ejemplo: Supónga que queremos extender la expresión:
a tres variables A, B y C. Recordando que AB es lo mismo
que AB, reemplazamos B por BC en la ecuación anterior:
El segundo término de la derecha se puede escribir como:
De la tabla vista anteriormente, sabemos que:
Frecuencia relativa & Probabilidad
así:
El agrupamiento de términos nos da el resultado final:
Procediendo de manera similar tenemos:
El método anterior puede ser utilizado para generalizar estas
espresiones para N eventos.
Frecuencia relativa & Probabilidad
Si A y B son estadísticamente independientes, entónces
P(B|A)=P(B) y de ésto tenemos:
y
Se dijo antes que si los conjuntos (eventos) A y B son
mutuamente exclusivos, entónces AB = de donde sigue que
P(AB)=AB =0. Como se ha mostrado, los dos conjuntos son
estadísticamente independientes si P(AB)=P(A)P(B), que
asumimos que son, en general, diferentes de cero. Por lo tanto,
concluímos que para que dos eventos sean estadísticamente
independientes, no pueden ser mutuamente exclusivos.
Frecuencia relativa & Probabilidad
Para que tres eventos A, B y C sean independientes, debe
cumplirse que:
y
Frecuencia relativa & Probabilidad
En general, para que N eventos sean estadísticamente
independientes, debe cumplirse que, para todas las posibles
combinaciones 1  i  j  k  . . .  N :
Frecuencia relativa & Probabilidad
Ejemplo: (a) Un experimento consiste en tirar un sólo dado dos
veces. La probabilidad de que caiga una de las 6 caras, 1 al 6, en
cada intento es de 1/6. Supóngase que queremos encontrar la
probabilidad que caiga un 2 seguido de un 4. Estos dos eventos
son estadísticamente independientes (el segundo evento no
depende de la ocurrencia del primero). Hagamos que A
represente al 2 y B al 4.
Llegaríamos al mismo resultado definiendo “2 seguido de 4”
como el evento C. El espacio de muestreo de todas los resultados
posibles de dos tiradas de un dado son 36. Entónces P(C)=1/36.
Frecuencia relativa & Probabilidad
Ejemplo (cont.): (b) Considere ahora un experimento en el que
sacamos una carta de una baraja de cartas estándar de 52 cartas.
Sea A el evento de que salga un rey, y B el evento de que salga
una reina o un jack, y sea C el evento de que salga una carta con
diamante. Las frecuencias relativas de cada evento mostrarían:
y
Frecuencia relativa & Probabilidad
Ejemplo (cont.): Además:
y
Los eventos A y B son mutuamente exclusivos (estamos sacando
sólo una carta, así que sería imposible sacar un rey y una reina o
jack simultáneamente). Por lo tanto, de la discusión anterior
tenemos que P(AB)=P(AB)=0 [y también que
P(AB)  P(A)P(B) ].
Frecuencia relativa & Probabilidad
Ejemplo (cont.): (c) Como experimento final, considere la baraja
de 52 cartas nuevamente. Sean A1, A2, A3, y A4 los eventos de
sacar un as en una de cada cuatro tomas sucesivamente. Si
regresamos a la baraja la carta sacada antes de sacar la siguiente,
entónces los eventos son estadísticamente independientes y de
aquí tenemos que:
Frecuencia relativa & Probabilidad
Ejemplo (cont.): Supóngase ahora que no regresamos las cartas a
la baraja. Los eventos ya no son más estadísticamente
independientes. De los resultados del ejemplo anterior tenemos:
Por lo tanto, vemos que al no regresar las cartas a la baraja se
reduce nuestra suerte de sacar 4 ases sucesivamente en un factor
cercano a 10. Esta diferencia significativa es quizás mayor de lo
que hubieramos esperado por intuición.
Variables aleatorias
Las variables aleatorias generalmente son fuente de
confusión cuando uno se las encuentra por primera vez. Una
variable aleatoria, x, es una función real-valuada definida en
los eventos de un espacio de muestreo, S. En otras palabras,
para cada evento en S, existe un número real que es el valor
correspondiente de una variable aleatoria. Visto de otra
manera, una variable aleatoria mapea cada evento en S en el
eje de los reales (real line).
Variables aleatorias
Parte de la confusión que se encuentra en conexión con las
variables aleatorias es el hecho de que son funciones. La
notación es parte responsable del problema. En otras
palabras, aunque la notación utilizada típicamente para
representar las variables aleatorias es, x, para ser
extrictamente formal debería ser escrita como x(•) donde el
argumento es el evento específico que se está considerendo.
Sin embargo, casi nunca si hace así, y en nuestra experienca
tratar de utilizar la notación correcta confunde más que
ayudar. Por lo tanto, aquí se optará por la notación menos
formal, con la advertancia de que se debe tener siempre en
mente que las variables aleatorias son funciones.
Variables aleatorias
Ejemplo: Considere nuevamente el ejemplo de sacar una sola carta de
la baraja estandar de 52 cartas. Supóngase que difinimos los siguientes
eventos: A un corazón, B una espada, C una pica y D un diamante, de
manera que S={A,B,C,D}. Se define una variable aleatoria haciendo
x=1 que represente el evento A, x=2 el evento B y así sucesivemente.
Como una segunda ilustración, considere el experimento de tirar un
sólo dado y observar el valor de la cara resultante. Definimos la
variable aleatoria como el resultado númerico del experimento (i.e. 1 a
6), pero hay muchas otras posibilidades. Por ejemplo, una variabla
aleatoria binaria puede ser definida simplmente haciendo x=0 si el
resultado del evento es un número impar y x=1 de otra manera.
Variables aleatorias
Note el hecho importante en los ejemplos anteriores que la
probabilidad de los eventos no ha cambiado, todo lo que la
variable aleatoria hace es mapear los eventos a la línea real
(eje de los reales).
Variables aleatorias
Hasta el momento hemos estado hablando de variables aleatorias
cuyos valores son discretos. Para manejar variables aleatorias
contínuas necesitamos herramientas adicionales. En el caso
discreto, las probabilidades de eventos son números que están
entre 0 y 1. Cuando trabajamos con cantidades contínuas no
podemos hablar ya más de la “probabilidad de un evento” porque
esa probabilidad es cero. Esto no es tan poco familiar como puede
sonar. Por ejemplo, dada una función contínua sabemos que el
área de la función entre dos límites a y b es la integral de la
función de a a b. Sin embargo, el área en un punto es cero porque
su integral va, por decir, de a a a y es cero. Estamos tratando con
el mismo concepto en el caso de variables aleatorias contínuas.
Variables aleatorias
Por lo tanto, en vez de hablar de la probabilidad de un valor
específico, hablamos de la probabilidad de que un valor
específico de la variable aleatoria caiga dentro de un rango
específico. En particular, estamos interesados en la probabilidad
de que la variable aleatoria sea menor o igual a (o de manera
similar, mayor o igual a) una constante específica a. Esto es:
Si esta función está dada por todos los valores de a (i.e. - < a <
), entónces los valores de la variable aleatoria x han sido
definidos. La función F se llama función de distribución de
probabilidades acumuladas (CDF). El término corto que también
se utiliza es función de distribución.
Variables aleatorias
Observe que la notación que hemos usado no hace distinción
entre la variable aleatoria y los valores que ésta asume. Si creen
empezar a confundirse!, podemos utilizar una notación más
formal en donde utilizamos letras mayúsculas para denotar la
variable aleatoria y letras minúsculas para denotar sus valores.
Por ejemplo, la CDF que utiliza esta notación se escribe como:
Cuando no existe confusión, la CDF simplemente se escribe
como F(x). Esta notación se utilizará en la siguiente discusión
cuando hablemos de manera general sobre una CDF de variable
aleatoria.
Variables aleatorias
Debido al hecho de que la CDF es una probabilidad, ésta
tiene las siguientes propiedades:
Donde x+ = x +  , con  siendo un número positivo e
infinitesimalmente pequeño.
Variables aleatorias
La función de densidad de probabilidades (PDF) de una
variable aleatoria x está definida como la derivada de CDF:
El término función de densidad se utiliza también
comúnmente. La PDF satisface las siguientes propiedades:
Variables aleatorias
Los conceptos anteriores se aplican también a variables
aleatorias discretas. En este caso, existe un número finito de
eventos y entónces hablamos de probabilidades, en lugar de
funciones de densidad de probabilidad. Las integrales se
reemplazan por sumatorias y, algunas veces, las variables
aleatorias son subíndices. Por ejemplo, en el caso de una
variable discreta con N valores posibles podemos denotar las
probabilidades por P(xi), i=1, 2,…, N.
Variables aleatorias
En la sección 3.3 del libro utilizan la notación p(rk), k = 0,1,…, L
- 1, para referirse al histograma de una imágen con L posibles
niveles de gris, rk, k = 0,1,…, L - 1, donde p(rk) es la
probabilidad de que el k-ésimo nivel de gris (evento aleatorio)
ocurra. La variable discreta aleatoria en este caso son los niveles
de gris. Generalmente es claro, por contexto, si uno está
trabajando con variables aleatorias discretas o contínuas, y si es o
no necesario el uso de subíndices por claridad. También, las letras
mayúsculoas (e.g. P) se utilizan con frecuencia para distinguir
entre probabilidades y funciones de densidad de probabilidad
(e.g. p) cuando se utlizan juntas en la misma discusión.
Variables aleatorias
Si una variable aleatoria x es transformada por una función de
transformacion T(x) para producir una nueva variable aleatoria y,
la función de densidad de probabilidad de y puede ser obtenida
conociendo T(x) y la función de densidad de probabilidad de x,
como sigue:
dode los subíndices en las p se utilizan para denotar el hecho que
las funciones son diferentes, y las barras verticales significan el
valor absoluto. La función T(x) es monotónicamente creciente si
T(x1) < T(x2) para x1 < x2, y monotónicamente decreciente si
T(x1) > T(x2) for x1 < x2. La ecuación anterior es válida si T(x) es
una función monotónica creciente o decreciente
Valores esperados y momentos
El valor esperado de una función g(x) de una variable
aleatoria contínua se define como:
Si la variable aleatoria es discreta la definición cambia por:
Valores esperados y momentos
El valor esperado es una de las operaciones más frecuentes
cuando se trabaja con variables aleatorias. Por ejemplo, el
valor esperado de una variable aleatoria x se obtiene
haciendo que g(x)=x:
cuando x es contínua y
cuando x es discreta. El valor esperado de x es igual a su
valor promedio (o media), por lo tanto se utiliza notación
equivalente como y m
Valores esperados y momentos
La varianza de una variable aleatoria, denotada como 2, se
obtiene haciendo que g(x)=x2 lo cual da:
para una variables aleatorias contínuas y
para una variables discretas.
Valores esperados y momentos
Es de particular importancia la varianza de una variable
aleatoria que ha sido normalizada, sustrayendo su media. En
este caso a la varianza es:
y
para variables aleatorias contínuas y discretas,
respectivamente. La raíz cuadrada de la varianza es llamada
desviación estándar, y se denota por  .
Valores esperados y momentos
Podemos continuar por esta línea de razonamiento y definir el nésimo momento central de una variable aleatoria contínua
haciendo g(x)=(x-m)n :
y
para variables discretas, asumimos que n>0. Claramente µ0=1,
µ1=0, y µ2=². Cuando hablamos de momentos, el término central
indica que la media de las variables aleatorias ha sido sustraída.
Los momentos definidos con anterioridad donde la media no ha
sido sustraída se llaman momentos respecto del origen.
Valores esperados y momentos
En el procesamiento de imágenes los momentos son utilizados con una
gran variedad de propósitos, incluyendo el procesamiento del
histograma, segmentación y la descripción. En general, los momentos
son utilizados para caracterizar la función de densidad de
probabilidades de una variable aleatoria. Por ejemplo, el segundo,
tercer y cuarto momentos centrales están íntimamente relacionados con
la forma de la función de densidad de probabilidad de la variable
aleatoria. El segundo momento central (varianza centralizada) es una
medida de que tan extendidos están los valores de la variable aleatoria
en relación al promedio, el tercer momento central es una medida del
“skewness” (sesgo hacia la derecha o izquierda) de los valores de x
respecto al valor de la media, y el cuarto momento es una medida
relativa de que tan plana es (flatness). En general, conociendo todos
los momentos de la densidad se especifíca dicha densidad.
Valores esperados y momentos
Ejemplo: Considere un experimento que consiste en
disparar un rifle a un tiro al blanco, y supóngase que
queremos caracterizar el comportamiento de los impactos de
las balas en el tiro al blanco en términos de ver si estamos
tirando alto o bajo. Dividimos el tiro al blanco en dos
regiones: arriba y abajo definiendo una línea horizontal. Los
eventos de interés son distancias verticales desde el centro
donde impacta la bala hasta esta línea horizontal. Las
distancias por arriba de la línea se consideran positivas y las
distancias por debajo se consideran negativas. La distancia es
cero cuando la bala le pega a la línea.
Valores esperados y momentos
En este caso, definimos a la variable aleatoria directamente como el
valor de las distancias en nuestro conjunto de muestreo. La media de la
variable aleatoria indica, en promedio, si estamos disparando por arriba
o por abajo. Si la media es cero, sabemos que el promedio de nuestros
disparos están sobre línea. Sin embargo, la media no nos dice qué tanto
nuestros tiros se desvían de la horizontal. La varianza (o desviación
estándar) nos dará una idea de qué tanto se extienden los tiros. Una
varianza pequeña indica que todos los tiros están muy cercanos en un
grupo (con respecto a la media, y con la línea vertical), una varianza
grande indica lo opuesto. Finalmente, un tercer momento igual a cero,
nos dirá que la extensión de los disparos es simétrico respecto al valor
de la media, un tercer momento positivo nos indicará un alto sesgo, y
un tercer momento negativo nos indicará que estamos disparanto más
bajo que lo que lo estamos haciando alto con respecto al valor de la
media.
Función de Densidad de Probibilidad
Gausiana
Debido a su importancia, nos enfocaremos a la función de densidad de
probabilidad Gausiana para ilustrar muchos de los conceptos que
hemos visto, así como la base de la generalización para más de una
variable aleatoria. En la sección 5.2.2 del libro se verán otros ejemplos
de funciones de densidad.
Una variable aleatoria es llamada Gausiana si tiene una función de
densidad de probabilidad de la forma:
donde m y  son como se han definido anteriormente. El término
normal también se utiliza para referirse a la densidad Gausiana.
PDF Gausiana
La función de distribución acumulada correspondiente a la
densidad Gausiana es:
la cual, como se mencionó anteriomente, interpretamos como la
probabilidad de que la variable aleatoria caiga dentro de un
intervalo de menos infinito a un valor arbitrario de x. Esta integral
no tiene una solución conocida de forma cerrada, y debe ser
resuelta por algún método de aproximación numérica. Existen
tablas extensas para la CDF Gausiana.
Múltiples variables aleatorias
En el ejemplo anterior, utilizamos una sóla variable aleatoria para
describir el comportamiento de los disparos con el rifle respecto a
una línea horizontal que pasa por el centro del tiro al blanco. A
pesar de que esta es una infomación es útil, ciertamente deja
mucho que desear en términos de decirnos qué tan bien estamos
disparando respecto al centro del tiro al blanco. Para poder hacer
ésto necesitamos de dos variables aleatorias que mapearán
nuestros eventos en el plano xy. Si necesitaramos describir
nuestros eventos en 3-D necesitaríamos de 3 variables aleatorias.
En general, consideraremos en esta sección el caso de n variables
aleatorias, que denotaremos como x1, x2,…, xn (el uso de n aquí
no está relacionado con la notación utilizada para el n-ésimo
momento de una variable aleatoria).
Múltiples variables aleatorias
Es conveniente utilizar notación vectorial cuando trabajamos con
múltiples variables aleatorias. Por lo tanto, represantamos un vector de
variables aleatorias x como:
Entónces, por ejemplo, la función de distribución acumulada anterior
se vuelve, cuando utilizamos vectores:
Múltiples variables aleatorias
Como anteriormente, cuando no hay posibilidad de confusión, la
CDF de un vector de variables aleatorias generalmente se
escribe como F(x). Esta notación se utilizará en la discusión
siguiente cuando hablemos de manera general de la CDF de un
vector de variables aleatorias.
Como en el caso de una sóla variable, la función de densidad de
probabilidad de un vector de variables aleatorias está definido en
términos de las derivadas de la CDF; esto es:
Múltiples variables aleatorias
El valor esperado (esperanza) de una función de x está
definido como:
de manera similar que el valor esperado para una sóla
variable aleatoria.
Múltiples variables aleatorias
Los casos que tratan con operaciones de valores esperados
(esperanza) que involucran pares de elementos de x son de
particular importancia. Por ejemplo, el momento conjunto
(respecto al origen) de orden kq entre las variables xi y xj está
dado por:
Múltiples variables aleatorias
Cuando trabajemos con cualesquiera dos variables aleatorias
(cualesquera dos elementos de x) es de práctica común
simplificar la notación utilizando x y y para denotar las
variables aleatorias. En este caso el momento conjunto que
definimos se vuelve:
Se puede ver que k0 es el k-ésimo momento de x y 0q es el
q-ésimo momento de y, como se definió anteriormente.
Múltiples variables aleatorias
Al momento 11 = E[xy] se llama correlación de x y y. Como
se discutirá en los capítulos 4 y 12 del libro de González, la
correlación es un concepto importante en procesamiento de
imágenes. De hecho, es importante en la mayoría de las áreas
de procesamiento de señales, donde se le da típicamente el
símbolo especial Rxy :
Múltiples variables aleatorias
Si la condición
se cumple, entónces se dice que dos variables aleatorias están
decorrelacionadas (no-correlacionadas). De nuestra discusión
previa, sabemos que x y y son estadísticamente independientes,
por lo tanto p(x,y)=p(x)p(y), en cuyo caso escribimos:
Por lo tanto, vemos que si dos variables aleatorias son
estadísticamente independientes entónces están también
decorrelacionadas. El contrario de esta afirmación no es
verdadero en general.
Múltiples variables aleatorias
El momento central conjunto de orden kq que involucra a las
variables aleatorias x y y se define como:
donde mx = E[x] y my = E[y] son las medias de x y y, como se
definieron con anterioridad. Notamos que:
y
son las varianzas de x y y, respectivamente.
Múltiples variables aleatorias
El momento µ11
se llama la covarianza de x y y . Como en el caso de la
correlación, lo covarianza es un concepto importante,
generalmente se la da el símbolo especial de Cxy .
Múltiples variables aleatorias
Utilizando expansión directa de los términos del valor
esperado dentro de los corchetes, y recordando que mx =
E[x] y my = E[y], se puede ver que:
De la discusión de correlación, vemos que la covarianza es
cero si las variables aleatorias son ya sea decorrelacionadas
o estadísticamente independientes. Este es un resultado
importante que debemos recordar.
Múltiples variables aleatorias
Si dividimos la covarianza por la raíz cuadrada del producto de sus
varianzas obtenemos:
La cantidad  se llama el coeficiente de correlación de las varaibles
aleatorias x y y . Se puede mostrar que  está en el rango –1    1 (ver
el problema 12.5). El coeficiente de correlación se utiliza en el proceso
de registro de imágenes.
Densidad Gausiana multivariable.
Como un ejemplo de la función de densidad de probabilidad para
más de una variable aleatoria, consideramos la función de
densidad de probabilidad Gausiana, definida como:
donde n es la dimensionalidad (número de componentes) del
vector aleatorio x, C es la matriz de covarianza (que se definirá a
continuación), | C | es el determiante de la matrix C, m es el
vector media (que también se definirá a continuación) y T indica
la transposición (ver repaso de matrices y vectores).
Densidad Gausiana multivariable.
El vector media se difine como:
y la matriz de covarianza se define como:
Densidad Gausiana multivariable.
Los elementos de C son las covarianzas de los elementos de
x, tal que:
donde, por ejemplo, xi es el i-ésimo componente de x y mi es
el i-ésimo componente de m .
Densidad Gausiana multivariable.
Las matrices de covarianza son reales y simétricas (ver
repaso de matrices y vectores). Los elementos a lo largo de la
diagonal principal de C son las varianzas de los elementos
de x, tal que cii= xi². Cuando todos los momentos de x están
decorrelacionados o son estadísticamente independientes, cij
= 0 , y la matriz de covarianza se vuelve una matriz
diagonal. Si todas las varianzas son iguales, entónces la
matriz de covarianza se vuelve proporcional a la matriz
identidad, la constante de proporcionalidad que es igual a la
varianza de los elementos de x.
Densidad Gausiana multivariable.
Ejemplo: Considere la siguiente función de densidad de
probabilidad Gausiana bivariante (n=2):
con
y
Densidad Gausiana multivariable.
donde, como sabemos que C es simétrica, c12 = c21. Un
diagrama esquemático de esta densidad se presenta en la parte
(a) de la figura. La parte (b) es una rebanada horizontal de (a).
Densidad Gausiana multivariable.
Del repaso de matrices y vectores , sabemos que las direcciones
principales donde se expanden los datos son las direcciones de los
eigenvectores de C. Además, si las variables están decorrelacionadas o
son estadísticamente independientes, la matriz de covarianza será la
diagonal y los eigenvectores estarán en las mismas direcciones que los
ejes coordenados x1 y x2 (y la elipse mostrada estará orientada a lo
largo de los ejes x1 y x2).
Densidad Gausiana multivariable.
Si las varianzas a lo largo de la diagonal principal son iguales, la
densidad será simétrica en todas las direcciones (en forma de una
campana) y la parte (b) será un círculo. Note que en las partes (a)
y (b) la densidad está centrada en los valores medios (m1,m2).
Densidad Gausiana multivariable.
Como se discutió en el repaso de matrices y vectores, una
transformación lineal de un vector x para producir un vector y es
de la forma y=Ax. Un caso particular en nuestro trabajo es
cuando las filas de A son los eigenvectores de la matriz de
covarianza. Debido a que C es real y simétrica, sabemos por
nuestro repaso de matrices y vectores que siempre es posible
encontrar n eigenvectores ortonormales con los cuales formar A.
Las implicaciones de ésto son importantes y se sugiere al lector
volver a repasar sus apuntes de matrices y vectores.
Instituto de Investigaciones en
Matemáticas Aplicadas y en Sistemas
(IIMAS)
http://turing.iimas.unam.mx/~elena/Teaching/PDI-Lic.html
Descargar