Curso de Procesamiento Digital de Imágenes Impartido por: Elena Martínez Departamento de Ciencias de la Computación IIMAS, UNAM, cubículo 408 http://turing.iimas.unam.mx/~elena/Teaching/PDI-Lic.html [email protected] Repaso de Probabilidad Objetivo: Proveer del material necesario sobre probabilidad y variables aleatorias que serán de utilidad para los temas del curso de Procesamiento Digital de Imágenes que se basan en éstos tópicos. Material extraído de: www.imageprocessingbook.com © 2001 Gonzalez & Woods. Conjuntos y operaciones sobre conjuntos Los eventos probabilísticos son modelados como conjuntos, por lo que es costumbre iniciar el estudio de la probabilidad con los conjuntos y algunas operaciones simples sobre ellos. Un conjunto es una colección de objetos, cada uno de los cuales generalmente se les refiere como elementos o miembros del conjunto. Ejemplos familiares incluyen el conjunto de todos los libros de procesamiento de imágenes en el mundo, el conjunto de los números primos, y el conjunto de planetas que circundan el sol. Típicamente, los conjuntos se representan con letras mayúsculas como A, B y C, y a los miembros de los conjuntos por letras minúsculas como a, b y c. Conjuntos y operaciones sobre conjuntos Denotamos el hecho de que un elemento a pertenece a un conjunto A como: Si a no es elemento de A, entónces escribimos: Un conjunto puede ser especificado por una lista de todos sus elementos, o por una lista de las propiedades en común de todos sus elementos. Por ejemplo, supongase que I es el conjunto de todos los enteros. Un conjunto B que consiste de cinco elementos diferentes de cero se especifica con la siguiente notación: Conjuntos y operaciones sobre conjuntos El conjunto de todos los enteros menores de 10 se especifica utilizando la notación: la cual leemos como “C es el conjunto elementos c que pertenecen a los enteros tal que todos sus miembros son menores de 10”. La condición “tal que” se detonta por el símbolo “|” . Como se ve en las dos ultimas ecuaciones, los elementos del conjunto se encierran entre llaves. El conjunto sin elementos se llama vacío o el conjunto nulo, y se denota con el símbolo . Conjuntos y operaciones sobre conjuntos Se dice que dos conjuntos A y B son iguales sí y sólo sí contienen los mismos elementos. El conjunto igualdad se denota por: Si los elementos de dos conjuntos no son iguales, entónces decimos que los conjuntos son diferentes, y se denota por: Si todo elemento de B es también elemento de A, decimos que B es un subconjunto de A: Conjuntos y operaciones sobre conjuntos Finalmente consideramos el concepto de conjunto universal, el cual denotamos como U y se define como el conjunto que contienen todos los elementos de interés en una situación dada. Por ejemplo, en un experimento de lanzar una moneda, existen dos resultados diferentes (realísticamente): cara o cruz. Si denotamos cara por H y cruz por T, el conjunto universal en este caso será {H,T}. De manera similar, el conjunto universal del experimento de lanzar un solo dado tiene seis posibles resultados, en este caso U={1, 2, 3, 4, 5, 6}. Por razones obvias, al conjunto universal generalmente se le llama espacio de muestreo, que se denota por S. Por lo tanto, para cualquier conjunto A, asumimos que A S, y para cada elemento a, a S y a . Operaciones básicas con conjuntos Dos conjuntos que no tienen elementos en común se dice que son disconjuntos o mutuamente exclisuvos, en cuyo caso: El complemento de un conjunto A se define como: Claramente (Ac)c=A. Algunas veces el complemento de A se denota como La diferencia de dos conjuntos A y B, denotada como A-B, es el conjunto de elementos que pertenecen a A, pero que no pertenecen a B. En otras palabras: Operaciones básicas con conjuntos Se puede verificar que: La operación de unión se aplica a múltiples conjuntos. Por ejemplo, la unión de los conjuntos A1,A2,…,An es el conjunto de puntos que pertenecen a por lo menos uno de estos conjuntos. De manera similar se aplica para la intersección de múltiples conjuntos. La siguiente tabla sumariza algunas relaciones importantes entre conjuntos. Las pruebas de estas relaciones se pueden encontrar en cualquier libro de teoría elemental de conjuntos. Operaciones básicas con conjuntos Operaciones básicas con conjuntos Es común representar a los conjuntos y a las operaciones sobre ellos con los llamados diagramas de Venn, en donde S se representa como un rectángulo, los conjuntos se representan como áreas (típicamente círculos), y los elementos se asocian con puntos. El siguiente ejemplo muestra su uso. Ejemplo: Las áreas sombreadas (conjunto de puntos) son el resultado de las operaciones que se indican en la figura. Los diagramas de la fila superior se explican por sí mismos. Los diagramas en la fila inferior se utilizan para probar la validéz de la expresión: Operaciones básicas con conjuntos Frecuencia relativa & Probabilidad Un experimento aleatorio es un experimento en donde no es posible predecir el resultado. Tal vez el experimento aleatorio más conocido es el de lanzar una moneda al aire. Asumiendo que la moneda no está sesgada, utilizamos el concepto que dice que, en promedio, la mitad de las veces se produce cara (H) y la otra mitad cruz (T). Lo anterior es intuitivo y no lo cuestionamos. De hecho, muy pocos de nosostros nos hemos tomado el tiempo para verificar si es verdadero. Si lo hemos hecho, hemos utilizado el concepto de frecuencia relativa. Sea n el total de número de veces que lanzamos la moneda al aire, nH el número de caras mostradas y nT el número de cruces. Claramente tenemos: Frecuencia relativa & Probabilidad Dividiendo ambos lados entre n nos da: El término nT/n se llama frecuencia relativa del evento al que hemos llamado H, y de manera similar nT/n .Si realizamos el experimento de lanzar la moneda un número muy grande de veces, encontraremos que cada una de estas frecuencias relativas tienden a estabilizarse, limitando el valor. A este valor lo llamamos probabilidad del evento, y se denota por P(evento). Frecuencia relativa & Probabilidad En el ejemplo anterior las probabilidades de interés son P(H) y P(T). Sabemos que en este caso que P(H)=P(T)=1/2. Note que el evento de un experimento no significa un sólo resultado. Por ejemplo, en el lanzamiento de la moneda podemos hacer a D un evento que denote “cara o cruz” (así definimos el evento) y al evento E, “ni cara ni cruz”. Entónces, P(D)=1 y P(E)=0. La primera propiedad importante de P es que para un evento A Esto es, la probabilidad de un evento es un número positivo entre 0 y 1. Para un cierto evento S: Frecuencia relativa & Probabilidad Aqui “un cierto evento” significa que el resultado es del conjunto universal o del espacio de muestreo, S. Similarmente, tenemos que para un evento imposible Sc : Esta es la probabilidad de que un evento esté fuera del conjunto universal o del espacio de muestreo. En el ejemplo dado anteriormente, S=D y Sc=E. Frecuencia relativa & Probabilidad El evento que puede ser la ocurrencia de cualquiera de los evento A o B o ambos es simplemente la unión de A y B (recuerde que los eventos pueden ser conjuntos). Anteriormente denotamos la unión de dos conjuntos como AB. Generalmente encontramos una notación equivalente A+B de manera indistinta en algunos libros de probabilidad. Similarmente, el evento de que ambos A y B ocurran está dado por la intersección de A y B, que denotamos como AB. La notación equivalente sería AB que es utilizada con más frecuencia para denotar la ocurrencia de ambos eventos en un experimento. Frecuencia relativa & Probabilidad Supóngase que conducimos nuestro experimento n número de veces. Sea n1 el número de veces que ocurre el evento A; sea n2 el número de veces que ocurre el evento B; n3 el número de veces que ocurre AB; y n4 el número de veces que ocurre el evento no A no B. Claramente, n1+n2+n3+n4=n. Utilizando estos números obtenemos las siguientes frecuencias relativas: Frecuencia relativa & Probabilidad y Utilizando la definición de probabilidad basada en frecuencias relativas tenemos el resultado importante: Si A y B son mutuamente exclusivos se tiene que el conjunto AB es vacío y, consecuentemente, P(AB)=0. Frecuencia relativa & Probabilidad La frecuencia relativa de la ocurrencia de un evento A, dado que ocurre un evento B, está dada por: Esta probabilidad condicionada se denota por P(A|B), donde el símbolo “|” denota ocurrencia condicional. Es terminología común referirse a P(A|B) como la probabilidad de A dado B. Frecuencia relativa & Probabilidad De manera similar, la frecuencia relativa de la ocurrecia de B dada la ocurrencia de un evento A es: Llamamos a ésta la frecuencia relativa de probabilidad de B dado A, y se denota por P(B|A). Frecuencia relativa & Probabilidad Un poco de manipulación del resultado anterior da lugar a la siguiente relación importante: y La segunda expresión puede ser escrita como: la cual es conocida como el Teorema de Bayes, llamada así por ser planteada por Thomas Bayes en el siglo 18. Frecuencia relativa & Probabilidad Ejemplo: Supónga que queremos extender la expresión: a tres variables A, B y C. Recordando que AB es lo mismo que AB, reemplazamos B por BC en la ecuación anterior: El segundo término de la derecha se puede escribir como: De la tabla vista anteriormente, sabemos que: Frecuencia relativa & Probabilidad así: El agrupamiento de términos nos da el resultado final: Procediendo de manera similar tenemos: El método anterior puede ser utilizado para generalizar estas espresiones para N eventos. Frecuencia relativa & Probabilidad Si A y B son estadísticamente independientes, entónces P(B|A)=P(B) y de ésto tenemos: y Se dijo antes que si los conjuntos (eventos) A y B son mutuamente exclusivos, entónces AB = de donde sigue que P(AB)=AB =0. Como se ha mostrado, los dos conjuntos son estadísticamente independientes si P(AB)=P(A)P(B), que asumimos que son, en general, diferentes de cero. Por lo tanto, concluímos que para que dos eventos sean estadísticamente independientes, no pueden ser mutuamente exclusivos. Frecuencia relativa & Probabilidad Para que tres eventos A, B y C sean independientes, debe cumplirse que: y Frecuencia relativa & Probabilidad En general, para que N eventos sean estadísticamente independientes, debe cumplirse que, para todas las posibles combinaciones 1 i j k . . . N : Frecuencia relativa & Probabilidad Ejemplo: (a) Un experimento consiste en tirar un sólo dado dos veces. La probabilidad de que caiga una de las 6 caras, 1 al 6, en cada intento es de 1/6. Supóngase que queremos encontrar la probabilidad que caiga un 2 seguido de un 4. Estos dos eventos son estadísticamente independientes (el segundo evento no depende de la ocurrencia del primero). Hagamos que A represente al 2 y B al 4. Llegaríamos al mismo resultado definiendo “2 seguido de 4” como el evento C. El espacio de muestreo de todas los resultados posibles de dos tiradas de un dado son 36. Entónces P(C)=1/36. Frecuencia relativa & Probabilidad Ejemplo (cont.): (b) Considere ahora un experimento en el que sacamos una carta de una baraja de cartas estándar de 52 cartas. Sea A el evento de que salga un rey, y B el evento de que salga una reina o un jack, y sea C el evento de que salga una carta con diamante. Las frecuencias relativas de cada evento mostrarían: y Frecuencia relativa & Probabilidad Ejemplo (cont.): Además: y Los eventos A y B son mutuamente exclusivos (estamos sacando sólo una carta, así que sería imposible sacar un rey y una reina o jack simultáneamente). Por lo tanto, de la discusión anterior tenemos que P(AB)=P(AB)=0 [y también que P(AB) P(A)P(B) ]. Frecuencia relativa & Probabilidad Ejemplo (cont.): (c) Como experimento final, considere la baraja de 52 cartas nuevamente. Sean A1, A2, A3, y A4 los eventos de sacar un as en una de cada cuatro tomas sucesivamente. Si regresamos a la baraja la carta sacada antes de sacar la siguiente, entónces los eventos son estadísticamente independientes y de aquí tenemos que: Frecuencia relativa & Probabilidad Ejemplo (cont.): Supóngase ahora que no regresamos las cartas a la baraja. Los eventos ya no son más estadísticamente independientes. De los resultados del ejemplo anterior tenemos: Por lo tanto, vemos que al no regresar las cartas a la baraja se reduce nuestra suerte de sacar 4 ases sucesivamente en un factor cercano a 10. Esta diferencia significativa es quizás mayor de lo que hubieramos esperado por intuición. Variables aleatorias Las variables aleatorias generalmente son fuente de confusión cuando uno se las encuentra por primera vez. Una variable aleatoria, x, es una función real-valuada definida en los eventos de un espacio de muestreo, S. En otras palabras, para cada evento en S, existe un número real que es el valor correspondiente de una variable aleatoria. Visto de otra manera, una variable aleatoria mapea cada evento en S en el eje de los reales (real line). Variables aleatorias Parte de la confusión que se encuentra en conexión con las variables aleatorias es el hecho de que son funciones. La notación es parte responsable del problema. En otras palabras, aunque la notación utilizada típicamente para representar las variables aleatorias es, x, para ser extrictamente formal debería ser escrita como x(•) donde el argumento es el evento específico que se está considerendo. Sin embargo, casi nunca si hace así, y en nuestra experienca tratar de utilizar la notación correcta confunde más que ayudar. Por lo tanto, aquí se optará por la notación menos formal, con la advertancia de que se debe tener siempre en mente que las variables aleatorias son funciones. Variables aleatorias Ejemplo: Considere nuevamente el ejemplo de sacar una sola carta de la baraja estandar de 52 cartas. Supóngase que difinimos los siguientes eventos: A un corazón, B una espada, C una pica y D un diamante, de manera que S={A,B,C,D}. Se define una variable aleatoria haciendo x=1 que represente el evento A, x=2 el evento B y así sucesivemente. Como una segunda ilustración, considere el experimento de tirar un sólo dado y observar el valor de la cara resultante. Definimos la variable aleatoria como el resultado númerico del experimento (i.e. 1 a 6), pero hay muchas otras posibilidades. Por ejemplo, una variabla aleatoria binaria puede ser definida simplmente haciendo x=0 si el resultado del evento es un número impar y x=1 de otra manera. Variables aleatorias Note el hecho importante en los ejemplos anteriores que la probabilidad de los eventos no ha cambiado, todo lo que la variable aleatoria hace es mapear los eventos a la línea real (eje de los reales). Variables aleatorias Hasta el momento hemos estado hablando de variables aleatorias cuyos valores son discretos. Para manejar variables aleatorias contínuas necesitamos herramientas adicionales. En el caso discreto, las probabilidades de eventos son números que están entre 0 y 1. Cuando trabajamos con cantidades contínuas no podemos hablar ya más de la “probabilidad de un evento” porque esa probabilidad es cero. Esto no es tan poco familiar como puede sonar. Por ejemplo, dada una función contínua sabemos que el área de la función entre dos límites a y b es la integral de la función de a a b. Sin embargo, el área en un punto es cero porque su integral va, por decir, de a a a y es cero. Estamos tratando con el mismo concepto en el caso de variables aleatorias contínuas. Variables aleatorias Por lo tanto, en vez de hablar de la probabilidad de un valor específico, hablamos de la probabilidad de que un valor específico de la variable aleatoria caiga dentro de un rango específico. En particular, estamos interesados en la probabilidad de que la variable aleatoria sea menor o igual a (o de manera similar, mayor o igual a) una constante específica a. Esto es: Si esta función está dada por todos los valores de a (i.e. - < a < ), entónces los valores de la variable aleatoria x han sido definidos. La función F se llama función de distribución de probabilidades acumuladas (CDF). El término corto que también se utiliza es función de distribución. Variables aleatorias Observe que la notación que hemos usado no hace distinción entre la variable aleatoria y los valores que ésta asume. Si creen empezar a confundirse!, podemos utilizar una notación más formal en donde utilizamos letras mayúsculas para denotar la variable aleatoria y letras minúsculas para denotar sus valores. Por ejemplo, la CDF que utiliza esta notación se escribe como: Cuando no existe confusión, la CDF simplemente se escribe como F(x). Esta notación se utilizará en la siguiente discusión cuando hablemos de manera general sobre una CDF de variable aleatoria. Variables aleatorias Debido al hecho de que la CDF es una probabilidad, ésta tiene las siguientes propiedades: Donde x+ = x + , con siendo un número positivo e infinitesimalmente pequeño. Variables aleatorias La función de densidad de probabilidades (PDF) de una variable aleatoria x está definida como la derivada de CDF: El término función de densidad se utiliza también comúnmente. La PDF satisface las siguientes propiedades: Variables aleatorias Los conceptos anteriores se aplican también a variables aleatorias discretas. En este caso, existe un número finito de eventos y entónces hablamos de probabilidades, en lugar de funciones de densidad de probabilidad. Las integrales se reemplazan por sumatorias y, algunas veces, las variables aleatorias son subíndices. Por ejemplo, en el caso de una variable discreta con N valores posibles podemos denotar las probabilidades por P(xi), i=1, 2,…, N. Variables aleatorias En la sección 3.3 del libro utilizan la notación p(rk), k = 0,1,…, L - 1, para referirse al histograma de una imágen con L posibles niveles de gris, rk, k = 0,1,…, L - 1, donde p(rk) es la probabilidad de que el k-ésimo nivel de gris (evento aleatorio) ocurra. La variable discreta aleatoria en este caso son los niveles de gris. Generalmente es claro, por contexto, si uno está trabajando con variables aleatorias discretas o contínuas, y si es o no necesario el uso de subíndices por claridad. También, las letras mayúsculoas (e.g. P) se utilizan con frecuencia para distinguir entre probabilidades y funciones de densidad de probabilidad (e.g. p) cuando se utlizan juntas en la misma discusión. Variables aleatorias Si una variable aleatoria x es transformada por una función de transformacion T(x) para producir una nueva variable aleatoria y, la función de densidad de probabilidad de y puede ser obtenida conociendo T(x) y la función de densidad de probabilidad de x, como sigue: dode los subíndices en las p se utilizan para denotar el hecho que las funciones son diferentes, y las barras verticales significan el valor absoluto. La función T(x) es monotónicamente creciente si T(x1) < T(x2) para x1 < x2, y monotónicamente decreciente si T(x1) > T(x2) for x1 < x2. La ecuación anterior es válida si T(x) es una función monotónica creciente o decreciente Valores esperados y momentos El valor esperado de una función g(x) de una variable aleatoria contínua se define como: Si la variable aleatoria es discreta la definición cambia por: Valores esperados y momentos El valor esperado es una de las operaciones más frecuentes cuando se trabaja con variables aleatorias. Por ejemplo, el valor esperado de una variable aleatoria x se obtiene haciendo que g(x)=x: cuando x es contínua y cuando x es discreta. El valor esperado de x es igual a su valor promedio (o media), por lo tanto se utiliza notación equivalente como y m Valores esperados y momentos La varianza de una variable aleatoria, denotada como 2, se obtiene haciendo que g(x)=x2 lo cual da: para una variables aleatorias contínuas y para una variables discretas. Valores esperados y momentos Es de particular importancia la varianza de una variable aleatoria que ha sido normalizada, sustrayendo su media. En este caso a la varianza es: y para variables aleatorias contínuas y discretas, respectivamente. La raíz cuadrada de la varianza es llamada desviación estándar, y se denota por . Valores esperados y momentos Podemos continuar por esta línea de razonamiento y definir el nésimo momento central de una variable aleatoria contínua haciendo g(x)=(x-m)n : y para variables discretas, asumimos que n>0. Claramente µ0=1, µ1=0, y µ2=². Cuando hablamos de momentos, el término central indica que la media de las variables aleatorias ha sido sustraída. Los momentos definidos con anterioridad donde la media no ha sido sustraída se llaman momentos respecto del origen. Valores esperados y momentos En el procesamiento de imágenes los momentos son utilizados con una gran variedad de propósitos, incluyendo el procesamiento del histograma, segmentación y la descripción. En general, los momentos son utilizados para caracterizar la función de densidad de probabilidades de una variable aleatoria. Por ejemplo, el segundo, tercer y cuarto momentos centrales están íntimamente relacionados con la forma de la función de densidad de probabilidad de la variable aleatoria. El segundo momento central (varianza centralizada) es una medida de que tan extendidos están los valores de la variable aleatoria en relación al promedio, el tercer momento central es una medida del “skewness” (sesgo hacia la derecha o izquierda) de los valores de x respecto al valor de la media, y el cuarto momento es una medida relativa de que tan plana es (flatness). En general, conociendo todos los momentos de la densidad se especifíca dicha densidad. Valores esperados y momentos Ejemplo: Considere un experimento que consiste en disparar un rifle a un tiro al blanco, y supóngase que queremos caracterizar el comportamiento de los impactos de las balas en el tiro al blanco en términos de ver si estamos tirando alto o bajo. Dividimos el tiro al blanco en dos regiones: arriba y abajo definiendo una línea horizontal. Los eventos de interés son distancias verticales desde el centro donde impacta la bala hasta esta línea horizontal. Las distancias por arriba de la línea se consideran positivas y las distancias por debajo se consideran negativas. La distancia es cero cuando la bala le pega a la línea. Valores esperados y momentos En este caso, definimos a la variable aleatoria directamente como el valor de las distancias en nuestro conjunto de muestreo. La media de la variable aleatoria indica, en promedio, si estamos disparando por arriba o por abajo. Si la media es cero, sabemos que el promedio de nuestros disparos están sobre línea. Sin embargo, la media no nos dice qué tanto nuestros tiros se desvían de la horizontal. La varianza (o desviación estándar) nos dará una idea de qué tanto se extienden los tiros. Una varianza pequeña indica que todos los tiros están muy cercanos en un grupo (con respecto a la media, y con la línea vertical), una varianza grande indica lo opuesto. Finalmente, un tercer momento igual a cero, nos dirá que la extensión de los disparos es simétrico respecto al valor de la media, un tercer momento positivo nos indicará un alto sesgo, y un tercer momento negativo nos indicará que estamos disparanto más bajo que lo que lo estamos haciando alto con respecto al valor de la media. Función de Densidad de Probibilidad Gausiana Debido a su importancia, nos enfocaremos a la función de densidad de probabilidad Gausiana para ilustrar muchos de los conceptos que hemos visto, así como la base de la generalización para más de una variable aleatoria. En la sección 5.2.2 del libro se verán otros ejemplos de funciones de densidad. Una variable aleatoria es llamada Gausiana si tiene una función de densidad de probabilidad de la forma: donde m y son como se han definido anteriormente. El término normal también se utiliza para referirse a la densidad Gausiana. PDF Gausiana La función de distribución acumulada correspondiente a la densidad Gausiana es: la cual, como se mencionó anteriomente, interpretamos como la probabilidad de que la variable aleatoria caiga dentro de un intervalo de menos infinito a un valor arbitrario de x. Esta integral no tiene una solución conocida de forma cerrada, y debe ser resuelta por algún método de aproximación numérica. Existen tablas extensas para la CDF Gausiana. Múltiples variables aleatorias En el ejemplo anterior, utilizamos una sóla variable aleatoria para describir el comportamiento de los disparos con el rifle respecto a una línea horizontal que pasa por el centro del tiro al blanco. A pesar de que esta es una infomación es útil, ciertamente deja mucho que desear en términos de decirnos qué tan bien estamos disparando respecto al centro del tiro al blanco. Para poder hacer ésto necesitamos de dos variables aleatorias que mapearán nuestros eventos en el plano xy. Si necesitaramos describir nuestros eventos en 3-D necesitaríamos de 3 variables aleatorias. En general, consideraremos en esta sección el caso de n variables aleatorias, que denotaremos como x1, x2,…, xn (el uso de n aquí no está relacionado con la notación utilizada para el n-ésimo momento de una variable aleatoria). Múltiples variables aleatorias Es conveniente utilizar notación vectorial cuando trabajamos con múltiples variables aleatorias. Por lo tanto, represantamos un vector de variables aleatorias x como: Entónces, por ejemplo, la función de distribución acumulada anterior se vuelve, cuando utilizamos vectores: Múltiples variables aleatorias Como anteriormente, cuando no hay posibilidad de confusión, la CDF de un vector de variables aleatorias generalmente se escribe como F(x). Esta notación se utilizará en la discusión siguiente cuando hablemos de manera general de la CDF de un vector de variables aleatorias. Como en el caso de una sóla variable, la función de densidad de probabilidad de un vector de variables aleatorias está definido en términos de las derivadas de la CDF; esto es: Múltiples variables aleatorias El valor esperado (esperanza) de una función de x está definido como: de manera similar que el valor esperado para una sóla variable aleatoria. Múltiples variables aleatorias Los casos que tratan con operaciones de valores esperados (esperanza) que involucran pares de elementos de x son de particular importancia. Por ejemplo, el momento conjunto (respecto al origen) de orden kq entre las variables xi y xj está dado por: Múltiples variables aleatorias Cuando trabajemos con cualesquiera dos variables aleatorias (cualesquera dos elementos de x) es de práctica común simplificar la notación utilizando x y y para denotar las variables aleatorias. En este caso el momento conjunto que definimos se vuelve: Se puede ver que k0 es el k-ésimo momento de x y 0q es el q-ésimo momento de y, como se definió anteriormente. Múltiples variables aleatorias Al momento 11 = E[xy] se llama correlación de x y y. Como se discutirá en los capítulos 4 y 12 del libro de González, la correlación es un concepto importante en procesamiento de imágenes. De hecho, es importante en la mayoría de las áreas de procesamiento de señales, donde se le da típicamente el símbolo especial Rxy : Múltiples variables aleatorias Si la condición se cumple, entónces se dice que dos variables aleatorias están decorrelacionadas (no-correlacionadas). De nuestra discusión previa, sabemos que x y y son estadísticamente independientes, por lo tanto p(x,y)=p(x)p(y), en cuyo caso escribimos: Por lo tanto, vemos que si dos variables aleatorias son estadísticamente independientes entónces están también decorrelacionadas. El contrario de esta afirmación no es verdadero en general. Múltiples variables aleatorias El momento central conjunto de orden kq que involucra a las variables aleatorias x y y se define como: donde mx = E[x] y my = E[y] son las medias de x y y, como se definieron con anterioridad. Notamos que: y son las varianzas de x y y, respectivamente. Múltiples variables aleatorias El momento µ11 se llama la covarianza de x y y . Como en el caso de la correlación, lo covarianza es un concepto importante, generalmente se la da el símbolo especial de Cxy . Múltiples variables aleatorias Utilizando expansión directa de los términos del valor esperado dentro de los corchetes, y recordando que mx = E[x] y my = E[y], se puede ver que: De la discusión de correlación, vemos que la covarianza es cero si las variables aleatorias son ya sea decorrelacionadas o estadísticamente independientes. Este es un resultado importante que debemos recordar. Múltiples variables aleatorias Si dividimos la covarianza por la raíz cuadrada del producto de sus varianzas obtenemos: La cantidad se llama el coeficiente de correlación de las varaibles aleatorias x y y . Se puede mostrar que está en el rango –1 1 (ver el problema 12.5). El coeficiente de correlación se utiliza en el proceso de registro de imágenes. Densidad Gausiana multivariable. Como un ejemplo de la función de densidad de probabilidad para más de una variable aleatoria, consideramos la función de densidad de probabilidad Gausiana, definida como: donde n es la dimensionalidad (número de componentes) del vector aleatorio x, C es la matriz de covarianza (que se definirá a continuación), | C | es el determiante de la matrix C, m es el vector media (que también se definirá a continuación) y T indica la transposición (ver repaso de matrices y vectores). Densidad Gausiana multivariable. El vector media se difine como: y la matriz de covarianza se define como: Densidad Gausiana multivariable. Los elementos de C son las covarianzas de los elementos de x, tal que: donde, por ejemplo, xi es el i-ésimo componente de x y mi es el i-ésimo componente de m . Densidad Gausiana multivariable. Las matrices de covarianza son reales y simétricas (ver repaso de matrices y vectores). Los elementos a lo largo de la diagonal principal de C son las varianzas de los elementos de x, tal que cii= xi². Cuando todos los momentos de x están decorrelacionados o son estadísticamente independientes, cij = 0 , y la matriz de covarianza se vuelve una matriz diagonal. Si todas las varianzas son iguales, entónces la matriz de covarianza se vuelve proporcional a la matriz identidad, la constante de proporcionalidad que es igual a la varianza de los elementos de x. Densidad Gausiana multivariable. Ejemplo: Considere la siguiente función de densidad de probabilidad Gausiana bivariante (n=2): con y Densidad Gausiana multivariable. donde, como sabemos que C es simétrica, c12 = c21. Un diagrama esquemático de esta densidad se presenta en la parte (a) de la figura. La parte (b) es una rebanada horizontal de (a). Densidad Gausiana multivariable. Del repaso de matrices y vectores , sabemos que las direcciones principales donde se expanden los datos son las direcciones de los eigenvectores de C. Además, si las variables están decorrelacionadas o son estadísticamente independientes, la matriz de covarianza será la diagonal y los eigenvectores estarán en las mismas direcciones que los ejes coordenados x1 y x2 (y la elipse mostrada estará orientada a lo largo de los ejes x1 y x2). Densidad Gausiana multivariable. Si las varianzas a lo largo de la diagonal principal son iguales, la densidad será simétrica en todas las direcciones (en forma de una campana) y la parte (b) será un círculo. Note que en las partes (a) y (b) la densidad está centrada en los valores medios (m1,m2). Densidad Gausiana multivariable. Como se discutió en el repaso de matrices y vectores, una transformación lineal de un vector x para producir un vector y es de la forma y=Ax. Un caso particular en nuestro trabajo es cuando las filas de A son los eigenvectores de la matriz de covarianza. Debido a que C es real y simétrica, sabemos por nuestro repaso de matrices y vectores que siempre es posible encontrar n eigenvectores ortonormales con los cuales formar A. Las implicaciones de ésto son importantes y se sugiere al lector volver a repasar sus apuntes de matrices y vectores. Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS) http://turing.iimas.unam.mx/~elena/Teaching/PDI-Lic.html