Concepto de VA bidimensional Juego de dardos: • Cada lanzamiento es un experimento aleatorio. Tema 3: VARIABLE ALEATORIA BIDIMENSIONAL • Los errores (respecto del centro) en sentido horizontal serían realizaciones de las VA X. Carlos Alberola López • Los errores (respecto del centro) en sentido vertical serían realizaciones de las VA Y. Lab. Procesado de Imagen, ETSI Telecomunicación Despacho 2D014 [email protected], [email protected], http://www.lpi.tel.uva.es/sar • ¿Cuándo será mejor un jugador que otro? Cuando más frecuentemente (probablemente) alcance mayor puntuación. • Necesitamos pues herramientas bidimensionales …. Concepto de VA bidimensional Concepto de VA bidimensional Una modulación digital: • Se envían símbolos durante un tiempo T de la forma: X con Un modelo real presenta ruido!!! • Diseño de regiones de decisión para minimizar probabilidad de error: sectores angulares similares a la diana. (X, Y ) Y Pc: Como norma general no es conocida a partir del conocimiento exclusivo de P1 y P2 • Valor de A que garantiza una determinada calidad en el servicio. 1 Caracterización de VA bidimensional Caracterización de VA bidimensional A) Función de distribución conjunta A) Función de distribución conjunta y y y y {Y ≤ y} {Y ≤ y} {X ≤ x}× S2 x {X ≤ x} {X ≤ x} x x x Caracterización de VA bidimensional Caracterización de VA bidimensional A) Función de distribución conjunta A) Función de distribución conjunta y y S1 × {Y ≤ y} y {X ≤ x}× S2 I S1 × {Y ≤ y} S1 × {Y ≤ y} y {X ≤ x}I {Y ≤ y} {X ≤ x} x x {X ≤ x} x x 2 Función de distribución conjunta Función de distribución conjunta • Es una función de probabilidad acumulada: • Se define como la probabilidad de la región anterior: B = {X ≤ x1}I {Y ≤ y1} A = {X ≤ x0 }I {Y ≤ y0 } • Nótese que: FXY ( x0 , y0 ) ≤ FXY ( x1 , y1 ) pues: B = AUC ⇒ A⊂ B Función de distribución: usos y P (D ) = FXY ( x2 , y ) − FXY ( x1 , y ) y Función de distribución: usos y P (E ) = FXY ( x2 , y2 ) − FXY ( x1 , y2 ) − (FXY ( x2 , y1 ) − FXY ( x1 , y1 )) y2 E D y x x1 y y1 x2 x B x x2 x1 B = A U D ⇒ P (B ) = P ( A U D ) x1 x2 P ( D ) = P ( B ) − P ( A) y2 y1 B y2 y1 x x1 D x x1 x2 B = A U D U E ⇒ P (B ) = P ( A U D U E ) A = P ( A) + P ( D ) x x2 x1 y y A y y x2 = P ( A) + P ( D ) + P ( E ) P ( E ) = P ( B ) − P ( A) − P ( D ) 3 Caracterización de VA bidimensional Caracterización de VA bidimensional B) Función de densidad de probabilidad B) Función de densidad de probabilidad • La función de distribución es poco versátil, pues sólo permite hallar probabilidades de regiones con geometría muy sencilla. • La función de densidad se define de la forma No negativa • ¿Qué sucede si necesitamos calcular la probabilidad de una región con geometría arbitraria? • Y la relación inversa es y Volumen encerrado=1 ∑ P (R ) i i • De forma que la probabilidad asociada a una región arbitraria D del plano es x Caracterización de VA bidimensional Caracterización de VA bidimensional y B) Función de densidad de probabilidad B) Función de densidad de probabilidad • ¿Por qué recibe este nombre? Dado que se define • y+Δy y ¿Por qué recibe este nombre? Dado que se define x • se puede escribir de forma alternativa • se puede escribir de forma alternativa x x+Δx 4 Ejercicio: P (X > x ) = 1 − FX ( x ) ¿ P(X > x, Y > y ) = 1 − F XY ( x, y ) ? Funciones marginales • Las funciones de distribución o densidad de cada variable por separado, en este contexto se denominan funciones marginales. • A partir de las funciones de densidad o distribución conjunta siempre se pueden obtener las marginales ¡¡NO!! S = {X > x, Y > y}U {X ≤ x U Y ≤ y} • Recíproco, en general, no es cierto P (S ) = P ({X > x, Y > y}U {X ≤ x U Y ≤ y}) X 1 = P (X > x, Y > y ) + P (X ≤ x U Y ≤ y ) (X, Y ) Y P (X > x, Y > y ) = 1 − P (X ≤ x U Y ≤ y ) = 1 − (FX ( x ) + FY ( y ) − FXY ( x, y )) P (X ≤ x U Y ≤ y ) = P (X ≤ x ) + P (Y ≤ y ) − P (X ≤ x I Y ≤ y ) Funciones de distribución marginales Funciones de densidad marginales • Para obtener FX ( x ) hay que definir el suceso P (X ≤ x ) partir del caso 2D. Para ello escribimos • En este caso: a P (X ≤ x ) = P ({X ≤ x}× S2 ) • Es decir, que en el suceso compuesto la segunda variable no suponga restricción alguna. Por ello • Lo cual se puede escribir de forma compacta como = • De la misma forma d x φ (α )dα dx ∫−∞ • con ∞ φ (α ) = ∫ f XY (α , y )dy −∞ 5 Funciones de densidad marginales Funciones de densidad marginales • Para derivar bajo el signo integral acudimos a la regla: • Por tanto: • En nuestro caso tenemos: f X (x ) = d x φ (α )dα , dx ∫−∞ ∞ φ (α ) = ∫ f XY (α , y )dy −∞ • por lo que: f X (x ) = φ (x ) = ∫ ∞ −∞ f XY ( x, y )dy Casos particulares: Casos particulares: A) Dos variables discretas B) Una variable continua y una discreta Supongamos que nos preguntan: Supongamos que nos preguntan: P (X ≤ x, Y ≤ y ) = P (R1 U R2 ) P (X ≤ x ) = P ( A) + P (B ) + P (C ) C A B = p11 + p21 + p22 con pij = P ({X = xi }I {Y = y j }) R1 R2 = P (R1 ) + P (R2 ) R1 = {X = x1}I {Y ≤ y} R2 = {X = x2 }I {Y ≤ y} 6 Casos particulares: Entonces: P (X ≤ x, Y ≤ y ) = P (R1 U R2 ) = P (R1 ) + P (R2 ) C) Componentes relacionadas mediante Se puede obtener la función conjunta a través de cada una de las marginales: Por lo que: P (R1 ) + P (R2 ) = P ({X = x1}I {Y ≤ y}) + P ({X = x2 }I {Y ≤ y}) = P (Y ≤ y X = x1 )P (X = x1 ) + P (Y ≤ y X = x2 )P (X = x2 ) = P (X = x1 )∫ y −∞ fY (τ X = x1 )dτ + P (X = x2 )∫ y −∞ f Y (τ X = x2 )dτ Y = g (X ) (x, g(x )) y > g (x ) FXY ( x, y ) = P (X ≤ x ) = FX ( x ) Es necesario pues conocer: P (X = xi ) y < g (x ) f Y ( y X = xi ) FXY ( x, y ) = P (X ≤ g −1 ( y )) = FX ( g −1 ( y )) Casos particulares: Y = g (X ) = 2 X Supongamos que las componentes están relacionadas mediante una recta y nos piden la probabilidad de la región sombreada: P (R ) = FXY ( A) + FXY ( B ) − FXY (C ) − FXY ( D ) D A R B C y > g (x ) D y < g (x ) A, B, C FXY ( B ) = FXY (C ) = FX ( g −1 (0)) = FX (0) Funciones condicionadas • Se plantea cómo incluir más información en las funciones de caracterización total de las variables aleatorias una vez que se sabe que un determinado suceso se ha verificado. • A tales funciones se les denomina funciones condicionadas, y se representan: donde M es un suceso de probabilidad no nula. P (R ) = FXY ( A) − FXY ( D ) = FX (g −1 (5)) − FX (1) = FX (5 / 2 ) − FX (1) 7 Funciones condicionadas Funciones condicionadas, marginales y conjuntas • Existe una relación importante entre estas tres funciones, tanto a nivel de función de distribución como a nivel de función de densidad. • Para la función de distribución, supongamos que el condicionante es M = {Y ≤ y} y calculemos la función FX x M . Así pues ( ) • Por ello: • Y de forma similar Funciones condicionadas, marginales y conjuntas • Teníamos que • Para la función de densidad, consideremos que el condicionante es una franja de valores de la VA Y, a saber, M = {y1 < Y ≤ y2 } • Y con el cambio de variables: • Renombramos ahora para poder acudir a cálculo diferencial: ⎧ y1 ⎨ ⎩ y2 • Calculando el límite: =y = y + Δy 8 Comentarios adicionales • Repetimos la expresión: • ¿Cómo es una función de densidad condicionada a la otra variable? • Y ahora derivando con respecto a x: • Esta expresión permite construir muestras de una VA bidimensional mediante ordenador: • Por lo que podemos escribir: X Y X= x Teorema de la Probabilidad Total ~ N (0,1)⎫ ⎬100 muestras ~ N (x,1)⎭ x=randn(100,1) y=x+randn(100,1) Teorema de Bayes • Nótese que podemos integrar estas expresiones y obtenemos las funciones marginales: Teorema de la Probabilidad Total 9 Independencia de dos VAs • Se dice que dos VAs son independientes si se verifica que los experimentos aleatorios de los que proceden son independientes. Esto trae consigo que: Independencia de dos VAs • Vimos que de forma general podemos escribir • Según hemos visto las variables son independientes si se verifica que con • En particular si escogemos podemos afirmar que dos VAs son independientes si: Por tanto si son independientes “el condicionante no condiciona” • Para el caso de las VAs discretas, la independencia se traduce en: • O bien Independencia de dos VAs • La comprobación de la “no independencia” es muy sencilla e intuitiva. En particular Transformación de VA 2D. Caso Z=g(X,Y) • Objetivo: obtener la caracterización de Z a partir de la de X e Y. • Procedimiento: a partir de la definición de función de distribución: siendo el procedimiento consiste en: 1. Identificar la región Dz 2. Realizar la integral Recorridos de VAs dependientes entre sí!!!!! f XY ( x0 , y0 ) = 0 pero ⎧ f X ( x0 ) ≠ 0 ⎨ ⎩ f Y ( y0 ) ≠ 0 10 Transformación de VA 2D. Ejemplo • Consideremos que la función de distribución de la VA Z. . Obtengamos • Partimos de: Transformación de VA 2D. Ejemplo • Por tanto: P (Dz ) = ∫ ∞ ∫ z−x −∞ −∞ d ∞ z f XY ( x, t − x )dxdt dz ∫− ∞ ∫−∞ z ∞ d = ∫ ⎡ ∫ f XY ( x, t − x )dx ⎤ dt ⎥⎦ dz −∞ ⎢⎣ − ∞ d z = ϕ (t )dt dz ∫−∞ f Z (z ) = f XY ( x, y )dxdy • Para obtener la función de densidad derivamos f Z (z ) = dFZ (z ) dP (Dz ) = dz dz Transformación de VA 2D. Ejemplo • Nótese que si las VAs fuesen independientes, el resultado anteriormente obtenido: f Z (z ) = ϕ (z ) = ∫ ∞ −∞ • Es decir dP (Dz ) d ∞ z − x = ∫ ∫ f XY ( x, y )dxdy dz dz −∞ −∞ • Hagamos el cambio de variable y = t − x • Entonces: • se escribiría f Z (z ) = • Entonces f Z (z ) = ϕ (z ) = ∫ ∞ −∞ f XY ( x, z − x )dx Transformación de VA 2D. Dos funciones de dos VAs • Consideremos ahora que partimos de: f XY ( x, z − x )dx f Z (z ) = ϕ (z ) = ∫ ∞ −∞ f X ( x ) f Y (z − x )dx f Z (z ) = f X (z ) ∗ f Y (z ) • Este resultado recibe el nombre de Teorema de la Convolución (la función de densidad de la suma de 2 VAs independientes es igual a la convolución de las funciones de densidad) • El objetivo es obtener la función de densidad de las VAs de destino como función de la función de densidad de las VAs de origen. • Llegaremos a una expresión que será el Teorema Fundamental extendido a dos dimensiones. • Consultar tres ejemplos más en el libro. 11 Transformación de VA 2D. Dos funciones de dos VAs • Para ello, escribimos Transformación de VA 2D. Dos funciones de dos VAs • Generalizando • Y dado que: Transformación de VA 2D. Dos funciones de dos VAs • Entonces resulta la expresión del teorema: • Solución: la expresión del teorema fundamental es: • con: 12 • Sólo hay una raíz del plano origen que se transforma en una del plano destino (salvo para el (0,0), pero es un punto aislado en el plano). • Hemos obtenido pues: f ZW (z, w ) = • Y dado que W=X f ZW (z , w ) = • Por ello, escribimos: f XY ( x, y ) = f X (x ) f Y ( y ) • Sustituyendo términos: 1 1 = x x 1 w 0 ≤ z ≤ w ≤1 • Ahora hay que indicar en qué zona del plano (z,w) es cierta la conclusión obtenida. y z 1 1 x 0 1 w 0 w 1 Transformación de VA. Método de la Variable Auxiliar • Consideremos ahora que partimos de: (1) es decir, de una transformación de 2 Vas. • Supongamos que deseamos conocer su función de densidad. Podemos emplear el teorema fundamental haciendo lo siguiente: (2) f ZW (z , w ) (3) f Z (z ) = ∫ ∞ −∞ f ZW (z, w )dw • Este procedimiento es el método de la VA auxiliar 13 Tenemos pues: Caracterización parcial de VA-2D • De forma similar al caso 1D, si se tiene Z = g (X , Y ) y se desea E {h (Z )} entonces se puede escribir: De forma que: • En particular, si h (Z ) = Z Indep. Caracterización parcial de VA-2D Caracterización parcial de VA-2D • Si ahora Z = aX + bY + c • Variables discretas: • Esperanzas condicionadas: úsese función de densidad condicionada 14 Momentos de una VA-2D • Se dividen en Momentos de una VA-2D • Con nombre propio • No centrales: • Correlación: • Covarianza: • Existe relación entre ellos: • Centrales: • Si las VAs son discretas: • Coef. de correlación: Momentos de una VA-2D • Variables ortogonales: RXY = 0 • Variables incorreladas: CXY = 0 • Independencia implica incorrelación: Momentos de una VA-2D • Variables incorreladas: • Varianza de la suma es igual a suma de las varianzas: • Variables ortogonales: • El recíproco no es cierto!!!!! (en general) CXY = 0 RXY = 0 • Si las variables son ortogonales el mismo razonamiento aplica para el valor cuadrático medio de la suma. 15 Unas nociones sobre estimación • Se trata de poder predecir lo que vale una variable (Y) una vez que se ha observado lo que vale la otra (X): Unas nociones sobre estimación • Criterio de construcción de estimadores:minimizar el valor cuadrático medio del error {( ˆ min E {ε 2 } = min E Y − Y ˆ ε=Y−Y • Veremos tres casos: • Estimar mediante constante: ˆ = g (X ) Y • Estimar mediante constante Ŷ = g (X ) = a Ŷ = g (X ) = aX + b • Estimador sin restricciones ˆ = g (X ) Y Unas nociones sobre estimación • Es interesante ver que el coeficiente de correlación mide el grado de relación lineal entre las variables: min E {ε 2 } Ŷ = g (X ) = a 2 • Estimar mediante función lineal (estimador de Y) Unas nociones sobre estimación )} a ∗ = E {Y} a • VCM del error para estimador constante: E {ε 2 } = σ Y2 • Estimar mediante función lineal min E {ε 2 } Ŷ = g (X ) = aX + b a ,b CXY a∗ = b∗ = E {Y}− a ∗ E{X} min E {ε 2 } g( ) 2 ) E {ε 2 } = σ Y2 (1 − ρ XY • Si • Estimador sin restricciones ˆ = g (X ) Y • VCM del error para estimador lineal σ X2 g (X ) = E {Y X = x} = ∫ yf Y ( y x )dy ∞ ρ XY = 0 ambos coinciden, ¿Por qué? Porque: a∗ −∞ b ∗ = CXY σ X2 = E {Y}− a ∗ E{X} 16 17