TEMA 3: DISTRIBUCIONES BIDIMENSIONALES. 3.1. Conceptos Generales. .......................................................................... 1 3.2. Distribuciones bidimensionales de frecuencias.................................... 1 3.2.1. Tablas de correlación y contingencia. ............................................ 1 3.2.2. Distribuciones marginales y condicionadas. .................................. 3 3.3. Momentos en distribuciones bidimensionales:..................................... 5 3.3.1. Momentos respecto al origen (no centrados). ............................... 5 3.3.2. Momentos respecto a la media (centrados): La covarianza. .......... 5 3.4. Independencia estadística:.................................................................. 7 3.1. Conceptos Generales. Hasta ahora hemos estudiado sobre cada observación de las que forman la muestra el valor que presenta un determinado carácter. En este tema estudiaremos sobre cada observación dos caracteres (por ejemplo: peso y altura, edad y salario,...). Estos dos caracteres tendrán unas variables asociadas que denotaremos por X e Y. cada variable tomara unos valores x1 , x2 , ...,xk (la variable X) y y1 , y2 ,..., yp (la variable Y). A la variable (X,Y) la llamaremos variable estadística bidimensional y sus valores serán los pares de valores (xi , yj ). Los razonamientos que presentaremos para dos variables (estadística bidimensional) son extrapolables en mayor o menor medida para “n” variables (estadística n-dimensional). Representación numérica. La tabla estadística más sencilla para representar una variable bidimensional consiste en colocar en dos columnas los pares de valores según se han ido observando. Un mismo subíndice afecta a ambos elementos del par y nos indica que observación nos ha proporcionado dicho par de valores (xi , yi ), el último subíndice, “n” es igual al número de observaciones: EJEMPLO 1: LA SUPERFICIE EN HECTAREAS(X) Y PRODUCCION EN Qm.(Y) DE 5 FINCAS: FINCA 1 2 3 4 5 SUP.Ha.(X) 10 5 10 15 5 PRODUC. Qm(Y) 100 75 50 75 75 3.2. Distribuciones bidimensionales de frecuencias. 3.2.1. Tablas de correlación y contingencia. En esta representación los distintos valores de la variable X los notamos xi i= 1, 2, ..., k y los distintos valores de la variable Y los notamos yi i= 1, 2, ..., p. A cada observación le corresponde un par de valores (xi , yj ). Al numero de observaciones que han presentado el valor xi de X e yj de Y se le denomina frecuencia absoluta del par (xi , yj ) y se nota como ni j. DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 1-8 TEMA 3: DISTRIBUCIONES BIDIMENSIONALES. Notaremos con fi j a la frecuencia relativa de dicho par: ni j fi j = ------N Donde N es el número de observaciones: k N= p ∑∑n i =1 j =1 ij NOTA: (interpretación del doble sumatorio) k p k p p p p i =1 j =1 j =1 j =1 j =1 ∑ ∑ nij = ∑ (∑ nij ) = ∑ n1 j + ∑ n2 j + ... + ∑ nkj = n11 + n12 + ... + n1 p i =1 j =1 + n 21 + n 22 + ... + n 2 p + ... + n k 1 + n k 2 + ... + n kp k Es fácil comprobar que: p p k N = ∑ ∑ nij = ∑ ∑ nij i =1 j =1 j =1 i =1 Se denomina distribución bidimensional de frecuencias al conjunto de valores (( xi , yj ) , ni j) donde i= 1,2,..., k y j = 1,2,...,p. Esta distribución bidimensional se representa adecuadamente mediante una tabla de doble entrada llamada tabla de correlación: X/Y x1 x2 ....... xk y1 y2 n11 n12 n21 n22 .......... nk1 nk2 y3 ............ n13 ............. n23 ............. yp n1p n2p nk3 ............. nkp EJEMPLO 2: DISTRIBUCION SEGÚN SALARIOS (Y, EN EUROS) Y EDADES(X) DE UN GRUPO DE 100 JOVENES. X/Y 20 21 22 23 SUMA COL. 50-100 * 75 10 5 2 0 17 100-150 125 3 15 20 13 51 150-200 175 2 5 15 10 32 SUMA FILA 15 25 37 23 100 * CUANDO ALGUNA DE LAS VARIABLES ESTAN AGRUPADAS EN INTERVALOS SE TOMA COMO VALOR xi O yj LA MARCA DE CLASE. n42 = 13 SIGNIFICA QUE 13 DE LOS CIEN JOVENES TIENEN 23 AÑOS Y UN SALARIO ENTRE 100 Y 150 EUROS. DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 2-8 TEMA 3: DISTRIBUCIONES BIDIMENSIONALES. Si las variables objeto de estudio fueran cualitativas, la tabla se denominaría tabla de contingencia. Si llamamos: n. j = Σ ni j con “j” fijo, dicho valor se corresponde con la suma de las frecuencias absolutas de la columna “j” de nuestra tabla. Si llamamos: n i . = Σ ni j con “i” fijo, dicho valor se corresponde con la suma de las frecuencias absolutas de la fila “i” de nuestra tabla. El número total de observaciones “N” también puede obtenerse como: k p k p i =1 j =1 N = ∑ ∑ nij = ∑ ni . = ∑ n. j i =1 j =1 En nuestro ejemplo 2 los n i . y los n. columna y fila respectivamente. j son los datos que aparecen en la última 3.2.2. Distribuciones marginales y condicionadas. Distribuciones marginales. De estas tablas de doble entrada (de correlación o contingencia), es posible extraer la información correspondiente a cada una de las variables (independientemente de la otra), posibilidad relevante ya que su análisis como variable unidimensional puede ser de utilidad. A las distribuciones unidimensionales extraídas de una variable bidimensional se les denomina distribuciones marginales. Éste nombre deriva del hecho de que las frecuencias de la distribución marginal se obtienen sumando en el margen de la derecha o inferior de la tabla de correlación las correspondientes frecuencias bidimensionales. Dada una tabla de correlación de una variable bidimensional (X, Y) las distribuciones marginales para X e Y serán: ........ ........ Distrib. Marginal primera X n i. f i. x1 n 1. f 1. x2 n 2. f 2. Distrib. Marginal segunda Y n..j f .j y1 n. 1 f. 1 y2 n. 2 f. 2 ..... xk n k. f k. yp n. p f. p SUMAS N 1 N 1 Donde: n i. n..j f i . = --------- = Σ fi j CON “i” FIJO f . j = --------- = Σ fi j CON “j” FIJO N N En nuestro ejemplo 2 las distribuciones marginales serian: La distribución marginal primera: X 20 21 22 23 SUMA COL. n i. 15 25 37 23 100 DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 3-8 TEMA 3: DISTRIBUCIONES BIDIMENSIONALES. La distribución marginal segunda: Y 75 125 175 SUMA COL. n. j 17 51 32 100 nota: a las medidas (media, varianza,...) calculadas sobre la distribución marginal se les añade el calificativo de marginal (media marginal, varianza marginal,...). Distribuciones Condicionadas. Las distribuciones condicionadas expresan como se distribuyen, según una de las dos variables, el conjunto de observaciones que cumplen una condición. Esta condición viene expresada por un valor o conjunto de valores que presenta la otra variable. Es decir, la distribución condicionada de X cuando y toma el valor yc o el conjunto de valores yr O la distribución condicionada de Y cuando x toma el valor xc o el conjunto de valores xr Utilizando nuestro ejemplo 2, una distribución condicionada, seria la distribución según salarios (variable Y) condicionada a que la edad (variable X) sea 21 años, (x2 = 21). Es decir la distribución de la variable y condicionada a que la variable X tome el valor 21 (Y⏐ x= 21). y⏐ x= 21 nj/2 50 - 100 100 – 150 150 – 200 5 15 5 Se puede observar que cada una de las filas de frecuencias de la tabla de correlación define una distribución condicionada para la variable y, salvo la última que define su distribución marginal. Análogamente cada una de las columnas de frecuencias de la tabla de correlación define una distribución condicionada para la variable x, salvo la última que define su distribución marginal. Las distribuciones condicionadas son distribuciones unidimensionales a las cuales se les puede aplicar todo lo conocido para ese tipo de distribuciones. A las características calculadas sobre las distribuciones condicionadas se les añade el calificativo de condicionada (media condicionada, varianza condicionada,...). Para las distrib. condicionadas Y⏐xi notaremos las frecuencias relativas como fj / i : fj / i ni j = ------ni . Y análogamente para las distribuciones condicionadas X⏐y i DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 4-8 TEMA 3: DISTRIBUCIONES BIDIMENSIONALES. 3.3. Momentos en distribuciones bidimensionales: 3.3.1. Momentos respecto al origen (no centrados). Se define el momento respecto al origen de la variable bidimensional (X , Y) de orden ( r , s) y lo denotamos como a r s a rs = 1 N k p ∑∑ x i =1 j =1 r i y sj nij Casos particulares: a a 10 01 = es la media marginal de X = es la media marginal de Y 3.3.2. Momentos respecto a la media (centrados): La covarianza. Se define el momento respecto a la media de la variable bidimensional (X , Y) de orden ( r , s) y lo denotamos como m r s mrs = 1 N p k ∑ ∑ (x i =1 j =1 i − x ) r ( y j − y ) s nij Casos particulares: m m m 10 20 02 = 0 = m 01 = es la varianza marginal de X = es la varianza marginal de Y El momento respecto a la media más importante es la covarianza que se nota y define como: 1 m11 = N k p ∑ ∑ (x i =1 j =1 i − x )( y j − y )nij ≡ S XY La covarianza ayuda a cuantificar la covariación entre dos variables del siguiente modo: • Cuando Sxy > 0, hay una tendencia a que a mayores observaciones de X correspondan mayores observaciones de Y. Por ejemplo, a mayor cantidad de agua de lluvia en un año, suele corresponder una mejor cosecha. • Cuando Sxy < 0, la tendencia resulta contraria; es decir, a mayor valor de X solemos encontrar menores valores de Y. Por ejemplo, a mayor renta per cápita en los países suele corresponder una menor mortalidad infantil. Este valor dependerá de los valores de las variables, por tanto de sus unidades. Para poder eliminar las unidades y tener una medida adimensional utilizamos el COEFICIENTE DE CORRELACIÓN (rxy) rxy = S xy SxS y DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 5-8 TEMA 3: DISTRIBUCIONES BIDIMENSIONALES. siendo también invariante frente a transformaciones lineales (cambio de origen y escala) de las variable. Citamos las siguientes propiedades: • Es un coeficiente adimensional. • -1 ≤ rxy ≤ 1 • Si hay relación lineal positiva rxy > 0 y próximo a 1. • Si hay relación lineal negativa rxy <0 y próximo a -1. • Si no hay relación lineal rxy se aproxima a 0. • Si X e Y son independientes Sxy = 0 y por tanto rxy = 0. RECAPITULACION A) TABLA DE CORRELACION/CONTINGENCIA: X/Y y1 y2 x1 x2 ....... xm ....... xk n11 n12 n21 n22 .......... nm1 nm2 nk1 n.j n.1 y3 ......... yn ... yp ni. n13 ..... n1n ...... n23 ..... n2n ...... n1p n2p n1. n2. nm3 ..... nmn ..... nmp nm. nk2 nk3 ..... nkn ...... nkp n k. n.2 n.3 n.p n n.n B) DISTRIB.MARGINALES Y CONDICIONADAS: MARGINAL 1ª(X) MARGINAL 2ª(Y) COND.Y⏐xm COND.X⏐y n X x1 x2 ... xm ... xk n i. n1. n2. ... nm. ... nk. fi. f1. f2. ... fm. ... fk. Σ N 1 Y y1 y2 ... ... yn ... yp n. j n. 1 n. 2 ... ... n. n ... n. p n f.j f.1 f.1 ... ... f.n ... f.p 1 Y⏐xm nj/m X⏐yn ni/n y1 y2 ... ... yn ... yp x1 x2 ... xm ... xk nm1 nm2 ... ... nmn ... nmp nm. DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 6-8 n1n n2n ... nmn ... nkn n.n TEMA 3: DISTRIBUCIONES BIDIMENSIONALES. Frecuecians Relativas: fi. = ni./N f.j = n.j/N Medias Marginales: x = (1/N) Σ xi ni. = Σ xi fi. ; fj/m = nm j/nm. ; fi/n = ni n/n.n y = (1/N) Σ yj n.j = Σ yj f.j Medias Condicionadas: x p = (1/n.n) Σ xi nin = Σ xi fi/n ; y m = (1/nm.) Σ yj nmj = Σ yj fj/m Relaciones entre distrib. Marginales y condicionadas: nij nij ni. - fij = ------- = ------ ------- = fj/i fi. N ni. N nij nij n.j - fij = ------- = ------ ------- = fi/j f.j N n.j N - x = (1/N) Σ xi ni. = Σ xi fi. = Σ xi Σ fij = Σ xi Σ fi/j f.j = Σ (Σxi fi/j )f.j = Σ xj f.j y = (1/N) Σ yj n.j = Σ yj f.j = Σ yj Σ fij = Σ yj Σ fj/i fi.= Σ (Σyj fj/i ) fi.= Σ yi fi. 3.4. Independencia estadística: Dos variables X e Y son estadísticamente independientes cuando el condicionamiento no tiene ningún efecto diferenciador. (Piénsese que si las características en estudio son, por ejemplo, el peso(x) y el número de miembros de la unidad familiar (y), en principio y al menos intuitivamente, la variable peso se comportara independientemente del condicionamiento que podamos hacer en cuanto al número de miembros de la unidad familiar). En términos de frecuencias relativas, la independencia estadística se traducirá (condición de independencia) en que: fj/i = f.j Y fi/j = fi. ∀i, j Y dado que fij = fj/i fi. = fi/j f.j En caso de independencia estadística, tendremos que: fij = fi. f.j ∀i, j O en términos de frecuencias absolutas: nij ni . n.j ni. n.j ------- = ------ ------⇔ nij = ------------ ∀i, j N N N N Estas dos últimas expresiones son las que se suelen tomar como caracterización de la independencia. Veamos que: si dos variables x e y son estadísticamente independientes entonces su covarianza es cero m11 = 0(el reciproco no tiene por que ser cierto): DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 7-8 TEMA 3: DISTRIBUCIONES BIDIMENSIONALES. Recordemos que m11 = a11 - a10 a01 Vamos a demostrar que si hay independencia a11 = a10 a01 a = (1/n) Σ Σ xi yj nij = Σ Σ xi yj nij = Σ Σ xi yj ni. n.j N N N = Σ xi ni. Σyj n.j = a10 a01 N N Por tanto: Independencia ⇒ Covarianza cero Covarianza cero ⇒ Independencia 11 Bibliografía básica * Mª Angeles palacios, Fernando A. López Hernández , José García Córdoba y Manuel Ruiz Marín. “INTRODUCCIÓN A LA ESTADÍSTICA PARA LA EMPRESA”. Librería Escarabajal * Martín-Pliego López, Fco. “Introducción a la estadística económica y empresarial”. Ed. Thomson * Casas, J. M., Callealta, J., Núñez, J., Toledo, M. y Ureña, C. (1986). Curso Básico de Estadística Descriptiva. I.N.A.P. * Hermoso Gutiérrez, J. A. y Hernández Bastida, A. (1997). Curso Básico de Estadística Descriptiva y Probabilidad. Ed. Némesis. Para saber más o aclarar dudas: http://www3.uji.es/~mateu/t2-ig12.doc http://descartes.cnice.mecd.es/Estadistica/distrib_bidimensionales/distribuciones_bidimens ionales.htm http://www.eumed.net/cursecon/libreria/drm/cap3.pdf http://personal.redestb.es/ztt/tem/t15_distribuciones_bidimensionales.htm http://www.aulafacil.com/CursoEstadistica/Lecc-10-est.htm http://www.ugr.es/~jsalinas/activi/C4.pdf DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 8-8