TEMA 3: DISTRIBUCIONES BIDIMENSIONALES.

Anuncio
TEMA 3: DISTRIBUCIONES BIDIMENSIONALES.
3.1. Conceptos Generales. .......................................................................... 1
3.2. Distribuciones bidimensionales de frecuencias.................................... 1
3.2.1. Tablas de correlación y contingencia. ............................................ 1
3.2.2. Distribuciones marginales y condicionadas. .................................. 3
3.3. Momentos en distribuciones bidimensionales:..................................... 5
3.3.1. Momentos respecto al origen (no centrados). ............................... 5
3.3.2. Momentos respecto a la media (centrados): La covarianza. .......... 5
3.4. Independencia estadística:.................................................................. 7
3.1. Conceptos Generales.
Hasta ahora hemos estudiado sobre cada observación de las que forman la muestra
el valor que presenta un determinado carácter. En este tema estudiaremos sobre
cada observación dos caracteres (por ejemplo: peso y altura, edad y salario,...).
Estos dos caracteres tendrán unas variables asociadas que denotaremos por X e Y.
cada variable tomara unos valores x1 , x2 , ...,xk (la variable X) y y1 , y2 ,..., yp (la
variable Y).
A la variable (X,Y) la llamaremos variable estadística bidimensional y sus valores
serán los pares de valores (xi , yj ).
Los razonamientos que presentaremos para dos variables (estadística
bidimensional) son extrapolables en mayor o menor medida para “n” variables
(estadística n-dimensional).
Representación numérica.
La tabla estadística más sencilla para representar una variable bidimensional
consiste en colocar en dos columnas los pares de valores según se han ido
observando. Un mismo subíndice afecta a ambos elementos del par y nos indica
que observación nos ha proporcionado dicho par de valores (xi , yi ), el último
subíndice, “n” es igual al número de observaciones:
EJEMPLO 1: LA SUPERFICIE EN HECTAREAS(X) Y PRODUCCION EN Qm.(Y) DE 5 FINCAS:
FINCA
1
2
3
4
5
SUP.Ha.(X)
10
5
10
15
5
PRODUC. Qm(Y)
100
75
50
75
75
3.2. Distribuciones bidimensionales de frecuencias.
3.2.1. Tablas de correlación y contingencia.
En esta representación los distintos valores de la variable X los notamos xi i= 1, 2,
..., k y los distintos valores de la variable Y los notamos yi i= 1, 2, ..., p.
A cada observación le corresponde un par de valores (xi , yj ). Al numero de
observaciones que han presentado el valor xi de X e yj de Y se le denomina
frecuencia absoluta del par (xi , yj ) y se nota como ni j.
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
1-8
TEMA 3: DISTRIBUCIONES BIDIMENSIONALES.
Notaremos con fi j a la frecuencia relativa de dicho par:
ni j
fi j = ------N
Donde N es el número de observaciones:
k
N=
p
∑∑n
i =1 j =1
ij
NOTA: (interpretación del doble sumatorio)
k
p
k
p
p
p
p
i =1
j =1
j =1
j =1
j =1
∑ ∑ nij = ∑ (∑ nij ) = ∑ n1 j + ∑ n2 j + ... + ∑ nkj = n11 + n12 + ... + n1 p
i =1 j =1
+ n 21 + n 22 + ... + n 2 p + ... + n k 1 + n k 2 + ... + n kp
k
Es fácil comprobar que:
p
p
k
N = ∑ ∑ nij = ∑ ∑ nij
i =1 j =1
j =1 i =1
Se denomina distribución bidimensional de frecuencias al conjunto de valores (( xi ,
yj ) , ni j) donde i= 1,2,..., k y j = 1,2,...,p.
Esta distribución bidimensional se representa adecuadamente mediante una tabla
de doble entrada llamada tabla de correlación:
X/Y
x1
x2
.......
xk
y1
y2
n11
n12
n21
n22
..........
nk1
nk2
y3
............
n13 .............
n23 .............
yp
n1p
n2p
nk3 .............
nkp
EJEMPLO 2: DISTRIBUCION SEGÚN SALARIOS (Y, EN EUROS) Y EDADES(X) DE
UN GRUPO DE 100 JOVENES.
X/Y
20
21
22
23
SUMA COL.
50-100
* 75
10
5
2
0
17
100-150
125
3
15
20
13
51
150-200
175
2
5
15
10
32
SUMA FILA
15
25
37
23
100
* CUANDO ALGUNA DE LAS VARIABLES ESTAN AGRUPADAS EN INTERVALOS SE
TOMA COMO VALOR xi O yj LA MARCA DE CLASE.
n42 = 13 SIGNIFICA QUE 13 DE LOS CIEN JOVENES
TIENEN 23 AÑOS Y UN SALARIO ENTRE 100 Y 150 EUROS.
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
2-8
TEMA 3: DISTRIBUCIONES BIDIMENSIONALES.
Si las variables objeto de estudio fueran cualitativas, la tabla se
denominaría tabla de contingencia.
Si llamamos: n. j = Σ ni j con “j” fijo, dicho valor se corresponde con la suma de las
frecuencias absolutas de la columna “j” de nuestra tabla.
Si llamamos: n i . = Σ ni j con “i” fijo, dicho valor se corresponde con la suma de
las frecuencias absolutas de la fila “i” de nuestra tabla.
El número total de observaciones “N” también puede obtenerse como:
k
p
k
p
i =1
j =1
N = ∑ ∑ nij = ∑ ni . = ∑ n. j
i =1 j =1
En nuestro ejemplo 2 los n i . y los n.
columna y fila respectivamente.
j
son los datos que aparecen en la última
3.2.2. Distribuciones marginales y condicionadas.
Distribuciones marginales.
De estas tablas de doble entrada (de correlación o contingencia), es posible
extraer la información correspondiente a cada una de las variables
(independientemente de la otra), posibilidad relevante ya que su análisis como
variable unidimensional puede ser de utilidad.
A las distribuciones unidimensionales extraídas de una variable bidimensional se les
denomina distribuciones marginales. Éste nombre deriva del hecho de que las
frecuencias de la distribución marginal se obtienen sumando en el margen de la
derecha o inferior de la tabla de correlación las correspondientes frecuencias
bidimensionales.
Dada una tabla de correlación de una variable bidimensional (X, Y) las
distribuciones marginales para X e Y serán:
........
........
Distrib. Marginal primera
X
n i.
f i.
x1
n 1.
f 1.
x2
n 2.
f 2.
Distrib. Marginal segunda
Y
n..j
f .j
y1
n. 1
f. 1
y2
n. 2
f. 2
.....
xk
n k.
f k.
yp
n. p
f. p
SUMAS
N
1
N
1
Donde:
n i.
n..j
f i . = --------- = Σ fi j CON “i” FIJO
f . j = --------- = Σ fi j CON “j” FIJO
N
N
En nuestro ejemplo 2 las distribuciones marginales serian:
La distribución marginal primera:
X
20
21
22
23
SUMA COL.
n i.
15
25
37
23
100
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
3-8
TEMA 3: DISTRIBUCIONES BIDIMENSIONALES.
La distribución marginal segunda:
Y
75
125
175
SUMA COL.
n. j
17
51
32
100
nota: a las medidas (media, varianza,...) calculadas sobre la distribución marginal
se les añade el calificativo de marginal (media marginal, varianza marginal,...).
Distribuciones Condicionadas.
Las distribuciones condicionadas expresan como se distribuyen, según una de las
dos variables, el conjunto de observaciones que cumplen una condición. Esta
condición viene expresada por un valor o conjunto de valores que presenta la otra
variable.
Es decir, la distribución condicionada de X cuando y toma el valor yc o el conjunto
de valores yr
O la distribución condicionada de Y cuando x toma el valor xc o el conjunto de
valores xr
Utilizando nuestro ejemplo 2, una distribución condicionada, seria la distribución
según salarios (variable Y) condicionada a que la edad (variable X) sea 21 años, (x2
= 21).
Es decir la distribución de la variable y condicionada a que la variable X tome el
valor 21 (Y⏐ x= 21).
y⏐ x= 21
nj/2
50 - 100
100 – 150
150 – 200
5
15
5
Se puede observar que cada una de las filas de frecuencias de la tabla de
correlación define una distribución condicionada para la variable y, salvo la última
que define su distribución marginal. Análogamente cada una de las columnas de
frecuencias de la tabla de correlación define una distribución condicionada para la
variable x, salvo la última que define su distribución marginal.
Las distribuciones condicionadas son distribuciones unidimensionales a las cuales se
les puede aplicar todo lo conocido para ese tipo de distribuciones. A las
características calculadas sobre las distribuciones condicionadas se les añade el
calificativo de condicionada (media condicionada, varianza condicionada,...).
Para las distrib. condicionadas Y⏐xi notaremos las frecuencias relativas como fj / i :
fj / i
ni j
= ------ni .
Y análogamente para las distribuciones condicionadas X⏐y
i
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
4-8
TEMA 3: DISTRIBUCIONES BIDIMENSIONALES.
3.3. Momentos en distribuciones bidimensionales:
3.3.1. Momentos respecto al origen (no centrados).
Se define el momento respecto al origen de la variable bidimensional (X , Y) de
orden ( r , s) y lo denotamos como a r s
a rs =
1
N
k
p
∑∑ x
i =1 j =1
r
i
y sj nij
Casos particulares:
a
a
10
01
= es la media marginal de X
= es la media marginal de Y
3.3.2. Momentos respecto a la media (centrados): La covarianza.
Se define el momento respecto a la media de la variable bidimensional (X , Y) de
orden ( r , s) y lo denotamos como m r s
mrs =
1
N
p
k
∑ ∑ (x
i =1 j =1
i
− x ) r ( y j − y ) s nij
Casos particulares:
m
m
m
10
20
02
= 0 = m 01
= es la varianza marginal de X
= es la varianza marginal de Y
El momento respecto a la media más importante es la covarianza que se nota y
define como:
1
m11 =
N
k
p
∑ ∑ (x
i =1 j =1
i
− x )( y j − y )nij ≡ S XY
La covarianza ayuda a cuantificar la covariación entre dos variables del siguiente
modo:
• Cuando Sxy > 0, hay una tendencia a que a mayores observaciones de X
correspondan mayores observaciones de Y. Por ejemplo, a mayor cantidad de
agua de lluvia en un año, suele corresponder una mejor cosecha.
• Cuando Sxy < 0, la tendencia resulta contraria; es decir, a mayor valor de X
solemos encontrar menores valores de Y. Por ejemplo, a mayor renta per cápita
en los países suele corresponder una menor mortalidad infantil.
Este valor dependerá de los valores de las variables, por tanto de sus
unidades. Para poder eliminar las unidades y tener una medida adimensional
utilizamos el COEFICIENTE DE CORRELACIÓN (rxy)
rxy =
S xy
SxS y
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
5-8
TEMA 3: DISTRIBUCIONES BIDIMENSIONALES.
siendo también invariante frente a transformaciones lineales (cambio de origen y
escala) de las variable. Citamos las siguientes propiedades:
• Es un coeficiente adimensional.
• -1 ≤ rxy ≤ 1
• Si hay relación lineal positiva rxy > 0 y próximo a 1.
• Si hay relación lineal negativa rxy <0 y próximo a -1.
• Si no hay relación lineal rxy se aproxima a 0.
• Si X e Y son independientes Sxy = 0 y por tanto rxy = 0.
RECAPITULACION
A) TABLA DE CORRELACION/CONTINGENCIA:
X/Y
y1
y2
x1
x2
.......
xm
.......
xk
n11 n12
n21 n22
..........
nm1 nm2
nk1
n.j
n.1
y3 ......... yn ...
yp
ni.
n13 ..... n1n ......
n23 ..... n2n ......
n1p
n2p
n1.
n2.
nm3 ..... nmn .....
nmp
nm.
nk2
nk3 ..... nkn ......
nkp
n k.
n.2
n.3
n.p
n
n.n
B) DISTRIB.MARGINALES Y CONDICIONADAS:
MARGINAL 1ª(X)
MARGINAL 2ª(Y)
COND.Y⏐xm COND.X⏐y
n
X
x1
x2
...
xm
...
xk
n i.
n1.
n2.
...
nm.
...
nk.
fi.
f1.
f2.
...
fm.
...
fk.
Σ
N
1
Y
y1
y2
...
...
yn
...
yp
n. j
n. 1
n. 2
...
...
n. n
...
n. p
n
f.j
f.1
f.1
...
...
f.n
...
f.p
1
Y⏐xm nj/m
X⏐yn ni/n
y1
y2
...
...
yn
...
yp
x1
x2
...
xm
...
xk
nm1
nm2
...
...
nmn
...
nmp
nm.
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
6-8
n1n
n2n
...
nmn
...
nkn
n.n
TEMA 3: DISTRIBUCIONES BIDIMENSIONALES.
Frecuecians Relativas:
fi. = ni./N
f.j = n.j/N
Medias Marginales:
x = (1/N) Σ xi ni. = Σ xi fi. ;
fj/m = nm j/nm. ; fi/n = ni n/n.n
y = (1/N) Σ yj n.j = Σ yj f.j
Medias Condicionadas:
x p = (1/n.n) Σ xi nin = Σ xi fi/n ; y m = (1/nm.) Σ yj nmj = Σ yj fj/m
Relaciones entre distrib. Marginales y condicionadas:
nij
nij
ni.
- fij = ------- = ------ ------- = fj/i fi.
N
ni.
N
nij
nij
n.j
- fij = ------- = ------ ------- = fi/j f.j
N
n.j
N
-
x = (1/N) Σ xi ni. = Σ xi fi. = Σ xi Σ fij = Σ xi Σ fi/j
f.j = Σ (Σxi fi/j )f.j = Σ xj f.j
y = (1/N) Σ yj n.j = Σ yj f.j = Σ yj Σ fij = Σ yj Σ fj/i
fi.= Σ (Σyj fj/i ) fi.= Σ yi fi.
3.4. Independencia estadística:
Dos variables X e Y son estadísticamente independientes cuando el
condicionamiento no tiene ningún efecto diferenciador.
(Piénsese que si las características en estudio son, por ejemplo, el peso(x) y el
número de miembros de la unidad familiar (y), en principio y al menos
intuitivamente, la variable peso se comportara independientemente del
condicionamiento que podamos hacer en cuanto al número de miembros de la
unidad familiar).
En términos de frecuencias relativas, la independencia estadística se traducirá
(condición de independencia) en que:
fj/i = f.j Y fi/j = fi. ∀i, j
Y dado que fij = fj/i fi. = fi/j f.j
En caso de independencia estadística, tendremos que:
fij = fi. f.j ∀i, j
O en términos de frecuencias absolutas:
nij
ni .
n.j
ni. n.j
------- = ------ ------⇔
nij = ------------ ∀i, j
N
N
N
N
Estas dos últimas expresiones son las que se suelen tomar como caracterización de
la independencia.
Veamos que: si dos variables x e y son estadísticamente independientes entonces
su covarianza es cero m11 = 0(el reciproco no tiene por que ser cierto):
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
7-8
TEMA 3: DISTRIBUCIONES BIDIMENSIONALES.
Recordemos que m11 = a11 - a10 a01
Vamos a demostrar que si hay independencia a11 = a10 a01
a
= (1/n) Σ Σ xi yj nij = Σ Σ xi yj nij = Σ Σ xi yj ni. n.j
N
N N
= Σ xi ni. Σyj n.j = a10 a01
N
N
Por tanto:
Independencia
⇒
Covarianza cero
Covarianza cero
⇒
Independencia
11
Bibliografía básica
* Mª Angeles palacios, Fernando A. López Hernández , José García Córdoba y
Manuel Ruiz Marín. “INTRODUCCIÓN A LA ESTADÍSTICA PARA LA EMPRESA”.
Librería Escarabajal
* Martín-Pliego López, Fco. “Introducción a la estadística económica y empresarial”.
Ed. Thomson
* Casas, J. M., Callealta, J., Núñez, J., Toledo, M. y Ureña, C. (1986). Curso Básico
de Estadística Descriptiva. I.N.A.P.
* Hermoso Gutiérrez, J. A. y Hernández Bastida, A. (1997). Curso Básico de
Estadística Descriptiva y Probabilidad. Ed. Némesis.
Para saber más o aclarar dudas:
http://www3.uji.es/~mateu/t2-ig12.doc
http://descartes.cnice.mecd.es/Estadistica/distrib_bidimensionales/distribuciones_bidimens
ionales.htm
http://www.eumed.net/cursecon/libreria/drm/cap3.pdf
http://personal.redestb.es/ztt/tem/t15_distribuciones_bidimensionales.htm
http://www.aulafacil.com/CursoEstadistica/Lecc-10-est.htm
http://www.ugr.es/~jsalinas/activi/C4.pdf
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
8-8
Descargar