to get the file - OCW - Universidad de Murcia

Anuncio
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Tema 2:
Análisis exploratorio Bidimensional
1.
Ob jetivos
En este tema abordaremos el tratamiento de dos variables simultáneamente. Como
en el primer tema, los procedimientos que usaremos dependen básicamente del tipo o
tipos de variables que están en juego, mientras que el objetivo para todos los casos será
la posible visualización (mediante grácos) o descripción en general del comportamiento
de una de ellas en función de la otra. En el caso de que ambas variables sean cuantitativas continuas se usarán ajustes a funciones que explican la relación en juego hasta
cierto grado. En conclusión, se marcan los siguientes objetivos
X Aplicar grácos convenientes para visualizar relación entre variables.
X Ajustar datos a modelos lineales y no lineales.
X Interpretar parámetros indicadores de la bondad del ajuste.
2.
Procedimientos de descripción de datos bivariantes
En este tema vamos a tratar datos bivariantes que provienen de la observación simultanea de dos variables (X, Y ) en una muestra de n individuos. Los datos serán parejas de
valores, numéricos o no numéricos, de la forma (xr , yr ) con r = 1, ...., n, que representan
los valores observados de la pareja de variables (X, Y ) en los n individuos de la muestra.
Estos datos bidimensionales se usarán para describir las dos variables conjuntamente o
una variable en función de la otra.
Normalmente, en los estudios de relaciones entre variables, una de las dos variables
juega un papel más importante que la otra, ésta será la variable dependiente que denotaremos por Y , cuyo comportaremos se intenterá describir en función de otra variable
X que llamaremos variable independiente o explicativa.
2.1.
Distribuciones conjuntas, marginales y condicionadas
Se trata ahora de tabular el conjunto de datos de la muestra (xr , yr ), r = 1, ..., n.
Las clases o valores distintos observados serán parejas (xi , yj ) (i = 1, ..., k , j = 1, ...., l)
y cada dato de la muestra anterior pertencerá a una de estas clases.
El procedimiento de tabulación para datos bidimensionales se denomina tabla
de doble entrada, en donde los valores aislados o clases de intervalo de las
variables X e Y se representan en dos ejes perpendiculares y la frecuencia de
cada pareja de clases se representa en la casilla correspondiente. Estas frecuencias
se llaman conjuntas. Más concretamente, vamos a suponer que en la variable
X hemos observado las clases (o clases de intervalo) x1 , x2 , ...., xk y que en la
variable Y hemos observado las clases y1 , y2 , ....yl . Eso signica que cada pareja
de datos (xr , yr ), r = 1, ..., n observados en el conjunto de la muestra será igual o
pertenecerá a cierta clase (xi , yj ) (i = 1, ..., k , j = 1, ...., l) y se clasicará en dicha
Tema 2
Página: 1
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
n
clase. La frecuencia absoluta de dicha clase se representará por nij y por fij = ij
n
la frecuencia relativa.
Las distribuciones de frecuencias marginales se obtienen de sumar frecuencias conjuntas para dar lugar a las frecuencias de las clases de cada una de las
variables considerada aislada de la otra. Se obtendrán las distribuciones marginales de la variable X y de la variable Y , que se corresponden con las distribuciones
de frecuencias univariantes de cada una de ellas cuando no tenemos en cuenta
el valor de la otra variable. La frecuencia absoluta marginal de la clase xi será
Pj=l
ni.
.
j=1 nij representada por ni. , mientras que la frecuencia relativa será fi. =
La frecuencia absoluta marginal de la clase yj será
n
mientras que la frecuencia relativa será f.j = j. .
n
n
representada
por
n.j
i=1 ij
Pi=k
n
Las distribuciones de frecuencias condicionadas se construyen para una de
las dos variables cuando jamos un valor concreto que ha sido observado en la otra.
Si jamos el valor de la X = xi , podemos construir una distribución de frecuencias
de la variable Y condicionada al valor xi de X y que representaremos por Y |xi .
n
La frecuencia relativa de la clase yj de la variable Y |xi es ij . De la misma forma,
ni.
intercambiando los papeles de X y de Y también podremos denir las frecuencias
relativas de las clases xi de la variable X|yj .
Las frecuencias anteriores las representamos en la siguiente tabla. En las casillas
aparecen las frecuencias conjuntas y en los márgenes las marginales. Si tomamos la la
i y la dividimos por ni. obtendríamos la distribución de frecuencias de la variable Y |xi
mientras que si tomamos la columna j y la dividimos por n.j obtendríamos la distribución
de frecuencias de la variable X|yj .
X \Y
x1
y1
n11
xi
ni1
xk
nk1
n.1
.
.
.
.
.
.
Tema 2
.
.
.
.
.
.
.... yj
.... n1j
.... .
.... .
.... .
.... nij
.... .
.... .
.... .
.... nkj
.... n.j
.... yl
.... n1l n1.
.... .
.
.... .
.
.... .
.
.... nil ni.
.... .
.
.... .
.
.... .
.
.... nkl nk.
.... n.l n
Página: 2
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
En la sección anterior no se ha hecho mención al tipo de variables en juego aunque para
que la extensión de la tabla no sea excesiva las variables serán cualitativas o cuantitativas
discretas con pocas clases. En el caso de que alguna de ellas sea cuantitativa continua se
establecerán clases de intervalo. Cuando ambas cuantitativas continuas es más idóneo representar el conjunto de datos bidimensionales mediante una nube de puntos en el plano,
como se verá en la siguiente sección. Apreciar que tanto las distribuciones marginales
como todas las condicionadas que se puedan denir son distribuciones univariantes, las
cuales pueden tratarse mediante los procedimientos vistos en el tema anterior. En dichos casos siempre añadiremos al procedimiento que se trate el apellido que corresponda,
marginal o condicionada. Por ejemplo, si calculamos estadísticos a la distribución marginal de la variable Y hablaremos de la media marginal de Y o de la varianza marginal
de Y , etc. O será la media condicionada de Y dado X = xi o la varianza condicionada
de Y dado X = xi si dichos estadísticos se calculan sobre la distribución de frecuencias
condicionadas de Y |xi .
2.2.
Independencia Estadística
¾Cuándo la variable Y va a ser independiente de la variable X ?. De forma coloquial
estaríamos dispuestos a aceptar este hecho cuando el comportamiento de la variable Y
no se vea afectado por la variable X . Esto supone decir que todas las distribuciones condicionadas de Y a cualquier valor de la variable X son iguales a la distribución marginal
de Y , es decir, las las de la tabla de doble entrada, inclusive la la correspondiente a
las marginales, son proporcionales. Es decir:
nij
nkj
n1j
= .... =
= ....
para todo j = 1, ...., l
n1.
ni.
nk.
Pero si Y es independiente de X se va a cumplir que X es independiente de Y y en
ese caso hablaremos de que X e Y son independientes.
La condición de independencia equivalente a las y columnas proporcionales y ésta
es equivalente a la siguiente:
nij
ni. n.j
=
×
n
n
n
para todo i, j
O lo que es igual
fij = fi. × f.j
para todo i, j
Es decir, para que dos variables sean estadísticamente independientes se ha de cumplir que cada una de las frecuencias conjuntas sea el productos de las correspondientes
marginales.
Si para alguna pareja de índices i, j no se cumple la condición anterior diremos que
las variables están relacionadas.
Pero además de armar que dos variables no son independientes, cabe analizar el
grado de relación que hay entre ellas y concluir si dicha relación es o no signicativa.
La prueba para determinar si la relación entre dos variables, cuyos datos vienen
representados en una tabla de contingencia o de doble entrada se denomina prueba de
independendencia de Chi-Cuadrado y aunque no la estudiaremos en los temas de
teoría sí se verán ejemplos prácticos mediante software estadístico.
Tema 2
Página: 3
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
2.3.
Universidad de Murcia
Variables cuantitativas continuas
Diagramas de dispersión
Vamos a suponer ahora que los datos bidimensionales (xr , yr ), r = 1, ..., n observados
en el conjunto de la muestra provienen de la pareja de variables cuantitativas continuas
(X, Y ). Lo que vamos a desarrollar en esta sección son una serie de procedimientos para
describir la posible relación entre ambas variables, tanto en la forma de dicha relación
como en la intensidad de la misma.
Dos varibles (X, Y ) pueden ser independientes o relacionadas funcionalmente como
casos extremos. Estos casos extremos serán infrecuentes en la práctica. Las demás situaciones serán las de dependencia estadística (no funcional) en mayor o menor grado.
En primer lugar usaremos un tipo de gráco para visualizar esa posible relación
estadística. Ese gráco consiste en la representación de los datos bidimensionales (xr , yr ),
r = 1, ..., n como puntos en el plano real. El gráco resultante se denomina nube de puntos
o diagrama de dispersión.
Este primer paso nos va a orientar respecto a al tipo o forma de relación estadística
que habrá entre ambas variables o incluso de la intensidad de la dependencia. La imagen
siguiente contiene cuatro ejemplos. En los casos A y B se aprecian nubes de puntos
con forma lineal aunque con pendientes opuestas. En la nube de puntos del caso C se
aprecia una situación prácticamente amorfa mientras que la situación del ejemplo D
presenta una situación con nube de puntos con forma cuadrática. Los casos A, B y D
son tipos de relación estadística. El caso C será un caso de independencia o de muy
dudosa dependencia pues no se parecia ninguna forma funcional en la nube. La relación
funcional se apreciaría al estar todos los puntos de la nube sobre una cierta función, caso
extremadamente inusual en la práctica.
Tema 2
Página: 4
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Regresión lineal
Para describir la relación de una variable en función de la otra usaremos la función
que mejor ajuste en el sentido de mínimos cuadrados. Lo anterior signica que
dicha función ha de cumplir la condición de que la suma de las distancias verticales al
cuadrado de los puntos a la función ha de ser lo más pequeño posible. En un sentido más
coloquial diremos que dicha función es la que mejor se pega a la nube y en un sentido
más formal diremos que dicha función es la de regresión por mínimos cuadrados o
simplemente diremos que es la función de regresión.
El problema de encontrar dicha función se facilita cuando linitamos la busqueda a
una cierta familia de funciones. Por ejemplo, si suponemos que dicha relación es de tipo
lineal nos limitaríamos a encontrar la función lineal que más se pega a la nube de puntos.
Dicha función se llamará recta de regresión y puede ser como la que se aprecia en la
siguiente gura.
Pero ¾qué pasa cuando apreciamos visualmente que la función de regresión no es
lineal, como pasa en el ejemplo D de la gráca anterior?. Es esas situaciones lo que
haremos es transformar adecuadamente los datos de manera que el mejor ajuste con los
datos transformados sea el tipo lineal.
De momento, nos centraremos en la situación en donde la relación visualizada es
de tipo lineal y vamos a abordar cómo hallar la recta de regresión y cómo cuanticar
el grado o bondad del ajuste, aunque a la hora de la práctica usaremos un software
estadístico.
Tema 2
Página: 5
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
PLANTEAMIENTO DEL PROBLEMA DE AJUSTE POR MÍNIMOS
CUADRADOS
Queremos encontrar la recta y = a + bx que mejor ajusta a la nube (xr , yr ), r = 1, ..., n
en el sentido de mínimos cuadrados. Esto es lo mismo que encontrar los valores a y b de
forma que la expresión
n
X
(yr − (a + bxr ))2
r=1
toma el valor más pequeño posible
La solución al problema anterior viene dada por las siguientes expresiones:
b=
Sxy
Sx2
y
a = y − bx
donde
x e y son
P las medias marginales.
n
r=1 (xr
− x)(yr − x)
se dene como la Covarianza de (X, Y ). y
n
Pn
2
(xr − x)
es la ya conocida Varianza de X o varianza marginal de X .
Sx2 = r=1
n
Sxy =
Una medida del grado de relación lineal va a ser la covarianza Sxy sin embargo tiene
un inconveniente y es que ésta se expresa en la unidad en la que esté expresada X por
la unidad en la que esté expresada Y .
Mejor que la covarianza emplearearemos otro parámetro que tiene unas propiedades
muy interesantes y es el indicador más importante para medir el grado de relación lineal
entre dos variables. Éste se denomia Coeciente de Correlación lineal de Pearson.
COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON
Se dene por la expresión
r=
Sxy
Sx Sy
es decir, es el cociente entre la covarianza y el producto de las desviaciones típicas
marginales, y tiene las siguientes propiedades:
r siempre toma valores entre -1 y 1. Si r = 1 o r = −1 signica que la relación es
funcional porque todos los puntos están sobre una recta de pendiente positiva si
r = 1 o de pendiente negativa si r = −1.
Si r = 0 signica que la covarianza es cero y por tanto la pendiente de la recta
de regresión es cero. En este caso diremos que las variables son incorreladas o
linealmente independientes.
Los restantes casos son de relación lineal directa si la correlación es positiva ( r > 0
) o relación lineal inversa si la correlación es negativa (r < 0). El signo de r es el
mismo que el de la pendiente de la recta b y cuanto más próximo sea a 1 o a -1
mayor es el grado de relación lineal.
Tema 2
Página: 6
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
3.
Universidad de Murcia
Resumen de procedimientos
Según el tipo o tipos de las variables dependiente e independiente, indicamos los
procedimientos más comunes y que después se describirán.
Y Cualitativa vs
X Cualitativa
Ejemplo: Y : Nivel de estudios vs
X : Sexo
Y
X
Cuantitativa discreta
Cualitativa
vs
Ejemplo: Y : Número de hijos vs
X : Clase socioeconómica
X
Cuantitativa discreta
Ejemplo: Y : Número de hijos vs
X : Número de hermanos
Y
X
Cuantitativa Continua
Cualitativa
vs
Ejemplo: Y : Gastos en ocio vs
X : Clase socioeconómica
X
Cuantitativa discreta
Ejemplo: Y : Gastos en ocio vs
X : Número de hijos, o
X : Edad en años
X Cuantitativa
continua
Ejemplo: Y : Gastos en ocio vs
X : Renta familiar
Tema 2
Procedimientos
Tabla de frecuencias conjuntas
Tablas de frecuencias marginales
Tablas de frecuencias condicionadas Y |X
Pictogramas y Diagrama de Sectores de las tablas
anteriores
•
•
•
•
Procedimientos
• Tablas de frecuencias conjuntas, marginal de Y y
condicionadas de Y |X
• Diagramas de Barras de las distribuciones de Y y
de Y |X
• Estadísticos univariantes de la distribución marginal de Y y de las condicionadas Y |X
• Tablas de frecuencias conjuntas, marginales y con-
dicionadas
• Diagrama de Barras de las tablas anteriores
• Estadísticos univariantes de las distribuciones marginales y condicionadas
Procedimientos
• Tabla de frecuencias conjuntas (Y en clases de in-
tervalo)
• Tabla de frecuencias marginales de Y
• Tablas de frecuencias condicionadas Y |X
• Histogramas de las distribuciones de Y y de Y |X
• Estadísticos univariantes de la distribución marginal de Y y de las condicionadas Y |X
• Boxplot de la distribución marginal de Y y de las
condicionadas Y |X
• Igual que en el caso anterior si X tiene pocas clases
o
• Igual que el siguiente si X tiene muchas clases
• Tabla de frecuencias conjuntas si los datos de X e
Y están en clases de intervalo
• Tablas, histogramas, estadísticos y boxplot de dis-
tribuciones marginales y condicionadas
• Diagrama de dispersión de la nube de puntos (xi , yi )
• Coeciente de Correlación lineal y ajustes a funciones
Página: 7
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
4.
Universidad de Murcia
Actividades
1. Comprobar que otra forma de obtener la pendiente de la recta de regresión es:
b=r
Sy
Sx
donde r es el coeciente de correlación lineal.
2. Obtener el coeciente de correlación de la siguiente muestra de (X, Y ):
X
Y
-2 -1 0 1 2
4 1 0 1 4
Representar la nube de puntos y deducir de ello que Cor(X, Y ) = 0 no indica que la
variables sean independientes, sino únicamente que son linealmente independientes.
3. Obtener una expresión equivalente de Cov(X, Y ) =
xy − x.y
Pn
r=1
n
x r yr
Pn
−
r=1
n
xr
Pn
r=1
n
yr
=
4. Obtener la recta de regresión y el coeciente de correlación de una nube de 12
puntos
en donde
P
n
xr = 3150
Pr=1
n
yr = 10121
Pr=1
n
2
Pnr=1 x2r = 286313
yr = 2928418
Pr=1
n
r=1 xr yr = 912992
5. Se ha obtenido que la recta de regresión lineal a partir de un conjunto de datos
familiares (x, y); donde X representa el número de cuotas mensuales satisfechas
para pagar la hipoteca sobre sus viviendas e Y la deuda pendiente en euros, es
y = 75104.4 − 560.1x.
a ) Comentar el signicado de los coecientes de la recta de regresión en esta
situación particular.
b ) Si Sy = 1964.4 y Sx = 3.47, determinar la bondad del ajuste efectuado.
¾Cuánto vale el coeciente de correlación lineal?.
5.
Bibliografía
1. Tema 2 del texto Estadística Aplicada Básica. Autor:David S. Moore. Editorial
Bosch.
Tema 2
Página: 8
Descargar