M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Tema 2: Análisis exploratorio Bidimensional 1. Ob jetivos En este tema abordaremos el tratamiento de dos variables simultáneamente. Como en el primer tema, los procedimientos que usaremos dependen básicamente del tipo o tipos de variables que están en juego, mientras que el objetivo para todos los casos será la posible visualización (mediante grácos) o descripción en general del comportamiento de una de ellas en función de la otra. En el caso de que ambas variables sean cuantitativas continuas se usarán ajustes a funciones que explican la relación en juego hasta cierto grado. En conclusión, se marcan los siguientes objetivos X Aplicar grácos convenientes para visualizar relación entre variables. X Ajustar datos a modelos lineales y no lineales. X Interpretar parámetros indicadores de la bondad del ajuste. 2. Procedimientos de descripción de datos bivariantes En este tema vamos a tratar datos bivariantes que provienen de la observación simultanea de dos variables (X, Y ) en una muestra de n individuos. Los datos serán parejas de valores, numéricos o no numéricos, de la forma (xr , yr ) con r = 1, ...., n, que representan los valores observados de la pareja de variables (X, Y ) en los n individuos de la muestra. Estos datos bidimensionales se usarán para describir las dos variables conjuntamente o una variable en función de la otra. Normalmente, en los estudios de relaciones entre variables, una de las dos variables juega un papel más importante que la otra, ésta será la variable dependiente que denotaremos por Y , cuyo comportaremos se intenterá describir en función de otra variable X que llamaremos variable independiente o explicativa. 2.1. Distribuciones conjuntas, marginales y condicionadas Se trata ahora de tabular el conjunto de datos de la muestra (xr , yr ), r = 1, ..., n. Las clases o valores distintos observados serán parejas (xi , yj ) (i = 1, ..., k , j = 1, ...., l) y cada dato de la muestra anterior pertencerá a una de estas clases. El procedimiento de tabulación para datos bidimensionales se denomina tabla de doble entrada, en donde los valores aislados o clases de intervalo de las variables X e Y se representan en dos ejes perpendiculares y la frecuencia de cada pareja de clases se representa en la casilla correspondiente. Estas frecuencias se llaman conjuntas. Más concretamente, vamos a suponer que en la variable X hemos observado las clases (o clases de intervalo) x1 , x2 , ...., xk y que en la variable Y hemos observado las clases y1 , y2 , ....yl . Eso signica que cada pareja de datos (xr , yr ), r = 1, ..., n observados en el conjunto de la muestra será igual o pertenecerá a cierta clase (xi , yj ) (i = 1, ..., k , j = 1, ...., l) y se clasicará en dicha Tema 2 Página: 1 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia n clase. La frecuencia absoluta de dicha clase se representará por nij y por fij = ij n la frecuencia relativa. Las distribuciones de frecuencias marginales se obtienen de sumar frecuencias conjuntas para dar lugar a las frecuencias de las clases de cada una de las variables considerada aislada de la otra. Se obtendrán las distribuciones marginales de la variable X y de la variable Y , que se corresponden con las distribuciones de frecuencias univariantes de cada una de ellas cuando no tenemos en cuenta el valor de la otra variable. La frecuencia absoluta marginal de la clase xi será Pj=l ni. . j=1 nij representada por ni. , mientras que la frecuencia relativa será fi. = La frecuencia absoluta marginal de la clase yj será n mientras que la frecuencia relativa será f.j = j. . n n representada por n.j i=1 ij Pi=k n Las distribuciones de frecuencias condicionadas se construyen para una de las dos variables cuando jamos un valor concreto que ha sido observado en la otra. Si jamos el valor de la X = xi , podemos construir una distribución de frecuencias de la variable Y condicionada al valor xi de X y que representaremos por Y |xi . n La frecuencia relativa de la clase yj de la variable Y |xi es ij . De la misma forma, ni. intercambiando los papeles de X y de Y también podremos denir las frecuencias relativas de las clases xi de la variable X|yj . Las frecuencias anteriores las representamos en la siguiente tabla. En las casillas aparecen las frecuencias conjuntas y en los márgenes las marginales. Si tomamos la la i y la dividimos por ni. obtendríamos la distribución de frecuencias de la variable Y |xi mientras que si tomamos la columna j y la dividimos por n.j obtendríamos la distribución de frecuencias de la variable X|yj . X \Y x1 y1 n11 xi ni1 xk nk1 n.1 . . . . . . Tema 2 . . . . . . .... yj .... n1j .... . .... . .... . .... nij .... . .... . .... . .... nkj .... n.j .... yl .... n1l n1. .... . . .... . . .... . . .... nil ni. .... . . .... . . .... . . .... nkl nk. .... n.l n Página: 2 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia En la sección anterior no se ha hecho mención al tipo de variables en juego aunque para que la extensión de la tabla no sea excesiva las variables serán cualitativas o cuantitativas discretas con pocas clases. En el caso de que alguna de ellas sea cuantitativa continua se establecerán clases de intervalo. Cuando ambas cuantitativas continuas es más idóneo representar el conjunto de datos bidimensionales mediante una nube de puntos en el plano, como se verá en la siguiente sección. Apreciar que tanto las distribuciones marginales como todas las condicionadas que se puedan denir son distribuciones univariantes, las cuales pueden tratarse mediante los procedimientos vistos en el tema anterior. En dichos casos siempre añadiremos al procedimiento que se trate el apellido que corresponda, marginal o condicionada. Por ejemplo, si calculamos estadísticos a la distribución marginal de la variable Y hablaremos de la media marginal de Y o de la varianza marginal de Y , etc. O será la media condicionada de Y dado X = xi o la varianza condicionada de Y dado X = xi si dichos estadísticos se calculan sobre la distribución de frecuencias condicionadas de Y |xi . 2.2. Independencia Estadística ¾Cuándo la variable Y va a ser independiente de la variable X ?. De forma coloquial estaríamos dispuestos a aceptar este hecho cuando el comportamiento de la variable Y no se vea afectado por la variable X . Esto supone decir que todas las distribuciones condicionadas de Y a cualquier valor de la variable X son iguales a la distribución marginal de Y , es decir, las las de la tabla de doble entrada, inclusive la la correspondiente a las marginales, son proporcionales. Es decir: nij nkj n1j = .... = = .... para todo j = 1, ...., l n1. ni. nk. Pero si Y es independiente de X se va a cumplir que X es independiente de Y y en ese caso hablaremos de que X e Y son independientes. La condición de independencia equivalente a las y columnas proporcionales y ésta es equivalente a la siguiente: nij ni. n.j = × n n n para todo i, j O lo que es igual fij = fi. × f.j para todo i, j Es decir, para que dos variables sean estadísticamente independientes se ha de cumplir que cada una de las frecuencias conjuntas sea el productos de las correspondientes marginales. Si para alguna pareja de índices i, j no se cumple la condición anterior diremos que las variables están relacionadas. Pero además de armar que dos variables no son independientes, cabe analizar el grado de relación que hay entre ellas y concluir si dicha relación es o no signicativa. La prueba para determinar si la relación entre dos variables, cuyos datos vienen representados en una tabla de contingencia o de doble entrada se denomina prueba de independendencia de Chi-Cuadrado y aunque no la estudiaremos en los temas de teoría sí se verán ejemplos prácticos mediante software estadístico. Tema 2 Página: 3 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos 2.3. Universidad de Murcia Variables cuantitativas continuas Diagramas de dispersión Vamos a suponer ahora que los datos bidimensionales (xr , yr ), r = 1, ..., n observados en el conjunto de la muestra provienen de la pareja de variables cuantitativas continuas (X, Y ). Lo que vamos a desarrollar en esta sección son una serie de procedimientos para describir la posible relación entre ambas variables, tanto en la forma de dicha relación como en la intensidad de la misma. Dos varibles (X, Y ) pueden ser independientes o relacionadas funcionalmente como casos extremos. Estos casos extremos serán infrecuentes en la práctica. Las demás situaciones serán las de dependencia estadística (no funcional) en mayor o menor grado. En primer lugar usaremos un tipo de gráco para visualizar esa posible relación estadística. Ese gráco consiste en la representación de los datos bidimensionales (xr , yr ), r = 1, ..., n como puntos en el plano real. El gráco resultante se denomina nube de puntos o diagrama de dispersión. Este primer paso nos va a orientar respecto a al tipo o forma de relación estadística que habrá entre ambas variables o incluso de la intensidad de la dependencia. La imagen siguiente contiene cuatro ejemplos. En los casos A y B se aprecian nubes de puntos con forma lineal aunque con pendientes opuestas. En la nube de puntos del caso C se aprecia una situación prácticamente amorfa mientras que la situación del ejemplo D presenta una situación con nube de puntos con forma cuadrática. Los casos A, B y D son tipos de relación estadística. El caso C será un caso de independencia o de muy dudosa dependencia pues no se parecia ninguna forma funcional en la nube. La relación funcional se apreciaría al estar todos los puntos de la nube sobre una cierta función, caso extremadamente inusual en la práctica. Tema 2 Página: 4 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Regresión lineal Para describir la relación de una variable en función de la otra usaremos la función que mejor ajuste en el sentido de mínimos cuadrados. Lo anterior signica que dicha función ha de cumplir la condición de que la suma de las distancias verticales al cuadrado de los puntos a la función ha de ser lo más pequeño posible. En un sentido más coloquial diremos que dicha función es la que mejor se pega a la nube y en un sentido más formal diremos que dicha función es la de regresión por mínimos cuadrados o simplemente diremos que es la función de regresión. El problema de encontrar dicha función se facilita cuando linitamos la busqueda a una cierta familia de funciones. Por ejemplo, si suponemos que dicha relación es de tipo lineal nos limitaríamos a encontrar la función lineal que más se pega a la nube de puntos. Dicha función se llamará recta de regresión y puede ser como la que se aprecia en la siguiente gura. Pero ¾qué pasa cuando apreciamos visualmente que la función de regresión no es lineal, como pasa en el ejemplo D de la gráca anterior?. Es esas situaciones lo que haremos es transformar adecuadamente los datos de manera que el mejor ajuste con los datos transformados sea el tipo lineal. De momento, nos centraremos en la situación en donde la relación visualizada es de tipo lineal y vamos a abordar cómo hallar la recta de regresión y cómo cuanticar el grado o bondad del ajuste, aunque a la hora de la práctica usaremos un software estadístico. Tema 2 Página: 5 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia PLANTEAMIENTO DEL PROBLEMA DE AJUSTE POR MÍNIMOS CUADRADOS Queremos encontrar la recta y = a + bx que mejor ajusta a la nube (xr , yr ), r = 1, ..., n en el sentido de mínimos cuadrados. Esto es lo mismo que encontrar los valores a y b de forma que la expresión n X (yr − (a + bxr ))2 r=1 toma el valor más pequeño posible La solución al problema anterior viene dada por las siguientes expresiones: b= Sxy Sx2 y a = y − bx donde x e y son P las medias marginales. n r=1 (xr − x)(yr − x) se dene como la Covarianza de (X, Y ). y n Pn 2 (xr − x) es la ya conocida Varianza de X o varianza marginal de X . Sx2 = r=1 n Sxy = Una medida del grado de relación lineal va a ser la covarianza Sxy sin embargo tiene un inconveniente y es que ésta se expresa en la unidad en la que esté expresada X por la unidad en la que esté expresada Y . Mejor que la covarianza emplearearemos otro parámetro que tiene unas propiedades muy interesantes y es el indicador más importante para medir el grado de relación lineal entre dos variables. Éste se denomia Coeciente de Correlación lineal de Pearson. COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON Se dene por la expresión r= Sxy Sx Sy es decir, es el cociente entre la covarianza y el producto de las desviaciones típicas marginales, y tiene las siguientes propiedades: r siempre toma valores entre -1 y 1. Si r = 1 o r = −1 signica que la relación es funcional porque todos los puntos están sobre una recta de pendiente positiva si r = 1 o de pendiente negativa si r = −1. Si r = 0 signica que la covarianza es cero y por tanto la pendiente de la recta de regresión es cero. En este caso diremos que las variables son incorreladas o linealmente independientes. Los restantes casos son de relación lineal directa si la correlación es positiva ( r > 0 ) o relación lineal inversa si la correlación es negativa (r < 0). El signo de r es el mismo que el de la pendiente de la recta b y cuanto más próximo sea a 1 o a -1 mayor es el grado de relación lineal. Tema 2 Página: 6 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos 3. Universidad de Murcia Resumen de procedimientos Según el tipo o tipos de las variables dependiente e independiente, indicamos los procedimientos más comunes y que después se describirán. Y Cualitativa vs X Cualitativa Ejemplo: Y : Nivel de estudios vs X : Sexo Y X Cuantitativa discreta Cualitativa vs Ejemplo: Y : Número de hijos vs X : Clase socioeconómica X Cuantitativa discreta Ejemplo: Y : Número de hijos vs X : Número de hermanos Y X Cuantitativa Continua Cualitativa vs Ejemplo: Y : Gastos en ocio vs X : Clase socioeconómica X Cuantitativa discreta Ejemplo: Y : Gastos en ocio vs X : Número de hijos, o X : Edad en años X Cuantitativa continua Ejemplo: Y : Gastos en ocio vs X : Renta familiar Tema 2 Procedimientos Tabla de frecuencias conjuntas Tablas de frecuencias marginales Tablas de frecuencias condicionadas Y |X Pictogramas y Diagrama de Sectores de las tablas anteriores • • • • Procedimientos • Tablas de frecuencias conjuntas, marginal de Y y condicionadas de Y |X • Diagramas de Barras de las distribuciones de Y y de Y |X • Estadísticos univariantes de la distribución marginal de Y y de las condicionadas Y |X • Tablas de frecuencias conjuntas, marginales y con- dicionadas • Diagrama de Barras de las tablas anteriores • Estadísticos univariantes de las distribuciones marginales y condicionadas Procedimientos • Tabla de frecuencias conjuntas (Y en clases de in- tervalo) • Tabla de frecuencias marginales de Y • Tablas de frecuencias condicionadas Y |X • Histogramas de las distribuciones de Y y de Y |X • Estadísticos univariantes de la distribución marginal de Y y de las condicionadas Y |X • Boxplot de la distribución marginal de Y y de las condicionadas Y |X • Igual que en el caso anterior si X tiene pocas clases o • Igual que el siguiente si X tiene muchas clases • Tabla de frecuencias conjuntas si los datos de X e Y están en clases de intervalo • Tablas, histogramas, estadísticos y boxplot de dis- tribuciones marginales y condicionadas • Diagrama de dispersión de la nube de puntos (xi , yi ) • Coeciente de Correlación lineal y ajustes a funciones Página: 7 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos 4. Universidad de Murcia Actividades 1. Comprobar que otra forma de obtener la pendiente de la recta de regresión es: b=r Sy Sx donde r es el coeciente de correlación lineal. 2. Obtener el coeciente de correlación de la siguiente muestra de (X, Y ): X Y -2 -1 0 1 2 4 1 0 1 4 Representar la nube de puntos y deducir de ello que Cor(X, Y ) = 0 no indica que la variables sean independientes, sino únicamente que son linealmente independientes. 3. Obtener una expresión equivalente de Cov(X, Y ) = xy − x.y Pn r=1 n x r yr Pn − r=1 n xr Pn r=1 n yr = 4. Obtener la recta de regresión y el coeciente de correlación de una nube de 12 puntos en donde P n xr = 3150 Pr=1 n yr = 10121 Pr=1 n 2 Pnr=1 x2r = 286313 yr = 2928418 Pr=1 n r=1 xr yr = 912992 5. Se ha obtenido que la recta de regresión lineal a partir de un conjunto de datos familiares (x, y); donde X representa el número de cuotas mensuales satisfechas para pagar la hipoteca sobre sus viviendas e Y la deuda pendiente en euros, es y = 75104.4 − 560.1x. a ) Comentar el signicado de los coecientes de la recta de regresión en esta situación particular. b ) Si Sy = 1964.4 y Sx = 3.47, determinar la bondad del ajuste efectuado. ¾Cuánto vale el coeciente de correlación lineal?. 5. Bibliografía 1. Tema 2 del texto Estadística Aplicada Básica. Autor:David S. Moore. Editorial Bosch. Tema 2 Página: 8