MATEMÁTICAS Unidad 6. Estadística. MATERIALES COMPLEMENTARIOS VARIABLES BIDIMENSIONALES. REGRESIÓN Y CORRELACIÓN Las variables bidimensionales son aquellas en que se recogen dos variables unidimensionales simultáneamente de cada individuo para analizar si existe una relación entre ellos. Por ejemplo: peso y altura, horas de estudio y calificación, etc. De cada individuo se toman los datos de las dos variables para cada uno se tendrá un par de números (xi,yi). Representación de variables bidimensionales Si hay pocos individuos en la muestra la presentación de los datos se hace en forma de una tabla como la siguiente: Variable X x1 x2 … xn Variable Y y1 y2 … yn Por ejemplo si se ha preguntado a 6 personas el número de días a la semana que comen verdura y el número que comen fruta la tabla podría ser: Días que se come verdura X 3 7 4 6 1 2 Días que se come fruta 2 7 7 7 4 4 Y De esta tabla se deduce que el primer entrevistado come 3 días verdura a la semana y 2 días fruta, el segundo 7 días verdura y 7 días fruta y así sucesivamente. La representación gráfica se hace a través de la denominada “nube de puntos”. Es una gráfica en la que se representan los valores de la variable X en el eje horizontal y los valores de Y en el eje vertical. Para cada individuo se representa el punto dado por las coordenadas (x i,yi). De la tabla anterior la gráfica sería: En el eje horizontal se ha representado el número de días que se come verdura (variable X) y en el eje vertical el número de días que se come fruta (variable Y). Cada punto representa los datos obtenidos de cada individuo de la muestra. Curso de Acceso a Ciclos Formativos de Grado Superior Página 1 de 5 MATEMÁTICAS Unidad 6. Estadística. Tablas de doble entrada Si hay muchos datos y se repiten mucho los mismos pares de valores se utilizan tablas de doble entrada. En este tipo de tablas se colocan en la primera fila los valores que toma la variable X y en la primera columna los valores que toma Y, en el resto de posiciones se coloca el número de veces que se repite la pareja de puntos (xi,yi). Las tablas son de la forma: … Y/X x1 x2 y1 n11 n21 nk1 y2 n12 n22 nk1 n1k n2k nkk xk … yk Por ejemplo si se ha preguntado a 40 personas el el número de días a la semana que comen verdura (variable X) y el número que comen fruta (variable Y) la tabla podría ser: Y/X 1 3 4 5 6 Total 2 1 2 0 0 0 3 4 0 2 3 0 0 5 5 1 4 5 1 3 14 6 0 1 3 5 4 13 7 0 0 0 3 2 5 Total 2 9 11 9 9 40 De esta tabla se deduce que hay un individuo que come 1 día verdura a la semana y 2 días fruta, que hay 2 individuos que comen 3 días verdura y 2 días fruta, que hay 2 individuos que comen 3 días verdura y 4 días fruta, que hay 3 individuos que comen 4 días verdura y 4 días fruta, y así sucesivamente. La representación gráfica se puede hacer con una representación tridimensional, con tres ejes. En los ejes horizontales se representan los valores de las variables X e Y y en el eje vertical se representa la frecuencia absoluta de cada par de números (x i,yi) Medidas marginales Una variable bidimensional está compuesta por dos variables unidimensionales, en cada individuo se recogen los datos de dos variables. Por ejemplo si deseamos estudiar si hay relación entre el peso y la altura en una población las dos variables unidimensionales serían peso y altura. Las medidas marginales son aquellas que se derivan de estudiar una variable sin tener en cuenta a la otra. Es decir son las medidas obtenidas de realizar el estudio unidimensional de cada variable. Se tendrán medidas marginales de la variable X y de la variable Y. Curso de Acceso a Ciclos Formativos de Grado Superior Página 2 de 5 MATEMÁTICAS Unidad 6. Estadística. Las medidas marginales que se van a necesitar ya se han estudiado en los contenidos interactivos, son la media, la varianza y la desviación típica. En cada variable bidimensional se tienen las medidas marginales siguientes: De la variable X: Media: x De la variable Y: Media: y Varianza: Sx2 Varianza: Sy2 Desviación típica: Sx Desviación típica: Sy Por ejemplo se calculan las medidas marginales de la tabla: Días que se come verdura X 3 7 4 6 1 2 Días que se come fruta 2 7 7 7 4 4 De la variable X serán: x Y 3 7 4 6 1 2 3´83 6 Sx2 3 2 7 2 4 2 6 2 12 2 2 3´83 2 4´47 6 S x 4´47 2´115 De la variable Y serán: y 277744 5,167 6 Sy2 22 72 72 72 42 4 2 5,167 2 3´8 6 S y 3´8 1´95 Covarianza Al estudiar las variables bidimensionales además de los parámetros marginales se define un nuevo parámetro, la covarianza, Sxy. Se define con la fórmula: fij ( x i x ) ( y i y ) S xy 6 i j Esta fórmula es similar a la de la varianza. A efectos prácticos de cálculo de la covarianza se va a utilizar la siguiente fórmula que es equivalente a la anterior: n fij·x i y j i, j 1 N S xy xy El valor fij es la frecuencia absoluta de los diferentes pares de puntos. Curso de Acceso a Ciclos Formativos de Grado Superior Página 3 de 5 MATEMÁTICAS Unidad 6. Estadística. Como ejemplo se va a calcular la covarianza de los datos de la tabla: Días que se come verdura X 3 7 4 6 1 2 Días que se come fruta 2 7 7 7 4 4 Y Los valores de la medias ya se habían calculado: x 3´83 ; y 5,167 S xy 3 2 7 7 4 7 6 7 1 4 2 4 3´83 5´167 3,044 6 Correlación La correlación estudia la relación entre las dos variables de una distribución bidimensional, es decir, si dependen en gran o en pequeña medida una de otra. En la representación en nube de puntos ya se puede determinar si existe correlación. Si la nube de puntos está agrupada existe correlación y si está dispersa la correlación disminuye. También se puede saber si la correlación es positiva o negativa. Correlación positiva o directa: cuando al aumentar el valor de una variable aumenta también la otra. Correlación negativa o inversa: cuando al disminuir el valor de una variable aumenta el valor de la otra. Si la nube de puntos se agrupa en torno a una recta se dice que la correlación es lineal y existe un parámetro para medir el grado, es el coeficiente de correlación lineal. Coeficiente de correlación lineal: Se denota como r y se define como la división entre la covarianza y el producto de las desviaciontes típicas marginales. r S xy SxSy En el ejemplo anterior: r 3´044 0´74 2´115 1´95 Interpretación del coeficiente de correlación. El coeficiente de correlación nos proporciona información de la relación existente entre las dos variables X e Y. En primer término el signo nos determina si la correlación es directa o inversa. - Si el coeficiente de correlación es positivo es directa. - Si el coeficiente de correlación es negativo es inversa. Curso de Acceso a Ciclos Formativos de Grado Superior Página 4 de 5 MATEMÁTICAS Unidad 6. Estadística. En segundo término nos señala, según el valor del coeficiente, si la correlación es más o menos fuerte. El coeficiente de correlación siempre tiene que ser un número entre -1 y 1 -1 < r < 1 Si el valor de r = -1 o r = 1 la correlación es perfecta. La nube de puntos forma una recta en la gráfica. Cuanto más cerca esté el valor de r a 1 ó -1 más fuerte es la correlación lineal. Si el valor del coeficiente se acerca a 0 la correlación es más débil. En el ejemplo estudiado r = 0´74, por tanto la correlación es directa y fuerte. Recta de regresión Si el coeficiente de correlación está cercano a la unidad es interesante calcular la ecuación de la recta que más se aproxima a todos los puntos de la variable. La recta de regresión es la que mejor se ajusta a la nube de puntos. Permite deducir el valor teórico de una variable a partir de la otra. La recta de regresión de Y sobre X permite deducir los valores de Y a partir de los de X. yy La ecuación es: S xy Sx2 x. x En el ejemplo de los días que se consume verdura y fruta la ecuación de la recta de regresión será: y 5´167 3´044 x. 3´83 4´47 Por ejemplo si una persona come 3 días verdura la previsión teórica de días que comerá fruta se calculará sustituyendo en la ecuación anterior el valor de x por . y 5´167 3´044 3. 3´83 4´47 y = 4´6 días Curso de Acceso a Ciclos Formativos de Grado Superior Página 5 de 5