TEMA 2: Distribuciones bidimensionales. Tablas de contingencia. Regresión lineal 2.1 Distribución de frecuencias bidimensional 2.2 Distribuciones marginales y condicionadas 2.3 Dependencia e independencia estadística. Indicadores de asociación 2.4 Regresión y correlación lineal 1 2.1 Distribución de frecuencias bidimensional ♦ Ejemplo . X: “Peso”, Y: “Estatura” X\Y 140-160 160-180 180-200 >200 Marginal X 40-60 10 6 2 0 18 60-80 8 12 6 2 28 80-100 1 8 10 6 25 Marginal Y 19 26 18 8 71 Frecuencias Marginales Frecuencias Marginales de X Frecuencias Marginales de Y Frecuencias Condicionadas Frecuencias Condicionadas de X Frecuencias Condicionadas de Y 2 2.2 Distribuciones marginales y condicionadas Distribución marginal de X ♦ Distribución de la variable X: “Peso” X \Y 140-160 160-180 180-200 >200 Marginal X 2 0 18 40-60 10 6 60-80 8 12 6 2 28 80-100 1 8 10 6 25 Marginal Y 19 26 18 8 71 3 Distribución marginal de X ♦ Distribución de la variable X: “Peso” X Frecuencias Marginales 40-60 18 60-80 28 80-100 25 71 Media Marginal de X Varianza Marginal de X Mediana Marginal de X 4 Distribución marginal de Y ♦ Distribución de la variable Y: “Estatura” X\Y 140-160 160-180 180-200 >200 Marginal X 40-60 10 6 2 0 18 60-80 8 12 6 2 28 80-100 1 8 10 6 25 Marginal Y 19 26 18 8 71 5 Distribución marginal de Y ♦ Distribución de la variable Y: “Estatura” Y Frecuencias Marginales 140-160 19 160-180 26 180-200 18 >200 8 71 Media Marginal de Y Varianza Marginal de Y Mediana Marginal de Y 6 Distribuciones de X Condicionadas a valores de Y ♦ Ejemplo . Distribución de X Condicionada a 160 < Y < 180 X\Y 140-160 160-180 180-200 >200 Marginal X 2 0 18 40-60 10 6 60-80 8 12 6 2 28 80-100 1 8 10 6 25 Marginal Y 19 26 18 8 71 7 ♦ Ejemplo . Distribución de X Condicionada a 160 < Y < 180 X Frecuencias condicionadas 40-60 6 60-80 12 80-100 8 26 Medias Condicionadas de X Varianzas Condicionadas de X 8 Distribuciones de Y Condicionadas a valores de X ♦ Ejemplo . Distribución de Y Condicionada a 60 < X < 80 X\Y 140-160 160-180 180-200 >200 Marginal X 40-60 10 6 2 0 18 60-80 8 12 6 2 28 80-100 1 8 10 6 25 Marginal Y 19 26 18 8 71 9 ♦ Ejemplo . Distribución de Y Condicionada a 60 < X < 80 Y Frecuencias condicionadas 140-160 8 160-180 12 180-200 6 >200 2 total 28 Medias Condicionadas de Y Varianzas Condicionadas de Y 10 2.4 Dependencia e independencia estadística. Indicadores de asociación Independencia estadística No hay relación entre las variables sii n ij = n i.n. j n ∀ i, j Dependencia estadística Hay relación entre las variables El grado de asociación se mide mediante los coeficientes de asociación 11 ♦ Ejemplo. Variables X e Y Independientes X\Y Y1 Y2 Y3 Y4 ni ● X1 n11 n12 n13 n14 n1 ● =2 =6 =4 =8 = 20 n21 n22 n23 n24 n2 ● =3 =9 =6 = 12 = 30 n31 n32 n33 n34 n3 ● =1 =3 =2 =4 = 10 n ●1 n ●2 n ●3 n ●4 n =6 = 18 = 12 = 24 = 60 X2 X3 n ●j Independencia estadística n 23 = n 2. n.3 n 31 = n 3. n.1 n n Si nij = ni. n. j n ∀ i, j 30 × 12 = =6 60 = 10 × 6 =1 60 12 ♦ Ejemplo. Variables X e Y No Independientes X\Y Y1 Y2 Y3 Y4 ni ● X1 n11 n12 n13 n14 n1 ● =3 =6 =4 =8 = 21 n21 n22 n23 n24 n2 ● =3 = 10 =6 = 12 = 31 n31 n32 n33 n34 n3 ● =1 =3 =2 =4 = 10 n ●1 n ●2 n ●3 n ●4 n =7 = 19 = 12 = 24 = 62 X2 X3 n ●j Independencia estadística n 23 = n 31 ≠ n 2. n.3 n n 3. n.1 n = Si nij = ni. n. j n ∀ i, j 31 × 12 = =6 62 10 × 7 = 1.129 ≠ 1 62 13 Indicadores de asociación 2 Coeficiente χ χ =∑ 2 (t ij ij − nij ) 2 tij 0 ≤ χ 2 ≤ N min { p − 1, q − 1} Coeficiente de contingencia de Pearson χ2 C= n + χ2 , 0≤C ≤ k −1 k k = min { p, q} Coeficiente T de Tschuprow T= χ2 n ( p − 1)(q − 1) 0 ≤ T ≤1 14 2.4 Regresión y correlación lineal Definición de Covarianza Cov [ X , Y ] = σ x y = ∑∑ n ij ( xi − x ) ( y j − y ) i j n = ∑∑ nij xi y j = i j n −x y Regresión “Búsqueda de una función matemática sencilla que relacione ambas variables y sirva para predecir la variable de interés del problema” 15 Nube de puntos (diagrama de dispersión): gráfico de las observaciones (datos bidimensionales) Especificación de función de regresión Elección de la función de regresión : tipo de función que mejor se ajuste a la nube de puntos: Lineal , polinómica, exponencial…… Correlación Estudio del grado de asociación entre las variables 16 Rectas de regresión Recta de mínimos cuadrados de Y / X Y y = a + bx * * * y j* * * * eij * * yj * (xi, yj* ) (xi, yj ) * * X xi Residuos = eij = y j − ( a + bxi ) 2 min ∑∑ eij = min∑∑ i j i = min ∑∑ i j ( ( y j − ( a + bxi ) ) ) 2 * yj − yj = 2 j Ecuaciones normales 17 Recta de mínimos cuadrados de Y / X y = f ( x) = a + b x Cov [ X , Y ] σ xy = = b= 2 Var [ X ] σx ∑ ni x i yi − x y n ∑ ni xi 2 n −x 2 a = y − bx ( y− y =b x−x ) b = coeficiente de regresión de Y / X “Variación de Y que se produce por cada unidad de aumento en X” 18 Recta de mínimos cuadrados de X / Y x = f ( y) = c + d y Cov [ X , Y ] σ xy d= = = 2 Var [Y ] σy ∑ ni x i yi − x y n ∑ ni y i 2 n −y 2 c = x−d y ( x−x=d y− y ) d = coeficiente de regresión de X / Y “Variación de X si Y aumenta en una unidad” Propiedad: “Las dos rectas de regresión se cortan en el el punto ( x , y ) “ 19 Coeficiente de determinación y coeficiente de correlación lineal Coeficiente de determinación “Proporción de la varianza explicada por la regresión” r2 = Propiedad: r 2 = bd rectas de regresión. 2 σ xy ; σ x2 σ y2 0 ≤ r2 ≤ 1 , donde b y d son las pendientes de las Coeficiente de correlación lineal de Pearson r= σ xy σ xσ y ; −1 ≤ r ≤ 1 r = 0 ⇒ No hay asociacion lineal entre las variables Independencia ⇒ r = 0 r = 1 ⇒ Asociacion lineal positiva perfecta r = − 1 ⇔ Asociacion lineal negativa perfecta 20 ♦ Ejemplo. X= “Estatura”, Y= “Peso” xi yi x i yi x i2 Yi2 160 52 8320 25600 2704 172 64 11008 29584 4096 174 65 11310 30276 4225 176 72 12672 30976 5184 180 78 14040 32400 6084 Σ=862 Σ= 331 Σ= 57350 Σ= 148836 Σ= 22293 x= σ xy 862 = 172.4 ; 5 y= 331 = 66.2 5 n i x i yi 57350 ∑ = − xy = − 172.4 σx n 5 × 66.2 = 57.12 2 n x 2 148836 ∑ i i 2= −x = − 172.42 = 45.44 σ y2 = n 2 n y ∑ i i n 5 2 −y = 22293 − 66.22 = 76.16 5 21 y = a + bx b= Cov [ X , Y ] Var [ X ] = σ xy σ x2 = 57.12 = 1.257 45.44 a = y − bx = 66.2 − 1.257 × 172.4 = −150.5068 y = a + b x = −150.5068 + 1.258 x Para x = 170 ⇒ y = a + bx = −150.5068 + 1.257 × 170 = 63.1832 σ xy 57.12 r= = = 0.909 σx σy 45.44 76.16 22 Otros tipos de ajuste Parabólico y = ax 2 + bx + c Exponencial y = a bx Potencial y = a xb Hiperbólico y= a x 23