Variables estadísticas bidimensionales

Anuncio
Variables estadísticas
bidimensionales

Se trata de variables que surgen cuando
se estudian dos características asociadas a
la observación de un fenómeno.
Variables estadísticas bidimensionales

Ejemplo 1.- Estudiamos la talla, medida en cm. y el peso,
medido en kg. de un grupo de 10 personas, podemos
obtener los siguientes valores
Talla
160 165 168 170 171 175 175 180 180 182
(cms)
Peso
(kgs)
55
58
58
61
67
62
66
74
79
83
Talla
(cms) 160 165 168 170 171 175 175 180 180 182
Peso
(kgs)

55
58
58
61
67
62
66
74
79
83
Podemos llamar X a la talla e Y al peso con lo
que se obtendría la variable bidimensional (X, Y)
que toma 10 valores, que son las 10 parejas de
valores de la tabla anterior: (160,55), (165,58),
etc.
Variables estadísticas
bidimensionales

En algunos casos el número de "parejas" de valores (x,y)
es grande y además muchos de ellos aparecen
repetidos; en este caso se utiliza una "Tabla de doble
entrada" como la que se muestra a continuación en el
ejemplo 2

En la primera fila se colocan los valores de una de las
características o variable que componen la variable
bidimensional y en la primera columna los de la otra.
Variables estadísticas
bidimensionales

Ejemplo 2.- Se representa por X el número de hijos de 100
familias y por Y el número de hijas
# de hijas (Y)
# de hijos (x)
0
1
2
3
4
-------------------------------------------------------------
0 1 2
---- ---- ---10 15 15
10 12 7
8 4 3
3 2 1
2 1 1
3
--3
2
1
0
0
Variables estadísticas bidimensionales
# de hijas (Y)
# de hijos (x)
0
1
2
3
4

-------------------------------------------------------------
0
---10
10
8
3
2
1
---15
12
4
2
1
2
---15
7
3
1
1
3
--3
2
1
0
0
La lectura de esta tabla es sencilla. Por ejemplo:
habría 7 familias que tendrían 1 hijo y 2 hijas y
ninguna familia tendría 3 hijos y 3 hijas.
Representación gráfica
Diagramas de dispersión o nubes
de puntos
Variables Estadisticas
Bidimencionales
Covarianza
Correlacion
Diagramas de dispersión o nubes de puntos

La representación gráfica de este tipo de
variables es en realidad semejante a la
respresentación de puntos en el plano,
usando unos ejes de coordenadas. Cada
pareja de valores da lugar a un punto en
el plano y el conjunto de puntos que se
obtiene se denomina "diagrama de
dispersión o nube de puntos".
Diagramas de dispersión o nubes de puntos

En el ejemplo 1 anterior en el que se estudiaba la talla y el peso
de 10 personas se obtendría el siguiente diagrama de dispersión:
(En el eje X se representa la talla en cm. y en el eje Y el peso en
kg.)
Diagramas de dispersión o nubes de
puntos

Se puede ver en el primera figura que correspondía al
diagrama de talla - peso que la serie de puntos
presenta una tendencia "ascendente" . Se dice en este
caso que existen entre las dos variables una
"dependencia directa" .

En caso en que la tendencia sea "descendente" se diría
que estaríamos ante una " dependencia inversa "

Naturalmente en caso en que no se pueda observar una
tendencia clara estaríamos ante una dependencia muy
débil que no se puede observar mediante la nube de
puntos
Diagramas de dispersión o nubes de puntos
Covarianza y su interpretación
Covarianza

Sean (xi, yi ) pares de observaciones de
dos caracteristicas X y Y, y sean
sus
respectivas medias. La covarianza entre
entre las dos variables se define por :
Covarianza

Donde xi e yi representan los pares de valores
de la variable y el producto
corresponde al
producto de las medias aritméticas de las
variables x e y respectivamente.
Pasos para calcular la covarianza de una serie de eventos
 Paso 1: Se calcula Σxiyi , esto es la sumatoria de los productos de las
variablares x y y; o sea:
(x1 * y1) + (x2 * y2) + ... +(xn * yn )
 Paso 2: se define n, que el numero de eventos o el numero de pares de
cariables
 Paso 3: Se calcula
, que es el producto de las medias de ambas variables
Paso 4: Obtenidos todos los datos se sustituyen en la formula y se obtiene el
resultado
Calculemos la covarianza para el ejemplo primero correspondiente a la variable
talla - peso
Talla
(cms) 160 165 168 170 171 175 175 180 180 182
Peso
(kgs)
55
58
58
61
67
62
66
74
79
83
Paso 1:
 La suma de todos los productos de los valores de x (talla) por los de y
(peso) sería:
160 · 55 + 165 · 58 + 168 · 58 + 170 · 61 + 171 · 67 + 175 · 62 + 175 ·
66 + 180 · 74 + 180 · 79 + 182 · 83 = 114987
Paso 2:
 Definimos n como el numero de eventos en este caso es 10
Paso 3:
A este valor debemos restarle el producto de las medias de ambas variables que
naturalmente sabes calcular:
Media de x (talla): 172.6
Media de y (peso): 66.3
= 172.6 * 66.3 = 11443.38
De acuerdo ala formula tenemos que:
Sxy = (114987 / 10 ) – 11443.38
Sxy = 55.32
Hemos obtenido un valor positivo para la covarianza que corresponde a
una dependencia directa como ya habíamos intuido con la nube de
puntos
Regresion y Correlacion
Recta de regresion

Relacion entre dos variables

Variable independiente x

Variable dependiente y

función lineal del tipo y = ax + b, su gráfica correspondería a una
recta

recta de regresión.
se deduce que la recta de regresión debe pasar por el punto correspondiente a
las medias de ambas variables y que debe tener por pendiente la covarianza
dividida por la varianza de la variable x.
Con ello la expresión de la recta de regresión será:
Esta es la llamada "Recta de regresión de y sobre x". Si se deseara estudiar la
dependencia de x respecto a y sólo habría que cambiar en la expresión de la
recta x por y, obteniéndose la recta regresión de x sobre y
En la imagen siguiente se muestra la recta de regresión de y (peso) sobre x (talla)
del ejemplo 1 de este tema. En este caso se supone que represente cómo depende
el peso de una persona de su talla
Si recordamos que entre la talla y el peso decíamos que existía una dependencia
directa, la recta de regresión lo confirma ya que su pendiente es positiva: a medida
que aumenta la talla aumenta el peso. Por tanto:
Dependencia directa - Pendiente de la recta positiva - Función creciente
Utilidad tiene la recta de regresión

Mediante la recta de regresión podríamos obtener de manera
aproximada el valor de la variable dependiente (y) de la que
conociéramos la variable independiente (x), en una población
semejante a aquella de la que se ha obtenido la muestra

De manera más precisa, si conocemos la expresión de la recta de
regresión, se pueden calcular valores para la variable y, conocidos
los de x, como si se tratara de una función
Ejemplo :
Si observamos la gráfica, podríamos suponer por ejemplo que una persona de 185
cm pesaría algo más de 80 kg
De acuerdo ala formula
La recta de regresión de la variable y (talla) sobre x (peso) será la recta:
-que pasa por el punto (172,6 ; 66,3) (medias repectivas de (x,y))
-tiene de pendiente: 55.32 / 50.71 = 1.0909
Recta: y – 66.3 = 1.0909 ( x – 172.6) que operando y simplificando queda:
y = 1.0909x – 121.9
El valor del peso que suponíamos aproximado para una talla de 185 cm
sería:
Peso= 1.0909 · 185 – 121.9 = 79.9
Este valor obtenido es algo menor al esperado. Eso quiere decir que las
predicciones hechas con la recta de regresión no son exactas. Mas
adelante precisaremos la "fiabilidad" de las mismas.
Por tanto la recta de regresión se puede utilizar para realizar
predicciones para la variable y a partir de valores conocidos de la
variable x.
Coeficiente de correlacion

Una vez observado que en una variable bidimensional existe una
cierta dependencia entre las dos características o variables que la
forman (nube de puntos y covarianza), podemos precisar el grado
de dicha dependencia.

- Si los puntos de la nube estuvieran todos sobre la recta de
regresión se diría que existe una dependencia funcional. De su
estudio se encargan las funciones.

- Si los puntos no están todos sobre la recta de regresión se dice
que entre las variables hay una cierta correlación lineal. Este es el
caso que nos ocupa. Para cuantificar el grado de dicha correlación
se usa el
Coeficiente de correlación de Pearson. Si le llamamos r, su valor es:
Puede observarse que el signo del coeficiente de correlación es el mismo que
el de la covarianza y puede deducirse que el valor del mismo esta comprendico
entre -1 y 1.
Se pueden deducir las siguientes conclusiones relativas al coeficiente de
correlación (r):
- Su signo es el mismo de la covarianza, luego si r es positivo la dependencia es
directa y si es negativo inversa.
- Si r se acerca a -1 o a +1, la dependencia es fuerte y por tanto las
predicciones que se realicen a partir de la recta de regresión serán bastante
fiables.
- Si r se acerca a 0 la dependencia es débil y por tanto las predicciones que se
realicen a partir de la recta de regresión serán poco fiables
Ejemplo:
Calcularemos la correlacion para el ejemplo de las tallas y los pesos
Sxy = 55.32
Sx = 50.71
r = 55.32 / (50.71 * 752.81)
Sy = 752.81
r =0.0014
r se acerca a 0 la dependencia es débil y por tanto las predicciones que se
realicen a partir de la recta de regresión serán poco fiables
Ejercicios
Covarianza
Correlacion
Ejercicio 1:En el ejemplo 2 (hijos - hijas) se puede comprobar que también la
covarianza es positiva. (Se deja como ejercicio la comprobación). Téngase en
cuenta que en este caso la variable bidimensional toma "100 valores"
# de hijas (Y)
# de hijos (x)
0
1
2
3
4
-------------------------------------------------------------
0
---10
10
8
3
2
1
---15
12
4
2
1
2
---15
7
3
1
1
3
--3
2
1
0
0
Porcion de humedad
Ejercicio 2:De la siguiente tabla de las perdidas consumida (x)
Esperadas. En rendimiento de soya por riego
0.00
Inoportuno Obtenga:
0.10
a) La covarianza
b) Tipo de dependencia
0.20
c) correlacion
0.30
0.40
0.50
0.58
Perdida de pesos
(y)
4593.00
3141.60
1965.20
1064.20
438.60
85.00
0.00
Partimos de la escena siguiente, en la que
se pueden ver inicialmente la nube de
puntos de la variables bidimensional que
toma los siguientes 6 pares de valores:
X
2
4
6
8
10 12
y
8
7
7
6
6
4
Ejercicio 3
- A la vista de la nube de puntos ¿qué tipo de dependencia se puede suponer?
-Calcular la covarianza y confirmar la afirmación anterior
- Calcular el valor de y si se sabe que x = 15
- calcular la correlacion
Descargar