Macroeconomía intermedia

Anuncio
E. Congregado & C. Román
[MACROECONOMÍA INTERMEDIA]
Curso 2011/12
Notas sobre Regresión
Resumen:
Con estas notas se pretende que se familiarice con la programación en Excel de diferentes conceptos y
ejercicios de estadística descriptiva.
En particular, se pretende que:
1) Adquiera destreza en el uso de fórmulas con Excel y con el tratamiento de datos.
2) Sea capaz de realizar estimaciones de los coeficientes de nuestras ecuaciones clave.
El capítulo se complementa con una práctica de laboratorio en la que simplemente se pretende que
adquiera destreza con el uso de la hoja de cálculo.
PARTE I: VARIABLES UNIDIMENSIONALES
Considere los siguientes datos, que reproducen las calificaciones obtenidas por los 14 alumnos de 2º de LADE en la
asignatura de Macroeconomía, que se presentaron en una convocatoria extraordinaria.
0, 1,75, 3, 4,25, 5, 5, 5, 6, 6, 6, 6, 7, 8,5, 10
Convendremos que la información así presentada no es demasiado manejable. Quizá podamos mejorar esta
presentación, tabulando los datos, es decir, poniéndolos en una tabla de dos columnas: reservaremos la primera
para la variable notas y en la segunda, la frecuencia de cada nota, esto es, el número de veces que se repite cada
observación.
Xi (notas)
0
1,75
3
4,25
5
6
7
8,5
10
ni (frecuencia)
1
1
1
1
3
4
1
1
1
Estará de acuerdo con nosotros, en que la información así, se puede analizar mejor. Por ejemplo, podemos apreciar,
a simple vista que la nota más repetida –más frecuente- es el 6, que ha sido obtenida por cuatro alumnos.
Observe también, que nos es fácil, saber el número total de presentados, sin más que sumar los datos de la
columna de frecuencias.
►► Reproduzca la tabla anterior en un libro de Excel y compruebe que la suma de las frecuencias es 14.
Simplemente debe introducir la fórmula
=suma(b2:b10)
[Notas sobre el análisis estadístico básico con Excel]
Página 1
E. Congregado & C. Román
[MACROECONOMÍA INTERMEDIA]
Curso 2011/12
en la celda b11.
Uno de los objetivos que hemos de plantearnos, a la hora de analizar cualquier tipo de información económica, es
presentarla de la forma más entendible posible. En este sentido, los estadísticos nos permiten disminuir la
dimensión, dando una información resumen. En concreto, las medidas de posicionamiento y/o centralización,
cumplen esta función. Para nuestros fines, tan sólo nos centraremos en la presentación de la media aritmética.
1.- La media aritmética
La media aritmética no es otra cosa que el centro de gravedad de una distribución. Imagine que representamos los
datos anteriores en una línea recta. Observará que a cada nota le hemos puesto una bola de diferente grosor.
Imagine que el grosor está relacionado con el número de veces que se repite cada observación. De esta forma
entenderá que el 6 es el que tiene la bola más grande.
Si entendemos el grosor de cada bola en términos de su peso, convendrá con nosotros que el centro de gravedad,
es decir, el equilibrio de la distribución lo alcanzaríamos, aproximadamente donde hemos trazado la línea vertical.
Es decir, el centro de gravedad, debe ser aquel valor de x que equilibre la distribución, entendiendo este equilibrio
en el sentido de que las desviaciones positivas y negativas con respecto a ella deben sumar 0.
Si definimos las desviaciones con respecto a este centro de gravedad, que denotaremos de aquí en adelante, como
x , como las distancias entre cada observación y el centro de gravedad xi x , la propiedad que ha de verificar
x , puede expresarse como:
[Notas sobre el análisis estadístico básico con Excel]
Página 2
E. Congregado & C. Román
[MACROECONOMÍA INTERMEDIA]
Curso 2011/12
n
xi
x ni
0
i 1
Evidentemente, debemos multiplicar la distancia entre cada observación y la media, por su correspondiente
frecuencia, porque cada observación se encuentra repetida tantas veces como indique su frecuencia.
Si realizamos algunas manipulaciones algebraicas, se tiene que:
n
n
xi
x ni
0
i 1
n
x i ni
x ni
i 1
n
xi ni
i 1
n
xni
i 1
n
xi ni
i 1
x
ni
i 1
Por lo que, si despejamos la media aritmética x , se tiene que:
n
n
0
xi ni
n
xi ni
x
i 1
ni
i 1

x
i 1
N
N
Es decir, para obtener la media aritmética de una distribución hemos de hacer la suma de los productos de cada
observación por su correspondiente frecuencia y dividir esta suma entre el número total de observaciones.
Siguiendo con nuestro ejemplo, realice en la columna C, el producto de las celdas A y B y sume estos productos en
la celda C11. El resultado ha de ser 73,5.
Este valor es el numerador de la fórmula de la media aritmética, por lo que para obtener la media tan sólo ha de
dividir este valor entre el número de observaciones que ya ha calculado en la celda B11.
►► Calcule la media. Para ello, escriba en la celda B12 la palabra media e introduzca en la celda C12 la
siguiente fórmula:
=C11/B11
La nota media debe salirle 5,25.
Demuestre que:
[Notas sobre el análisis estadístico básico con Excel]
Página 3
E. Congregado & C. Román
1.- Y
2.- Y
[MACROECONOMÍA INTERMEDIA]
Curso 2011/12
aX
Y aX
a X
Y a X
2.- La varianza
Cuando medimos cualquier cosa, siempre es recomendable incluir una medida del error cometido. En nuestro caso,
resulta conveniente ver si la media es o no representativa en función del grado de dispersión que presentan los
datos respecto a nuestra medida de tendencia central. Tenga en cuenta, que salvo en el caso de que todas las
puntuaciones fuesen iguales, en cuyo caso la media sería ese valor, en el resto de casos las puntuaciones
presentarán algún tipo de dispersión respecto a la media.
Así, la forma intuitiva de medir la dispersión de los valores respecto a la media, de medir su grado de
representatividad, podría ser el cálculo de la media de las desviaciones con respecto a la media, es decir
n
xi
i 1
N
x ni
, pero esta suma es por definición 0, ya que la propiedad definitoria de la media es justamente que
las desviaciones positivas han de compensarse con las negativas. Ahora bien, si elevamos estas desviaciones al
cuadrado, hacemos que todas sean positivas de forma que problema resuelto.
A esta medida le llamaremos varianza y la denotaremos como S x2 :
n
2
xi
x ni
S x2
i 1
N
Si realizamos algunas transformaciones algebraicas, se obtiene que:
n
2
xi
S
2
x
n
i 1
i 1
N
n
xi2 ni
N



N
xi xni
2
i 1
N
n
ni
x
n
x 2 ni
i 1
N
n
i 1
n
xi2 ni
x ni
2 i 1
N
xi ni
2x
i 1
N
x2
x 2 2 xx
x2
x 2 2x 2
x2
x2
x2
Fórmula bastante fácil de recordar como media de los cuadrados menos cuadrado de la media.
►► Calcule la varianza de la distribución de dos formas distintas. Primero haciendo calculando la media
de las desviaciones al cuadrado y después a través=C11/B11
de la diferencia de la media de los cuadrados menos el
cuadrado de la media.
[Notas sobre el análisis estadístico básico con Excel]
Página 4
E. Congregado & C. Román
[MACROECONOMÍA INTERMEDIA]
Curso 2011/12
Demuestre que:
1.- Y
aX
2.- Y
a X
S y2
a 2 S x2
S y2
S x2
3.- La Desviación típica o estándar
La varianza no tiene la misma magnitud que las observaciones. Por ejemplo, en el caso que nos ocupa, las
observaciones están en puntos mientras que la varianza estaría en puntos al cuadrado. Si quisiéramos que la
medida de dispersión tenga las mismas unidades –la misma dimensión que las observaciones- nos bastará tomar su
raíz cuadrada. La raíz cuadrada de la varianza, es lo que se conoce con el nombre de desviación típica, que se
denota por S x
S x2 .
►► Calcule la desviación estándar. Para ello, en una celda escriba en la celda Para ello, escriba en la
celda c17 =raiz(c13):
[Notas sobre el análisis estadístico básico con Excel]
Página 5
E. Congregado & C. Román
[MACROECONOMÍA INTERMEDIA]
Curso 2011/12
Demuestre que:
1.- Y
aX
2.- Y
a X
Sy
aS x
Sy
Sx
El uso de la varianza o de la desviación estándar para ver la representatividad de la media, tiene el problema de que
la medición del error está en unidades al cuadrado en el caso de la varianza o en unidades en el caso de la media.
Para comparar la representatividad de las medias de diferentes distribuciones, nos puede resultar útil el disponer de
una medida de error relativo, es decir de una medida del error que no tenga unidades, que sea adimensional. Para
ello, el coeficiente de variación lo que hace es expresar una medida de error absoluto (la desviación estándar) entre
la media, de forma que la ratio no tiene unidades.
4.- El error relativo: el Coeficiente de variación
Tal y como ya hemos avanzado, el coeficiente de variación queda definido como:
CV ( x)
Sx
x
Observe que cuando el error es nulo –es decir, si la media es completamente representativa dado que los valores de
la X son constantes, el coeficiente de variación es 0-.
Puede demostrar que el coeficiente de variación es invariante ante cambios de escala y variante ante cambios de
origen.
Demuestre que:
1.- Y
aX
2.- Y
a X
CV (Y )
CV ( X )
Sx
CV (Y )
a x
►► Calcule la desviación estándar en la celda c18.
[Notas sobre el análisis estadístico básico con Excel]
Página 6
E. Congregado & C. Román
[MACROECONOMÍA INTERMEDIA]
Curso 2011/12
PARTE II: VARIABLES BIDIMENSIONALES.
Continuando con nuestro ejemplo, considere que hemos preguntado a los alumnos que se examinaron, acerca de
cuántas horas de estudio destinaron a preparar el examen, y que nos planteamos analizar si existe o no relación
entre la calificación obtenida y su esfuerzo, medido éste, en horas de estudio.
Para analizar este caso, abra una nueva hoja (hoja 2), e incluya la siguiente tabla de frecuencias donde junto con la
calificación obtenida aparece el número de horas que ha dedicado al estudio cada uno de los 14 alumnos.
Para analizar si existe o no dependencia entre las dos variables, representemos gráficamente los datos, usando un
gráfico de dispersión xy, seleccionando el rango de datos A1:B15. Una vez representado, haga clic en el interior del
gráfico primero y en el botón derecho del ratón después, seleccionando la opción: agregar línea de tendencia.
Como puede apreciar a simple vista, parece que a medida que aumenta la variable X, también lo hace la y. Parece
que existe una cierta dependencia o relación entre las variables y que además ésta es positiva.
¿Cómo podemos ver si dos variables tienen relación o no?
Viendo cómo varían conjuntamente las dos variables. Esta idea, es en la que se basa la covarianza.
1.
Covarianza
La covarianza Sxy, es una medida que nos hablará de la variabilidad conjunta de dos variables numéricas
(cuantitativas). Se define como:
n
xi x yi
cov x, y
S x, y
i 1
n
y
xy x y
Consideremos la nube de puntos formadas por las n parejas de datos (xj, yj). El centro de gravedad de esta nube de
puntos es ( x , y ) . Trasladamos los ejes XY al nuevo centro de coordenadas ( x , y ) . Queda así dividida la nube de
[Notas sobre el análisis estadístico básico con Excel]
Página 7
E. Congregado & C. Román
[MACROECONOMÍA INTERMEDIA]
Curso 2011/12
puntos en cuatro cuadrantes como se observa en la figura. Los puntos que se encuentran en el primer y tercer
cuadrante contribuyen positivamente al valor de Sxy, y los que se encuentran en el segundo y el cuarto lo hacen
negativamente.
De este modo:
• Si hay mayoría de puntos en el tercer y primer cuadrante, ocurrirá que Sxy > 0, lo que se puede interpretar
como que la variable Y tiende a aumentar cuando lo hace X;
• Si la mayoría de puntos están repartidos entre el segundo y cuarto cuadrante entonces Sxy < 0, es decir, las
observaciones Y tienen tendencia a disminuir cuando las de X aumentan;
• Si los puntos se reparten con igual intensidad alrededor de ~ entonces se tendrá que Sxy = O.
►► Construya dos nuevas columnas en la hoja 2, en las que ha de obtener las variables x e y, en
desviaciones con respecto a la media y represéntelas.
2.
El coeficiente de correlación lineal de Pearson
La covarianza es una medida de la variabilidad común de dos variables (crecimiento de ambas al tiempo o
crecimiento de una y decremimiento de la otra), pero está afectada por las unidades en las que cada variable se
mide. Así pues, es necesario definir una medida de la relación entre dos variables, que no esté afectada por los
cambios de unidad de medida. Una forma de conseguir este objetivo es dividir la covarianza por el producto de las
desviaciones típicas de cada variable, ya que así se obtiene un coeficiente adimensional, r, que se denomina
coeficiente de correlación lineal de Pearson
corr ( x, y )
rxy
cov( x, y )
SxS y
S xy
SxS y
Propiedades del coeficiente de correlación lineal
[Notas sobre el análisis estadístico básico con Excel]
Página 8
E. Congregado & C. Román
[MACROECONOMÍA INTERMEDIA]
Curso 2011/12
• Carece de unidades de medida (adimensional).
• Es invariante para transformaciones lineales (cambio de origen y escala) de las variables.
• Sólo toma valores comprendidos entre —1 y 1,
• Cuando está próximo a uno o menos 1, se dice que existe una relación lineal muy fuerte entre las variables.
• Cuando r O, puede afirmarse que no existe relación lineal entre las variables. Se dice en este caso que las
variables son incorreladas.
►► Calcule la covarianza y el coeficiente de correlación lineal.
3. Regresión Lineal
El análisis de la covarianza (o de la correlación), nos permite discernir si existe o no relación en las variables. En el
primero de los casos, es decir, si sabemos que existe relación, el análisis de regresión nos va a permitir buscar una
forma funcional exacta que nos permita describir esa relación, de forma que estemos en disposición de predecir, es
decir de dado un valor de X, poder determinar el valor de y.
Para ilustrarlo retomemos nuestro ejemplo, considerando que la variable X, es la variable independiente, explicativa
o exógena, y que la variable ―y‖ es la dependiente, explicada o endógena. En otros términos, que queremos
encontrar una relación funcional del tipo Y=f(x).
Así, tendremos que dar respuesta a dos preguntas:
1.- ¿Qué tipo de función ajustamos?
[Notas sobre el análisis estadístico básico con Excel]
Página 9
E. Congregado & C. Román
[MACROECONOMÍA INTERMEDIA]
Y
Y
y
a bX
a bX
y
Y
a bX
x
x
y
Curso 2011/12
y
Nube de puntos
x
Y
e bx
x
2.- ¿Con qué criterio podemos hallar los parámetros del ajuste?
Supongamos que nuestros datos sugieren que una recta se ajusta relativamente bien a la nube de puntos. ¿Cómo
hallamos a y b?, es decir, ¿qué ecuación concreta se ajusta mejor a la nube de puntos?. El criterio va a ser elegir
aquella función que hace mínimo el error cuadrático medio, por eso, se le llama regresión mínimo cuadrática.
Suponga que tiene los siguientes datos
x
y
x0
x1
y0
y1
x2
y2
Que representados quedan cómo aparecen en la figura. Suponga que decidimos ajustar una recta a la nube de
puntos, es decir una función del tipo
Y
a bX
De todas las rectas posibles, elegiremos aquella que haga mínima el error cuadrático medio. ¿Qué es el error? La
diferencia entre el valor verdadero de y, y el que se obtiene si sustituimos x en la recta de regresión.
[Notas sobre el análisis estadístico básico con Excel]
Página 10
E. Congregado & C. Román
[MACROECONOMÍA INTERMEDIA]
y
y
e2
ŷ 2
ŷ1
y1
y0
ŷ 0
e1
x1 , y1
x0 , y 0
e0
F
a
F
b
y
ei2
n
0
0
yˆ i
yi
2
yi
yi
a bxi
n
2
yi
( 1)
a bxi ( xi )
n
n
xi yi
n
ax b
yx b x
0
y
na

a
0
x
n
b
xi2
n
S xy
bx
0
bS x2
b
y
a bx
xi2
ax b
y bx x b
n
0
n
xi yi
n
xi yi
2
i
2
2
n
a bx
xi yi
a bxi
n
2
x
x1 x 2
x0
a ,b
a bx
( x2 , y 2 )
y2
Min
Curso 2011/12
0
n
xi2
n
0
S xy
S x2
Por tanto, para hallar a y b, tan solo hay que aplicar el siguiente sistema de dos ecuaciones con dos incógnitas:
y
b
a bx
S xy
S x2
Observe que los coeficientes de regresión, es decir a y b, miden respectivamente, la ordenada en el origen y el
efecto de la independiente sobre la dependiente.
Bondad del ajuste: el coeficiente de determinación.
Para conocer el grado de bondad del ajuste tan sólo tenemos que dividir la varianza explicada por el ajuste entre la
varianza de la variable explicada. Es decir:
[Notas sobre el análisis estadístico básico con Excel]
Página 11
E. Congregado & C. Román
[MACROECONOMÍA INTERMEDIA]
2
S xy
Bondad
var yˆ
var y
S
S
2
yˆ
2
y
var(a bx)
S y2
2
bS
S y2
2
x
S
S x2
2
x
S
Curso 2011/12
2
y
S xy2
2
x
S S
2
y
r2
Que como observa es el cuadrado del coeficiente de correlación. Este coeficiente siempre será positivo y te da el
porcentaje de varianza de y que explica el ajuste. Por tanto cuanto más próximo a 1, mejor será el ajuste.
►► Calcule el ajuste de regresión, interprete los coeficientes y mida la bondad del ajuste.
[Notas sobre el análisis estadístico básico con Excel]
Página 12
Descargar