INT-0310

Anuncio
INT-0310
c./
ÍN3TITOT0 UTIIníÜAÍSÍÍICANO DE
PLMIPICACION ECONOMICA Y SOCIAL
Santiago, 27 de mayo de 1963
R E S m « SOBRE REGRESION LINEAL
^
Preparado por el Profesor Juan Ayza para el Programa de Capacitación
del Instituto, Curso Básico de Planificación,
RESUDEN S O m 1-?£G.RE3I0N LIN'fcAL
Nomenclatura
Diferenciamos las propiedades de la "población" original, de las
muéstrales, y éstas de las deducciones que obtengamos.
Las propiedades de la población original las expresamos con letras
griegas. Asi una relación lineal entre dos variables, en la población
original, la e:)qpresaremos
Y « c<
Las muestras vendi-án en pares de observaciones que indicamos con
minúsculas. Para diferenciar una observación de otra, cuando se requiere
pondremos un subíndice que indique el número de la observación, asi el
par de valores observados en las variables Y y X, en la observación i,
será y^,
A veces no será preciso diferenciar una observación de otra
(en ciertas sumas) y entonces prescindiremos del subíndice.
^Si de las diversas observaciones deducimos una recta, más aceptable,
a los datos de la muestra de la "poblacion original". La relación deducida
será
Y = a •!• bX
La recta deducida, será "más aceptable" en relación con el estudio
estadístico de la muebtra, y las hipótesis que se hagan respecto a la
población original.
Ecuaciones normales
Son las relaciones de carácter estaüistico, que nos permiten relacionar
las observaciones con los parámetros a y b, a determinar.
Nota: Para ampliación de conceptos y aplicaciones prácticas debe revisarse
el folleto "Análisis de Correlación" por Pearo Vuskovid (1962).
/Podemos basarnos
- 2 -
Podemos basarnos en el método de los momentos o en el de los mínimos
cuadrados. Enc&mboscasos obtendremos las mismas ecuaciones normales.
La representación gráfica de la nube de puntos, donde cada punto
corresponde a un par observado x^, y^, puede ser la siguiente:
Gráfico 1
V
X
El método de los momentos, de más fácil comprensión para ingenieros
considera a cada punto como extremo de iHia fuerza paralela al eje Y y
de módulo y^. El problema consiste en encontrar una distribución uniforme
(a lo largo de una recta) de otras fuerzas, que tengan la misma proyección
y el mismo momento; condición de equilibrio.
Es decir
de donde se deducen las dos ecuaciones normales:
/El método
- 3 El método de los míniiaos cuadrados
se basa en aceptar un tipo
de distribución de las desviaciones, con la cual debe cumplirse
¿ (.y - Y) = mínimo
¿ (y - a - hx)2 ~ mínimo
o sea
Por tanto
3, 2 (y - a - bx)^ £3; _ 9 - 2 ¿ (y - a - bx)
•i a
/ (y - a - bx)^ = O = _ 2 2(y - a - bx)x
de donde se obtienen las dos ecuaciones normales
2 y = Na -l-b^x
2y3c=a2x4-b2x^
que cun?3len con otras condiciones del mínimo.
De estas ecuaciones por determinantes, indicaremos el valor de a y b.
¿y
a
¿^
a
N
IL
2 ^
2 yx i
N
2x
2
U
/b puede
y
'
2 ^ 1
- 4 -
b puede calcularse de esta manera, en cuyo caso a se obtiene más fácilmente
de la primera ecxiación normal
= i ( I y - b / x )
o también
a = y - bx
Donde representamos los promedios aritméticos con una barra.
í = S
Definimos otros dos sLnbolos s y s . Al primero lo llamamos desviación
X
xy
standard.
X
^1/2
s
X
= I ^ (x - x)^
N s / = Z (x ~ x f
T
==f Z (x - x)(y - y)
Ns^jy = ¿ (x - x)(y - y)
a estas últimas expresiones las llamamos varianza y covarianza, respectivamente.
A continuación ueduciremos expresiones de mayor simplicidad en el
cálculo de varianza y covarianza, y mostraremos después su relación con
los parámetros de regresión a y b.
/Ma/ =
~ 5 -
= ^ x ^ - ¿E ^ X 4- Nx^
= ¿ c ^ - 2Nx^ 4 Nx^
Ns
2 - \ 2
= /x - Nx
= ¿xy -
- Ni^ •!•
= Ixy -
N'
= N^xy - ( Ix )( ^
.,2 2 _
N s
X
"
Zx
¿X
Zx2
N
)
h
T
T
Si compar>...mos estos determinantes con los de b, deducimos
b =
2
W s
xy
N s^2
m2
s
Si reemplazamos a por su expresión en términos de promedios, en la
ecuación de la recta, obtendremos
A =
- 6 -
Y = a 4. bX
a = y - bx
Y - y = b(X - x)
ecuación de la recta que pasa por el punto x> y» Es decir la línea
de regresión pasa por x, y.
La misma ecuación también la podemos expresar:
s
X
(X-x)
;.Dos líneas de regresión?
Todo lo anteriormente deducido partía de ajustar la ecuación
Y = a 4- bX
donde Y =y^(X), se considera la fxmción directa. Podríamos despejar X,
obteniendo asi la llsanada función inversa de Y, o sea X
que sería
otra relación lineal, por ejemplo
X = a' 4- b'Y
esta función pueUe obtenerse matemáticamente de la precedent^ operación
que no introduce noveaad alguna, Pero otra solución alternativa seria
plantear el problema nuevamente. Es decir, con los mismos pares de
observaciones x», ^ , se desea encontrar el valor ,de los parámetros que
nos dfe la relación lineal
X s a« •!• b'Y
/Aplicando los
- 7 -
Aplicando los mismos razonamientos que en el caso anterior mutatis
mutandis , se llega a fórmulas similares. La principal conclusión es que,
en general, la recta asi obtenida no es la misma que la obtenida para
la primera ecuación, o lo que es lo mismo, la deducida de esta despejando X.
Veamos priiiiero las fórmulas a que se llega, que pondremos por simple
an.alogla^on la diferencia de que definimos una desviación standard ^ .
ecuaciones normales
V
= Na' 4- b' ¿r
a' Zy -í-
I»
=
2x
^
y
Z^
T2
Zy
b
N
b» =
N
Zx
Z^
T
t
¿J
1/
• = I (Z- - b'
= X - b'y
Ns 2 = Z(y - y)
T 2
2
2
^Zy)
Ws/ = y
y
2 2
N s.. =
N
N
1
Jj
^
.2
/b' =:
- 8 -
b' =
s.
N- s •
y
X = a» 4 b«Y
a'
~ b'y
X - X = b' (Y - y)
o sea, ciue esta recta pasa también por el punto proméclio y,-y.
Pero esta recta, no coincide con la primera, salvo casos especiales,
como veremos a continuación.
Para que coincidan las rectas
X =t a' 4- b' Y
Y = a 4 bX
se requiere: 1) b' = ^
2) a.
un examen rápido de las expresiones para b y b', en determinantes nos
indica que sólo en condiciones especiales coincidirán las pendientes de
ambas rectas. Algo similar sucede si examinamos las expresiones de a y a',
Las condiciones son justmente las que resulten de igualar las expresiones
anteriores.
Nos encontramos ante el hecho de ^lue procediendo en manera similar
tendremos, en el caso general, dos rectas de regresión distintas que
gráficamente podemos representar
/Gráfico 2
- 9 -
Gráfico 2
A la que representa
y = a -í- "bX se le llama regresión de Y sobre X,
/Grado de
~ 10 -
Grado de asociación entre las variables. •
Consideremos nuevamente el gráfico 2. Ambas rectas pasan por el
mismo punto x, y. Si cambiamos el origen de coordenadas a ese punto,
tendremos expresiones más simples para ambas rectas. Estas expresiones
son justamente las ecuaciones que obtuvimos ya:
(Y - y) =
b (X - x)
(X - 50 :: b' (Y - y)
donde cada una de las dos diferencias sería la nueva variable, referida
al eje de coordenadas con origen x^ y.
Pero estas rectas no tienen por qué»
ser funciones inversas. Es decir, no son simétricas respecto al eje de 45®.
Las funciones simétricas deben tener esta propiedad. Sin embargo, si
variamos las escalas convenientemente podemos lograr esa simetría. Veamos
primero cuales son las condiciones de simetría. Si tenemos dos variables
Z y ¥, relacionadas linealmente
Z - rW
r mide la pendiente de la recta, que pasa por el origen, respecto al
eje W.
La función inversa será Z - r'W y entre ambas pendientes debe
cumplirse la condición
rr»
1
o sea que la función inversa puede expresarse también así:
W - r Z.
Volvamos a nuestras ecuaciones referidas a los nuevos ejes y
reemplacemos los parámetros b
xy,
X y
®y j buscando lograr la simetría señalada,
(Y - y) =
^^ " ^^
por su expresión en términos de
b (X ~ 3c)
= JíSL
2
(X -xD
(X -
=
(X - x) -
b' (Y - y)
s^, '(Y - y )
y
/ (Y - y)
- 11
(Y. y) =
X
-
. Í X ^
X
(X > X) = ^
V
Si dividimos las ecuaciones entre s
y
habremos conseguido la simetría buscada.
(Y " y)
s
s
y
x
donde
s
y
.
s
x
•• x)
r = ^xy
s s
X y
•
y s , respectivamente,
X
Cx
2 = (Y-y)
s
y
s
x
= fíSE . (Y - y)
s s s
x y y
1. = (X -x)
s
X
En resumen, mediante uri camoio en el origen de coordenadas,
y una modificación de las escalas hemos simplificado las fórmulas
de las dos lineas de regresión a
Z = r¥
W = rZ
que son dos rectas que pasan por el nuevo origen, y una de ellas es
función inversa de la otra.
La pendiente r de estas rectas modificadas, tiene mucha importancia
y se llama coeficiente de correlación.
Si el grado de asociación lineal de las variables X e Y fuera
excelente, las dos lineas de regresión tenderían a coincidir, y
en consecuencia r tendería a 1 ó a -1. Si el graao de asociación
fuera mínimo, en el peor de los casos las rectas de regresión serian
normales entre si y r tenderla a cero.
/Es fácil
-12
«
Es fácil demostrar
r = i/bb'
y toma el mismo signo de s ^
También se demuestra, que el valor de r no «¡rambia ni con el origen
de coordenadas ni con las unidades de medida. Es decir, es invariante
a estas transformaciones.
Variación alrededor de la linea de regresión
Si lina vez ajustada la recta
Y = a 4- bX
estudiamos los residuos (distancias verticales de cada punto a la
recta)
y-i /
v 2
y formamos £ d , en forma análoga a las anteriores podemos definir
una desviación correspondiente sey
NsJ^ - 1 (y - Y ) '
= Z (y - yf
2
'
2
•
-2b / (y - y)(x - x) 4 b^ ¿U
2
2
Ns = Ns
- 2bNs 4. b^ s ^
ey
y
xy
x
2
2
2 2
s ^ = s - 2bs 4- b s ^
ey
y
xy
X
/Pero de
-x)^
- 13 s
Pero de
se deduce
2 2
b^s = bs
X
xy
,
y
entonces
- 2 2
-" V
ey
y
y
y
Con objeto de relacionarla a la anterior desviación s^^,
estudiaremos ahora la varianza de la linea de regresión, definiendo
su desviación correspondiente s
y
Ns2 = liY - y)2 = /(I _ yf
pues la linea pasa por y , como vimos. Ademas I -y = b(x - x)
NsJ = b2 2 (X - x)
- b2ws2
2
s
Y
,22
= bs
^
Zsto indica también la importancia de r, al representar una
relación entre la varianza explicada por Y, y la varianza total de
las obseIlaciones y.
/Por consiguiente
í. .
- 14 -
Por consiguiente
S
2 _
ey
- S
2
y
-
2
Sv
Y
lo que explica el nombre de varianza residual o no explicada a
ái la distribución e s normal dentro de
alrededor de la
linea de regresión debe encontrcirse apro^iraciaaraente 2/3 de los
puntos,
Gráfico 3
/Formatos para
15 -
Forraatos para el cálculo práctico de la línea de regjresión y otros
indicadores de importancia
Interesa fundamentalmente calcular b,a,r y s^^, en este orden
f
Y = a
2
X
y
X
T
V
Ij
/x
X
y
xy
bX i
y
2
o o
H- cr
o 03
3 <t)
a>
CO
<
fü
r
L
I/
.-N
/2{y
/y
2
2
Calculamos en prii ler lagar s , s^ , s
X
N
T
Zx
¿x
Zx^
ycy
1
1
y
X
y
- 1
V
Zx
V
z^
J2LJ
- ló -
I
Ir
y
y
y
f y
X.
Con los datos anteriores calculamos b y a
s
X
a = y ~ bx
Además
b' =
s
2
s
y
de donde
con el signo de s
xy
r^ = bb»
Calculamos ahora
2
f.
2v 2
s
= (1 - r ) s
ey
^
' y
ey
de donde deducimos la desviación residual. Con distribución normal,
dentro
entro de 2s alrededor de la linea Y - a 4 bx deben caer 2 / 3 de
ey
los puntos, aproximadamente.
ey
Descargar