Obtención simultánea de multicolinealidad y observaciones

Anuncio
r
ESTADISTICA ESPANOLA
Vol. 30, Núm. 1 17, i 98$, págs. 83 a 98
Obtención simultánea de multicolinealidad y
observaciones influyentes
SANTIAG O VELI LLA CER DAN
Dpto. de Estadística e I nv. Operativa
Facultad de CC. Matemáticas - Uníversidad Complutense
Ciudad Universitaria - 28040-Madrid
RESUMEN
En este artículo se describe un método de obtención simultánea de multicolinealidad e influencia en regresión lineal. EI método está basada en técnícas de análisis de condición aplicadas
sobre determinadas perturbaciones de la matriz de diseño. EI
comportamiento del método se ilustra con un ejemplo práctica,
Palabras clave: Análisis de condición, diagnósticas,
^olinealidad, observaciones influyentes.
multi-
Clasificación A.M.S.: 62J05
INTRODUCCION
Sea el modelo lineal de regresíón múltiple
Y=X f^+^
en el que Y es un vector nx1 de respuestas, X es una matriz nxm de
constantes conocidas, ^ es un vector mx 1 de parámetros y E es un vector
nx 1 de errores para el que se supondrán las hipótesis usuales E(F) = 0 y
EST =^[)iS7 I( ^ ^1 EtiP> ^^Ol.. ^
K -^
V(F;) -= ^' I„ . La matriz X será siempre de rango completo y con término
indepe^,Jiente de modo que X=(1 ^, X,) donde 1 ^ es un vector nx 1 de
coordenadas unitarias y X, es una matriz nxp. Por tanto, m=p+1, convenio
de constante utilización en este trabajo. EI ajuste de (1,1) por el método de
mínimos cuadrados es una herramienta estadística de aplicación universal
que, pese a su relativa sencillez, esté lastrada por varios incomenientes de
carácter práctico.
En este sentido, dos de las principales fuentes de distorsión en los
resultados de un anélisis mínimo-cuadrático de (1.1) son la mu/tico/ínea/idad entre las columnas de ia matriz X y la aparición de oóservaciones
influyentes dentro de! conjunto de datos. Tradicionalmente, ambos problemas se tratan por separado debido a sus diferentes orígenes y característícas.
EI propósíto de este trabajo es proponer un método de abtención simultánea de ambos problemas. En la sección 2 se establece la notación y se
presenta la motivación subyacente al método. La sección 3 contiene los
resultados teóricos que fundamentan el denominado método reducido aplícable, únicamente, a la detección de multicolinealidad y casos extremas. En
la secciór^ 4, esta teoria se aplica al estudio de un ejemplo numérico. La
sección 5 extiende el método reducido al método general y la sección 6
contiene los comentarios finales.
2.
MOTIVACION
Como es sabido, la multicolinealidad o, en palabras sinónimas, colinealidad
o mala condicion se refiere a la existencia de dependiencias lineales aproximadas entre las variables regresoras del modelo. Esta situación tiende a
provocar la aparición de problemas de ínestabilidad
numérica y estadística
^
en el estimador mínimo-cuadrático usual ^ y, como consecuencía directa, la
disminución de la eficacia y fiabilidad de los mínimos cuadradas lineales. La
multicolinealidad es un problema muy complejo que puede aparecer par
distíntas razones y, a su vez, puede producir diversos efectos perjudiciales.
Interesantes referencias son los trabajos de Belsley, Hush y Welsch (1 982)
y Gunst (1983).
Desde el punto de vista de esta exposición es interesante centrarse, brevemente, en la detección del problema mediante los Ilamados diagnóstícos
que actúan como indicadores del grado de condición de fos datos. EI modelo (1.1) puede reescribirse en la forma
Y = 1„ ao+Z a+E
(2.1)
ó^
tJEiTEtiC'IOti SIM(;LTA^fEA DE Mt'L.TIC'(^LItiEALIDAD
donde Z es la matrii nxp de datos tipificados. Por diversas razones se considera más conveniente analizar !a multícolinealidad entre las columnas de
Z que entre las columnas de la matriz original X. Dos clases de diagnóstico
interesan fundamentalmente en este trabajo.
Sea Z'Z la matriz de correlaciones asociada al modelo (1.1). Los factores
de inflación de la varianza son los elementos diagonales de la inversa
(Z'Z)^'
VIF^=z^^ (^ _ /, . . . , p) .
(2.2 )
denotados VI F en virtud de sus iniciales en inglés ( variance inflation factor).
EI nornbre obedece a la representación var (rz^) _^ z^^ = a2 VI F^ . Los factores
(2.2) se deben a 11l^arquard (1970).
Es reconocido que los diagnósticos más eficaces son los que proporciona
la descomposición espectral de la matríz de correlación
Z'Z = G D C'
( 2. 3)
En {2.3), C=(;^, ,..., yP ) es una matriz ortogonal pxp de autovectores normalizados y D= diag ( a^, ,..., a.p ) contiene, en su diagonal, los autovalores
de Z'Z en sentido creciente (0 ^ ^., < ^2 <. . . < ^p ). Sean Z = (z, , . . . , zp ) y
, ). Puestoque ^. ,^ _ ,^^^ Z'Z ,^; = ^) Z i;^ ^^ ?, cuando a., ^ ^ 0 es '"
Y; _ (^k;
Z^;=,^,;z, +. . . . . . + ^^P;rP o
(2.4)
Así, en virtud de 12.4), cuando a.^ es pequeño se tíene una multicolinealidad
descrita por las coordenadas altas del autovector norma^izado correspond'+ente y^^ .
Fínafinente, otros diagnósticos relacionados con el autosistema son Ios
índices de condición r^k =(^p /,^.k )^ (k = 1,..., p) de los cuales el más
importante es el número de condición k(Z) = r^, . Estos indices, de carácter
originalmente numérico, se deben a Belsley, Kuh y Welsch (1982).
Por otro lado, es conocido que los resultados de un análisis mínimocuadrático pueden depender fuertemente de una observación o reducido
grupo de observaciones. La palabra observación engloba la estructura cor^junta (x; , Y; ) formada por la r-ésima fila de la matriz de diseño x; y la
i-ésima respuesta Y;. Se juzga que una observación es influyente cuando
su eliminación del conjunto de datos altera sustancialmente los resultados.
La influencia de una observación puede proceder de cada una de sus
partes cornponentes, Así la respuesta Y; puede tener un carácter aberrante o«outlier» lo que tiende a provocar la aparición de un valor anómalo
del correspondiente residual mínimo-cuadrático e; = Y, -- x'; (3. Sea
V= X(X'X)^' X' _(v,; ) la matriz de proyección sobre la variedad lineal enw
ES^TAD[STIC'A ESPAÑULA
gendrada por las columnas de X. Puesto que, bajo el modelo {1.1), var{e;} _
rr2 (1-v;; } es conveniente consíderar una adecuada tipificación de e; para
evitar problemas de varianza no constante y, asi, una herramienta importante en la detección de c<outliers» es el residual estudentizado interno
r; _
(2.5}
Q (1_v„)^
donde Q es el estimador usual de la desviación típica.
De acuerdo con !a partición X= f 1 ^, X, ) es x; =(1,x;, ) donde x;, es de px 1.
Puede ocurrir que x;, esté alejado del centroide x de las variables regresoras
lo que suele calíbrarse por !a magnítud del correspondiente elemento diagona! v;; de la matriz de proyeccíón V. Sean .^ la matriz nxp de datos centrados asocíada a(1.1) y z; !a i--ésima fíla de la matriz Z de {2.1 }. Se prueba
que
1
_ ^ , _^
_
v;; _-+ tx;, - x J rz Z} (x;^ - x l=
n
(2.6)
1
-- - + z; ^Z'Z )"' z;
n
(2.7)
Por tanto, según {2.6), v-^
,^ a x relativa a la matriz. de
„ --^^ es la distancía de x.
producto escalar {Z'Z)-'. Hoaglin y Welsch t 1978) recomiendan declarar la
fiia extrema cuando v;; > 2m/n. Se hablará de v;; como del potencia/ de !a
observación i-ésima.
La investigación de! problema se ha centrado en la elaboracíón de medidas de la influencia de una observación que combinan, en su mayoría, información procedente del bloque básico (r, , v;; ^. E! libro de Cook y Weisberg (19$2) es, en este contexto, un manual de referencia fundamental.
Tras este breve resumen de los dos problemas que componen el título de
este trabajo parece estar justificado que, tradicianalmente, los problemas
de colinealidad y#ilas extremas se traten independientemente. Hablando en
términos informales la multicolinealidad haría referencia a una perturbación
relativa a!as columnas de la matriz de diseño mientras que la aparíción de
filas extremas sería un problema referente a!a estructura de filas de dicha
matriz. Ei objetivo de esta investigación es presentar un método de detección simulténea de ambos problemas basado en !a aplicación de técnicas
de análísis de condición a determinadas modificaciones de la matriz de diseño tipificada Z.
OBTENCION SIMCJLTANEA DE MULTICOLINEALtDAD
$i
Considérese la familia de matrices nxm.
Z;=(Z.d;) (i=1,...,n)
(2.8^
(i)
donde d; _{O ,..., 1,..., 0} es el i--ésimo vector canónico de R". Dada la
estructura del vector d; es raionable suponer que las cOlínealidades en Z; y
Z estén relacionadas. Más remarcable aún es el hecho de la existencia de
una dependencia entre diagnósticos de Z; y el potencial de la observacidn
i-ésima. En efecto, sean Vz = Z(Z'Z1^' Z' la matriz de proyección ortogonal
sobre la variedad lineal engendrada por las columnas de Z,C(Z),VZ d; = Zc; ,
donde c; es de px 1, y v;; {z) ^ z,' (Z'Z)-' 2; . EI cuadrado de la distancia de d; a
C{Z) es
^^ d;-Zc; ^^ 2= ^Í d;-Vz d; ^^ 2= 1--v;; (z)
(2.9)
Según {2.9} una fila extrema provoca la aparición de una dependencia !ineal aproximada entre las columnas de Z; . En resumen, cabe esperar que el
análisis de colinealidad en Z; proporcione información simultánea sobre la
colinealidad en Z y sobre los potenciales v;; {z). Una observación importante
es que, por construcción, las matrices Z; tienen columnas de longítud unitaria
.
En la sección 5 se extiende esta motivación a la familia de matrices de
nx(r»+1)
Z*= {Z*,al; }
{i = 1 , . . . , n)
(2.^0)
donde Z* es de forma (Z,y), siendo y el vector de respuestas tipificadas. La
idea es usar el análisis de colinealidad sobre ias matrices {2.10) con el fin
de detectar colinealidad en Z y observaciones influyentes bien por su carácter extremo o bien por su carácter «outlier».
3.
ANALISIS DE CO LI N EALI DAD EIV Z;
Esta sección se divide en dos partes claramente diferenciadas. En la
primera parte, se obtienen resultados teóricos que, en la segunda, se emplean para desarrollar un método práctico esquemati2ado en etapas para
un análisis simultáneo de la colinealidad en Z y ios potenciales de las
observaciones.
3.1 Resultados teáricos
Sean i^ {1 ,..., n} fijo. En virtud de (2.8) la matriz mxm de productos
cruzados Z; Z; presenta la estructura
$ i'^
ESTA>JtSTlc^a ESPatiOLA
(3.1 }
1
dande z; es la i-ésima fila de la matriz Z. Es f^cil probar que (3.1) es
definida positiva. Los dos diagndsticos más importantes de la condición de
Z: son los factores de inflación de la varianza y ei autosistema de (3.1 }.
3.1.1 Factores de inflación de la varianza
Se denatarén por VIF^, {j i 1,.,., p} los p primeros factores de (3.1 } y por
VI F' el último. Sea a, _(Z'Z}^' z, . En virtud de expresiones (A.1 } y(A.2 } de!
apéndice relativas a la inversa (Z; Z, }-' se tiene
1
(3.3)
VIF^.; ^ VlF^ +
1 - v„ (z)
donde a; _(a^;1. EI resultado de (3.3) es particularmente interesante porque
establece una conexión dírecta entre un diagnóstica de colinealidad en Z; y
e! potencial v,; (z^.
A partir de {3.2) pueden investígarse propiedades adicionales de los p
primeros factores de inflación de la varianza de Z, . Sea c^ el j-ésimo vector
canónico de RP ( j= 1,..., p}. En virtud de la desigualdad de CauchySchwartz es a?= (c^ (Z'Z)^'z; )^ ^ VI F^ v;, (z) ( j= 1,..., p). Sustituyendo en
C3.2} se Ilega a la desigualdad.
VIF^
(3.4}
(j=1 ,...,p}
VIF^<_VIF^;<
1 - v„ (z)
De {3.4} se deduce que los p prímeros factores de inflación de la varianza
de Z; son superiores, uno a uno, a los correspondierites de Z. Además,
cuando v;; (zJ -^ 0 es Vi F^,; ---^ VI F^ ( j= 1,..., p}. Esta última conclusión
puede obtenerse también como corolario del siguiente
TEQREMA 3.1
Si v;; (z)-^ 0, la norma euclídea de la diferencia entre (Z; Z; )^' y la matriz
mxm
(Z'Z)-' 0
0
tiende a 0.
1
(3.^}
89
C)BTFZ(^!O^. SlMI LTA`E:•^ D^ Ml'LTJ( ()l_ItiE.ALli^AD
D EMOS TRA CION
SI (I . ^I E denota la norma euclídea de una matriz es fácil demostrar,
usando (A.1), (A.2 ) y la desigu aldad a2^, < V I F^ v„ (z) (j = 1 ,..., p}, que
I) (Z; Z, }-^
<<
v„ (^}
2
(Z'ZI-'
0
0
1
1
^„ (z)
v^ ( z)
(^1/IF^ } +
(1--v„ (2 ^ }^ '
( ^ -v„ (z})2
1-- v„
^viF2+^ viF
J
^
/=k
expresión que tíende a cero cuando v„ (z} tiende tarnbién a cero.
Finaimente, a la vista de (3.31 y(3.4) puede comentarse que, medida por
los factores de inflacíón de la varianza, la perturbación causada en la
coiinealidad de ia matriz de diseño al añadir la columna d, es tanto menor
cuanto sea el potencial v;; {z).
3.1.2 Autosistema
Sean 0 < ^:, ;<^ 2;<...< ^^, ; los autovalores de la matríz Z; Z; y
y^;; (j = 1,..., m) los correspondientes autovectores normalizados. Dos son
los resultados que conforman este apartado. EI teorema 3.2 es un análogo
al teorema 3.1 relativo a los factores de inflación de la varianza mientras
que el teorema 3.3 es un teorema de separacíón entre los autovalores de la
matriz ( 3.1) y ios de la matriz de correlación Z'Z. Supóngase que (x, ..., y)
indica una ordenación de coordenadas en sentido creciente.
TEOREMA 3.2
S i v;; (z) --^. 0, ( ^ ^ ; . . . . , ^,r,. ^ ) --^^ ( ^., , . . . , ,^^, 1 }
DEMOSTRA CION
En virtud del teorema 3.1 la inversa de Z,' Z; tiende a la matriz ( 3.5) en
norma euclídea cuando v;;(z) ---3 0. Como {3.5) es definida positiva, Z; Z;
también tiende, en norma euclídea, a la matriz
)
(3.6)
de autovalores (.^, ,..., í^a 1 }(Stewart (1973), cap. IV). Teniendo en cuenta
la continuidad de los autovalores considerados como funcionales de la matriz correspondiente (Kato, 1982} se tiene
90
ESTADISTICA ESPAÑn1.A
Como consecuencia directa, se tiene ^,; --^^, ,^.m,; -^ ^ ^,p y también
k(Z;) --^^ k(Z}.
Este teorema 3.2 tiene un inrnediato análogo para autovector en virtud, de
nuevo, de los resultados del libro de Kato 11982). Por consiguiente, cuando
v;; tz) --^ o el autovector normalizado y,,; asociado a í^,,; está próximo a1
autovector r»x1 ty', , 0)' de la rnatriz (3.6) correspondiente al autovalor ^,, .
EI siguiente resultado muestra cómo, salvo en situaciones de carácter patológico, los autovalores de la matriz Z'Z separan, uno a uno, a ios autovalores de la matriz (3.1).
TEOREMA 3.3
Sea C la matriz ortogonal pxp de la descomposición espectral de la matriz Z'Z. Si los autovalores de Z'Z son todos distintos entre sí y
k; = Cí; es un vector px1 cuyas componentes son todas distintas de 0, se
tiene
C^
^
/^.1 i ^ /^.1
C /^,2 i ^ /^.2 ^ . . . . . . . . C 1^,p C
^ m, i
DEMOSTRA CIÓN
Consultar Vefilla (1987}
3,2 M^todo reducido
La teoría desarrollada en esta sección puede utilizarse para proponer un
método práctico de detección simultánea de colinealidad y observaciones
extremas. EI procedimiento se ejecuta en etapas:
i} Calcular las n magnitudes VIFi (i= 1 , . . . , %%}.
En virtud de la identidad ^3.3) el análisis de VI Fi es equivalente a la detección de potencial en ^ 1.1). EI cálculo de VIFi puede efectuarse empleando, por ejemplo, subrutinas de! paquete de programas IMSL.
ii) Calcular i° tal que mín VIF' = VIFi°.
i
Si VI F^° ^ 1 0, equivalentemente, v;o;o lz) ^ 0
los diagnósticos de Z'Z se pueden aproxímar por los de Z;o Z;o en virtud de
los teoremas 3.1 y 3.2.
EJEMPL^
En esta sección se discute un ejemplo ilustrativo de la aplicación de la
teoría de la sección 3. Se trata de un conjunto de datos muy conocido
relativo a un modelo
OBTENCION SIMLILTANEA DE MULTICOLINEAL[DAD
9I
Y- j^o + Q, x, +%32 x^ Q3 x3 +^ sobre n = 19 ratas y que ha sido analizado anteriormente por Cook y Weisberg ( 1982), Weisberg (1985) y Cook (1986),
entre otros. Los datos aparecen recogidos en la Tabla 4.1
TAF3LA DE DATOS
X,
x2
x3
Y
176
176
190
176
200
167
188
195
176
165
158
148
14 9
163
170
186
146
181
149
6.5
9.5
9.0
8.9
7.2
8.9
8.0
10.0
8.0
7.9
6.9
7.3
5.2
8.4
7.2
6.8
7.3
9.0
6.4
0.88
0.88
1.00
0.88
1.00
0.83
0.94
0.98
0.88
0.84
0.80
0.74
0. 7 5
0.81
0.85
0.94
0.76
0.90
0.7 5
0.42
0.25
0.56
0,23
.023
0.32
0.37
0.41
0.33
0.38
0.27
0.36
0.21
0.28
C?.34
0.28
0.30
0.3 7
0.46
n=19,m=4,p=3.
EI significado de las variables es
Y=
porcentaje retenido de una dosis de droga en el hígado de
la rata.
.
peso de la rata en gra mos.
x2= peso dei hígado en gramos.
x3 =
dosis relativa de droga administrada.
ESTA[)ISTI( A ESPAti(.)LA
yZ
De análisis anteriores es sabido que la observación 3 es extrema con un
potencia! v33 = 0.85. Un aspecto hasta ahora no suficientemente explorado
es la existencia de una fuerte colinealidad estructural en los datos de la tabla 4.1. La regla de asignación de la droga en el experimento subyacente
es la de administrar, aproximadamente, 40 mg. de droga por Kg. de peso
corporal y, por tanto,
( x, / 10 0 )
t4.1 ^
2
La relación ( 4.1 ) establece, entonces, una dependencia lineal aproximad^
entre las columnas 1 y 3 de la matriz X. En este ejemplo conviven, pues,
los problemas de colinealidad y observaciones extremas. La detección simultánea de ambos pueden efectuarse usa^^do e! método de la sección 3.
En la primera etapa se trata de examinar !os diagnósticos VIF'. La figura
4.1 es un gráfico caso por caso en el que se detecta inmediatamente el
caso 3 c^mo extremo. EI caso íe= 9 resulta ser aquel cun el menor diagnóstico VI F^
•^ • • • • * • • • ^ ♦ • • • • f • • • • + • • • • ♦. • • ^ * • • • • ♦ •
5.25
+
•
+^
Figura 4.1
T
•
•
•
•
•
•
•
^ 3.50
♦
1.75
♦
+
vlF^
l
1
t
.
•
^ O.oo
^^\
^\
^.---+Ic - r ---t
0^-- ^' --^f^-^- - - * ---i=
^
.
•
^
•f•••• ♦• • s•^••••F••••*•• ••+• •••♦•••• *•
3.
.
15
9.
6.
I ndice de caso
12
18
OBTENC(ON SIMULTANEA DE MULT!(^'OLINEAl.^IUAD
93
La tabla 4.2 contiene, en su primera columna, los diagnósticos VI F^ s
^^ 1,2,3), ^., s y que detectan inmediatamente una situación de colinealidad
debida a la fuerte asociacián lineal entre las variables x, y x^ en corcondancia con la información de (4.1). ^a columna derecha de esta tabla muestra
los correspondientes diagnósticos calculados para la matriz tipificada Z.
Obsérvese que, en consonancia con las conclusiones de los teoremas 3.1 y
3.2, la diferencia entre la colinealidad en Zs y Z es muy pequeña.
x,
x2
x3
V I F^,s
V I F^
51.3 9 7
1.336
50.664
51.000
1.336
50.336
^ r,s = 0.009 8
^,, = 0.0099
0.7097
-0.0094
. 0.7095
-0.0095
^ m/n, 9 -
--0.7 044
^min
=
_0.7 047
--0.010 7
TABLA 4.2
5.
EXTENSfOIVES
Los resultados de la sección 3 tienen una extension natural a la detección simultánea de multicolinalidad y observaciones influyentes usando
técnicas de análisis de condición en las matrices Z* de (2.10). La matriz
Z* _(Z,y) es la versión tipificada de la matriz ampliada X* _(X,Yy asociada al
modelo (1.1 }.
Sea V* ^(v;; )= X* (X* X* j -' X*' ia matriz de proyección sobre la variedac^
lineal engrendrada por las columnas de X*. Puede demostrarse que
v;*= 1 ^ (1 - v;; ) (1 - ^/n-m)
( 5 .1)
de donde (5.1) crece con las coordenadas del bloque (v;;, r?). De hecho,
Andrews y Pregibon ( 1978) desarrollan una medida de influencia de coinci-
y^i
^:s^^r ^^r^is-r^ic^.^^ E^.^P.^ti^^t ^^
de con 1-v;; , Sea z,*' (z; , y, ) la estructura formada por i--ésima fila de Z y la
i--ésima respuesta tipificada y, . En analogía con (2.7) se tiene
v,^ _ ^ + z;" ( Z *' Z * ) ^' z *
n
{ 5.2 )
_ 1 + v,* (z)
n
donde v;* (z) = z*(Z*' Z* )-' z*
AI efectuar un desarrollo paralelo al de la seccián 3 aplicado, esta vez, a
Z* se han de obtener, por fuerza, métodos de estudio simultáneo de potenciales ampliados v,^(z) y de la colinealidad en Z. En virtud de los resultados
expuestos en Velilla (1 9$7, cap. II) ésta última está relacionada con la
colinealidad en Z,
5.1 Factores de inflación de la varianza.
No es el objetivo de esta sección entrar en el detalle de la exposición
teórica correspondiente que puede encontrarse en Velilla ( 1987). Desde el
punta de vista práctico los resultados más importantes se obtienen con los
factores de inflación de la varianza de Z;`. Sean VI F^; ( j= 1,..., p) y VI Fm;
los m primeros factores de inflación de la varianza asociados a Z* y sea
VI F'' el úitimo. Sean también VI F^ ( j= 1 ,..., p) y VI Fm los factores asociados a Z*. se demuestra que
e;
VIF^,=VIF*+ (1-v,*(z))-' ( c,(Z'Z)-'
(5.3)
(j = 1,..., p) donde c^ es el j--ésirYio vector canónico de RP, ^^ e1 j-ésímo
estimador rnínimo-cuadrático en el modelo (2.1) y SCE ia suma de cuadrados de los errores en el modelo ( 1.1). Más importantés que (5.3) son las
expresiones de V 1 Fm ; y V I F*'. Se tiene
V I F*,.; = V I F m (1- r^ (z) /n--mr'
S. 4)
Y
1
VIF*'=
(5.5)
1- v^* (z)
En (5.4), r; (z) es una modificación del resídual r; de (2.5) dada por
r; (z) _
(5.6)
1 )z
OHT^E^i('I(7ti SIMI'L_T^^!tiE.^^ f)E M['1.TIt^O1_!ti^•^(_^ll)^^f)
De acuerdo con (5.6) y 12.7) r; (z) ^ r, cuando n es grande. Un «outlier»
tiende, pues, a provocar la aparíción de un diagnóstico anómalos VI F^„ . Por
otro lado, en ( 5.51 VI F*' es función monótona de la medida de influencia
v,*(z) de 15.2).
5.2 Método generat.
Tres son las etapas de este método general.
i} Estudiar los valores de VI F*' (i = 1,..., n).
Las observaciones inf(uyentes se destacarán en un gráfico caso por
caso.
iij Distinguir si la observación z,* (z; , y; ) es extrema Iz, ) o«outlier» (y; ).
De (5.4) es ínmediato que un gráfico caso por caso de
*
v m, i
_ (1-r^ (z) /n-mr'
( 5 .7 )
1/ I Fm
es aproximadamente equivalente al gráfico de r?. Análogamente a
(5.1) es v;*(z) = 1 -(1-v;; (z1} (1--r?(z)/n-m) y sustituyendo en (5.5) se
tiene
VIFm VIF*^
VIF'=
*
(5.$)
V m, i
que, según (3.3), depende directamente del potencial de la observación %-ésima.
iii) Calcular i° tal que mín V/F*'=VIF*^°.
i
Aproximar los diagnósticos de Z*' Z* por los de Z ó Z o y analizar la colinealidad en Z usando las técnicas de Velilla (1987), cap. II).
5.3 Ejemplo
Valviendo de nuevo al ejemplo de la sección 4, la figura 5.1 es un gráfico
caso por caso de VIF*' que detecta inmediatamente la observación 3 como
infiuyente. La figura 5.2 es el gráfico análogo de
VIFm; /VIFm que, por lo que se refiere a los residuales, no indica nada
anormal. La pecu liaridad observación 3 se debe, entonces, a que x3 está
alejado del centro de los datos.
96
ESTADISTIC'A ESPAÑOLA
• t • • • • +• • • • f . • • • ♦ • • • . ♦ • • • . ♦ • . • . + • • • • + •
5.2 5
+
^
Figura 5.1
}
.
.
3.50
V I F'
1 . 75
.
.
+
I
1
.
.
.
•
.
.
^
^
.
+
.
•
.
t
♦
^^
^
^
1l\
• ^
^
0.00
+
#
a ^ • • • • ^ • • •
^
^Y .^^.^_'• *
• t r • • • ^ • • • • T' • • • • ^ i ^ • • ^ • • • ^ + •
15
9.
3.
6.
12
18
Indice de caso
••♦•• ••♦• •••♦•••• ♦•••• *•• •• ♦•• ••♦•• : • ♦ ^
1 •50
*
t
Figura 5.2
•
•
^
1.25
^
♦
•
^.
i
,^
/
•
.
V^Fm
1.00
+
.750
.
f
^"
^-# 1^ ^--^á ^t!
^
.
t
•t•^• •• t• • • •t•• •• t• • • • t • • •• *• • • •t • • •• t•
3.
9.
fi•
1Z
Indice de caso
15
18
9%
OBTENCION SIMULTANEA DE MULTICOLINEALIDAD
6.
DISCUSION Y SUMARIO
Este art%u1o describe un método de obtención simult^nea de colineaiidad
e influencia en regresión lineal. La idea es utilizar técnicas de análisis de
condición como herramientas de obtención de información conjunta sobre
ambos problemas. EI método puede ejecutarse empleando paquetes de
programas conocidos.
La idea de buscar una estructura de análisis combinado de multicolinealidad e influencia se encuentra en Hocking y Dunn (1982), donde se propone una técnica basada en los gráficos de componentes principaies. EI
método de este trabajo incorpora diagnósticos gráficos y conclusiones
deducidas de importantes resultados teóricos.
Finalmente, una exposición más detaliada de los desarroiios y ei ejemplo
de este artículo puede encontrarse en Velilia (1987^.
APENDICE:
DED UCC/ON DE LA S ECUA CIONES ( 3.2 ) y ( 3. 3).
En virtud de la expresián ( 3. ^) es inmdiato © btener usando, por ejempio,
Draper y Smith (1985, p^g. 127)
a;
(Z^^-Z^ 2^ ^-)
`
^ -V;; (Z^
!^` Z' \-1 ^
(A.1)
a;^
1
1-v;; (z)
1-v;; (z)
.
donde a;= (a^; )_(Z'Z)-' z; es un vector px1 y v;; (z) = z; (Z'Z)+' z; . Adem^s,
a; a;
(Z'Z_Z^Z, )-^ - (Z'Z)-^ +
(A.2)
1-v;; (z)
E.^^T 1[)IS^^TI(^^•^ ESF'^>^it)I^.A
SUMMARY
SIMULTANEOUS OBTAINMENT OF MULTICOLLINEARITY
AND INFLUENTIAL OBSERVATIONS
A new method for simultaneous obtainment of multicollinearity and influence in linear regression is described . The method is
based on certain techniques of condition analysis applied on
specific perturbations of the design matrix. The behaviour of the
method is illustrated by means of a practical example.
Key words.^ Condition analysis, diagnostics, influential observations, multicollinearity.
REFERENCIAS
ANDREWS, D.F. Y PREGIB©N, D. (1978). Finding outliers that matter.
Journal of the Royal Statistical Society, Serie B, 40, 85-93.
BELSLEY, D.A., KuH, E. y WELSCH, R.E. (1980). Regression Diagnostics. New
York, Wiley.
CooK, R.D. (19861. Assesment of Local Influence. Journal of the Royal
Statistical Society. SerieB, 48, 133-189.
C oo K, R. D. y W E I S B E R G, S. (19 82 ). Residuals and lnfluence in Regression.
New York, Wiley, 2.8 edicián.
GUNST, R.F. (1983). Regression Analysis with Milticollinear Predictor
Variables. Communications in Statistícs, 12, 2217-2260.
'
HOAGLIN, D.C. y WELSCH, R. (1978). The Mat matrix in Regression and
ANOVA. Ameriean Statistician, 32, 17-22.
HoCKING, R.R. y DuNN, M.R. (19$2). Collinearity, Influential Data and Ridge
Regression. Simposio de la Universidad de Delaware sobre Regresión
Rid 9 e.
KATO, T. (1982). A short lntroduction to Perturbation Theory for Linear
Operators. Springer Verlag.
MARQUARDT, D.W. (1 970). Generalized Inverses, Ridge Regression, Biased
Linear Estimation. Technometrics, 12, 591-612.
STEWART, G.W. (1973). lntroduction ta Matrix Computations. Academic
Press.
V ELI LLA, S. (1 98 7). Contríbuciones al ^4 nálisis de los problemas de lnfluencia
y Multicolinealidad en Regresión Lineal. Tesis Doctoral. Universidad
Complutense.
WEISBERG, S. (1985). Applied Línear Regression. New York, Wiley,
2.a edición.
Descargar