Regresión múltiple

Anuncio
Regresi6n multiple
Esquema del capitulo
13.1.
EJ modele de regresion multiple
Especificaci6n del modele
Desarrollo del modele
Graficos tridimensionales
13.2.
Estimaci6n de coeficienles
13.3.
13.4.
13.5.
Metoda de minimos cuadrados
Poder explicativo de una ecuaci6n de regresi6n multiple
Intervalos d e confianza y conlrastes de hip6tesis de coeficientes de regresion
individuales
Intervalos de confianza
Contrastes de hip6tesis
Contrastes de los coeficientes de regresi6n
Contrastes de lodos los coeficientes
Contraste de un conjunto de coeficientes de regresi6n
Comparaci6n de los contrastes F y t
13.6.
13.7.
Predicci6n
Transformaciones de modelos de regresion no lineales
Transformaciones de modelos cuadralicos
13.8.
13.9.
Transformaciones logaritmicas
Utilizaci6n de variables ficticias en modelos de regresi6n
Diferencias entre las pendientes
Metodo de aplicaci6n del analisis de regresi6n multiple
Especificaci6n del modelo
Regresi6n multiple
Efecto de la eliminaci6n de una variable estadfsticamente significativa
Analisis de los residuos
Introducci6n
En el Capitulo 12 presentamos el metodo de regresi6n simple para obtener una ecuaci6n li neal que predice una variable dependiente 0 end6gena en funci6n de una unica
variable independiente 0 ex6gena; por ejemplo, el numero total de art fculos vendidos en
funci6n del precio. Sin embargo. en muchas situaciones, varias variables independ ientes
influyen conjuntamente en una variable dependiente. La regresi6n multiple nos permite
averiguar el efecto simultaneo de varias variables independientes en una variable dependiente utilizando el principio de los minimos cuadrados.
488
Estadfstica para administraci6n y economfa
Existen muchas aplicaciones importantes de la regresion multiple en al mundo de la
emprasa y an la eeonomia. Entre estas aplicaciones se encuentran las siguientes:
1. La cantidad vendida de bianes es una funcion del precio, la renta, la publicidad,
2.
3.
4.
el precio de los bienes sustitutivos y otras variables.
Existe inversion de capital cuando un empresario cree que puede obtaner un beneficia. Par 10 tanto, la inversion de capital es una tuncion de variables rel acionadas can las posibilidades de obtener beneficios , entre las que se encuenlran el
tipo de interes, el producto interior bruto, las expectativas de los consumidores,
la renta disponible y el nivel tecnol6gica.
EI salano es una funcion de la experiencia, la educacion, la edad y el puesto de
trabaja.
Las grandes empresas del comercio al par menor y Ja hostelerfa deciden Ja localizacion de los nuevas establecimientos basandose en los ingresos previstos por
ventas y/o en la rentabilidad. Utilizanda datos de localizaciones anteriores que
han tenido exito y que no 10 han tenido, los analistas pueden construir modelos
que predicen las vantas a los beneficios de una nueva 10calizaci6n posible.
EI analisis eeonomico y empresarial lien e algunas caracterfsticas unicas en comparaci6n can el analisis de olras disciplinas. Los cientificos naturales trabajan en un laboratorio en el que es posible controlar muchas variables, pero no todas . En cambia, eJ
laboratorio del economista y del directiva as el mundo y las cond iciones no pueden controlarse. Por 10 tanto, necesitan instrumentos como la regresion multiple para eslimar el
afeelo simultaneo de varias variables. La regresion mUltiple como «instrumenta de labarataria » as muy importante para el trabajo de los directivos y de los economistas. En
esta capitulo ve remos muchas aplicaciones especificas en los ejemplos y los ejercicios .
Los metodos para ajustar modelos de regresion multiple se basan en el mismo principia de los minimos cuadrados que aprendimos en el Capitu lo 12 y, par 10 tanto, las
ideas presentadas en ese cap itulo se axtenderan directamente a la regresi6n multiple.
Sin embargo, se intraducen algunas complejidades debido a las relaeiones entre las
distintas variables ex6genas. Estas requieren nuevas ideas que se desarrollan en este
capitulo.
13.1. EI modelo de regresion multi Ie
N uestro objetivo es aprender a utilizar la regresi6n multiple para crear y analizar model os.
Por 10 l anto, aprendemos co mo funciona la regresi6n multiple y alg unas directrices para
i nlerpretaria. Comprendi endo perfectamente la regresi6 n multiple, es posible reso l ver una
umplia variedad de problemas ap licac1os. Este estudio de los metodos de regresi6 n m(lItiple
es paralelo al de la rcgresi6n simple. El primer paso para desarrol1ar un modele es la cs peeifieaci6 n de ese modelo, que consistc en la selecei6 n de las variables del modelo y de 13
forma del modelo. A conlinuaci6n, se estudia el metoda de millimos euadrados y se allali ~
za la variabilidad para identificar los efeetos de cada una de las va riables de predi cci6n .
Despues se eswd ia 13 estimac ion, los inLervalos de confianza y cl contraste de hi potesis. Se
uti l izan frecuentemenle apli cae iones informalicas para indicar como se apl ica la leOrla a
problemas real istas. EI estud io de este capItulo sera mas facil si se ponen ell relaci6n sus
ideas COil las que presenlamos en el CapItulo 12.
Especificacion del modelo
Comenzamos con una ap li cac i6n que ill/stm la importante tarea de la espec ificaci6n del
modele de regres i6n. L a espec i fi caci6 n del modelo cons iste en la selecc i6n de las variables
ex6gcnas y l a forma funcional del mode 10.
Capitulo 13.
Regresi6n multiple
489
EJEMPLO 13.1. Proceso de produccion (especificacion del modelo
de regresion)
EI director de produccion de CircuilOs Flexibles. S.A., Ie ha pedido aYllda para estlldiar
un proceso de produccion. Los circlli tos fle xibles se producen con un rollo con tinuo de
resina flex ible que lleva adherida a su su perficie una Fina peifcll la de material conductor
hecho de cobrc. El cobre se adhiere a la resina pasando la res ina por una solucion de
cobre. EI grosor del cobre es fu ndamenta l para que los circuilos sean de buena calidad.
Depende en parte de In temperatura de la so luci6n de cobre, de la velocidad de la [fnea
de produccion, de la densi.dad de la soluc i6n Y del grosor de la resina flexib le. Para controlar el grosor del cebre adheride a la superficie, el director de producci6n necesi ta saber que efecto produce cada una de estas variables. Le ha ped ido ayuda para desarrollar
un modele de regresion mu ltiple.
Solucion
La regres ion multiple puede uti lizarsc para hacer cstimaciones de l efecto que produce
cada variable en combinacion con las demas. El desan·ollo del modelo comienza con un
ana lisis detenido de l contexto del problema. El primer paso en este ejemplo serfa una
extensa conversacion con los ingenieros responsab les del disefio del producto Y de la
produccion, con el fin de comprender detall adamente el proceso de l que se pretende desarrollar un modelo. En algu nos casos, se estud iarfa la literatura existente sabre el proceso. Este debe ser comprendido y aceptado per todos los interesados antes de poder
desarrell ar Ull modelo util ut ilizando el anal is is de regresion mUltiple. En eSle ejemplo,
la variable de pendiente, Y, es el greso!" del cobrc. Las valiables independientes son la
temperatura de 1a solucio n de cobre. XI: la velocidad de la lfnea de produccion, X2; la
dcnsidad de la solucion, XJ • y el grosor de la res ina fle xible, X4 . Los ingenieros y los
cientfficos que comprendfan la tecnologfa de l proceso de recubrimiento identificaron estas variables como posibles predictores del grosor del cobre, Y. Basandose en el estudio
del proceso, la especificacion del modele resu ltante es
y ~ flo
+ {!,X, + {!2X, + P3X, + fi,X,
En el modelo lineal anterior, las Ii; son coeficienles lineales conSlanles de las Xj que
indican el efecto condicionado de cada variable independienle en la determinacion de la
variable dependieme, Y, en la poblacion. Por 10 tanIo, las P; son parametros en el modelo
de regres i6n Itneal. A continuacion, se producirfa una serie de lotes para haccr mediciones
de distintas combi naciones de las variables independientes y la variable depend icnte (vcasc
el anaJi sis del diseno experimenta l en el apartado 14.2).
EJEMPLO 13.2. Localizac ion de las l iendas (especificacion del modelo)
El director de plani ficac i6n de una gran cadena dt{ comercio al por menor estaba insatisfecho con su experienc ia en la apel1ura de nuevas tiendas. En los cuatro ult imos afios, el
25 por ciento de las nuevas tiendas no habfa conseguido las ventas prev istas en e1 periodo de pmeba de dos afios y se habfa ccrrado con cuantiosas perdidas econ6mkas. El
director querfa desarro ll ar mejores crilerios para elegir el empi azam iento de las tiendas
y llego a la conclusion de que debfa estudiarse la experiencia hi st6rica de las tiendas
que habfan tenido exi to y las que habfan fracasado.
490
Esladfslica para adminislraci6n y economia
Solucion
Hablando con un consultor, lIeg6 a la conclusi6n de que pod ian uti li zarse los datos de
las tiendas que habfan conseguido las venlas que estaball previ stas y los datos de las
que no las habfan conseguido para desarroll ar un modelo de regresion multiple. El co n ~
suItor sugirio que debra lltil izarse como variable dependiente, y, las ventas del segundo
ailo. Se em plearfa un modele de regresion para predec ir las venlas del segundo ailo en
funcio n de varias variabl es illdependienles que dcfinen la zona que rodea a la tiencla.
Solo se abrirfan tiendas en los lugares en los que las ventas predichas superaran un ni~
vel minima. EI mode lo tambie n indicarfa como afec tan varias variables independientes
a las ventas.
Tras hablar largo y tendi do con personas de la empresa, el consultor recomend6 las
siguien les variables independ icntcs:
1. Xl = lamano de la tienda
2. X 2 = vol umen de trMico de la call e en la que se encuentra la tienda
3. X] = aperlura de la tienda so la a en un centro comercial
4. X4 = exislencia de una tienda rival a menos de 500 metros
5. X 5 = ren La per capita de la poblaci6n residente a menos de 8 kilometros
6. X6 = mitnero total de personas que residen a menos de 8 kjlometros
7. X7 = renta per capita de la poblacion que res ide a menos de 15 kilometros
8. Xl'. = ntimero total de personas que res iden a menos de 15 ki lometros
Se uti lizQ la regresi6n multi ple para esli mar los coeficienles del modelo de pre di c~
cion de las ventas a partir de datos recog idos en lodas las liendas abiertas en los ocho
6ltimos anos. En el conjunto de datos habra tiendas que segufan abiertas y tiendas que
se habfan cerrado. Se desarro1l6 un modele que podfa utilizarse para predecir las ventas
del segun do ano. Este modele contenfa estimadores, b), de los para metros del modelo,
p). Para ap licar el modelo
g
Yi =
bo +
L
bj xji
j= l
se hici eron mediciones de las variables independienles de cada nueva localizaci6n pro~
pLlesta y se calcu laron las ventas predichas de cada local izac ion. Se uti liz6 cJ nivel pre~
dicho de ven tas , junto con eJ cri terio de los anal istas de marketin g y de un co mite de
directores de tiendas de ex iLo, para elegir el lugar en el que se abrirfan [iendas.
En la estraleg ia para especificar un modelo influyen los objetivos de l modelo. Uno de
los objetivos cs la pred iccion de una variable dependiente 0 «de resultado» . Entre las apli ~
caciones se encuentran la prediccion de las ventas, de la producci6n, del consumo total, de
la invers ion total y otros muchos criterios de los resultados empresariales y economicos. EI
seg undo objetivo es estimar el efecto marginal de cada variable independiente. Los eco no~
mi stas y los di recti vos neces ilan saber como cambian las medidas de los resultados cuando
varian las variables independicn tes, Xj' donde j = I, .. ., K. Por ejemplo:
L
2.
3.
l,Como varfan las ventas como consecllencia de una subi da del precio y de los gastos pllblicitarios?
i..Como varia la producci6n cuando se alteran las cantidades de trabajo y de capi tal ?
i.. Disminuye la mortalidad infantil cuando se illcremenlan los gastos en asistenc ia
sanitaria y en servicios de saneamiento?
Capitulo 13.
Regresi6n multiple
491
Objetivos de la regresi6n
La regresi6n multiple permite obtener dos importantes resultados:
1.
2.
Una ecuaci6n lineal estimada que predice la variable dependiente, Y, en funci6n de K
variables independientes observadas, xi' donde j = 1, ...• K.
donde i = 1, "" n observaciones.
La variaci6n marginal de la variable dependiente, Y, provocada por las variacionas de
las variables independienles, que se eslima por medio de los coeficientes, bj. En la regresi6n multiple, estos coeficientes dependen de que otras variables se incluyan en al
modelo. EI coeficiente bj indica la variaci6n de Y, dada una variaci6n unitaria de X;, descontando al mismo tiempo el efecto simultaneo de las demas variables independlentes.
En algunos problemas, ambos resultados son igual de importantes. Sin embargo, normalmente predomina uno de ellos (por ejemplo, la predicci6n de las ventas de las tiendas, y, en el
ejemplo de la localizaci6n de las liendas).
La variaci6n margina l es mas diffei l de estimar porque las variab les independ ientes csHi.n relac ionadas no s610 con las variables depen dienles sino lam bien entre Sl. Si dos variubles independie ntes 0 mas varian en un a re lac i6n linea l directa entre sf, es dificil averiguar
cI efecto que produce cada variable independienle en la variable dependiente.
Exam inaremos delalladamen te el modelo del ejemplo 13.2. EI coeficien te de XI ---es
decir, b J- indica la variaci6n que experimentan las ventas del segundo ana por cada variaci6n unitaria del tamano de la tienda. EI coeficiente de Xj indi ca la variaci6n que experi mentan las ventas por cada variaci6n unitari a de la rcnta per capita de la poblaci6n que
reside a menos de 8 ki l6metros, miell(ras que la de X7 indica la variaci6n de las ventas por
cada variaci6n de la renla per capita de la poblaci6n que res ide a menos de 15 ki l6metros.
Es probable, pOI' supuesto, que las variables Xs Y X7 esten correlacionadas. Par 10 tanto, en
la medida en que estas variables varfen am bas al mismo tiempo, es diffcil averiguar la contribucion de cada una de elias a la variacion de los ingresos generados por las ventas de las
tiendas. Esta correlaci6n entre variables independientes comp lica e l modelo. Es importanle
comprendcr que e l mode lo predice los ingresos generados por las ventas de las tiendas ulilizando la combinaci6n de variables que contielle el modelo. El efecto de una variable de
prediccion es e l efecto que produce esa variab le cuando se combina con las demas. POI' 10
tanto, en general, el coeficiente de una vari ab le no indica el efecto que produce esa variable en todas las condiciones. Estas complcj idades se anal izanl n mas delen idamenle cuando
se dcsarroll e el mode lo de rcgresi6n mUltiple.
Desarrollo del modelo
Cuando aplicamos la regresi6n mUltiple, construimos un modelo para exp licar la variabilidad de la variable dependiente. Para eso queremos incluir las influencias simultaneas e in*
dividuales de varias variables independientes. Supongamos, por ejemplo, que queremos desarrollar un modelo que pred iga el margen anua l de beneficios de las soc iedades de ahorra
y cn!dilO in mob ili ari o ulili zando los dalos recog idos durante un periodo de anos. Una especificaci6n inicial del modelo indicaba que el margen an ual de beneficios eslaba relac ionado can los ingresos netos pOl' dolar depositado y el nLimero de oncinas. Se espera que el
ingreso neta aumente el margen anua! de benefic ios y se preve que el nllmero de ofic in<ls
492
Estadfstica para adminislraci6n y economia
red llcini el margen an ual de benericios dcbido al aumenlO de la competencia. Eso nos lie.
varia a especifi car lin modele de regrcs i6n poblacional
Y = flo + li,X, + (J,X, + c
donde
Y = margen anual de beneficios
XI = ingresos anuales netos por d61ar depos itado
X2 = numcro de ofi cinas existe ntes ese anD
Savings
LIl Tabla 13. 1 y cl Fichera de dalos Savings and Loa n cont iencJ1 25 observaciones
por ano de eS{as variables. Utili zaremos estos datos para desarralJar un modele li neal que
prediga el margen anunl de beneficios en fu nci6n de los ingresos por d61ar depos ilado y
del nume ro de ofi cinas (vease la referencia bibliografica 4).
and Loan
Ta bla 13.1.
Ano
I
2
3
4
5
6
7
8
9
!O
II
12
13
Ingresos
po r d611l r
3,92
3,6 1
3,,2
3,07
3,06
3, 11
3,2 1
3,26
3,42
3,42
3,45
3.58
3,66
Datos de las asociaciones de ahorro y c redito inmobitiario.
Nlimero
Mllrgen de
d e oficinas beneficios
7.298
6.855
6.636
6.506
6.450
6.402
6.368
6.340
6.349
6.352
6. 361
6.369
6.546
0,75
0,7 1
0,66
0,6 1
0,7
0,72
0,77
0,74
0,9
0,82
0 ,75
0.77
0,78
Ano
lngresos
por d61a r
14
15
16
17
18
19
20
21
22
23
24
25
3,78
3,82
3,97
4.07
4,25
4.4 1
4.49
4,70
4,58
4.69
4.71
4.78
Numero
Margen de
de olieinas henelicios
6.672
6.890
7. 115
7.327
7.546
7.93 1
8.097
8.468
8.7 17
8,99 1
9. 179
9.318
0,84
0,79
0,7
0,68
0,72
0,55
0,63
0,56
0,41
0.5 1
0,47
0,32
Pero antes de poder estimar el modelo, es necesario desarrollar y comprender el me·
todo de regres i6n multiple. Para comenzar, exami nemos el rnodelo gene ral de regres i6n
multiple y observemos sus diferencias CO il el modele de regresi6n simp le. EI modelo de
regres i6n mUltiple es
donde f'.; es e l tt~rmi no de error aleatorio que tiene la media 0 y la varian za (J2, Y las /lj
son los coeficientes 0 efectos margi nales de las variables independie ntes 0 cx6genas, Xj .
donde j = I, .. ., K, dados los efeclOs de las demas variables independie ntcs. Las i indi o
can las observacioncs, siendo i = I, ... , 1/.. Uti lizamos las minusculas Xji para indi car los
va lores especfficos de la variable Xj en la obscrvac i6n i. Suponemos que las 8i son inde·
pendientes de Jas Xj y entre sf para que las estimaciones de los coefi cientes y sus va·
rianzas sean correctas. En el Capitulo 14 ex plicamos que ocurre cuando se abandon an
estos su puestos.
Capitulo 13.
Regresi6n multiple
493
EI mode lo mucstra l estimado es
don de e; es cl residuo 0 diferencia entre el valor observado de Y y el valor estimado de
Y obten ido utili zando los coeficientes cstimados, bi' donde j = I, ... , K. EI metodo de
regresi6n obl iene estimac iones simultaneas, bi' de los coeficientes del modelo pob lac ional , /Jj' utili zando el metodo de minimos cuadrados.
En nuestro ejempJo de las asoc iaciones de ahorro y credi to inmob iliario , el modelo
poblacional para los puntos de datos indi viduales es
Este modelo reducido con dos variab les de prediccio n solamente brinda la oportunidad
de comprender mejor el metodo de regresi6n. La func ion de regres i6n puede representarse gnificBmente en Ires dimensiones, como muesLra la Figura 13. 1. La funci6n de regresi6n se representa mediante un plano en el que los valores de Y son una funci6n de
los va lores de la variables independientcs Xl Y X 2. Para cada par pos ible, Xl;, X2i, el valor esperado de la variable dependi enle, Yi. se encuentra en el plano. La Figura 13.2
ilu stra especff"icamentc cl ejemplo de las asociaciones de ahorro y credilo jnmobili ario.
Un aumento de Xl provoca un au mento del valor esperado de Y, condicionado al cfeclo
de X2 • Asimismo, un aumento de X2 provoca una di sminucion del valor esperado de Y,
condicionada al efeclo de XI.
Para complelar nuestro modelo, anadimos un (ermino de error I:. Este termino de
en·or reconoce que no se cump li ra exaClamenle ninguna relaci6n postu lada y que es
probable que haya Olras variables que tamb ie n aFeclen al valor observado de Y. Por 10
tanto, cuando aplicamos ei modelo, observamos el valor esperado de la variable dependiente, Y- represent ado por el plano e n 101 Figura 13.2-, mas un {e rmi no de error alealorio, 1-:, que representa 1a parte de Y no inc\uida en eI valor esperado. Co mo conseCUCllcia, cI mode lo de datos liene la forma
y
y
.x,
Figura 13.1.
EI plano es el valor esperado de Y
en funci6n de XI Y X2.
Figura 13.2. Comparaci6n del valor obselVado y el
esperado de Yen funci6n de dos variables independienles.
494
Estadistica para administraci6n yeconomia
EI modele de reg res ion poblacional multiple
EI modelo de regresi6n poblacional multiple define la relaci6n entre una variable dependien!e 0 end6gena, Y, y un conjunto de variables independien!es 0 ex6genas, xi' donde j == 1,
... , K. Se supone que las xji son numeros fijos; Yes una variable aleatoria definida para cada
obselVaci6n, i, donde i == 1, ..., n, y n es el numero de obselVaciones. EI modele se define de
la forma siguiente:
(13.1)
donde las
Pj son coeficientes constantes y las I: son variables alealorias de 0 y varianza a2 .
En el ejemplo de las asociaciones de ahorro y credito inrnobiliario, con dos variables
independientes, el modelo de regres i6n pob lacional es
Dados valores especfricos de los ingresos netos, Xli' y el numero de oric inas, XZi' el margen
de benericios observado, Yi' es la suma de dos partes: el va lor esperado, flo + {JIX li + fJ-zX2i'
y el tennino de error aleatorio, f.i . EI termi no de error aleatorio puede concebi rse como In
combinaci6n de los efeclos de oLros muchos factores sin iden tificar que afecLan a los margenes de beneric ios. La Fi gura 13.2 ilustra el modele; el plano ind ica el valor esperado de
vadas combi naciones de las vari ables indepe ndi entes y la E; es la desviaci6 n entre el plano
--el va lor esperado--- y cI valor observado de Y - marcado con un punto grande- de un
punto de dato especffico. En genera l, los valores observados de Y no se Cneuentran en el
plano sino po r encima 0 por debajo de el, debiclo a los lerminos de error positivos 0 negatiVOS, l:i'
La regres i6n si mple, presentada en el capftul o anterior, no es mas que un caso especial
de la regres i6n multipl e con una (mi ca variable de predi ec i6n y, por 10 tanto, el plano se
reduce a una Hnea. As f pues, la teorla y eI anali sis que hemos desarrollaclo para ta regresi6n si mple tambi en se aplican a la regres i6n multi ple. Si ll embargo, ex iste n algunas interprctaciones mas que desarrollaremos en nuestro eSludio de la regresi6n multiple. Una de
eli as se ilustra en el siguiente anali sis de los grafieos trid imensionales.
Gnificos tridimensionales
Tal vez sea mas fUeil eomprender el metodo de regres i6n multiple mediante una imagen
grMi ca sim plificada. Observe el rinc6n de la habitacion en la que esta sentado. Las Hneas
formadas pOI' las dos paredes y el suelo representan los ejes de dos vari ables independientes, X I Y X2 . La esquina que forman las dos paredes es el eje de la variable dependiente, Y.
Para estimar una recta de regresi6n, relln imos conjllntos de punlOs (x l i. X2i e yJ
Representemos ahora estos puntos en su habitac i6n utili zando las esq uinas de las paredes y el slle lo como los tres ejcs. Con estos puntos suspendidos en su habi tae i6n, buscamos
un pl ano en el espacio que se aproxi me a todos ell os. Este plano es la fo rma geo metrica de
la ecuaci6n de mfnimos cuadrados. Con estes PUlltos en el espacio, ahora subimos y bajaIllOS un plano y 10 hace mos girar en dos direcciones: todos estos movimientos los hacemos
simultaneamente hasta que tenemos Lin plano que esta «cerea» de lodos los puntos. Recuerdese que en el Capitulo 12 hieimos esto con una Ifnea recta en dos dimens iones para obtener una ec uaci6 n
Capitulo 13.
Regresion multiple
495
A contin uacion , extendemos esa idea a tres dimensioncs para oblener una ecu<1ciu n
""
INTERPRETACION
Este proceso cs, par supuesto, mas complicado que en el caso de In rcgresi6n simple. Perc
los problemas reales son complicados y la regres i6n permite analiza!" mcjor In complejidad
de estos problemas. Querernos saber c6mo varfa Y cuando varfaX !. Pero sabemos que en
estas variaciones influye, a su vez, la forma en que varfaX 2 . Y si XI Y X z siempre varfan a
la vez, no podernos saber cuanto contribuye cada variable a las variaciones de Y.
Las interpretac iones geomelricas de la regresion multiple son cada vez mas comp lejas
a medida que aumenta el numcro de variables independientes. Si n embargo, la analog fa
con la regresion simple cs ex traordinari amente uti!. Estimamos los coeficientes minimizando la suma de los cuad rados de las desviaciones de la dimensio n Yen torno a una fu nc ian
lineal de las variables independ ientes. En la regres ion si mple, la fu nci 6n es una linea recta
en un grafi co bid imen sional. Con dos variables independientcs, la funcion es un plano en
un espacio tridimensional. Cuando consideramos mas de dos variables independientes, (enemos varios hiperplanos complejos que son impos ibles de vis ualizar.
EJERCICIOS
Ejercicios basicos
c) l,Cuai es la variaeion de
en 2'1
13.1. Dado el modelo lineal eSli mado
y=
10
13.5. Dado el modelo lineal estimado
+ 3xI + 2x2 + 4xJ
a) Calcule.V cuando
XI
b) Calcule
c) Calculc
d) Calc ule
Xl
Ycliando XI
y cuando
y cuando
Xl
= 20, X2 =
= 15, x 2 =
= 35. x 2 =
= 10, X2 =
II y.\") = 10.
14 Y x3 = 20.
19 Y X3 = 25.
17 Yx] = 30.
13.2. Dado el modelo lineal CSlimado
y=
10
+ 5Xl + 4x2 + 2x]
a) Calcule.V cuanda
XI
ycuando XI
b) Ca\Cule
c) Calcule
y cuando XI
d) Calcule
Xl
y cuando
= 20. X 2 =
= 15, X2 =
= 35, X2 =
= 10, x 2 =
11
14
19
17
Y x]
Y x3
Y X3
Y x)
=
=
=
=
10.
20.
25.
30.
13.3. Dado el modelo lineal eSl imado
y=
a) Calcule
10
+ 4-1 +
y cuundo XI
y cuanda
Ca1cule y cuando
Calcuie y cuundo
XI =
c)
XI
XI
+ 8X3
= 20. X2 =
15, x2 =
= 20. x 2 =
= 1O'.\"2 =
b) Ca1cule
d)
12x2
11 Y x3 = 10.
24 Y X3 = 20.
19 Y x) = 25.
9 Y X3 = 30.
13.4. Dado el modelo lineal esti mado
y=
10
+ lxl +
a) l,Cuai es la variaci6n de
en 4?
b) l,Cual es In variaci6n de
en I?
y cuando x2 aumenla
12t2 + 8x3
y cuando Xl aumenta
y cuanda xJ aumenla
y= 1O -2x1a) l,Cual es la variacio n de
14x2+&3
ycualldo x] aumenta
cn 4?
b) l,Cual es la variacion de
nuye cn I?
c) l,Cmil es la variac ion de
nuye en 2?
y cuanda
X3
dismi-
y cuando X2
dismi-
Ejercicios aplicados
13.6. Una empresa acromiulica querfa predeeir e\ numcro de horas de trabajo necesario para aeabar el
diseno de un nuevo avi6n. Se pensaba que las
variables cxplicativas relevantes eran la velocidad m[lxima del avian. Sli peso y el numero de
piezas que lenia en comun can olms modelos
construidos por 1a cmprcsa. Se tom6 una muestra
de 27 aviones de la empresu y se esti mo el S l guienle modelo:
Yi = Pu
+ Pl-\·Ii + fizX2i + {3Y:3j + e,.
donde
y,. = esfuerzo de disefio en millones de horas de
trabajo
Xli = veloeidad maxima del avi6n, en kil6mctros
par hora
X2i = peso del avion, en loneladas
496
Estadistica para administracion y economia
X 3" =
numcro porccnlual de piews en camLin con
atros modelos
Los coeficientes de regresi6n estimados cran
6,
h j = 0,661
~
0.065
6,
~
- 0,018
Xl = rentn semana[ en ciemos de d61ures
X 2 = lamano de la familia
Las cstimaeiones de los panimetros de la regrcsi6n par mlnimos cuadrados eran
bo =
Interprete estas estimacioncs.
13.7. En un estud io de la influencia de [as instiwciones fInancieras en los tipos de interes de los bonos alemanes, se anal izaron datos trimestrales de
un periodo de 12 aiios. EI modelo postlilado era
Yi = flo + fllx li + fJ?'x 2, + e,.
dondc
Yi = variaci6n de los tipos de inten::-" de los bonos en el trimcstre
Xli = variaci6n de las compras de bonos pOl' parle de las instituciones financieras en el trimestre
X2,. = variacion de las ventas de oonos POI' p aJ1C
de las instituciones financieras en cI trimestre
Los eoeficientes de rcgrcs ion parcial estimados
eran
b, ~ 0,057
b, ~ -0,065
Interprete estas estimaciones .
13.8. Se aj llst6 el siguiente modelo a una muestra de
30 fam Uias para explicnr el consumo de leche
por familia :
Yi
=
Po + PIX I ; + P2X2i + 8,
dande
Yi =
consumo de leche, en li tros a In seman a
~ 0,025
b l = 0,052
a) Interprete las estimaciones b J Y b2 .
b) j,Es posible hacer una interpretaei6n de la estimacion b o que tenga sentido?
13.9. Se ajust6 eI slguienle modelo a una muestra de
2S estudiantes utilizando datos obtenidos a! final
de su primer ano de universidad . El objcl ivo era
explicar el aumento de peso de los esrudiantes.
Yi = Po
+ PIXI,. + fliX2; + P:y'<3iC,.
donde
y,.
aumento de peso en kilos durante el primer
ano
Xli = numero media de comidas a la semana
X 2i = numero medio de horns de ejercicio a la semana
X3i = numero medio de cerveZ<lS consumidas a la
semana
=
Las estimaciones de los para metros de la regresi6n pOl' mlnimos cuadrados eran
b o = 7,35
b2 = ~ 1 , 345
b l = 0,653
b3 = 0,613
a) Interprete las estimaciones hi' b2 Y b 3 .
b) t,Es posib le haecr una interpretaci6n de la estimnci6n bo que tenga sentido?
13.2. Estimaci on de coeficientes
Los coeficientes de regres i6n mul tiple se ca lcul an utilizando estimadores oblenidos mediante el melodo de mfnimos cuadrados. Este metodo de minimos cuadrados es similar al
que presenlamos en el Capitulo 12 para la regresi6 n simple. S in embargo, los estimadores
son complicados debi do a las relaciones entre las vari ables independicntes Xj que ocurren
simu ltaneamente con las re laciones entre las vari ables independ ientes y la variabl e depend iente. Por ejemp lo , si dos variables indepcndientes aumcntan 0 dismin uycn al mi smo
tiempo -corrcl aci6 n pos it iva 0 negati va- mientras que al mismo tiempo la variable dcpendiente aumenta 0 dismin uye, no podemos saber que variab le independ ienle esta relac ionada rea hn ente con la variaci6n de la variable dependi ente. Como consec uenc ia, observamos que los coeficientes de regresi6n estimados son menos fiabl es si hay estrcchas
correl ac iones entre dos variables independi cntcs 0 mas. Las estimac iones de los cocfic ientes y sus varianzas sicmprc sc obtienen por com putador. Si n embargo, ded icaremos bastanles esfuerzos a eSlud iar el algebra y las rormas de calcul ar la regresi6n pOl' mfnimos cuadrados. Estos esfuerzos permi tin.lll comprender el metoda y averi guar c6mo influ yen las
d ife rentes pautas de los datos en los resultados. Come nzamos con los supuestos habituales
del modelo de regres i6 n multi pl e.
Capitulo 13.
497
Regresion multiple
Supuestos habituales de la regresi6n multiple
El modelo de regresion poblacional multiple es
y; =
fio + fi,Xt; + fJ2-''( 2i + ... + fJKX Ki + t;
y suponemos que se dispone de n conjuntos de observaciones. Se postulan los siguienles supuestos habituales para el modelo.
1. Las
X/I son 0 bien numeros fijos, 0 bien realizaciones de variables aleatorias, XI' que son
independientes de los terminos de error, cr En el segundo caso, la inferencia se realiza
condicionada a los valores observados de las xj ,
2. EI valor esperado de la variable aleatoria Yes una juncian lineal de las variables independientes ~.
3. Los terminos de error son variables alealorias cuya media es 0 y que tienen la misma
varianza, t? Este ultimo supuesto se denomina homocedasticidad a varianza uniforme.
y
4.
Ell;lJ
= ([2 para (i = t , .. ., /1)
Los terminos de error aleatorios, c" no eslim correlacionados entre sf, por 10 que
para todo i = j
5.
No es posible hallar un conjunlo de numeros que no sean iguales a cera, co' c 1 '
tal que
••• ,
cK'
Esta es la propiedad de la ausencia de relacion lineal entre las Xl
Los cuatro primeros supuestos son esenc ialmente iguales que los que postulamos en el
caso de la regresi6n simp le. Sin embargo, el supuesto 5 excluye algu nos casos en los que
existen relaciones lineales e ntre las variables de pred icc ion. Supongamos, pOl' ejemplo, que
lenemos interes en ex pl icar la variab il idad de las tarifas que se cobran par cI envlo de
mafz. Una variable expl icativa ev idenle serfa la distancia a la que se envfa el maiz. La distancia podrfa medirse en diferentes unidades como millas 0 kil6metros. Pero no tendrfa
sentido uti lizar co mo variables de predicci6n tanto la distancia en mill as como la dislanc ia
en kil ometros. Estas dos medidas son func iones lineales una de la olra y no satisfarfan el
supuesto 5. Ademas, serfa una tonterfa tratar de evaillar sus efectos independientes. Como
veremos, las ecuaciones para calcu lar las eslimaciones de los coeficientes y los program as
informaticos no funcionan si no se satisface el supuesto 5. En la mayorla de los casos, la
especificaci6n adecuada del modelo evi tara que se viole ese su puesto.
Metodo de mfnimos cuadrados
EI metoda de mfnimos cuadrados para la regresi6n multiple calcu la los coeficientes estimados pa ra min imizar la suma de los clladrados de los residuos. Recue rdese que el residuo es
498
Estadfstica para administraci6n y economia
Yi
donde Yi es el valor observado de Ye es el valor de Y predi cho a partir de la regres iun.
En terminos formales , minimi za mos SCE:
seE ~ L"
;=1
L"
~
e;
(y; -
y;)'
;=1
=
L"
(y; - (b o + b,x, ; +
... + bKxd)'
i"" I
Esta minimizaci6n eonsiste en hallar el plano que mejor represente un eonjunto de pu ntas en el espacio, como hemos visto en nuestro analisis de los graficos tridimensionales,
Para rea lizar el proeeso formal mente, utili zamos deri vadas pare ia les para desarroll ar un
eonjunto de eeuacioncs normal es simuitaneas que se resuelve para obte ne r los estimadores de los coeficien tes. Para los que tc ngan buenos conocimientos de mate maticas, en el
apendi ce de l capitul o presentamos algunos de los detalles del proceso, S in embargo, se
pueden extracr importantes concJusioncs dandose cucnta de que quere mos enconlrar 1<1
ec uaci6n que mejor re presente los datos observados. Afortunadame nt e, e n las apli caciones estudiadas e n este libra, los co mpl ejos calcul os siemprc se rcalizan utili zando un paquete cstadfstico co mo Minitab, SAS 0 SPSS. Nuestro objetivo es comprender c6mo se
interprelan los resu lt ados de las regresioncs y utilizarlos para resolver pro bl emas. Lo hare mos examin ando algunos de los result ados algebraicos inlennedios para ayudar a comprender los e fectos que producen di stintas paUl as de datos e n los estimadores de los cocri cientes.
Estimaci6n por minimos cuadrados y regresi6n muestral multiple
Comenzamos can una muestra de n observaclones (XI" X2i , "" xKo' y~ donde i = 1, ,." n) medidas para un proceso cuyo modelo de regresi6n pobJacional multiple es
Las estimaciones par minimos cuadrados de los coeficientes fJl' fJ 2 , ,."
bo' b l , ... , b K para los que la suma de los cuadrados de las desviaciones
SCE =
L"
;- 1
(Yi - bo -
blXli -
b2!2i - ... - b KxKi
fJ K
son los valores
(13 .2)
es la menor posible .
La ecuaci6n resultante
(13.3)
es la regresi6n muestral multiple de Yean respecto a XI' X2 ,
Consideremos de nuevo el modelo de regresi6n
mente.
COil
... ,
XI('
dos variab les de pred icci6n sola·
Capitulo 13. Regresi6n multiple
499
Los estimadores de los eoeficientes pu eden reso lverse utilizando las fonnas s iguientes:
(13.4)
(13.5)
(13.6)
donde
I~\ I)' =
r.l:2.l'
=
=
SXI =
...~> =
=
I':<IXl
s;
correlaci6 n muestral entre
correlaci6n muestral en tre
correlaci6n muestral entre
desv iac ion tlpica muestral
desv iaci6n Llpica muestrru
desv iaci6n tfpica muestrru
XI Y Y
Xz e Y
X I Y X2
de X I
de X2
de Y
En las ecuaciones de los estimadores de los coeficientes , vemos que la est imaci6n del
cocficiente de la pendiente, b l, no s610 depcnde de la correlac i6n entre Y Y XI sino que
tam bien la afec(a la correlaci6n en tre X I Y Xl Y la correlaci6n entre Xl e Y. Si la cOlTelaci6n entre XI Y X2 es igual a 0, los estimadores de los coefieientes, hi Y b2• senln igua les
que los eSLimadores de los eoeficienles que se obtendrfan en las regres iones simples correspondiemes: debemos sei'iaJar que eslO raras veces ocurre en el anal isis empresari al Y eeon6mico. Y a 1a inversa, si la correlac i6n entre las variables independientes es igual a I, los
estimadores de los coeficientes seran indefin idos, pero eso se debenl unicamente a que la
cspeciFicaci6 n del modelo es incorrccta Y viol an'i el supuesto 5 de la regresi6n multiple. Si
las variab les independientcs estrin correlacio nadas perfecLamcnte, ambas experimen tan variaciones rel ativas silTIllhiineas. Vemos que en ese caso no es posib le saber que variab le
predice la variaci6n de Y. En el ejemplo 13.3 vemos el efeclo de las correlaciones en tre las
variables independien les examinando el prob lema de las asociaciones de ahorro y eredito
inmobiliario, cuyos datos se muesLran en la Tabla 13.1.
EJEMPLO
13.3. Margenes de beneficios de las asociaciones de ahorro
y credito in mobilia rio (estimacion de los coeficientes
de regresion)
,
Savings
and Loan
EI presidente de la confederacio n de asoc iaciones de ahorro y credito inmobi li ari o Ie ha
pedido que ident ifiqllc las variables que afeclan al margen porcentual de beneficios.
Soluci6n
En primer Jugar, desarrollamos una especificaci6n del modelo de regresi6n multiple que
predice los beneficios como una fllnci6n lineal del porcentaje de ingresos netos por d6lar depositado y el numero de ofi cinas. Util izando los datos de la Tabla 13. 1 que se encuentran en el fichero de datos Savings and Loan, hemos eSlimado un modele de regres i6n multiple, que se observa en las Salidas Minitab y Excel de la Figura 13.3.
Los coeficientes esti mados se identifican en la salida de los programas informati cos.
Vemos que cada aumento unitari o de los ingresos, Xl' provoca un all menlo de los beneFi cios porcentuaJes de 0,237 -si la olm variable no varfa- y un aumento unitario del
500
Eslad istica para administraci6n y economia
Regression Analysis: Y profit versus X1 revenue, X2 offices
The regression e quati o n is
Y profit = 1 . 56 ~ 0 . 23 7 Xl revenue - 0 . 000 24 9 X2 offices
Co eficientes
_ _ -;:;;--;:=;-_ _ --:- ---:- de
/ __-;:~..boo regresion
b,. b,
p
Coe
SE Coef
T
Predictor
Con stan t
Xl r e v e n ue
x 2 of f ices
1 . 564 50
0.23720
0 . 00024908
S = 0 . 0533022
R- Sq
=
0.079 4 0
0 . 05556
0 . 00003205
0 . 000
0 . 000
0 . 000
1 9 . 70
4 . 27
- 7 . 77
R-Sq (ad j) = 85 . 3%
8 6 . 5%
Ana lys i s of Va ri a n ce
OF
2
Source
Re g r e ssion
Residu a l Er r o r
Total
22
24
SS
MS
0 . 40151
0 . 0 6 2 50
0 .4 64 02
0 . 2007 6
0 . 00 2 8 4
F
70 . 66
P
0 . 000
.,
;
, , R
~
;
G",,",
,
,
s~
,.
;;;;-"
...,,,..
"
v.,,;;-::"'"
F
.
~
,,,
.
,
~
. .
..
CoeflC lentes de regreslOn
b,.b,
boo
Figura 13.3.
Ecuaci6n de regresi6n de los beneficios de las asociaciones de ahorro y credito inmobiliario:
(a) salida Minitab; (b) salida Excel.
numero de ofic inas reduce los beneficios en 0,000249. Cons ideremos ahora los dos mode los de regresi6n simple de las Figuras 13.4 y 13.5, en los que hacemos una regresi6n
de Y con respeclo a cada variable independienle por separado. Consideremos primero la
regresi6n de Ycon respecto a los ingresos. Xl ' de la Figura 13.4. En eSla regresi6n simple, el coeficienle de Xl es -0, 169, que es ciaramenle diferente de + 0.237 de la regresian mu l! iple. M,ls abajo, vemos que la correlaci6n entre X I Y X2 es 0,941. Esta gran
correlac i6n produce un gran efecto en el coefi ciente de Xl en la ecuaci6n de regres i6n
multiple.
Consideremos a conlinuaci6n In regresi6n de Y con respecto a X2 solamenle de la
Figura 13.5. En esla regres ian simple, el coeficiente de la pendiente del numero de ofi ~
Capitulo 13.
Regresi6n multiple
501
Regression Analysis: V profit versus Xl revenue
The regression equation is
Y profit = 1.33 - 0.169 xl revenue
Predictor
Const-ant
Xl revenue
5
Coef
1.3262
~ ...
. 0 . 100891
R-Sq = 49 . 5%
Analysis of variance
DF
Source
Regression
1
Residual Error
23
Total
24
Figura 13.4.
SE Coef
0.1386
0.03559
R-Sq (adj)
T
p
9.51
- 4.15
0 . 000
0.000
41.4%
"
S5
M5
F
P
0.22990
0.23412
0 . 46402
0.22990
0 . 01018
22 . 59
0 . 000
Coeficiente
de regresion b 1
Regresi6n de los beneficios de las asociaCiones de ahorro y cr~dito inmobiliario
con respecto a los ingresos.
Regression Analysis: Y profit versus X2 revenue
The regression equation is
Y profit = 1.55 - 0 . 000120 x2 offices
Predictor
Constant
x2 offices
5 •
Coef
1 .54 60
~ . 000120Il> ~0 . 00001434
0 . 0104911
R-Sq(adj)
R-Sq '" 75 . 4%
Analysis of variance
Sourc e
DF
Reg r ession
1
Residual Error
23
Total
24
Figura 13.5.
SE Coef
0.1048
T
P
14 . 15
-8 . 39
0.000
0 . 000
. 14.3%
55
M5
F
P
0.34913
0 . 11429
0 .4 6402
0 .3491 3
0.00491
10 . 38
0. 000
Coeficiente
de regresion
~
Regresi6n de los oeneficios de las asociaciones de ahorro y cr~dito inmobiliario
con respecto a! numero de oficinas.
cinas, X2, es - 0 ,1XXl120, mientras que en 1a regres i6n multiple es - 0,000249. Este
cambio de los coefi c icntes, aunque no es Ian grande como en el caso del coeficiente de
X I_ tambie n se debe a la eslrecha correlaci6n ·entre las variables independientes.
Las correlaciones entre las Ires variables son
Y Beneficios
Xl lngresos
X2 Oficinas
Xl lngresos
- 0,704
- 0,868
0 ,94 1
Vcmos que la corrclaci6n entre XI Y X 2 cs 0,941. Por 10 tanio , las dos variables tiendcn
a variaI' a la vcz y no es sorprendente que los coeficienles de la regresi6n multipl e sean
difercnles de los coeficientes de la regresi6n simple. Debemos senalar que los coeficientes
de la regresi6 n multiple son coejiciel1tes cOlldiciol/ados; es dec ir, el coeficienLc est imado
502
Esladislica para adminislracion y economia
hi depende de las demas variabl es incJuidas en e l modelo. Eso sicmpre es aSI en la regre.
si6n multiple, a menos que dos variables indcpcndientes tengan una correlaci6n 1lluestral
de ccm, algo que es l11uy improbabl e.
Estas rc laciones tam bien puedcn eSludiarse uli li zando un IlgrMico malricial» de Mini.
tab, como e l que muestra la Figura 13.6. No existen grafi cos de este tipo en Excel. Obser.
vese que la relaci6n simple entre Y y X2 es claramente lineal. mientras que la relacion sim ple entre Y Y XI es algo curvilfnea. Esta rel ac ion no lineal entre XI e Yexplica en parte por
que e l coeficienle de Xl de la regresi6n simple es ran distinto del de la regrcsion multiple.
Vemos en este ejem plo que las correlaciones entre variables independientes pueden inOuir
considerablcmenle en los coeficientes estimados. Por 10 taniO, si es posible cleg ir, deben
cvitarse las variab les independicntes muy correlac ionadas. Pero en mochos casos no es posib le clcgi r. Las estimaciones de los coefi cientes de regres ion sicmpre dependen de las demas vari ables de predicci6n del modelo. En este eje mplo, los beneficios aumentan en funci6n de los ingresos porcentuales por dolar depositado. Sin embargo, e l uumento
simultaneo del numero de oficinas -que red ujo los beneficios- ocultarfa el aumento de
los beneficios si se utilizara un analisis de regres i6n simple. Por 10 lanlo, es muy importanle especificm correctamente el modelo, es decir, la elecci6n de las variables de predicc i6n.
Para especifi car cl modelo es necesario comprender el contexto del problema Y la teoria.
Matrix Plot of X1 revenue, X2 offices, V profit
Xl' .... v .... nue
I~I),)I )
8000
•
7000
0.'
0.•
0.4
••
••
•
•
•
•
•
•
~
••
•
•
•
•
'.
.'
".
• • •
•
• •
• ••
•
•
X2 offices
.
•
· '.
,
4
Figura 13.6.
Instrucciones de Minitab
1. Pulsar Graph
2. Seleccionar Matrix plot
3. Seleccionar Simple
4. Seleccionar Matrix options
5. Seleccionar lower Left
•.'
••
• ••
, • • • •• •
I'
•
•
•
•
•
•
,
7000
8000
Y profit
••
,
9COO
•
Graficos matricia!es de las variables de las asociaciones de ahorro y crMito inmobiliario.
EJERCICIOS
Ejercicios basicos
13.10. Calcule los coeficicntes b l Y b 2 del modelo de
rcgrcsi6n
a) rx ,y = 0,60; r xlY = 0,70; rX • T , = 0,50;
sx, = 200; S XI = 100: Sy = 400
b) Tx ,}, = - 0,60: TX1:1 = 0,70; ,-x .... , = - 0,50;
Sx, = 200·' s.~, = 100'' S y = 400
c)
= 0,40; ':'1:1 = 0,450;
= 0,80;
S x, = 200'' sx, = 100's
' y =400
d) ':'oY = 0,60; rx,y = - 0,50; ,-x ...., = - 0,60;
.~x, = 20C},.'
' .<, = 100'' S y = 400
Tx,y
dados los siguientes eSladfsticos sinteticos:
':.,x,
Capflulo 13. Regresi6n multiple
:jercicios aplicados
a) Formulc una ecuaci6n de regresi6n que utili-
13.11. Considere las ccullciones de regrcsi6n lineal eslimadas
Y = no + alX I
y = bo + blX I
13.12.
503
+ "zX2
b)
a) Mucstre dctaJladamente los estimadores de
los coeficientes de a l Y hi cuando la cOiTelaci6n entre X I Y X 2 es igual a O.
b) Muestre detalladnmcnte los estimadores de
los coefic ientes de (Jj Y b l cuundo la correiaci6n entre X I Y Xz es igual n I.
c)
Se recomienda que los siguientes ejercicios
se resue lvan con lu ay uda de un computador.
d)
f 1 Amalgamated Power Inc. Ie ha pedido que
eSlime una ecuaci6n de rcgresi6n para averiguar
c6mo afeclan algunas variables de predicci6n ,I
101 demanda de ventas de electricidad. Realiza
una serie de estimac iones de regrcsi6n Y anali za
sus resultados uti lizando los dalos trimestrales
de las ventas de electricidad de los 17 dltimos
afios que se encuen tran en el fi chero de datos
I)ower Demand.
a) Estime una ccuHci6n de regresi6n utilizando
las ventas de elcctricidad como variable dependicnte y el ndmero de clientes y cl precio
como variables de predieei6n. Interprete los
eocfieientes.
b) Estimc una eeuaei6n de regresi6n (venlas de
electricidad) utili zando solumente cl numero
de clientes como variable de predicci6n.
Interprete el cacfi ciente y compare e1 resultado con cl del apartado (a).
e) Estime una ecuaci6n de regrcsi6n (ventas de
electricidad) uti lizando el precio Y los gmdos-dfas como variables de predicci6n.
Interprcte los coeficiel1(es. Compare cl cocfi cien le del precio con el que ha obten ido en
cJ apartado (a).
d) Est"ime una ecuaci6n de regresi6n (ventas de
electricidad) utili zando Ia renta y [os gradosdfas como variables de predicci6n. Intcrprele
los coeficienles.
13.13. , f Transportation Research Inc. Ie ha pcdido
que fonnule algunas ecuaeiones de regresi6n
multiple para estimar cl efeclo de algunas variables en el ahorro de combustible. Los dalos para este estudio se Cllcuenlran en el fichcro de
datos Motors y In variabl e dependiente son las
millas por gal6n -milpgal- canforme a la
certi ficaci6 n del Departamento de Transparte.
e)
ce la patencia de los vehiculos - horsepower- y el peso de los veh fc ulos - weightcomo variables indepcndientes. Intcrprctc
los cocficientes.
Formule una segunda ecuaci6n de regresi6n
que anada cl numero de cilindros --cylinder- como variable indcpendiente " la
ccuaci6n del npartado (a). Interprete los caefici entcs.
Formule una ecunci6n de regresi6n que ulilice el nllmero de cilindros y el peso del vehfculo como variables independienles. Interprete los coeficientes y com pare los resultados con los de los apanados (a) y (b).
Formule una ecuacion de regresi6n que uliliee la palencia de los vehCculos, el peso de
los vehlcu los y el precio como variables de
predicci6n. Interprete los coeficientes.
Escriba un breve infonne que resuma sus resultados.
13.14. ' . Transportat ion Rcsearch Inc. Ie ha pedido
que fo rmule a!gunas ecuaciones de regresi6n
multiple para estimar el efecto de algullas variables en la palencia de los vchCcu los. Los datos
para este estudio se enCllcnlran en el fi chero de
datos Motors y la variab le depcndiente es la
potencia -horsepower- conforme a la certifi caci6n del Depanamento de Transporte.
a) Formu!e una eCllaci6n de regresi6n que uti lice el peso de los vehCcu los - weight- y las
pu lgadas ciibicas de desplazamiento de los
cilindros --displacement- como variables
de prcdicci6n. Inlcrprete los coeficientcs.
b) Formule una ecuacion de regresi6n que lltilice el peso de los vehfcu los, el desplazam icnto de los cilindros y el niimero de cilindros
--<:ylinder- como variables de prcdicci6n.
Interprelc los cocfi cientes y compare los resuhados con los del apartudo (a).
e) Formulc unCI ecuaci6n de regresi6n que ut ilice el peso de los vehfculos. el desplazamicnto de los cil indros y las millas por gal6n
- milpgal- como variables de predicci6n.
Interprete [os cocficientes y compare los resultados con los del apartado (a).
d) Formule una ecuaci6n de regresion que util ice el peso de los vehfculos, cl desplazamienlo de los cilindros. las millas por gal6n y el
precio como variables de prcdicci6n. Interprete los coeficientes y compare los resul tados con los dcl apartado (c).
c) Escriba un brevc informe que presellle los
resultados de su ana lisis de esle problcma.
505
Capitulo 13. Regresi6n multiple
Restando In media muestral de la variab le dependi ente de ambos mi cmbros, tenemos
que
que puede ex presarse de Ja siguiemc manera:
De~v iaci 6 n observada
con respecto a Ja media muestral
des vi aci6n predicha con
respecto a la media muestraJ
+
res iduo
A continuaci6n , elevando <II cuadrado los dos miembros y sumando con respecto al Indice,
i, tenemos q lie
" (y, -
"L.
"
::-.' = "L. (y
- ,: :- - y,
.2
y,.
+ (y, -
• 2
y,)
i- I
=
I"
<y,-Y)'+
i_ I
I" e;
que es la de scomposici6n de la suma de los cuadrados present ada en el Capitulo 12.
STC = SCR
+ SCE
Suma tolal de los c uadrados = suma de los cuadrados
de In regresi6n
Esla descomposici6n simplificada se debe
1:1
+
suma de los cuadrados
de los errores
que )' e; son independientes Yl por 10 tanto.
Descomposicion de la suma de los cuadrados
y coeficiente de determinacion
Comenzamos con el model0 de regresi6n multiple ajustado mediante minimos cuadrados
donde las b, son las estimaciones par minimos euadrados de los coeficientes del modelo de
regresi6n poblacional y las e son los residuos del modelo de regresi6n estimado.
La variabilidad del modelo puede dividirse en los componentes
STC = SCR
+ SCE
(13.7)
donde estos componentes se definen de la forma siguiente.
Suma total de los cuad rados:
STC =
I"
"
(y, -
Y)'
(13.8)
"
(13.9)
506
Estadistica para administraci6n y economfa
Suma de los cuadrados de los errores:
SCE
"
=I
(y, -
y,)' = I" ei
(13.10)
Suma de los cuadrados de la regresi6n :
SCR =
I" tY, - Yl'
(13.11)
i-I
Esla descomposicion puede interpretarse de la forma siguiente:
Variabilidad muestral total = variabilidad explicada
+ variabilidad no explicada
EI caeficiante de determinaciOn, R2, de la regresi6n ajustada es la proporcion de la variabilidad
muestral total explicada par la regresf6n
, SCR
R-= =
STC
SCE
-STC
(13.12)
y se deduce que
La suma de los cuadrados de los errores tambi en se utili za para calcular la eSlimaci6 n
de la vari anza de los en·ores del model a poblacional, como muestra la ecuaci6n 13.1 3. AI
igual que ocurre en 11.1 regres ion simpl e, la varianza de los errores poblacionales se utiliza
para la inferencia estadfstica de la regresi6n multip le.
Estimacion de la varianza de los errores
Dado el modelo de regresi6n poblacional multiple
y, = /io +
/i ,x" + /i,,,-, + ... + PKXK1 + e,
Y los supuestos habituales de la regresi6n, sea q2 18 varianza comun del fermi no de error, I!r
Entonces , una estimaci6n insesgada de esa varianza es
s'
"
L" e;
= -,',,--,' __ = _,SC
, -E
- ,--_
II - KI/ - K -
(13.13)
donde K es el numera de variables independientes en el modelo de regresi6n . La raiz cuadrada de la varianza, s", tambien se llama error tiplco de la estimacion .
Uegados a este punta, tamb ien pode mos calcu lar el cuadrado medio de la regresi6n de
la forma siguientc:
SCR
CMR = K
Ulilizamos el CMR como medida de la variabi lidad ex plicada ajustada para te ner en cue nta
e l numcro de variables independi cn les.
Capitulo 13.
Regresi6n multiple
507
La media muestral de la variable dependicnte de los beneficios de las asociaciones de
ahorro y ered ito inmobiliario es y = 0,674, y hemos uti lizado cstc valor para calcular las
dos ultimas eo lumnas de la Tabla 13.2. Utilizando los datos de esta labIa y los co m ponen~
tes, podemos demostrar que
SCE
0,0625
~
STC
~
0,4640
R' ~ 0,87
En estos resultados, vemos que en esta muestra cl 87 por eicnto de la variabilidad de los
beneficios de las asociaciones de ahorro y cred ito in mobilia rio es expl icado por las relaciones lineales con los ingresos netos y el numero de oficinas. Observese que tambien podrfamos calcul ar la suma de los cuadrados de la regres ion a parlir de la identidad
SCR
~
STC - SCE
~
0,4640 - 0,0625
~
0,40 15
Tambicn podemos calcu lar una estimac i6n de la varianza de los errores a 2 utilizando la
ecuaci6n 13. 13:
?
sf!
I" ei
=
SCE
II-K-
; ... \
II-K-
0,0625
25 - 2 - 1 ~ 0,0284
La Figura 13.7 presenta la sali du Mini tub y Excel del aml li sis de regresi6n correspondiente
al prob lema de las asoc iaciones de ahorro y credito inmobi liario e ind ica las distintas sumas de los cuadrados calculadas. Los paquetes estadisticos calcu lan habitualmcntc cstas
cantidades; incluimos los deLalles de la Tabla 13.2 Cmicamente para indicar c6mo sc ca1cuIan las sumas de los cuadrados. A partir de ahora, suponemos que las sumas de los cuadrados se ealculan mediante un paquete estadistico.
Los componcntes de la variab ilidad tienen sus correspondientes grados de li bertad. La
cantidad STC tiene 1/ - 1 grados de libel1ad porque se neeesita la med ia de Y para eaJcularla. EI eomponente SCR tiene K grados de li bcnad pOl·que los coefieientes K se neces itan
para ealcularla. Por ulti mo, el componente SCE tiene 1/. - K - 1 grados de li bertad porque
se neeesitan los K coeficientes y la media para eaJcularJ a. Observese que en 1a Figura 13.7
se incluyen los grados de libertad (DF) eOlTespondien Les a cada componente.
Utilizamos cI coefic ien te de determinaei6n, R2, habitual mente como es tadistico descriptivo para describi r la fuerza de la relaci6n lineal entre las variab les independientes X y
la variable dependienle, Y. Es importante haecr hincapic en que R2 s610 puede utilizarse
para com parar modelos de regres i6n que tienen el mismo conj un to de observac ioncs mucstrales de Yi, sie ndo i = 1, ... , Il. Este res ullado se observa en la forma de la ecuaci6n
SCE
1- STC
Vemos, pues, que el va lor de R2 pllede scr alto bien porq lle SCE es pequefia - 10 que indi ca que los pun tos observados estan eerea de los pun tos prediehos- , bicn porque STC es
grande. Hemos visto que SCE y indican la eereanfa de los puntos observados a los puntos prcd iehos. Cuando dos 0 lTlaS eCllaciones de regresi6n tienen la mi sma ST C, R2 es una
med idu comparable de la bondad del aj uste de las ecuaciones.
La ulili zaci6n de R2 como medi da global de la calidad de una ecuaci6n ajustada puede
plantear un probl ema. Cuando se afiaden vari ab les independientcs a un modelo de regre-
s;
508
Estadistica para adminiSlracion y economia
Regression A nalvsis: V profit versus X l revenue, X2 offices
The
~e9~ession
Y profit
equation is
1 . 56 + 0 . 237 Xl revenue - 0 . 000249 x2 offices
-
e - - - - -- -- - - - -- -
Predictor
Constant
Xl revenue
x2 offices
E
Coe
1 . 56 450
0 . 23720
0 . 00024908
•
SE Coef
0 . 07940
0 . 05556
0 . 00003205
T
19 . 70
4 . 27
- 7 . 77
bo, b"
P
0 . 000
0.000
0 . 000
7~~~;~~~::==========~~~=~ Coeficiente
de la estimacion
0 . 0 53 ~ 6
= 86y
offices
dedelerminaci6nR z
""' R- SQ( a djj = 85 . 3%
MS~
~
70 66
P
Varianza de
0 000
~_
Tota l
e
5
_ _ _ _ _ _ CMR ;: SCRjK
Sou rce
Regres s ion
Resid ual Err o r
Source
Xl revenus
'"
Error tlpico
.......
Ana ly s i s o f Variance
X2
Coeficientes
5~
24
DF
Seq SS
1
1
0 . 22990
0 . 17161
SCR . O,401S1
SCE = 0,06250
STC "" 0,46402
Numero de variables
independientes (Xl = K
Error tipico
la estimaci6n
5"
Coeficiente
i i
Numero de
I
ind ependientes
CMR : SCR
K
Coeficientes
boo
SCR= 0, 40 151
SCE .. 0,06250
S TC = 0,46402
b" '"
Figura 13.1.
Salida Minilab (a) y salida Exce l (b) del analisis de regresl6n correspondiente
al problema de las asociaciones de ahorro y credilo inmobiliario.
(X) '" K
Capitulo 13.
Regresi6n multiple
509
si6 n multipl e -en casi lodas las siluacioncs ap licadas- , la suma explicada de los cuad rudos, seR, aumenta aunque la variable indepenclicn le adicional no sea una variable de predicci6n importante. Por 10 tanto, pod rfamos enconlrarnos con que R'! ha aumentado espuriamentc dcspues de que se ha anad ido una 0 mas variables de predicc i6 n poco importantes
al modelo de regresi6n multiple. En esc caso, el aumentQ del vnlor de J?'! se rfa e nganoso.
Para ev itar cste problema, el coeficienle de dete rminac i6n aj ustado puede calcularse como
mueSlra la ecuac i6n 13.14.
Coeficiente de determinacion ajustado
EI coeficiente de determinacion ajustado,
R2,
se define de la forma siguiente:
SCE/(n - K - I )
(13.14)
STC/(n - I )
Utilizamos esta medida para tener en cuenta el hecho de que las variables independientes irrelevantes provocan una pequefla reducci6n de la suma de los cuadrados de los errores. Por 10
tanto, el R2 ajustado permite comparar mejor los modelos de regresi6n multiple que tienen diferentes numeros de variables independientes.
Volviendo a nuestro ejemp lo de las asociac iones de ahorro y cn!d ito inmobiliario, vemos que
1/ =
25
SCE
~
0,0625
STC
~
0,4640
y, por 10 tanto, el coe fic iente aju stado de determi nacion es
iP-=
0.0625 / 22
1 - 0,4640/ 24 ~ 0,853
En cste ejemplo, la diferencia entre R2 y iF no es muy grande. Sin embargo, si e l modelo
de regresi6n hubiera cOlltenido algunas vari ables independi entes que no fueran importantes
predictores co ndi cionados, la diferencia serra grande. Olra medida de la relac ion en la rcgresi6n multi ple es e l coeficie nte de correlac i6 n mu ltiple.
Coeficiente de correlacion multiple
EI coeficiente de correlaci6n multiple es la correlaci6n entre el valor predicho y el valor observado de la variable dependiente
R ~ f(Y,y)
~ y In'i
R-
(13.15)
y es igual a la ra fz cuadrada del coeliciente multiple de determinaci6n . Utilizamos R como olra
medida de la fuerza de la relaei6n entre la variable dependiente y las variables independientes.
Par 10 tanto, as comparable a la correlaci6n entre Y y X en la regresi6n simple.
510
Estadfstica para administraci6n y economia
EJERCICIOS
Ejercicios basicos
13.15. Un am'il isis de reg resi6n ha producido la siguiente labia del amllisis de la varianza:
suma total de los cuadrados y la suma de
cuadrados de la regresi6n Crall
STC
~
3.881
y
SCR
~
lo~
3,549
Analysis of Variance
Sou r ce
Of'
3
26
Regres~ion
Res i dual Error
5S
MS
4500
500
s;.
a) Calcule SI: Y
b) Calcule STC.
c) Calcllie R2 Y eI coeficiente ajustado de de-
terminacion.
13.16. Un analisis de regresi6n ha prodllcido la s\guiente tabla del an5lisis de la varianza:
Analysis of vari an c e
OF
2
29
Sou r ce
Re g res sion
Resi d ua l Error
5S
MS
7000
2500
s;.
u) Calcule s~ y
b) Calcule STC.
c) Ca1cu le R2 y cI cocficiente ajustado de determinacion.
13.17. Un an5lisis de regresi6n ha prodllCido la si guicntc tabla del amilisis de la varianza :
Anal ys i s o[ Vari a nce
S o urce
Re gress i on
Re s i d ual Er r or
,
OF
SS
45
40000
10000
MS
a) Calcu1c s" y s;.
b) Ca1cule src.
c) CaJcule R2 y cI coericiente ajuslado de detcrminaci6n.
13.18. Un an5lisis de rcgresi6n ha producido la siguiente tabla del alllliisis de la varianza:
a) Halle e imcrprc(c el coeficiente de determi_
nacion.
b) Halle la slima de los clladrados de los errores.
c) Halle el coeficiente ajustado de dClermina_
ci6n .
d) Halle e intcrprctc cl coefieiente de corrcla_
ci6n mu.lti ple.
13.20. En el estudio del eJerclcio 13.8, en el que las
estimaciones pOl' mfnimos cuadrados se basaball
en 30 eonjllntos de observaciones mucslrales. !a
suma lotal de los clladrados y la sllma de los
cuadrados de la regresi6n eran
STC
~
162.1
y
SCR
~
88.2
a) Hall e e interprete el coeficiente de delermi naci6n.
b) Halle el cocficiente de determinaci6n ajustado.
c) Halle e inlerprete el coeficiente de correlaci6n mu ltiple.
13.21. En eI estudio del ejercicio 13.9, se utilizaron 25
observaciones para calcular las estimaciones
pOl' mfnimos cuadrados. La suma de los cuadrados de la regresion y la suma de los cuadrados
de los errores eran
SCR
~
79.2
y
SCE
~
45,9
a) Halle e interprele el coeficiente de determi nacion.
b) Halle el cocficientc de detel1llinaci6n ajustado.
c) Halle e interprete el coeficiente de correlacion mu.ltiple.
Anal ys i s of varian c e
So urce
Regre s sion
Re sidua l Er ror
OF
5
200
SS
MS
80000
1 5000
a) Ca1cule se y s;.
b) Ca1cu le STC.
c) Calcule R2 y cI coeficiente ajustado de detenninaci6n.
Ejerci cios aplicados
13.19. En el estudio del ejercicio 13.6, en el que las
est imaciones por mfn imos cuadrados se basaban
en 27 conjuntos de observaciones mueslrales, la
13.22. Vuelva a los datos de las asociaciones de ahorro
y credito inmobiliario de la Tabla 13. 1.
a) Estime por mfnimos cuadrados la regrcsion
del margen de beneficios con respecto al numera de ofici nas.
b) Estime por mfnimos cuadrados la regresi6n
de los ingresos nelOS con respecto al numel'O
de oficinas.
c) Estime por mlnimos cuadrados la regresi6n
del margen de beneficios con respecto a los
ingresos nelos.
d) Estime por mfn imos cuadrados la regresion
del numero de ofic inas con respeclo a los ingresos nelos.
Capitulo 13.
Regresi6n multiple
511
13.4. Intervalos de confianza y contrastes de hipotesis
de coeficientes de regresion individuales
En el apartado 13.2 hcmos dcsarrollado y anali zado los est imadorcs puntuales de los
metros del modelo de regresi6n multiple
para.~
A continuae ion, desarrollamos intervalos de confianza y con trastes de hipotes is de los eoeficie ntes de regresi6n est imados. Estos interva los de confian za y contrastes de hipotesis dependell de la. varianza de los coefieientes y de la di stribucion de probabilidad de los coeficielltes. En e l apartado 12.5 mostramos que el coeficiente de regres ion simple es una
funcion lineaL de la variable dependiente, Y. Los coeficicntes de regresi6n multiple, bj ,
tam bi en son funciones lineales de la variable depcndi ente, Y, pero el algebra es algo mas
comp leja y no se presentara aqul. En la ecuac i6n de reg res ion mCiltipie anterior, vemos que
la variable dependiente, Y, es una funci6n lineal de las variables X mas el error aleatorio /;:.
Para un conjunlo dado de variables X, la fu ncion
es en realidad una constante. Tambiell vimos en los Capftulos 5 y 6 que sumando un a
eon stante a una variable aleatoria <.: se obtiene la vari ab le aleatoria Y que tiene la mi sma
di stribucion de probabilidad y la misma varianza que la variabl e alcatoria original £. Como
consecuencia, la variable dependien le, Y, sigue la misma distribuci61l normal y liene la
mi sma varianza que el termino de error, e. Se deduce, pues, que los coerieientes de regresion, bj - que son funci ones lineales de Y-, tambien siguen una dist ribuc i6n normal y su
varianza puede obtenerse utili zando la relaci6 n li neal entre los coeficientes de regresion y
la variab le dependiente. Este ctilculo se rea lizarfa sigui endo los mi smos pasos que en el
caso de la regresion simp le del apartado 12.5, pero el algebra es mas co mplcja.
Basandonos en la relac i6n lineal entre los coeficientes e Y, sabemos que las estimaciones de los cocficientes siguen una distribuci6n normal si cl error del Illodelo, G, sigue una
di stribuc i6n normal. Como consec ueneia del teorema del Ifmite central, genera lmente observamos que las eSlim aciones de los coefic ientes siguen aproximadamente una di stribucion normal, aunque f. no la siga. Por 10 tanto, los contrastes de hipotesis y los intervalos
de confianza que desarrollamos no son afectados seriamente por las desv iaciones con respecto a la normalidad en la di stribuci6n de los terminos de error.
Podemos considerar que el termjno de error, e, del modelo de regresion poblacional incluye las influenc ias conj ulllas en la variable dependiente de multitud de faetores no inciuidos en la lista de variables independ ientes. Estos factores pueden 110 tener por separado
una gran influenci a, pero su efecto eonju nto puede ser importanle. EI hecho de que el ter~
mino de error este formado par un gran numero de eom ponentes cuyos efeetos son aleatorios es un argumento in tuitivo para suponer que los errores de los coeficientes tamb ien siguen una distribuei6n normal.
Como hemos visto antes, los estimadores de los coeficientes, hj' son funeiones lineales
de Y, y el valor predicho de Y es una funcion lineal de los estim adores de los coefic ientcs
de regres ion. EI computador realiza los ca.lculos resultantes de las complejas relaciones.
Sin embargo, estas relaciones a veees pueden pl antear problemas de interpretaci6n, por 10
que dedicamos algun tiempo a expli car la for ma de calcular las varial1zas. Sj no compren-
512
Estadislica para adminislraci6n y economia
demos c6mo se ca lcu lan las varianzas, no podl"cmos comprendcr perfectamenle los conIrastes de hip6tes is y los intervalos de con rianza.
La varianza de una est imaci6n de un coeri cienle dcpende del lamano de la mues!ra. de
la dispcrsi6n de las variables X, de las correlaciones en tre las vari ables independientcs y
del termino de error del modelo. Por 10 tanto, estas correlaciones afectan tanto a los intcrval os de confianza como a los con trastes de hi p6tesis. Antes hemos visto que las cOITcla_
ciones entre las vari ables indepcndien tes in fluyen en los estimadores de los coeficiemes.
Eslas correJaciones entre variables independi enles tambien aumentan la vari anza de los estimadores de los coeficienles. Una imporlame concl usi6n es que la varianza de los estimadores de los coeficientes, ademas de los estimadores de los coeficientes. depende de todo
el co njunlo de variables independ ientes del modelo de regresi6n.
El aml li sis anterior de los gn'ifi cos tridimens iona les hacia hin capie en los complejos
efeclos que producen varias variab les en la varianza de los coeficienles. A medida que Son
estrechas las relaciones entre las vari ables indcpendicntes, las cstimaciones de los coeficientes son mas inestnbles, es decir, tienen una vuri anza mayor. A continuac ion, presentamos un amilisis mas formal de estas complcjidades. Para oblcner buenas estimaciones de
los coeficientes --eslimaciones que tengan una baja varianza- debemos buscar un umplio
rango para las variables indepcndie nles, elegir vari"bJes independ ientes que no esten eSlrcc h a m~nte rclacionadas entre sf y buscar un modele que este cerca de lodos los puntos de
datos. En la pn'ictica, cuando se rea li zan estud ios estadfslicos aplicados en cI mundo de la
empresa y la economfa. a menudo hay que utilizar datos que di stan de se r idca les. como
los de l ej emplo de Jas asociaciones de ahorro y eredilo inmobili ario. Pero conociendo los
efectos aqu f an alizudos. podcmos con tal" con elementos para detcnninar en que medida son
apli cables nuestros mode los.
Para comprender algo el efeclo de las correlaciones de variables independientes, e)(<1minamos los estimadores de las vari anzas a partir del modelo de regresi6n multiple estimado con dos variables de predicc i6n:
Los estimadores de las vari anzas de los coeficientes son
s;, = (/I -
s'
(13.16)
e
I )s~/I
(13.17)
y las rafces cuadradas de estos estimadorcs de las varian zas,
Sb ,
Y Sb 2, se denominan errores
'(picos de los coejiciellfes.
La varianza de los est imadores de los coeficientes aumenta direClamente con la di slancia a Ia que se encuentran los puntos de la Ifneu, medida por
la varianza de los en'orcs
eSlim udos. Ademfis. una dispersi6n mayor de los valores de las variables independientes
- Illcdida por s;, 0 por s.~!- reduce la varianza de los cocfic ientes. Recuerdese que eSlOS
resultados tamb ie n se aplican a los estimadores de los coeficicntes de regres i6n simple.
Talllb ien vemos que la varianza de los estimadores de los coeficientes aumenta con los
aumentos de la correluci6n entre Ins variables indepcndientes de l modelo. A medida que
aumenla la correlaci6n entre dos vari ables independientes, es mas diffei! separar el efeclo
de cada una de las variables para predeci r las variables dependientes. Cuando aumenta cl
s;,
Capitulo 13.
Aegresion multiple
51 3
numero de. variables indcpendi enles en un mode lo, las influeneias en la varian za de los
eoefieientcs eontinuan siendo importantes, pero la estruet ura al gebraiea se vuelve muy
eomplcja y no se presenta aqul. EI efeeto de las corre laciones haee que los esti madorcs de
las varianzas de los coeficientes dependan de las demas variables inclepenciienles del mode lo. Recuerdese que los estimadores efectivos de los coeficientes lambien depende n de las
demas variables inclependientes del modelo, una vez mas debido al efecto de las correlaciones entre las variables independi entes.
A continuaei6n, resumimos la base para la inrerencia de los coeficientes de la regresion
poblaciona1. Normal mentc, nos interesan mas los coeficientes de regresi 6n f3j que la constante u ordenada en cI origen f3o. Por 10 tanto, centraremos la atencion en los primcros, sciialando que la inferencia sobre la segunda se reali za de una mancra parcc ida.
Base para la inferencia de los parametros
de la regresion poblacional
Sea el modelo de regresi6n poblacional
Sean b o' b 1 , .. • , b K las estimaciones par minimos cuadrados de los parametros poblacionales y
s/:()' so,' ..., Sb las desviaciones tfpicas estimadas de los estimadores por minimos cuadrados.
Entonces, si
cumplen los supuestos habituales de la regresi6n y si los terminos de error, 1: 1,
siguen una distribucion normal,
te
(13.18)
se distribuye como una distribuci6n t de Student con (n - K ~ 1) grados de libertad.
Intervalos de confianza
Pueden obtenerse intervalos de confianza de los
Pj utilizando
la ecuaci6n 13. 19.
Intervalos de confianza de los coeficientes de regresion
Si los errores de la regresi6n poblacional, £;1' siguen una distribucion normal y se cumplen los
supuestos habituales de la reg resion , los intervalos de confianza bilaterales al 100(1 - (1:)% de
los coeficientes de regresi6n, Pi' son
(13.19)
donde t,, _ K_ 1.<>12 es el numero para el que
P(t,, -K- I
>
t,, - K -1.a/2) =
2""
y la variable aleatoria t,, _K_l sigue una distribuci6n t de Student con (n - K - 1) grados de libertad.
514
Estadistica para administraci6n y economia
EJEMPLO
13.4. Desarrollo del modelo de las asociaciones de ahorro
y credito inmobiliario (estimaclon de intervalos
de confianza)
Se nos ha pedido que culculemos intcrva los de confianza de los cocfi cientes del mOdelo
de regres i6n de las asociac iones de ahorro y credilO inmobi li ario presenlado en e1 ejem.
plo 13.3.
Soluci6n
La Figura 13.8 nluestra la sal ida Minitab del am'ilisis de regres i6n correspondiente al
modelo de regresi6n de las asociaciones de ahOJTO y credito inmobi li ario. Los est imado.
Regression Analvsi s: V profit versus X1 revenue, X2 offices
The regression equation is
Y profit = 1.56 + 0 . 237 Xl revenu e - 0 . 000249 X2 offices
Predictor
S " 0.0533022
1.
. 000
.000
R-Sq
Analysis of vari ance
Sou r ce
DF
Regression
2
22
Residual Error
Total
24
Source
Xl r evenue
X2 o f fices
'b,
tb,
Coef
Constant
Xl revenue
X2 offices
b,
OF
1
1
86.5'
R-
SS
0 .4 0151
0 . 06250
0 . 46402
tb,
.) "
MS
0 . 20076
0 . 00284
F
70 . 66
0 . 000
Seq SS
0 . 22990
0 . 17161
(,)
."
(b)
Figura 13.8. Regresi6n de problema de las asociaciones de ahorro y credito inmobiliario
(salidas Minitab y Excel).
Capitulo 13.
Regresi6n multiple
515
res de los coefic ientes y sus desviacio nes tfpicas cOITes pondientes a las variables de prediccion de los ingresos, hi' y el numero de oficinas, b 2• son
b,
~
0,2372
s'" ~ 0,05556;
b,
~
Sb, ~
- 0,000249
0,00003205
Vemos, pue s, que la desv iac i6n tfpica de la di slribuci6n en el muestreo del estimador
por minimos cuadrados de [11 se estima en 0,05556 y la de [J2 se eslima en 0,00003205.
Para obtener intervalos de confi anza a1 99 por ciento de [1 I Y [12' utilizamos el valor
t de Student de la Tabla 8 del apendi ce.
'II - K - J. r.r:!2
= (22.0.005 = 2,8 19
Basandonos en estos resultados, observamos que e1 intervalo de confianza al 99 por
ciento de [J I es
0,237 - (2,8 19)(0,05556) <
p,
< 0,237 + (2,819)(0,05556)
0,080 <
p,
< 0,394
o sea,
Por 10 tanto, el interva lo de cOllfianza al 99 par ciento del aumento esperado del margen
de beneficios de las asociaciones de ahorro y cn':dito inmobili ario provocado pOl' un
aumento de los ingresos nelos de I unidad, dado un numero rljo de otic inas , va de
0,080 a 0,394. El intervalo de confiunza al 99 por cienlO de [12 es
- 0,000249 - (2 ,8 19)(0,0000320) < {3, - 0,000249
+ (2,819)(0,0000320)
o sea
- 0,000339 <
fl, < -
0,000 159
Vemos , pues, que el intervalo de co nfianza al 99 por ciellto de la disminuci6n espcrada
del margen de beneficios provocada par un aumenlo de 1.000 oricinas, dado un ni vel
fijo de ingresos netas, va de 0, 159 a 0,339.
Contrastes de hip6tesis
Pueden desarrollarsc contrastes de hipolesis de los coeficientes de regrcsi6n utili zando las
estimaciones de las varianzas de los coefic ientes. Especialmcntc intcrcsante es e l contraste
de hipotcsis
que se utili za frecuentemente para averiguar si una variable independi ente especffica es
importante en un modelo de regresi6n mUltiple.
Contrastes de hip6tesis de los coeficientes de regresi6n
Si 105 errores de la regresi6n, [;i' siguen una distribuci6n normal y se cumplen los supuestos
habituales del analisis de regresi6n, los siguientes contrastes de hip6tesis tienen el nivel de
significaci6n IX:
1.
Para contrastar cualquiera de las dos hip6tesis nulas
516
Estadfstica para administraci6n y economia
frente a la hip6tesis alternativa
la regia de decisi6n es
Rechazar Ho si
2.
(13.20)
Para contrastar cualquiera de las dos hip6tesis nutas
Ho: Pj =
P*
0
frente a la hip6tesis alternativa
H ,:
Pj < P*
la regia de decision es
Rechazar Ho si
3.
(13.21 )
Para contrastar la hipotesis nula
flo : lij =
/i*
frente a la hip6tesis alternativa bilateral
H , :Pj #
fI*
la regia de decision es
Rechazar Ho si
"'"
o
(13.22)
Muchos analistas sostiencn que si no podemos rechazar la hip6tesis condicionada de
INTlRPRHACION que cI coeficiente es 0, debemos concluir que la variable no debe inclu irse en el modelo de
regresi6n. EI estadfstico f de Student de esle con traste normal mente se ca lcula en la mayorfa de los programas de regresi6n y se indica al lado de la eSlimaci6n de la varianza de los
coeficientes: ademas, normahnenle se induye el p-valor del contrasle de hip6tcs is. Estos se
muestran en la salida Minirab de la Figu ra 13.8(a). Utili zando el estadfstico t de Student
indicado 0 e l p-valor, podemos saber inmediatamcnte si una variable de pred icc i6n es significativa, dadas las dcmas variables del mode lo de regresi6n.
Exislen ciaramenle olros mclodos para decidir si una variable independiente debe inc1uirse en un modele de regresi6n. Vemos que el metodo de selecci6n anlerior no liene en
cuenta e l error de Tipo II: el coeficiente poblacionai no es igual a 0, pero no rechazamos la
hip6tesis nu la de que es igual a 0. ESle es un prob lema importanle cuando un modelo basado en la leoria eeon6mica 0 en otra teoria y cspccificado con cuidado incluye eierlas va riables indepe ndi enles. En esc caso, debido a un gran error, c, y/o a las correlaciones en tre
variables independientes, no podemos rechazar la hi p6lcsis de que e l coeficiente es O. En
este caso, muchos analistas incluiran la variable independ icnte en el modelo porque creen
que debe primar la especificaci6n original del modelo basada en la leoria 0 la experiencia
Capitulo 13.
Regresi6n multiple
517
econ6m icas. Se trata de una cuesti6n diffcil que exige haecr una buena valoracio n basandose tanto en los resultados cstadisticos como en la tcoria economica sobre la relacion subyacente analizada.
EJEMPLO
13,5, Desarrollo del modele de las asociaciones de ahorro
y cn3dito inmobiliario (contrastes de hipotesis
de coeficientesj
Se nos ha pedido que averiguemos si los coeficielltes del modele de regres i6n de las
asociaciones de ahorro y eredito inmobi li ario son predictores significativos de los beneficios .
Solucion
En el contraste de hipotesis para esta cuesti6n uti lizaremos los resul tados de la regrcsi6n real izada con el programa Minitab moslrados en la Figura 13.8(a). En plimer lugar,
queremos averigllar si los ingresos (Olales aumentan significativamente los beneficios
dado el efecto del numero de oficinas, es decir, descontando la infillencia de este. La
hipotesis nula es
frente a la hip6tesis alternativa
H,:[J, >0
EI contraste puede reaJizarse ca lculando el estadfstico
dado Ho:
0,237 - 0
--'cc,..,-,-"..,-
0,05556
1
de Student del coeficiente,
= 4 27
'
En la Tabla 8 de la t de Student del apendice podemos ver que el valor crftieo del estadfstico t de Student es
t 22• 0.OO5 =
2,819
La Figura 13.8(a) tam bien indica que el p-valor del contraste de hip6tesis es inferior a
0,005. Basandonos en esta ev idencia, rechazamos Ho Y aceptamos HI y conclui mos que
los ingresos totales son un predictor estad fsticamente sign ificativo del aumento de los
beneficios de las asoc iac iones de ahorro y credito inmobiliario, dado que hemos ten ido
en cuenta el efecto del numero de oficinas.
Tambien podemos averiguar si cl numero total de oficinas reduce significativamente
los margenes de beneficios. La hip6tes is nula es
Ho: Ii, = 0
fre nte a la hip6tesis alternativa
H, : Ii, < 0
518
Estadistica para adminislraci6n y economia
EI contruste puede reali zarse calculando e l estadfst ico t de Student del coe fici cnte,
dudo Ho:
- 0,000249 = - 7,77
0,0000320
°
En la Tabl a 8 del apendice podemos ver que el valor crftico del estadfstico 1 de Student
es
122.0.005 = 2,8 19
La Figura 13.8(a) lambi en indi ca que el p-valor del contraste de hip6resis es in fe rior a
0,005. Basandol1os en esto evidencia, rechazamos Ho Y uccptumos H I y concluimos que
el numero de ofic inas es un pred ictor estadfst ieamente significativo de la reducc i6 n de
los beneficios de las asociaciones de ahorro y ered ilo inmobil iario, dado que hemos tenido en CLienta el efeelo de los ingresos tolales.
Es importanle hacer hineapie en que los dos contrates de hip6tes is se basan en el
conjunlo de vari ables incluidas en el mode lo de regresi6n. Por ejempl o, si se incluyeran
mas variab les de predicci6n, estos conlrastes ya no serfan v~lidos. Con mas variables en
el model o, las esti maciones de los coeficientes y sus desv iaciones tfpicas estimadas serfan diferenles y, pOI' 10 lanto, tambien 10 serfa el estad fsl ico t de Student.
Observcse que en la sa lida Minilab del amllisis de regresi6n mostrada en la Figura
13.8(a). el eSLadfstico t de Student de la hip6tesis nula -Ho: fJj = 0- es eI cotiente entre el coe fi ciente eSlimado y e1 error tfpi co de l coeficiel1le estimado. que se encuentra
en las dos col umnas si Luadas a la izquierda de l estHdistico r de Student. Tambien se
muestra la probabi lidad 0 p-valor de l contrasle de hip6tesis de dos colas: H/ Pj -::j::. 0. Por
10 tunto. c ualquier analista puede realizar estos contrastes de hip6tesis directamente examinando la salida del aml li sis de regresion multiple. El estadistico t de Student y el pvalor se ca lculan en todos los paquetes eSLadfsticos modernos. La mayorfa de los anal istas buscan estos resultados habitualmen te cliando examinan la salida del analisis de regresi6n de un progrHma estadfstico.
EJEMPLO
13,6. faclores que afeclan al Ii po del impueslo sobre bienes
inmuebles (amilisis de los coeficienles de regresi6n)
Un ayunta mi ento encarg6 un estudi o para averiguar los ractores que influyen en los im puestos urbanos sobre los bicnes inmuebles de las ciudades de 100.000-200.000 habi tHntes.
Solucion
Uti lizando una muestra de 20 ciudades de Estados Un idos, se est im6 el siguiente mode10 de regresi6 n:
y=
1,79
+ Q,000567x, + 0,0 183x2 (0.000 139)
R2= 0,7 1
(0.0082)
0,OOO 191x,
(0.000446)
11 = 20
donde
y = lipo efecti vo del impuesto de bienes inmuebles (impuestos efectivos di vid idos
XI
pOl' el valor de mercado de la base imposiriva)
= numero de viviendas por kil6 metro cuadrado
Capitulo 13. Aegresi6n multiple
X2
x)
519
porccntajc de los ingresos lTIunici pales lotales represcnlado por las ayudas procedentcs de las adm inistraciones de los estados y de In adrninistraci6n federal
= renta personal per capita mediana en d61ares
=
Los numeros entre purentesis que se encuentran debajo de los coeficienles son los errores lfpicos de los coeficientes eslimados.
La presenlacion anterior constituye un buen fonnato para mostrar los resultados de
un modelo de regresi6n. Los resultados indican que las estimaciones cond icionadas de
los efeclOs de las tres vmi ables de predicci6n son las sigui entes:
1.
2.
3.
Un 3l1mento de una vivienda pOl' kilometro cuadrado eleva el tipo erectivo del
impueslo sobre bienes inmuebl es en 0,000567. Observese que los tipos del impuesto sobre bienes inmuebles l10rmalmente se expl'esan en d61ares pOl' cada
1.000 $ de valor catastral de la propiedad. Asf, un aumento de 0,000567 ind ica
que los tipos del impuesto sobre bienes inmuebles son 0,567 $ mas altos por
1.000 $ de valor catastral de la propiedad.
Un aumento de los ingresos municipales totales de un 1 par dento procedenle
de las ayudas de las administraciolles de los estados y de la administraci6n federal eleva el tipo impositi vo erectivo en 0,0 183.
Un aumen lO de la renta personal per capita mediana de 1 $ provoca una dismi!luci6n esperada del tipo impositivo efectivo de 0,000 191.
Hacemos de nuevo hincapie en que estas estimaciones de los coeficientes 5610 son validas en un mode lo que incluya las tres variables de predicci6n an leriores.
Para comprender mejor la eXDclilud de eSlOs efectos, constnliremos intervalos de
confianza al 95 por dento condicionados. En el modelo de regres i6n estimado, el error
tiene (20 - 3 - I) = 16 grados de libertad. Por 10 tanto, el estadistico I de Student para
calcular los intervalos de con l'i anza es, como se observa en el apendice, t I6. 0 .0 2.'i = 2,12.
EI fonnato del interva lo de confia nza es
bj
-
tn -
K-
!'~b)
<
fij
< bj + f/l -K-I.rs.r-sbJ
Por 10 tanto, el coeficiente del numero de viviendas por kil6metro cuadrado tiene un
intervalo de confianza al 95 por ciento de
0,000567 - (2,12)(0,000139) <
0,000272 <
p, < 0,000567 + (2, 12)(0,000139)
II, < 0,000862
EI coefi cienle del porcelltaje de ingresos representados pOI' las ayudas tiene un intervalo
de confianza al 95 por cienlo de
0,0 183 - (2,12)(0,0082) <
0,0009 <
II, < 0,0183 + (2, 12)(0,0082)
#, < 0,0357
Par ultimo, el coefi ciente de la renla personal per capita mediana {iene un intervala de
confianza al 95 par dento de
- 0,000 19 1 - (2, 12)(0,000446) <
- 0,0011 37 <
Ii, < - 0,000 19 1 + (2, 12)(0,000446)
p, < 0,000755
Una vez m6s hacernos hincapie en que estos intervalos dependen de que se incluyan las
tres variables de predicci6n en el modelo.
520
Esladislica para administraci6n y economfa
Vemos que el illlervalo de confi anza 31 95 por cienlo de fi3 incluye 0 y, por 10 tanto,
podriamos no rechazar la hip61esis de dos colas de que este coeficiente es O. Bas{mdo_
nos en eSle intervalo de confian za. conc1 uimos que X) no es una variabl e de predicc i6n
estadisticamente signiricaliva en el modelo de regresi6n mult iple. Sin embargo. los
intervalos de confianza de las otras dos variables no incluyen 0 y, por 10 tanto, conc lui mos que eslas son estadfslicarnen te signifi cat ivas.
EJEMPLO
13.7. Efeclos de los faclores fiscales en los precios
de la vivienda (estimaclon de los coeficienles del modelo
de regresi6n)
Citydat
Northern Ci ty (Minnesota) tenfa interes en saber c6mo afec laba la promoci6n inmob iliaria local al precio de mercado de las viviendas de la ci lldad. Northern City es una de las
numerosas ciudadcs no metropolitanas pequenas del Med io Oeste de Estados Unidos
cuya pobl aci6n osc il a entre 6.000 y 40.000 habitantes. Uno de los objeti vos era averiguar c6mo in fluiria un aumento de la canlidad de locales comerciales en e l valor de las
viviendas locales. Los dalos se encuenl ran en e l fi chero de dalos Citydat.
Solucion
Para res ponder a esta pregunta. se recog ieron datos de algunas ci udades y se utilizaron
para construi r un modelo de regresi6n que est ima el efecio de vari:lb les cl ave en e l pre·
cio de 13 vivienda. Para este estudio se obtu vieron las siguienles variables de cada ciudnd :
Y (hseva l) = precio medio de mercado de las viviendas de 13 ci udad
XI (s izchse) = numero med io de habitaciones de las vivielldas
X2 (i ncom72)
=
rcnta med ia de los hogares
Xl (tax rate) = tipo imposilivo por mil d61ares de valor catastra l de las viviendas
X4 (comper) = porcenlaje de propiedades inmobili arias imponi bles que son comer-
ciales
La Figura 13.9 mllcslra los resultados de la regrcsi6n multi ple, obtcn idos por medio de l
programa Mini tab. EI coeficiente del numero medio de habitaciones de las viviendas es
7,878 y 1a desviaci6n Ifp ica del coeficiente es 1,809. En esle estudio, los valores de las
viviendas se expresan en unidades de 1.000 $ Y la media de todas las ciudadcs es de
2 1.000 $. As!, por ejempio, si e l numero med io de habitaciones de las viv iendas de una
c iuclad es mayor en 1,0, el precio medio es mayor e n 7.878 $. EI estadfs lico I de Student
resu ltante es 4,35 y el p-va lor es 0,000. Par 10 Ianto, se rechaza la hip61es is condicionada de que este cocficiente es igllal a 0. Se obliene eI mi sl110 result ado en e l caSD de las
variables de la renla y del tipo im pos il ivo. Ln variable «inco m72» esta ex presada en
unidades de d61ares y, POI' 10 tanIO, si In renla media de una ciudad es mayor en 1.000 $,
el coefi ciente de 0,003666 indica que el prec io medi o de la vivienda es 3.666 $ mayor.
Si e l tipo im posilivo aumcnta un I por ciento, el precio medio de la vivienda se reduce
en 1.720 $. Vemos que el a n ~ li sis de regres i6n Beva a la concl usion de que cada lI na de
estas tres variables es un importante predictor del precio medio de la vivienda de las
ciudades inclu idas en eSle estudio. Sin embargo, vemos que el coeficienle del porcenLaje de loca les comerci ales , «comper», es - 10,6 14 y la desviaci6n (ipica del coefi ciente
es 6,49 1, 10 que da un estadfstico t de Student igual a - 1,64. Observese que esle resul lado permitc establecer una importante concl ll si6n. EI cocfi ciente tendria un p-valor de
Capitulo 13.
Regresi6n multiple
521
Regression Analysis: hseval versus sizehse, income72, taxrate, Comper
The regression equation is
hseval = -28 1 + 7.88 sizehse + 0.000367 incom72 - 172 taxrate -10.6 Comper
Predictor
Constant
Sizehse
incom72
taxrate
Comper
S
.
Coef
-28.075
7.878
0.003666
-171.80
-10.614
3 . 67686
SE Coef
9.766
1.809
0.001344
43.09
6 .4 91
R-Sq " 47.4%
T
p
-2.87
4.35
2 . 73
-3 . 99
-1 . 64
0.005
0 . 000
0 . 008
0.000
0.106
R-SQ(adj)
~
45.0%
Analysis of variance
Source
Regression
Residual Error
Total
OF
4
85
89
5S
1037.49
11 49 . 14
2186 . 63
M5
F
P
259.37
13 . 52
19.19
0.000
Figura 13.9. Modelo de regresi6n del precio de la vivienda (salida Minitab).
una cola de 0,053 0 un p-valor de dos colas de 0,106. Por 10 tanto, parece que reduce
algo el prec io medio de las viviendas. Dado que se han incluido los efectos del tamano
de las viv iendas, la renta y el tipo im pos itivQ en el precio de mercado de las viviendas,
vemos que el porcentaj e de loca les comerciales no eleva los predos de la vivienda. POI'
10 tanto. este analis is no apoya el argumento de que el valor de mercado de las vivi endas au mentanl si se construyen mas locales comerciales. Esa conclus i6n s610 es ciel1a
en un modelo que incluya estas cuatro variables de predicc i6n. Observese tambien que
los valores de R 2 = 47,4 por ciento y Sr (error tfpico de In regresi6n) = 3,677 estan inc1uidos en la salida del anulis is de regresi6n.
Los defensores de Ull aumento de In promoci6n de locales comerc iales tambien 505tenlan que cI aumento de la canlidad de locales comerciales reducirfa los impuestos pagados por lus viviendas oc upadas POI' sus propietarios. Esta tesis se contrast6 utilizando
los resultados de la regresi6n de la Fi gura 13.10 obtenidos con el program a Excel. Se
indican los estimadores de los coeficientes y sus errores tfpicos. Los estadfst icos 1 de
Student de los coe li cientes del tamano de la vivienda y el tipo impositivo son 2,65 y
6,36, 10 cual indica que estas variables son importantes predictores. EI estadfsti co r de
Student de la rcnta es 1,83 con un p·valor de 0,07 para un contraste de dos colas. POl' 10
tanto, la renla tiene alguna influencia como predictor, perc su efecto no es tan fuerte
como el de las dos vari abl es anteriores. Vemos de nuevo que hay margen para extraer
conclusiones s6l idas. La hip6tesis condic ionada de que un au mento de los locales co·
merciales reduce los impuestos sobre las viv iendas ocupadas por sus propietarios puede
contrastarse utili zando el estadfsti co t de Student de la vari ~lble «com per» en los resultados de la regresi6n. E1 estadfstico I de Student es - 1,03 con un p-valor de 0,308. POl' 10
tanto, la hip6tesis de que un aumento de los locales comerciales no reduce los impuestos sobre la vivienda no puede rechazarse. No existen pmebas en eSle ana li sis de que
los impuestos sobre las viviendas disminuirian si se conslruyeran mas locales comerciales.
Basandose en los ana lisis de regres i6n real izados en este estudio, los consultores lIegarotl a la conclu si6n de que no ex istfan pruebas de que un allmen to de los locales comerciales elevaria el valor de mercado de las viviendas 0 reducirfa los impuestos sabre
bienes inl1lllebles de las viviendas.
522
Estadistica para administraci6n y economia
---
~
-----
-
Mkr-osoft Excel· CITYDAT
l[) EOe
~dit
I[JIe'N
loser!
F~mat
10015
Q.~ t~
:tiindo'N
t!elo
D~!iI d :. ~ ~
ora. " . ~I @J (1) ~ "'"
~1
...
SUMMARY OUTPUT
. 10
.OI U
I
Coeficiente multiple
de determinaci6n R2
SCR
SCE
STC
Estadisticos t
Errores tipicos de Student
de los coe ficientes
Coeficientes
bo, b 1 , ~, ~, b.
Figura 13.10. Modelo de regresi6n de los impuestos sabre las viviendas (salida Excel).
EJERCICIOS
Ejercicios basicos
13.23. Los resu ltados del and Usis de un modelo de rcgresi6n son los siguientes:
y=
1,50
+ 4 ,8x 1 + 6,9x2 (3.1)
(2, 1)
R2 = 0,71
II
=
7,2x)
(2,8)
24
Los numeros entre parentesis situados debajo de
las cstimaciones de los coeficientes son los
errores tfpicos muestrales de las estimaciones
de los coefici entes.
u) CaJcu lc intervalos de confianza al 95 par
ciento bilaterales de los tres coeficientes de
In pendiente de regrcsi6n.
b) Contrastc pam cada uno de los coeficientes
de la pcndientc las hip61esis
Ho :
Pj =
0
frente a
13.24. Los resultados del am'il isis de un modelo de rcgresi6n son los siguicntes:
;; = 2.50
+ 6,8x 1 + 6,9x2 - 7,2x)
(3.1)
R2 = 0.85
II
(3.7)
(3.2)
= 34
Los numeros entre parentesis siluados debajo de
las estimaciones de los coeficientes son los
crrores tfpicos muestrales de las estim:lciones
de los eoefi cientcs.
Capitulo 13.
a) Calcule imcrvalos de confianza al 95 por
denlo bilaterales de los Ires coefieientes de
la pendienle de regresi6n.
b) Conlrasle para cada uno de los coeficienles
de la pendiente las hip6tesis
frente a
H I : Ili >
°
13.25. Los resultados del anal isis de lin modelo de regresi6n son los siguientes:
y=
- 101 ,50
+ 34,8x, + 56,9x2 (12.1)
R2 = 0,71
(23.7)
57,b:3
(3 2.S)
65
II =
Los numeros entre parentesis situados debajo de
las estimaciones de los coeficientes son los
en-ores I{picos mueslrales de las estimaciones
de los coeficientes.
a) Calculc intcrvalos dc confianza al 95 por
ciento bilaterales de los Ires cocficientes de
la pendiente de regresi6n.
b) Contraste para eada uno de los coefieientes
de la pendiente las hip6tesi s
frentc a
Hj
:
y=
- 9,50
+ 17,8x + 26,9x2 - 9,21:3
j
(7.1 )
/I
(13 .7)
n.8)
= 39
Los numeros entre parentesis situados debajo de
las estimaciones de los coeficientes son los
errores tfpicos muestrales de las estimaciones
de los coefidcntes.
a) Calcule intervalos de eonfianza al 95 por
cicnto bilatcralcs de los tres coeficientes de
la pendiente de rcgresi6n.
b) Contraste para cada uno de los coeficientes
de la pendiente las hip6tesis
flo:{Jj = 0
frente a
HJ :/1) > 0
Ejercicios aplicados
13.27. En cI estudio del ejercicio 13.6, los errorcs tfpicos estimados eran
S;"
= 0,099
S;"
= 0,032
a) Hall e intervalos de eonfianza al 90 y el 95
por demo de fJ I'
b) Halle intervalos de confianza al 95 y el 99
par eiemo de #2'
523
c) Contraste la hip6tesis nub de que, man leniendose todo 10 demas constanle, el peso
del avi6n no liene una intluencia lineal en su
esfuerw de diseiio frente a la h ip6tesis alter·
nativa bilateral.
d) La suma de los cuadrados de los en-ores de
cSla rcgresi6n era 0.332. Utilizando los mismos datos, se aj usl6 una regresi6n lincal
simple del esfuerzo de diseno can respecto
al nlimero poreemual de piezas cornunes, 10
que dio una suma de los cuadrados de los
errores de 3.311. Contraste al nivel del I par
ciento la hip6tesis mila de que la velocidad
maxima y el peso, considerados conjunta·
mente, no contribuyen nada en un senti do li neal a la explicaci6n del esfuerz.o de diseno,
dado quc cl numero porcentual de pi czas comimes tambicn se util iza como variable explieativa.
l3.28. En cI estudio del ejercicio 13.8, en cl que la regresi6n mueslral se basaba en 30 observaciones,
los errores tfpicos eSli mados eran
fJj > 0
13.26. Los resultados del amilisis de un modelo de regresi6n son los siguientes:
Regresi6n multiple
S", =
0,023
a) Comraste la hip6lesis nul a de que, dado el
tamano de la familia, el consumo de leche
no depende lineal mente de la rema frenle a
la hip6tesis a.lternativa unilateral adecuada.
b) Halle intervalos de eonfianza del 90, el 95 y
el 99 por ciento de f32'
13.29. En el estudio de los ejercicios 13.9 y 13.21, en
los que la regresi6n muestral se basaba en 25
observaciones, los errores t[picos estimados
eran
Sb, =
0,189
Sb, =
0,565
a) Contraste la hip6tesis nula de que, manteniendose 10£10 10 dem.is conslanle, las horas
de ejercicio no illtluyen lineal mente en el
flumento de peso frente a la hip6tesis allernativa unilateral adecuada.
b) Conlrasle la hip6tesis nula de que, rnanteniendose todo 10 demas eonstante, el eonsu·
rna de cerveza no in nuye lineal mente en el
aumento de peso frente a la hip61esis alter·
nativa unilateral adecuada.
c) Halle intervalos dc confianza del 90, el 95 y
el 99 por ciento de fJI'
13.30. Vuelva a los datos del ejemplo 13.6.
a) Contraste la hip6tesis nula de que, manteniendose todo 10 dernas constante, la ren ta
524
Estadislica para adminislraci6n y economia
personal per capita mediana no InOuye en el
ripo efcclivo del impuesto sobre bienes inmuebJes frente a una hipotesis alternativa bilateral.
h) Conlraste la hip61esis nula de que las tres
variables independicntes, consideradas con juntamente, no influyen linealmenle en d tipo erectivo del Impuesto sobre bienes 111muebles.
13.31. , ~ Vue!va a los datos del ejemplo 13.7 que se
eneuentran en el fichero de datos Citydat.
a) Halle inrervalos de confianza al 95 y al 99
por cienlo de la variaci6n esperada del prccia de mercado de las viviendas provocada
par un aumcnlo del numero medio de habitaeiones de I unidad cuando no varIan los
valores de todas las demas variables independientes.
b) Contraste [a hip6tesis nula de que, manteniendose todo 10 demas constanle, 141 renla
media de [as hogares no influye en el precio
de mereado frente a la hip6tesis ahernativa
de que cuanto mayor es la renta media de [os
hogares, milS alto es el precio de mercado.
13.32. En Ull estudio de los ingresos gencrados pOl' las
loterfas naciona[es, se ajust6 la siguiente ecuaci6n de regrcsi6n de 29 parses que tienen lorcrfas:
y=- 31 ,323 + O,04045xI + 0,8772r2 (0.00755)
(0.3t07)
365,Olx3 - 9,929Kr4
(263.88)
(3.4520)
R2 = 0,51
donde
y = d61ares de ingresos anua[es netos per capita generados por la [olerfa
XI = renta personal media per C<'ipita del pars
X2 = numero de hOleles: motcles, hosta[es y aJbergues pOl' mil habitantcs del pars
x ) = ingresos anua[es gastables per capita generados por las apuestas, las carreras y otros
juegos de azar legaJizados
X4 = porcentaje de la fronte ra nacional que limita con un pars 0 parses que licnen una
loterfa
Los numeros entre parenlesis situados debajo de
los coeficientes son los en'orcs t[picos de los
coeficicntes estimados.
a) Inlcrprete el coefieiente estimado de Xl'
b) Halle e interprete eJ intervalo de con fi anza
al 95 por ciento del coeficienle de x2 en [a
regresi6n poblacional.
c) Contraste la hipolcsis nula de que el cocficiente de x) en la regresi6n pobJaeiona[ es ()
frente a la hip6tesis alternativa de que eSlc
cocficicnte cs ncgativo. Interprete sus resu[ _
tados.
13.33. Se realiz6 un estudio para averiguar si podfan
ulilizarse algunas caracterfsticas para explic:n la
variabil idad de los preeios de los homos. Se csrim6 para una muestra de 19 homos la siguienlc
regresi6n:
.y =
- 68,236
+ 0,0023xl + 19,729x2 + 7,653Xl
(0.005)
(8.992)
(3.082) .
R2 = 0.84
donde
y = prec io en d61ares
x I = porencia del homo en BTU pOl' hora
Xl = cocficicntc de eficienc ia energetica
X3 = numero de posic iones
Los numeros entre parentesis situados debajo de
los coeficientes son los errores tfpicos de los
cocfieientcs estimados.
a) Halle el intervalo de confianza al 95 por
cien lo de 141 subida esperada del preeio resultante de un aurnento de [as posiciones
cllando los valores de la polencia y el fndice
de eficiencia energetica se mantienen fijos.
b) Contraste 13 hip6tesis nula de que, mall1enicndosc todo 10 demas cOnstante, el fndice
de eficiencia energetica de [os homos no
afecta a su precio frente a la hip61esis alternativa de que cuanto mas a[lo es e[ rndiee de
eficiencia energetica, mas alto cs cl precio.
13.34. En un estudio de [a demanda nigeriana de importac iones se ajust6 el siguiente mode[o a 19
ariaS de datos:
y= -
58,9+0,20x l - O,IOx2
(0.0092)
if2 = 0,96
(0.084)
donde
y = cantidad de importaciones
XI = gastos »crsonales de con sumo
x 2 = preclo
de las importaciones -:- precios
intcriorcs
Los numeros entre parentesis situados debajo de
los coeficientes son Jos errores t(picos de los
coeficientes estimados.
a) Halle el intervalo de con fi anza a[ 95 por
dento de fJ l'
b) Contrastc la hipotcsis nula de que liz = 0
frente a la hip6tesis a[tcrnaliva un ilateral
adecuada.
Capitulo 13.
13.35. En un estud io de las tenenc ias extranjeras en
bancos bril{micos., se o btu vo la siguientc rcgrc~
si6n muestral, basada en 14 obscrvaciones
an ualcs
y=
-
3,248
+ 0, 10 l xI
(0,0023)
- O,244x2 + 0,057x3
(0,080)
R2 = 0,93
Xl =
x3 =
y = - 0.00232 - 0 ,00024xl - Q,00002x2
(0,00010)
+ 0,48 122x4 + 0,04950x5 (0.77954)
ii'
y = proporci6n de ac ti v QS a final del ano en filiales de bancos bri tani cos en manos de
eXlranjcros en po rcentaj c de los activos 10tales
X I = variaci6 n anual , en miles de milloncs de
libras, de la invers i6n cxtranjcra directa en
Gran Bretafia (excluidos finan zas, seguros
y bienes inmuebl es)
relaci6n precio-benefi cios de los bancos
fndi ce del valor de cambia de In libra
Los ml mcros entre parentesis s ituados de bajo de
los coefi cientes son los erfores tfpicas de los
coeficientes cstimados .
a) Halle el intervalo de conllanza al 90 por
ciento de /31 e interprele su resultado.
b) Contraste la hipotesis nula de que fh cs 0
frente a la hip6tesis alternati va de que es negati vo e interprete su resultado.
c) Contraste la hip6tesis nula de que /33 es
frente a la hip6tcsis alternativa de que es posil ivo e interprete s u resultado.
°
13.36. En un estudio de las diferencias enlre los ni veles de demanda de bomberos par parte de las
ciudades, se obtuvo la siguienle rcgrcsi6n mues-
525
Iral , basada en datos de 39 eiudades de Mnryland:
(0.00925 )
donde
Regresi6n multiple
(0,0 11 72)
(0,0000 18)
0,000 1Q."(6
(0.00005)
+ 0,00034x,
(0,0001 2)-
+ 0,00645x7
(0.00306)
~ 0.3572
donde
y = nLI1TIero de bomberos a tie mpo eompleto
per c{ipila
X I = salario base maximo de los bamberos en
miles de dol ares
X 2 = porcentaje de pablaci6n
xJ = renta per capita estimada cn miles de d61ares
X4 = densidad de poblaci6n
X5 = can lidad de ayudas intergubernamencales
per capita en miles de d61ares
X6 = numero de kil6melros de di slancia hasta la
capital de la region
x 7 = parcentaje de la poblaci6n que son varones
y lienen entre 12 y 2 1 aila:>
Los n(imcros entre parenlesis siluados debajo de
los caeficientes son los errores tfpicos de los
coefi cienles estimados.
a) Hallc c intcrprcte el inlervalo de confianza
al 99 por ciento de /3:;.
b) Contrasle la hip61esis nul a de que IJ4 es
frente a la hip6rcsis ahcrnativa bilateral e
interprete su resultado.
c) ContraSle In hip6tesis nuln de que #7 es
frente a la hipotesis allernali va bilateral e
illierprele su resultado.
°
°
13.5. Contrastes de los coeficientes de re resion
En el apartado anterior hemos moslrado c omo puede re a li zarse un contraste de hip6tesis
cond ic ionado para averiguar si el coeficiente de una variable es pecffica es s igniricativo en
un modelo de regresi6n. Existen, sin embargo, s ituac iones en las q ue no s inleresa saber
cual e s e l efeclo de la combinaci6n de varias variables . POl' ejemplo, e n un modelo que
predice la ean lidad ve nd ida, podrfa interesarnos saber e ua! es el e fecto eonjunto tanto del
precio del vendedor com o del precio del competidor. En olros caso s, podrfa inte rcsarnos
saber si la combinaci6n de lodas las variables es un util predicto r de la variable dcpendiente.
Contrastes de todos los coeficientes
En p ri mer lugar, presenlamos eontraste s de h ip6tesis para averiguar s i los eonjuntos de varios coeficiente s son lodos simultaneamente iguales a O. Con sidere mos de nuevo e l mode lo
526
Estadfslica para adminislracion y economfa
Comenzamos examinando la hip6tesis nula de que todos los cocficientes son si mult u_
neamcnte iguales a cero:
La aceptac i6n de esta hip6tcsis nos lIevarfa a concluir que ni ngun a de las variables de predicci6n del mode lo de regresi6n es estadfsticamente signi ficati va y, por 10 tanto, que no
sum inistran ningu na informaci6n uti!. Si eso ocurriera, tendrfamos que volver al proceso
de especificaci6n del modelo y desarrollar un nuevo conjunto de variables de predi ccion.
Afortun adamen le, en la mayorfa de los casos apl icados esta hip6tcsis se rechuza porque el
proceso de especificacion normal mente lIeva a la identificaci6n de al menos una variable
de pred icci6n significativa.
Para contrastar la hipotesis anterior, podcmos utili zar la descomposic i6n de la variabilidad desarrol lada en el aparlado 13.3:
STC
~
SCR
+ SCE
Recuerdese que SCR es la cantidad de variabil idad exp li cada por la regres ion y SCE es la
cantidad de variabil idad no expl icada. Recuerdese tambien que la varianza del modelo de
regresi6n puede estimarse utilizando
2
s
,
~
SCE
---=-='---(II - K - 1)
Si la hi p6tesis nula de que todos los coefic ientes son iguales a 0 es verdadcra, entonees el
cuadrado medio de fa regresi6n
SCR
CMR~ ­
K
tam bien es una medida de l error con K grados de libertad. Como eonsccuencia, el coc iente de
F~
SCR/K
SCE/(II - K - 1)
CMR
2
S,
sigue una distribucion F con K grados de libcrtad en el numerador y 11 - K - I grados de
libertad en el denomi nador. Si la hi p6tesis nula es verdadera, lanto el numerador como el
denominador son estimaciones de la varianza pobl acional. Como sefialamos en eI apartado 11 .4, cI coeicnte entre las varianzas muestra les independi entes de poblaciones que tienen varianzas poblacionales iguales sigue una distribuci6n F si las poblaciones siguen una
distribuei6n normal. Se compara el valor ealculado de F con el valor criti co de F de la
Tabla 9 del apendi ce a un nivel de significaci6n GC Si el valor ealculado es mayor que el
valor crftico de la tabla, reehazamos la hipolesis nul a y conclui mos que al menos uno de
los cocficien tes no es igual a O. Este metoda de con traste se resu me en la ecuaci6n 13.23.
Capitulo 13.
Regresi6n multiple
527
Contraste de todos los para metros de un modelo de regresi6n
Consideremos el modelo de regresi6n multiple
Para contrastar la hip6tesis nula
frente 8 18 hi p6tesis alternativa
HI = Al menos un {Jj i=- 0
a un nivel de significaci6n a, u\ilizamos la regia de decision
Rechazar Ho: si
CMR
--,> FK,,
S
. - K- l. rt
,
(13.23)
donde FK . n _ K _ 1 ." es el valor eritieo de F de la Tabla 9 del apendice para el que
P(FK.I1 - K- 1 > FK.n - K- l. rt) = rx
La variable aleatoria calculada FK. n - K - l sigue una distribueion F con K grados de libertad en el
numerador y (n - K - 1) grados de libertad en el denominador.
EJEMPLO
13.8.
Modelo de prediccion de los precios de la vivienda
(contraste simultaneo de coeficientes)
Duranle el desarrollo del modelo de predicci6n de los precios de 1a vjvienda para
NOfthem City, los analistas querfan saber si exjslian pruebas de que la combinaci6n de
cuatro variables de predicci6n no era un predictor significativo de l precio de la vivienda. Es decir, querian contrastar la hip6tesis
Solucion
Citydat
Esle metoda de contraste puede ilustrarse mediante la regresi6n de los precios de la vivienda de la Figura 13.9 realizada uti lizando el fichero de datos Citydat. En la tabla del
ao.11isis de la varianza, el estadislico F calculado es 19,19 can 4 grados de Iibertad en el
numerador y 85 grados de libeltad en el denominador. EI calcu lo de F es
F~
259,37
13,52
~ 1919
•
Este valor es mas alto que el valor crftico de F = 3,6 para rx = 0,0 1 de la Tabla 9 del
apendice. Observese, ademas, que el Minitab -y la mayoria de los paquetes estadfsticos- caJcula cI p-valor, que en este ejcmplo es igua1 a 0,000. Por 10 tanto, rechazarfa·
mos la hip6tesis de que todos los coeficientes son iguales a cero.
528
Estadistica para administraci6n y economfa
Contraste de un subconjunto de coeficientes de regresion
En los apartados anteriores hemos desarrollado cOl1 trastes de hi p6tesis de panimetros de re ~
grcs i6n indiv iduales y de todos los panimetros en conjunto. A continuaci6n , desarrollamos
un contraste de hip6tesis de un subconjunto de panimetros de regresi6n, como el ejemplo
del conjunlo de precios que acabamos de anal izar. Utilizamos estc contraste para averiguar
si el efecto conjunto de varias variab les independientes es signi ficativo en un mode lo de
regresion.
Consideremos un modclo de regresion que contiene las variables indepencli enles Xj Y
La hipotesis nula que se contrasla es
j = 1, ... , K
Si Ho es verdadera, las variables Zj no deben inc\uirsc en el modelo de regresi6n porque 110
suministran ninguna informaci6n para explicar la conducta de la variable dependiente mas
que la que su mini stran las variables Xj' EI metodo para reali zar este contrasle se resume en
la ecuaci6n 13.24 y se analiza detalladamente a continuaci6n.
EI contraste se reali za comparando la suma de los cuadrados de los en'ores, SCE, del
modelo de regresi6n completo, que incluye tanto las variables X como las variables Z, con
la SCE(r) de un mode lo restring ido que s610 incluye las vari ables X. Primero realizamos
una regres i6n con respecto al modele de regresi6n co mpleto anterior y obtencmos la suma
de los cuadrados de los errorcs, SCE. A continu acion realizamos la regresi6n restringida,
que excl uye las variables Z (obscrvese que en esta regres i6n se apli ca la reslriccion de que
los coefi cientes tY.j son iguales a 0):
A partir de esta regresi6n obtenemos la suma restringida de los cuadrados de los en'O~
res, SCE(r). A continuaci6n, calcu lamos cl estadfstico F con r grados de libertad en eI nu ~
merador (r es el numero dc variables elimin adas simulliineamente del modele restringido)
Y Il - K - r - I grados de libertad en el denominador (los grados de libertad del error en
el. modelo que induye lanto las variables independienles X como Z). EI estadfstico F cs
F
~
~
(SC£(r)
~
SCEJ/r
2
S,
donde s~ cs la varian za estimada del error del modelo compl eto. Este estadfstico sigue L1na
distribucion F con r grados de libertad en el numerador y 11 - K - r - 1 grados de liber~
tad en el denominador. Si el valor de F calcu lado es mayor que cJ valor crflico de F, enlonces se rechaza la hip6lesis nula y concluimos que las variables Z co mo conjunto deben
incluirse en e l modelo. Obscrvcse que este contrasle no imp lica que las variabl es Z individuales no dcban exc\uirse, par ejemplo, utilizando el contraste f de Student antes ana li za~
do. Ademus, el contraste para lodas las Z no implica que no pueda excluirse un subconjunto de las variab les Z utili zando este metodo de contraste con un subconj unto diferente de
vari ables Z.
Capitulo 13. Regresi6n multiple
529
Contraste de un subconjunto de los parametros de regresi6n
Dado un modele de regresion con la descomposicion de las variables independienles en los
subconjuntos X y Z,
Para contrastar la hip61esis nula
Ho: IX] =
1X2
=
... = IX,. =
0
de que los parametros de regresi6n de un subconjunto son simullaneamente iguales a 0, frente
a la hip61esis alternativa
HI: Al menos un
IXj
=f. 0
(j = I .... , r)
compararnos la surna de los cuadrados de los errares del modelo completo can la suma de los
cuadrados de los errores del modelo restringido. Primero, hacemos una regresi6n para el mo~
delo complei0, que inciuye todas las variables independienles. y obtenernos la surna de los
cuadrados de los errores, SeE. A continuaci6n, hacemos una regresion restringida, que excluye las variables Z cuyos coeficlenles son las a: el numero de variables excluidas es r. A parlir de esla regresion obtenemos la suma restringida de los cuadrados de los errares, SCE(i) . A
continuacion, calculamos el estadfstico F y apHcamos la regia de declsi6n para el nivel de sig~
nificaci6n IX:
Rechazar Ho si
(SCE(r) - SCEJ /r
s:,
Comparacion de los contrastes Fy
>
F,..II - K- ,· - l.(l
(13.24)
t
Si util izaramos la ecuaci6n 13.24 can r = I, podrfamos contrastar la hip6tcsis de que una
{mica variable, Xj' no mejora la pred icc ion de la variable depend icntc, dadas las demas variables independientes del modelo. Por 10 tanto, tenemos cl contraste de hip6tesis
Ho : Pj ~ 0 I Ii, l' O,} l' I
H,:
Pj l' 0 111,1' O, }
1'1
Antes hemos visto que este contraste tambien podfa reali zarse util izando un contraste , de
Student. Utilizando metodos que no presentamos en este libra. podemos demostrar que los
con trastes F y f correspondienles pcrmiten lI egar exactamente a las mismas conclusiones
sobre el contraste de hip6tesis de una unica variable. Ademas, el estadfstico I calculado para el coeficiente bj es igual a la raiz cuadrada del estad fstico F calculado correspond icnte.
Es decir.
don de Fx., es el estad fslico F calculado utili zando la eCllacion 13.24 cuando se ex cluye la
variable Xj del modelo y, por 10 tanto, r = I. Demostramos este resultado numerico en el
ejemplo 13.9.
La teoria estadfstica de la dislribucion tambicn dcmuestra que una variable aleatori a l'
con 1 grado de libertad en el numerador es el cuadrado de una variable aleatoria t cuyos
grados de libeltad son iguales al denominador de la variable aleatoria F. POI" 10 tanIO, los
con trastes F y t siempre !levan a las mismas conc lusiones sobre el contraste de hipo(es is de
una unica variab le independiente en un modele de regres ion multiple.
530
Esladfslica para administraci6n y econom ia
EJEMPLO
13.9. Predicci6n del precio de la vivienda en las pequenas
cludades (contrastes de hip6tesis de sUbconjuntos
de coeficientes)
Los promo rores de l modelo de predieei6 n del pree io de la vivienda de l ejemplo 13.8
querfan ave riguar si el e feelo eonjullio del lipo imposili vQ y del poreentaje de locl.lles
eomereiales contribuye a la predi ee i6 n despues de inc1ui r previamente los efeelos del
tamano de la vivienda y de la renla.
Solucion
Continuando con eI problema de los eje mpl os 13.7 y 13.8) tenemos un contraste condieionado de la hip6tesis de que dos variables no son predielores sign ifica livos, dado que
las alras dos son prediclOres significativos:
ESle conlrasle se realiza uti lizando el metoda de la ecuaci6n 13.24. La Fig ura 13.9 presenLa la regresi6n del mode lo eompleto can las cuatro variables de predicc i6n. En esa
regresi6n, SeE = 1.149, 14. En 13 Fi gura 13.11 tenemos 11.1 regresion reducida en la que
las (micas variables de predicci6n son el tamano de la vi vienda y la renta. En esa regresi6n, SeE = L.426,93. La hip6tesis se contrasta primero calculando el estadfsti co F
euyo nume rador es la suma de los euadrados de los errores del modela redueido
[SCE(r )] me nos la SCE del modelo completo.
F ~
( 1.426,93 - 1.1 49, 14)/2
13,52
10 27
~
'
Regression Analysis: hseval versus sizehse. income72
The regression equ~ tion is
hseval = -42 . 2 + 91. 4 si zchse + 0 . 000393 i n com72
Predictor
Cons tant
Sizehse
i ncom72
Coef
- 42.208
9 . 135
0 . 003927
R-Sq :: 34 . 7%
S '" 4 . 04987
Analysis of
l'
p
- 4 . 30
0 . 000
0 . 000
0 . 009
4 . 71
2 . 67
R-Sq(ad j)
.
33 . 2%
Va ri~ncc
Source
Regres sion
Residua l Error
Tot al
Source
s i zehse
i ncom72
SE Coef
9 . 81 0
1 . 940
0 . 001473
OF
2
87
89
OF
Seq 55
1
643 . 12
116 . 58
1
SS
7 59. 70
4 26 . 9
2 186 . 63
MS
F
P
379 . 8 5
1 6 . 40
23.1 6
0 . 000
SCE(rl
Figura 13.11 . Regresion del precio de la vivienda: modelo reducido (salida Minitab).
Capitulo 13.
Regresion multiple
531
EI estadfstico F liene 2 grados de libenad ---colTespondientes a las dos vari ab les
conl"rastadas simultaneamente- en el numerador y 85 grados de libertad en el denominador. Observese que e l estimador de la varianza,
= 13,52, se obliene a pm1ir del
modele completo de la Figura 13.9, en la que el error tiene 85 gracias de libertad. Vemos en la Tabla 9 del apcndice que e l valor crilieo de F can IX = 0,01 Y 2 Y 85 grados
de Iibertad es aproximadamente 4,9. Como el valor calculado de F es mayor que el va·
lor critico, rechazamos la hip61esis nula de que el tipo imposilivo y el porcenlaje de 10·
cales comerciales no estan en la combinaci6n significati va. EI efecto conjunto de estas
dos variables si mejora el modele que pred ice el precio de la vivienda. POI' 10 tanto, el
tipo imposit ivo y el porcentaje de locales comerciales deben incill irse en el modelo.
s;
Tambicn hemos calcu lado esta regres i6n excluyendo la variable «compr» y hemos observado que 1a SeE resultante era
SCE(I)
~
1.I 85,29
El estadfstico F calcu lado de esla variable era
F~
(1.I85,29 - 1.149,14)/ 1
13,52
~
2 674
'
La rafz cuadrada de 2,674 es 1,64, que es el estadfstico I calculado para la variabl e
«compo> en la salida del am'ilis is de regresi6n de la Figura 13 .9. Util izando cl estadfsti co F
calclil ado 0 c l cstadfsti co 1 calcu lado, obtendrfamos este resultado para las hi p6tcsis de esta
variable:
Ho : /3compr
=
°I
111 oft 0, I #- compr
HI : /Jcompr #- 0 I /31 #- 0, I #-
COl1lpr
EJERC1CIOS
Ejercicios basicos
c) Analisis de Ia varianza
13.37. Suponga que ha estimado coelicientes para el
siguiente modelo de regresi6n :
Source
Regression
Residual Error
DF
3
"
55
46000
25000
M5
5S
87000
48000
MS
d) Analisis de la varianza
Contraste la hip6tesis de que las tres variables
de predicci6n son igllales a 0, dadas las siguientes tablas del amilisis de la varianza.
a) Analisis de la varianza
Source
Reg ression
Residual Error
OF
3
26
5S
4500
MS
SOD
b) AmiUsis de la varianzu
Source
Regression
Residual Error
DF
3
"
SS
9780
2100
Source
Regression
Residua l Error
OF
3
26
Ejercicios ap1icados
13.38. Vuelva al eSludio del esfucr7.0 de diseno de
aYiones de los ejercicios 13.6 y 13.19.
u) Contraste la hip6tcsis nulu
MS
b) Muestre la tabla del amllisis de la varianza.
532
Estadistica para administraci6n y economfa
13.39. Para el e.-audio de la intlucncia de Ins instituciones finaneieras en los precios de las aeciones
del ejercicio 13.7, se utilizaron 48 observaciones lrimestrales y se observo que cl codicicnte
cOlTegido de determinuci6n era R2 = 0,463.
Contraste lu hip6tcsis nuia.
13.40. Vllelva al estudio del consumo de leche, deserito en los ejercicios 13.8, 13.20 Y 13.28.
a) Conrraste In hip6tesis nulo
Ho'~' ~ ~,~O
b) Mllestre In tabla del anMisis de la varianza.
13.41. Vllelva al estudio del numento de peso, descrilO
en los ejercicios 13.9. 13.21 Y 13.29.
a) Contraste la hip6tesis nula
b) Muestre In tabla del analisis de la varianza.
13.42. Vuelva aJ ejercicio 13.32. Contraste la hip6tesis
nula de que las cuatra variables independicnrcs.
consideradas en conjunto, no inn uyen linealmente en los ingresos generados por las loterfas
nacionales.
13.43. Vuelva al ejercicio 13.33. Contraste la hip61esis
nula de que las tres variables independientes,
consideradas en conjunto, 110 inlluyen linealmente en el precio de los hornos.
13.44. Vuclva al es\udio del cjercicio 13.34. Contraste
la hip6tesis nula de que los gastos personales de
eonsumo y el precio relativo de las importaeiones, eonsiderados en conjunto, no afectan linealmente a In demanda nigeriana de importac lones.
dependientc, dado que las de mas variables indcpendientes (K - KI ) lambien se ulilizan. Su.
pongamos que se vllelve a estimar la regresi6n
excluyendo las KI variables indepen<iicntes de
interes. Sea SCE* la suma de los clladrados de
los efrores y R *l el coeficiente de determinaci6n de esta regresi6n. Dernuestre que cI estudfslico para contrastar nuestra hip6tesis nula, introducido en el apartado 13.5, puede expresarse
de la forma siguiente:
(SeE':' - SC£)/ K J
R2 - R*2
SCE/(n - K - I)
I - R2
13.46. Se realiza lIna regresi6n de una variable dependientc ·con respecto a K variables independienles utilizundo 11 conjuntos de observaciones
muestra1cs. SeE es la sum a de los cuadrados de
los errores y R2 es el coeficiente de detenni naci6n de esta rcgresi6n estimada. Queremos
contrastar la hipiltesis nula de que KI de estas
variables independientes, eonsideradas en conj unto, no afectan lineal mente a la variable
KI
13.47. En el estudio de los eJerclclos 13.8, 13.20 Y
13.28 sobre el consumo de leche, se ailadic. al
modelo de regresi6n una tercera variable independiente: el mimero de ninos cn edad preescolar que habfu en el hogar. Cuando se estim6 esIe modelo ampliado. se observ6 que In suma de
los cuadrados de los errores era 83,7. Contraste
la hip6tesis nul a de que, mante n h~ndose todo 10
demas constante, el numero de nifios en edad
preescolar que hay en el hogar no afecta linealmente al consumo de leche.
13.48. Suponga que una variable dependiente est,! relacionada con K variables independientes a traves
de un modelo de regresi6n multiple. Sea R2 el
eoeficiente de delerminaci6n y iP el coefieiente
cOlTegido. Suponga que se utilizan n conjunros
de observaciones para ajustar la regresion.
a) Demuestre que
-2
R
~
(n - I )R2 -K
n - K - I
b) Dcmuestre que
13.45. Vuelva al esludio de los delerminantes de la demanda de bomberos en una ciudad anal izado en
el ejcrcicio 13.36. Contraste la hip6tesis nula
e interprete sus resultados.
K -
II -
R
2
~
-,
(II-K-I)R +K
11-1
c) Demuestre que el estadfstico para contraslar
la hi p6tesis nula de que todos los eocficienles de regresi6n son 0 puede expresnrse de la
forma sigu iente:
SCRIK
n - K- I
SeE/(n - K - I )
K
donde
K
A ~-~­
n-K - I
ii2+A
R'
Capflulo 13.
Regresi6n multiple
533
13.6. Prediccion
Una apl icac i6n imp0!1ante de los modelos de regresion es predecir los val ores de la variable depend iente, dados los valores de las variabl es independientes. Las prediccioncs pueden realizarse directamente a partir del modelo de regresion estimado utili zando las estimaciones de los cocficicntes de ese modelo, como mueSlra la eCllacion 13.25.
Predicciones a partir de los modelos de regresion multiple
Dado que se cumple el modele de regresi6n poblacional
y que los supuestos habituales del ana.lisis de regresj6n son va.lidos, sean bo' b1 , ••. , bK las estimaciones par mlnimos cuadrados de los co.eficientes del modelo, Pi' siendo j = 1, ... , K, basados en los puntos de datos Xl" >S" ••• , X Ki (/ = 1, ... , n). En tal caso, dada una nueva observa~i6n de un punta de datos, Xl, n + l' X 2 , n+ l' "', X K, n+ l' la mejor predieei6n lineal insesgada de
Yn + 1 es
(13.25)
Es muy arriesgado haeer prediceiones que se basan en valores de X fuera del rango de los
datos utillzados para eslimar los eoeficientes del modelo, ya que no tenemos pruebas que
apoyen el modelo lineal en esos puntas.
Ademas de querer conocer el va lor predicho de Y para un conj unto de xj ' a men udo nos
interesa calcu lar un intervalo de confianza 0 un intervalo de predicci6n. Como sefialamos
en el apartado 12.6, el interva lo de confianza incluye el valor esperado de Y con la probabilidad 1 - 0:. En cambio, el intervalo de prediccion incluye los valores individua les prcdicllos: los valores esperados de Y mas el termi no de error aleatorio. Para hallar estos intervalos, es necesario calcu lar estimaciones de las desv iacioncs tfpicas del valor esperado de
Y y los puntas individua les. Estos calculos son sim ilares en la forma a los utilizados en la
regresi6n simple, pem las ecuaciones de los esti madores son mucho mas complicadas. Las
desviaciones tfpicas de los valores prediehos, .'ij' son L1na funei6n del error tfpico de la est imaci6n, se; la desviaci6n tfpica de las variables de predicci6n; las correlaciones entre las
variables de predicci6n; y e! cuadrado de la distancia entre la media de las variables independientes y las X para la predicci6n. Esla desv iacion lfpi ca es similar a la desv iaci6n tfpica de las prcdicciones de la regres i6n si mple del Capitulo 12. Sin embargo, las ecuaciones
de la regresi6n multiple son muy complejas y no se presentan aquf; [0 que hacemos es calcular los valores uti li zando el programa !y1initab. La mayorfa de los paquetes estadfsticos
buenos calcu lan las desv iaciones tfpicas del intervalo de predicci6n y del intervalo de confianza y los correspondientes interval os. Excel no permite calcular la desv iaci6n tfpica de
las variables predichas.
EJEMPLO 13.10. Prediccion del margen de beneficios de las asociaciones
de ahorro y credito inmobiliario (predicciones
del modelo de regresi6n)
Le han ped ido que haga una predicei6n del margen de beneficios de las asoc iaciones de
ahorro y cn:dito inmobiliario para un ano en el que e1 porcentaje de ingresos netos es
534
Estad{stica para administraci6n y economfa
4,50 Y hay 9.000 oficinas, ulilizando el modelo de regresion de las asociaciones de ahorro y credilO inmobiliario. Los datos se enc uenlran en el lichero Savings and Loan.
Savings
and Loan
Solucion
Utilizando la nolacion de la ecuaci6n 13.25. tenemos las variables
XI
.,, + I
=
X 2.,,+ I
4,50
= 9.000
Uti lizando estos valores, observamos que nuestro predictor puntual del margen de beneficios es
,
)',, + 1 = b o + b IX I. II + 1 + b,;t·2.II + l
= 1,565 + (0,237)(4,50) - (0,000249)(9.000) = 0,39
Por 10 tanto, cn un ana en el que el porcentaje de ingresos netos por d61ar depositado es
4,50 y el numero de oficinas es 9.000, predecimos que el margen porcentual de benefitios de las asoc iaciones de ahorro y credito inmobili ario es 0.39.
Los valores predichos, los intervalos de confianza y los intervalos de predicci6n
pueden calcularse directamente por medio del programa Minitab.
La Figura) 3. 12 muestro la salida del analisis de regresi6n. Se presenta el valor predicho, = 0,39 y su desviaci6n tfpica, 0,0277, junto con el intervalo de confianza y el
y
Regression Analysis: Y profit versus Xl revenue, X2 offices
The regression equation is
Y profit 2 1 . 56 + 0 . 237 Xl revenue -
Predictor
Constant
Xl revenue
X2 offices
S
eoef
1 . 56450
0 . 23720
~0.00024908
0 . 0533022
R-Sq
SE Coef
0 . 07940
0.5556
0.00003205
86 . 5\
Analysis of variance
Sou rce
OF
Regression
2
Residua l Error22
Total
24
5S
0.40151
0 . 06250
0 . 46402
0 . 000249 X2 offices
T
19 . 70
4.27
-7.77
P
0.000
0.000
0 . 000
Instrucciones de Minitab
1. STAT> REGRESSION
> REGRESSION> OPTIONS
R-Sq(adj) = 85.3\
2. Pulsar New Observation
Values
3. Seleccionar Fits, Confidence
limits, Prediction limits
F
P
0 . 20076 70 . 66
0 . 00284
MS
0.000
Valor predicho
pred:.~c~c~ed;;v~a~,;u~e~S;f;o~r;:N:e~W~O~b:,~e;r~v:;~::~~~~~~=-_
~
95\ CI
0 . 4476)
__
95' PI
0.2656, 0 . S148y.1.- - tntervalo
",,::::::~-:":::::::::=::::~
de predicci6n
Values of Predictor s for New Observations
New
x.
Obs Xl reven ue offices
1
4 . 509000
Error tfpico del valor
predicho
___
Intervalo
deconfianza
)<------ deVal predicci6n
ores de las variables
Figura 13.12. Predicciones e intervalos de predicci6n de la regresi6n multiple (salida Minitab).
Capitulo 13. Regresi6n multiple
535
intervalo de predi cci6n. EI intervalo de confianza -Cl- es un intervalo del va lor esperado de Y en la funcio n lineal defi nida por los valores de las variables independientes.
Este in tervalo es una funeion del elTor {ipieo del modele de regresion. la di slancia a la
que se enc uenlran los valores de Xj de sus medias muestral es individuales y la corre lacion entre las variables Xj uti lizadas para aju star el modelo. El intervalo de prediccion
-Pl- es un intervalo para un unieo valor observado. Por 10 tanto, incluye Ja variabilidad del valor esperado mas la variabilidad de un unico punlo en tome al valor predicho.
EJERCICIOS
Ejercicios basicos
13.49. Dada la ecuaci6n de regresi6n multiple estimada
y = 6 + 5xI + 4X2 + 7X3 + 8X4
calcular el valor predicho de Y cuando
a) XI = lO, x2 = 23 , x3= 9, x4= 12
b) XI = 23, X2= IS, X3 = lO, x4 = II
c) XI = 10, -'"-2 = 23 , x )= 9, X4= 12
d) Xl = -10, X2 = 13, x 3 = - 8, X4 = - 16
Ejercicios aplicados
13.50. Utilizando In informaci6n del ejercicio 13.9.
prediga el aumento de peso de un estud iante de
primer ano que come una media de 20 comidas
a la scmana, hace ejcrcicio durante una media
de 10 horas a 1a semana y consume una media
de 6 cervezas a la semana.
13.51. Utilizanda la informaci6n del ejercicio 13.8.
prediga cl consumo semanal de lechc de una
fami lia de cuatro personas que (iene una renta
de 600 $ a la semana.
bo = 0,578
13.52, En la regresi6n del esfuerzo de diseno de aviones de! ejercicio 13.6, la ordenada en e! origen
estimada era 2,0. Prediga el esfu erzo de diseno
de un avi6n que iiene una velocidad maxima de
mach I,D pesa 7 toncladas y tiene un 50 por
ciento de piezas en comlin con otros modelos.
13.53. Una agencia inmobi li aria afi rma que en su ciudad el precio de venta de una vivienda en d61ares (y) ~epende de su lamana en metros cuadrados de superficie (Xl), el tamano del solar en
metros cuadrados (~) , el numero de dormilorio~ (X.3 ) y cl numero de cuartos de bano (X4).
Basandosc en una muestra aleatoria de 20 vcnlas de vivicndas, sc obluvo el siguienle modela
esti mado por minimos cuadrados:
y=
1.998,5
+ 22,352x 1 +
(2,5543)
1,468~+6.767 , 3x3
( 1.4492)
( 1820,8)
+ 2.70 1,lX4
(1996. 2)
R2 =
0,9843
Los numeros entre parentesis situados debajo de
los coefi cientes son los errores t(picos de los
coelicientes estimados.
a) Interprete en el contexto de este modelo el
coeficiente estimado de x2.
b) Intcrpretc el cocficiente de determi nacion.
c) Suponicndo que el modelo esta especificado
correctamente, contrasle al nivel del 5 por
ciento la hipotesis Ilula de que. manteniendose todo 10 demas conS(antc, el precio de
venta no depende del numero de cuartos de
banD frente a la hip6tesis alternariva unilateral adecuada.
d) Estime el precio de venia de una vivienda
de 1.250 metros cuadrados de superficie, un
solar de 4.700 metros euadrados, 3 dormitorios y un cuarto de bano y medio.
13.7. Transformaciones de modelos de regresion no lineales
Hemos visto como puede utili zarse el anali sis de regresion para eSli mar relaciones lineales
que predicen una variable dependiente en funcion de una 0 mas variables independientes.
Estas aplicaciones son muy importanlcs. Sin embargo, hay, ademas, algunas relaciones
economicas y empresarial es que no son estrictamente lineales. En este apartado desalToll a-
536
Estadistica para administraci6n y economia
mos metodos para modificar algunos fonnatos de los lllodcJos no lineales con eI fin de poder utili zar los rnetodos de regrcs i6n mult iple para estimar los coeficientes del mocleln. POI'
10 tanto, eI objeli vo de los apartados 13.7 y 13.8 es am pli ar la variedad de problemas que
puedcn adaptarse a un amilisis de rcgresi6n. De esta forma vemos que el amilisis de regresi6n tiene aun mayores apl icaciones.
Examinando el algoritmo de mfn imos cuadrados. vcmos que maniplilando con ellidado
los modelos no linea les, es posible ulili zar los mfn imos euadrados en un eonjulllO mas am.
plio de problemas aplicados. Los supuestos sobre las variables independientes en la regresi6n multipl e no son muy restrietivos. Las variables independientes definen puntos en los
que medimos un a variable aleatoria Y. Suponemos que hay una relaci6n li neal entre los ni veles de las vari ables independientes Xj , do nde j = I, ... , K, y e l valor csperado de la variable dependiente Y. Podemos aproveehar eSla libertad para ampii ar el conjunto de modclos
que pueden estimarse. POI' 10 tanto, podemos ir mas alia de los modelos lineales en nuestras apli cac iones del anal isis de regresi6n multiple. En la Fi gura 13. 13 se muestran Ires
ejempJos:
(a)
(b)
(c)
Las funeiones de ofena pueden no ser lineales.
EI aumen lo de la produce i6n total con un au menlo del nu mero de trabajadorcs
puede ser cada vcz menor a medi da que se anaden mas trabajadorcs.
EI eOSle med io pOl' uni dad producida a menudo se minimi za en un ni vel de prodllcc i6 n intermedio.
>-
o
>-
-ri
-ri
C
:Q
u
c
•
c
u•
•
,
,
0
0
"
0
u
~
•
0
~
~
"
0
u
Precio, P
(,I
Numero de trabajadores, Xl
(b)
Figura 13.13.
Producci6n total, Xl
(0)
Ejemplos de funciones cuadraticas.
Transformaciones de model os cuadraticos
Hemos ded ieado bastante liempo al desarro llo del anali sis de regres io n para esti mar eeuaciones lineales que rcprcsentan di versos procesos cmpresariales y econ6micos. Tam bien
hay muchos procesos que pueden representa rse mejor mediante ecuaciones no li neales. EI
ingreso total tiene una re laci6n cuadralica con el prcc io y el ingreso maxi mo se obliene en
un ni vel intermedin de precios si la funci6 n de demanda tiene pendiente negativa. En muchos casos, el coste min imo de prod uec i6n pOl' unidad se obti ene en un nivel de producci6n inlermedio y cl coste por unidacl es decreciente a medida que nos aproximamos al
coste mfnimo pa r unidad y despues aumenta a partir de ese coste minima par unidad. Podemos anali zar algun us de estas relaciones econ6 micas y cmpresaria les utili zando un modela cuaddtico:
y = Po + p,X, + P,xi + ,
Capitulo 13.
Regresi6n multiple
537
Para eslimar los coe ricientes de un modele clladrati co para apl icac iones de este tipo, podemos transfonnar 0 modificar las variab les, co mo muestran las ec uHciones 13.26 y 13.27.
De esta forma. un modelo cuadrat ico no li neal se convierte en un modele que es lineal en
un conjunlo modifi cado de variabl es.
Transformaciones de modelos cuadraticos
La funci6n cuadratica
y ~
Po+ /J,X, + p,X; + ,
(13.26)
puede transformarse en un modelo lineal de regresi6n multiple definiendo nuevas variables:
y despues especificando el modele
(13.27)
que es lineal en las variables transformadas. Las variables cuadraticas transformadas pueden
combinarse can olras variables en un modelo de regresi6n multiple. Por 10 lanto, podemos
ajustar una regresi6n cuadratica multiple ulilizando variables transfonnadas. EI objetivo es encontrar modelos que sean lineales en otras formas matematicas de una variable.
Transfo nnando las variables. podemos estimar un modelo lineal de regresi6n multiple
y utilizar los resultados como un mode lo no lineal. Los melodos de inferencia para los modclos elladdli cos transformados son los mi smos que hemos desarrollado para los modelos
lineales. De esta fo rma, evitamos la confusi6n que se tendr!a si se utili zaran llnos metodos
eSladfslicos para los rnodelos lineales y oLres para los mode los cli adrat icos. Los coefic ientes dcben combinarse para poder interprctarlos. Asi, si tenemos un modelo cuadra Ii co, e l
efeeto de una variable. X. es ind icado por los cocficientes tanlo de los tenninos lineal es
como de los termi nos cuadnitieos. Tambi en realizamos un scncill o contraste de hi p6tesis
para averi guar s i un modelo cuadralico es una mejora can respecto a un modelo !inc.1!. La
variable ~ 0
no es mas que una variable ad icional cuyo coefic iente puede contrastarse
- Ho: {J2 = 0-- utili zando la / de Student co nd icionada 0 el estadfstico F. Si un modelo
cuadratico se ajusta a los datos mejor que un modelo lineal , el coefi ciente de la variable
cuadratica -~ =
sera sign ifi cati vamen te diferente de O. EI melodo es e l mis mo si
tenemos variables como 23 = X~ 0 2 4 = XTX2 .
xi
xi-
EJEMPLO 13.11. Costes de produccion (estimaclon de un modelo
cuadratico)
Prod uction
Cost
Arnold Sorenson, director de producc i6n de New Front iers Instruments Inc., tenia
interes en estimar la relaci6 n matema.tica entre el numero de montajes eleetro nicos producidos en un tu rno de 8 horas y el coste medio pOl' montaje. Esta funci6n se utilizarfa
despues para estimar el coste de varios pedidos de producci6n y averiguar el ni vel de
producci6n que minimizaria el cosle med io. Los datos se encllentran en el fi chere de
datos Production Cost.
538
Estadistica para administraci6n yeconom fa
Solucion
Arnold recogi6 datos de nueve turnos duran te los cual es el numero de monlajes oscil6
enlre 100 y 900. Tambien obluvo en el departamento de contabilidad eJ coste medio pa r
un idad en que se incuni6 durante esos dlas. Estos datos se presentan en un diagrama de
puntos dispersos realizado por media del programa Excel y mostrado en la Figura
13.14. Sus estudios de economfa y su exper ienc ia 10 !levaron a sospechar que la funci6n
podr!a ser cuadr.:itica can un coste media min ima intennedio. Diseii6 Sll amil isis para
cOlls iderar tanto lIna funci6n de cosle media de producci6n lineal como lI na cuadratica.
La Figura 13.15 es la regresi6n si mple del cosLe como una funci6n lineal del nume·
ro de unidades. Vemos que la relaci6n lineal cs cas i plana, 10 que indica que no ex iste
un a relaci6n linea! entre el coste medio y e l numero de unidades producidas. Si Arno ld
hubiera utili zado simplemente esta relaci6 n, habr!a cometido graves errores en sus me·
todos de estirnaci6n del coste.
La Fi gura 13.16 presenta la regresi6n cuadratica que muestra el coste media por
unidad como una funci6n no lineal del numero de unidades producidas. Observese que
b2 es diferente de 0 y, por 10 tanto, debe inclui rse en el modelo. Observese tambie n que
el R2 del modelo cuadriitico es 0,962. mientras que en el modelo lineal es 0,174. Utilizan·
do eJ modelo cuadnitico, Arnold ha elaborado un modelo de coste media mucho mas uti!.
Numero de Coste med io
Un idades
por unidad
5,5
~
100
210
290
415
509
613
697
806
908
5, 11
4,42
4,07
3,52
3,33
3,44
3,77
4,07
•
•
5
~
,
c
" 4,5
0
0.
•
0
'5
•E
4
~
•
3,5
"
3
•
•
•
0
4,28
•
o
200
600
400
800
1.000
Numero de unidades
Figura 13.14. Coste media de producci6n en funci6n del numero de unidades.
Regression Analysis: Mean Cost per Unit versus Number of Units
The regress i on equation is
Mean Co s t per Unit = 4 . 43 - 0 . 000 855 Numbe r of Units
Pred ictor
Constant
Numbe r of Un i t s
5 • 0.547614
Cocf
4 . 4330
-0 . 0008547
SI> Coe f
0 . 399 4
0 . 0007029
R- Sq = 17 .4\
R-Sq( a dj)
•
T
P
11.10
-1.22
0 . 000
0 . 263
5.6\
Analysis of varia n ce
Source
Regression
Res i d u a l Error
Tota l
DF
1
7
8
55
0 .44 33
2 . 0992
2.5425
M5
F
P
0 . 4 4 33
0 . 299 9
1 .48
0 . 263
Figura 13.15. Regresi6n linea! del coste medio en funci6n del numero de unidades (salida Minitab).
Capitulo 13.
Regresi6n multiple
539
Regression Analysis: Mean Cost per Unit versu s Number of Units,
No Units Squared
The regression 0qu3tion is
Mean Cost per Unit = 5 . 91 - 0.000884 Number of Units
No Units Squ3red
Predictor
coef
Const3nt
5.9084
Number of Units
-0 .0088415
No Units Squared -0.00000793
SE Coef
T
0.1614 36 . 60
0 . 0007344 - 12 . 0 4
0 . 00000071 11 . 15
S = 0 . 125875
R-Sq(adj)
R- Sq = 96.2\
0
+
0 . 000008
P
0.000
0.000
0.000
94 . 9%
Analysis o f Variance
Sourc e
Regress ion
Residual Error
Total
Figura 13.16.
,
OF
SS
MS
F
P
1 . 2230
75.97
O. 000
6
2 .44 59
0 . 0955
2.5425
8
0 . 0151
Modelo cuadratico del coste media en juncian del numero de unidades (salida Minitab).
Transformaciones logarftmicas
Algunas relaciones econ6m icas pueden anali zarse mediante fu nciones exponenciales. Por
ejcmplo, si la variaci6n porcentual de la cantidad vend ida de bienes varfa linealmente en
respuesta a las variaciones porcentuales del precio, la funci6n de demanda tendnl una forma exponencial:
donde Q es la cantidad demandada y P es el precio por unidad. Las funciones de demanda
exponenciaies tienen elasticidad constante y, pOl' 10 tanto, una variaci6n del prccio de un 1
pm ciento provoca la misma variaci6n porcentual de la cantidad demandada en todos los
niveles de precios. En cambio, los modelos lineales de demanda indican que una variac i6n
unitaria de la variable del preeio provoea la mi s ma variaci6n de la canlidad demandada en
todos los nive les de precios. Los modelos exponenciales de demanda se ulilizan mucho
en el amilisi s de la conducta del mercado. Una importante caracterfstica de estos modelos es
que el coeficiente [lr es la c1asticidad constante, e, de la demanda Q con respecto al prec io P:
JQIQ
e= - =p,
aplP
Este resultado se desarrol1a en la mayorfa de los iibros de texto de microeconomfa. Los
coeficientes del modelo exponenciai se estiman utili zando transformaciones logarft micas,
como muestra la ecuac i6n 13.29.
La transformaci6n logarftmica supone que el tennillo de error aleatorio multi plica el
verdadero valor de Y para obtener el va lor observado. Por 10 tan to, en el mode lo exponen cial el error es un porcen taje del verdadero valor y la varianza de la distribuci6n de l error
au menta cuando aumenta Y. Si este resu ltado no es cierto, la lrans rormacion logarft mica no
es correcla. En ese caso, debe utili zarse una lecni ca de esti maci6n no lineal mucho rmis
comp leja. Estas tecni cas eSlan fu era del alcance de este li bro.
540
Esladislica para administracion y economia
Transformaciones de model os exponenciales
Los coeficientes de los modelos exponenciales de la forma
(13.28)
pueden estimarse tomando primero el logaritmo de los dos miembros para obtener una ecuacion que es lineal en los logaritmos de las variables:
log (l') = log (Po)
+ fl,
log (X,)
+ II, log (X, ) + log (,)
(13.29)
Utilizando esla forma, podemos hacer una regresion del logaritmo de Y con respecto a los 10garitmos de las dos variables X y obtener estimaciones de los coeficientes PI y IJ 2 directamente
del anal isis de regresi6n. Dado que los coeficientes son elasticidades, muchos economistas utilizan esla forma del modele en la que pueden suponer que las elasticidades son constantes en
el rango de los datos. Observese que esle metoda de estimaci6n requiere que los errores alealorios sean multiplicativos en el modelo exponencial original. Par 10 tanto, el termino de error, c,
sa 9xprasa como un aumento 0 una disminucion porcentual y no como la adici6n 0 la sustracci6n de un error aleatorio, como hemos vislo en los modelos lineales de regresi6n.
Otra importante aplicaci6n de los mode los exponenciales es la funci6n de producci6n
Cobb-Douglas, que tiene la forma
donde Q es la cantidad producida, L es la cantidad utilizada de trabaja y K es la canLidad
de capita l. PI Y P2 son las contribuciones relativas de las variaciones del tTabajo y de las
variac iones del capital a las variaciones de la cant idad producida. En un caso especial, eorrespondiente a los rendimientos constan les de escala , sc plantea la restrieei6n de que la
su ma de los coefic ientes sea igual a I. En ese caso, 111 Y 112 son las conlribuciones porcentualcs del lrabajo y cl capilal al au mento de la produclividad.
La estimac i6n de los coeficientes cuando su suma cs iguaJ a I es un ejemp lo de est imaci6n rcstringida en los modelos de regrcsi6n. La ecuaci6n 13.29 es modificada par la restricc i6n
fl, + #, = I
y, pOl' 10 tanto, se incluye la sust ituci6n de la fo rma
II,
fl,
= I -
y la nueva ecuae i6n de estimaci6n se conv ierte en
log(y) = log ({30)
log(Y) - log (X, ) = log ({Io)
log (;,) = log (Po)
+ /I,log(X,) + ( I - P,) log(X, ) + log (F.)
+ fl, [log(X,) -log(X, )] + log(")
+ p,log
G:)
+ log (to)
(13.30)
Vemos , pues, que el coeficiente PI se obticne haciendo una regres i6n de log (Y/X2 ) con respecto a log (X I/X2). A con linuaci6n , se calcu la 132 reSlando PI de 1,0.
Todos los buenos paquetes estadfsticos pucden calc ular faci lmcnte las transformaciones
necesarias de los 'datos para los modelos logarftmicos. En el ejemplo siguicntc utilizamos
el programa Mi nitab, pero podrfan obtenerse resultados sim ilares ulilizando olros muchos
paquetes.
Capitulo 13.
EJEMPLO
Regresi6n multiple
541
13.12. Funcion de produce ion de Minong Boat Works
(estimacion del modelo exponencial)
Minong Boat Works comenz6 a producir pequcnos barcos de pesca a principios de la
decada de 1970 para los pescadores del norte de Wisconsin. Sus propietarios desarro!Jaron un metoda de producci6n de bajo coste para producir barcos de cali dad. Como consecuenci a, ha aumentado Sli demanda con el paso de los aoos. EI metoda de producci6n
utili za una terminal de trabajo con un conjunlo de planlill as y herramientas electrieas
que pueden ser manejadas por un numero variable de trabajadores. EI numero de tenn inales (unidades de capital) ha aumentado can cl paso de [os anos de 1 a 20 para sati sfaeer la demanda de barcos. Al mismo tiempo, la plantilla se ha incrementado de 2 trabajadores al ailo a 25. Ahara los propietarios estan eonsiderando la posibi lidad de
aumentar sus ventas en olros mereados de Michi gan y Minnesota. Por 10 tanto, neeesi[an saber cminto tienen que aumentar el numero de terminales y el numero de trabajadores para iograr diversos aumentos del nivel de producci6n.
Soluci6n
Boat
Prodm:tion
Su hija, licenciada en economfa, sugiere que estinien una funci6n de producci6n CobbDouglas restringida utili zando datos de alios antcriorcs. Explica que esta fu nci6n de
produccion les permilira predecir el numero de barcos producidos can diferentes ni ve les
de term inales y de trabajadores. Los propielarios estan de acuerdo en que esc anal isis es
una buena idea y Ie piden que 10 realice. Comienza el amili sis recogiendo los datos hi stOl'icos de produccion de la empresa, que se encuentran en el fichero de datos Boat Production. Para estimar los coeficientes, primero debe transformar la especificaci6n original del model a en una forma que pueda estimarse mediante una regresion par mInimal'
cuadrados. EI modelo de la runcion de producci6n Cobb-Douglas es
can la restricci6n
P2~ I - P,
donde Yes el numero de bareos prod ucidos al ana, K es el numero de terminales (uni dades de capital) ulili zadas cada ano y L es e[ numero de trabajadores utili zados cada
ana .
La funci6n de produccion Cobb-Douglas restringida se transforma en la forma de
est imacio n:
para hacer una estimacion par mfnimos cuadrados.
La est imaci6n del modelo de regresi6n se nluestra en la Figura 13.17 y la ecuacion
resullanle es:
log
G) ~
3,02
+ 0,84510g (~)
(13.31)
En este resultado, vemos que el coeficiente del modelo estimado, bb es 0,845. Por 10
tanto, b2 = 1 ~ 0.845 = 0, 155. Par Ultimo, log (b o) = 3,02. Este ana li sis muestra que el
84,5 pOl' ciento del valor de la produccion procede del trabajo y el 15,5 por ciento del
542
Estadistica para administraci6n y economia
The regression equation is
logbotunit
3 . 02 ~ 0 . 845 logworunit
Predictor
Constant
logworun
Coef
SE Coef
T
p
3 . 02325
0 . 81\479
0 . 04387
0 . 09062
68.92
9.32
0 . 000
0 . 000
R- Sq", 79 . 8\
S " 0 . 1105
R-SQ(adj)
'" 78.9t;
Analysis of Variance
Source
Regression
Residual Er r or
Total
OF
1
SS
1 . 0618
22
23
0 . 2688
1.3306
MS
F
P
1 . 0618
0 . 0122
86.90
0 . 000
Figura 13.17. AnAlisis de regresi6n de la fu nci6n de producci6n restringida (salida Minitab).
capital. Tras rea lizar las oportunas transformaciones algebraicas, cl modele de la Fun ~
ci6n de producci6n es
Y - 20.49K"·'4> LO.,,,
(13.32)
Esta Funci6n de producci6n puede util izarse para predecir la prod ucci6n esperada lItil i~
zando diversos niveles de capital y de tTabajo.
La Fi gura 13. 18 muestra una comparaci6n del ntimero observado de barcos y el nil·
mere predicho de barcos a partir de Ia ecuaci6n de regres i6n transformada. EI numero
predi cho de barcos se ha calculado utili za ndo la ecuaci6n 13.32. Ese amllisis tambien
indica que el R"l de In regresi6n del m1mero de barcos Con respecto al numero predicho
de barcos es 0.973. Este R2 puede interpretarse exaclamente igual que el R2 de cualquier
modelo de regresi6n lineal y, por 10 tanto, vemos que el mlmero predicho de barcos
conslituye un buen aj uste de los datos observados sabre la producci6n de barcos. El R2
de los datos de la regresion transFormada de la Fi gura 13. 17 no puede interpretarse fucilmenle como un indicador de la relaci6n entre el numero de barcos producidos y las
variabl es independientes del trabajo y el capital , ya que las unidades estan expresadas
en logaritmos de cocientes.
Number of Boats
= 11.82 + 1.199 Forecast Number of Boats
500
5
R·Sq
:
R-5q(adj)
400
.•••
~
•
300
~
...••E
,
z
•
200
•
••
•
•
•
100
•
••
0
0
100
200
300
Forecast Number of Boats
400
Figura 13.18. Comparaci6n de la producci6n observada y la predicha.
25.t 9t6
9 7.3%
97.2%
Capitulo 13,
543
Regresi6n multiple
EJERCICIOS
Ejercicios basicos
13.54. Considcrc las dos ccuaeiones siguienles eslimadas utilizando los tnelodos desarrollados en eSle
apartado.
i. Yi
Segun los esludios recientes de una consultora
nacionaI. los eoefieientes del modelo deben lener la siguiente restricei6n:
fl, + ii, ~ 2
= 4x u
ii. Yi = I
+ lx i + ~
Calcule los valores de y,. cuanda
8, 10.
Xi
= I, 2, 4, 6,
13.55. Considere las dos ecuaciancs siguientcs eSlimadas utilizando los mciodos desarrollados en este
apanado.
i. Yi = 4xl.~
ii. Yi = I + 2rj +2xt
Calcule los valores de Yi cuando xi = 1, 2, 4, 6,
8, 10.
13.56. Considcre las dos ecuaciones siguientes estimadas utilizando los melodos desarrollados en este
apartado.
i. Yi = 4xu
ii. Yi = 1 + lxi + 1,7x~
Ca1cule los valores de y,. cuando Xi = I, 2, 4, 6,
8, 10.
13.57. Considere las dos eeuaeiones siguientcs cSTimadas uti li zando los melodos desarrollados en este
apartado.
i. Yi = 3Xl ,2
ii. Yi = 1 + 5Xi + 1,5x~
Calcu le los valorcs dc Yi cuando Xi = 1, 2, 4, 6,
8, 10.
Ejercicios aplicados
13.58. Describa un ejempJo ex trafdo de su experiencia
en el que un modelo cuadn'it ico sea mejor que
un modelo lineal.
13.59. Juan Sanchez. presidcnte de Estudios de Mercado, S.A. , Ie ha pedido que estime los eoeficienles del modelo
Y = {Jo
+ {J1Xl + {J2X~ + {J1X2
donde Y son las vcntas esperadas de sumi nistros
de oficina de un gran distribuidor minorisla de
sum inistros de ofieina, X l es la renla total dispDnible de los residentes que viven a menos de
5 kil6metros de la tienda y X2 es eJ nutnero 10tal de personas cmpleadas en empresas euya actividad se basa en la informacion que se eneuentran a menos de 5 ki l6metros de la tienda.
Dcscriba como eSlimarfa los coeficientes de!
mode!o utilizando el metodo de minimos cuadrados.
13.60. En un estudio de los dctcrminanles de los gastos de los hogares en viajes de vacaciones, se
obtuvieron datos de una muestra de 2.246 hogares (vease la refcrencia bibliografiea). EI mode10 estimado era
logy
=
- 4,054+ 1, 155610gxl -0,440Slogx2
(0.0546)
(0.0490)
R' ~ 0,168
donde
Y = gasTo en viajes de vaeaciones
= gasto total anual de eonsumo
X 2 = numero de miembros del hogar
XI
Los nutneros entre paremcsis que se encucnlran
debajo de los eocficientes son los errores tfpicos
de los eoefidcntcs csti mad os.
a) Interprete los coeficientes de regrcsi6n esti-
mados.
b) imerprete el coeficiente de determinacion.
c) Manteniendosc todo 10 demas eonstante, halie el intervalo de confianza al 95 par demo
del aumento poreentual de los gastos en viajes de vacacioncs provocado por un aumenlo
del gasto anual tolal de consumo de un I por
eiento.
d) Suponiendo que cl modelo eSla especificado
correetamente, eonlraSle al nivel de significaei6n del I por ciento la hip6tesis nula de
que, manteniendosc todo 10 demas constante, el numero de miembros de un hogar no
afccta a los gastos en viajes de vacaciones
fre nle a In hipotesis alternaliva de que
cuanto mayor es el numero de miembros
del hogar, menor es el gasto en viajes de vaeaciones.
13.61. En lin estud io. se estim6 el siguiente modelo
para una muestra de 322 supermcrcados de
grandes zonas metropolitanas (vease la referencia bibliografica 3):
Logy = 2,921
+ 0,680 logx
(0.077)
f(2 =
0,19
544
Estadistica para adminlstracion y economia
glas- que prediga el numero de mi cro procc~a_
dores producidos por un fabricante. Y. Cll fUIl _
ci6n de las unidades de capital. Xl: las unidade~
de trabajo, X2, y el numero de informaticos que
rcu1i7..un investi gaci6 n basica. X). Especifique la
forma del modclo e indique con cuidado y exhausl ivamcntc c6mo estimarfa los coeficientes.
Hugalo utilizando primcro un modelo sin rcstricciones y a conlinuaci6n incluyendo la restricci6n de que los cocficicntcs de las Ires vari ablcs deben sumar I.
donde
y = tamai\o de la tienda
x = renta mediana del distrito poslal cn el que
se encuentm la tienda
Los numeros entre parenlesis que figurnn dcba~
jo de los coefic ienles son los errores Ifpicos de
los coeficientes eSlimados.
a) interprcle el coeficienle estimado de log x.
b) Contraslc la hip61csi s nula de que la renta
no infiuye en el tamano de In ticnda frcntc a
la hip6Lcs is al lernaLiva de que un aurnento
de la ['emu tiende a ir acompufiado de un
aume nto del tamano de la tienda.
13.64. Considere el sigui ente modelo no lineal COn
crrores multiplicativos.
13.62. Un economisU\ agrfcola cree que la canti dad
consumida de carne de vacuno (y) en toncladas
al ano en Estados Unidos depende de su precio
(XI) en d61ares por ki lo, del prccio de la carne
de porci no (X2) en d61ares por kilo, del prccio
del polio (x) en d61ares por kilo y de la renla
por hagar (X4) en mi les de d6lares. Se ha oblenido la siguientc regrcsi6n muestrol POI' mfnimos cuadrados utili zando 30 observacioncs
anuales:
y = fJoXf'X~XglXh;
p, + p,
+ O,416 10gx4
(0. 103)
1
113+P4 ~ 1
a) Muestre c6mo obrendria estimaciones de los
cocfi cicnles. Deben satisfacerse las restricdalles de los coeficienles. Muestre lodo 10
que hace y explfq uelo.
b) loCual es la elasticidad constanle de Y con
rcspecto a X4 ?
Logy= - 0,024 - 0,529 10gx, + 0,217 logx2+ 0,193 logx3
(0.168)
~
(0.\06)
Sc rccom ienda que los siguiemcs cjercieios se
resuelvan con la ayuda de un computador.
R2 = 0,683
(0. 163)
Los numerus entre parcntesis que se encuentran
debajo de los cocfi cientes son los errores I{picos
de los coeficientes estimados.
Intcrprctc cI eocfici ente de log X I '
b) Interprete el coefic iente de log x2'
c) Contraste al nivel de significac ion del I POI'
d ento la hip61esis nula de que el coeficiente
de logx4 en la regresi6n poblacional es 0
frente a la hip61esis altemativa de que e..<; positivo.
d ) Contrastc la hip61esis nul a de que las cuatro
variables (logxl' logx2' log x), logx4 ) no liencn, en conjunto, ninguna influencia lineal
en logy.
e) Al econom isla lambicn Ic prcocupa que la
crec ienle concienciaci6n de las consecucncias del consumo frecuente de came roja para la salud pueda haber influ ido en !a demanda de carne dc vacuno. Si eso es asf,
loc6mo influ irfa en su opini6n sobre la regresi6n eslimada original?
.1)
13.63. Le han pedido que desarrolle una funci6n de
produccion cxponenci al -forma Cobb-DoLL-
13.65. , j Angclica Chandra, presidenta de Benefi ts
Rescarch Inc., Ie ha pedido que esludie la estructura snlnri al de su emprcsa. Benefits Research ofrece consu ltoria y gcsli6n de los programas de seguro medico y de jubi laci6n para
los empleados. Sus cJienles son grandes y medianas cmprcsas. Primero Ie pide que desarrotlc
Ull modclo de rcgrcsi6n que eSlime el salario es-.
perado en funci6n de los anos de cxpcricncia en
la empresa. Debe examinar modelos lineales.
cuadraticos y cubicos y averiguar CUll l es mas
adccuudo. Eslime modclos de regresi6n adecuados y cscriba un breve informe quc rccomiende
el mejor modelo. Uli lice los dulOS del fi chero
Benefi ts Research.
13.66.
#. EI
fic hero de duloS German Im ports muesIra las importaciones real es alemanas (y). el
consuillo privado real (XI) y el tipo de cambio
rcal (x2) en d61ares estadouni dcnses pOl' marco
de un periodo de 3 1 arios. Esli me el modelo
y escriba un informe sobre sus resultados .
Capitulo 13.
Regresi6n multiple
545
13.8. Utilizacion de variables ficticias !In modelos de~gresion
En el amllis is de la regresi6n multiple, hemos supuesto hasta ahora que las variables independ ientes, xj , ex istfan en un rango y conten fan muchos valorcs difcrcnles. Sin embargo,
en los supuestos de ]a regres i6n multiple la unica restricc i6n a la que estan sujems las variab[es independientes es que son valores fijos. Por 10 Ian to, podrfamos tener una variable
independiente que tamara solamente dos valores: Xj = 0 Y .lj = [. Esta cstructura se denomina normalmcntc variable fieficia, y veremos que co nstituye un val ioso instrumento para
aplicar la regresi6n multiple a situaciones en [as que hay variab les categ6ricas. Un importante ejemplo es una funci6 n lineal que varIa en respuesta a alguna innuencia. Consideremos primero una ecuaci6n de regresi6n simple:
y ~
(iu+ (i,X,
Supongamos ahora que introducimos una variable fictic ia, Xl' que toma los valores 0 y I Y
que la ecuaci6n resultante es
y~
fJo + /J,X, + (i,X2
Cuando X 2 = 0 en esla ecuaci6 n, la constante es f3l), pero cuando X 2 = 1, la constanle cs
flo + fl2· Yemos, pues, que [a variable fict icia desplaza la relaci6n lineal entre Y y X] en el
valor del coefic iente f32. De esta forma, podcmos representar el efecto de los desplazamienlOS en nuestra ecuaci6n de regresi6n. Las variables ficticias tambien se [Iaman va riables de
illdicador. Comenzamos nuestro ana lisis con un ejemp lo de una importante aplicaci6n.
EJEMPLO
13.13. Amilisis de la discriminacion salarial
(eslimacion de un modelo utilizando variables ficlicias)
Gender
and
Salary
EI pres idente de Investors LLd. quiere averiguar si existe alguna plUeba de la presencia
de discriminaci6n salarial en los salarios de las mujeres y los hombres anali stas financieros. La Figura 13. 19 muestra un ejemplo de los salarios anuales de los analistas en
relaci6n con sus anos de experiencia. Yease el fich ero de datos Gender and Salary.
Solucion
Examinando los datos y el grMico, vemos dos subconjuntos diferentes de salarios y parece que los sa larios de los hombres son uniformemente mas attos cualesquiera que sean
los anos de experiencia.
Este problema puede anali zarse estimando un modelo de regresi6n multiple del salario, Y, en funci6n de los anos de experiencia, Xl> con una segunda variable, X2 , que lOrna dos valores:
o
Mujeres analistas
Hombres analistas
El modelo de regresi6n multiple resullante
puede analizarse ulili zando los metodos que hemos aprendido, senalando que el coeticiente b] es una estimaci6n del aUlllent.o anual esperado del salario par ana de experien-
546
Esladislica para administraci6n y economia
Scatterplot of Annual Salary (Y) vs Years Experience (Xl)
110000
"""""
•
100000
)C
•
•
90000
(X2)
O=fema le
i - Male
•
•
0
1
~
..
•.,i:"
,•<
80000
'"
60000
<
• •
70000
•
•
•
•
50000
40000
•
•
•
5.0
7.5
10.0
12.5
Yers Experience (Xl)
15.0
175
Figura 13.19. Ejemplo de una paula de datos que indica la existencia de discriminaci6n salarial.
cia y b2 cs el au mcnto que experimenta eI salario medio cuando el analisla es un h OIl1~
bre en Jugar de una mujer. Si b2 es positivo, eso indica que los salarios de los hombres
SOil un iformemenle mas altos.
La Figura 13.20 presenta el anali sis de regresi6n multiple de Minitab para este pro~
blema. En este an6. li sis vemos que el coeficiente de Xl -gender- tiene un eSladfstico t
de Student igual a 14,88 y un p-valor de 0, 10 que nos Ileva a rechazar la hi pOles is nul a
de que el codiciente es igual a O. Este resu hado indica que los salarios de los hombres
son sign ificati vamente mas altos. Tambien vemos que b2 = 4.076,5, 10 que indica que
el valor esperado del aumento 8nual es 4.076,50 $ Y que b l = 14.638,7, 10 que indica
que los salarios de los hombres son, en promedio, 14.683,70 $ m~1s altos. Este tipo de
amilisis se ha util izado con exilo en algunos juicios sobre discriminaci6n salarial, por 10
que la mayoria de las empresas realizan anali sis parecidos a este para averiguar si existe
algun a prueba de discriminaci6n salaria!.
Esle tipo de ejemplos tiene numerosas apl icaciones en algunos problemas entre los
que se encuenlran los sigu ientes:
1.
2.
3.
4.
Es probable que la relaci6n entre el numero de unidades vendidas y el precio se
desplace si entra un nuevo competidor en el mercado.
La relaci6n entre el consumo agregado y la renia di sponible agregada puede
desplazarse en tiempos de guerra 0 como consecuencia de algun otro gran acon~
tecimi ento nacional.
La relaci6n entre la producci6n total y el numero de trabajadores puede desplazar~
se como consecuencia de la introducci6n de una nueva tecnologia de produccion.
La funci6n de demanda de un produclo puede variar como consecuencia de una
nueva campana publicitaria 0 de la publi caci6n de una nOlicia relativa al producto.
Este anali sis ha in Lroducido el concepto de regresi6n l1ti lizando variables ficticias como
un metodo para ampliar nueslra capacidad de anal isis. El metodo se resume a continuaci6n.
Capitulo 13.
Regresi6n multiple
54 7
The regression equation is
Annual Salary (Y) = 23608 + 14684 Gender (X2) O=Fema l e l=Male
+ 4076 Years Experience (Xl)
Predictor
Constant
Gender (X2) O=Female l =Male
Year Experience (Xl)
S = 1709.48
R-Sq = 99 . H
Coef
T
p
1434 16.46
987 . 0 14.88
121.3 33 . 61
0 . 000
0 . 000
0 . 000
S8 Coef
23608
14683 . 7
407 6 . 5
R-Sq (adj) = 99.2%
Analysis of Variance
Source
Regression
Residual Error
Total
Figura 13.20.
DP
2
9
11
SS
39 4824096
26300913
3974541710
MS
1974120398
2922324
P
675 . 53
P
0 . 000
Analisis de regresion del ejemplo de la discriminacion salarial: salario anual en relacion
can los anos de experiencia y el sexo (salida Minitab).
Analisis de regresi6n utilizando variables ficticias
La relaci6n entre Y y X,
puede desplazarse en respuesta a un cambio de una determinada condicion. EI etecta del desplazamiento puede estimarse utilizando una variable ficticia que tiene el valor 0 (no se cum pie
la condici6n) y 1 (se cumple la condicion). Como muestra la Figura 13.19, lodas las observaciones del conjunto superior de puntos de dalos lienen la variable ticlicia x2 = 1, Y las observaciones de los puntos inferiores tienen la variable ficlicia x2 = O. En estos casos, la relaci6n entre Y y X, es especificada por el modelo de regresion multiple
(13.33)
EI coeficiente b2 represenla el desplazamiento de la funcion entre el conjunto de puntos inferior
de la Figura 13.19 y el superior. Las funciones de cada conjunto de puntos son
y=
bo + bXI
cuando
Xl
=
0
y
cuando
X2
=
1
En la primera funci6n, la constante es bo' mientras que en la segunda es b o + b 2 • En el Capitulo 14 mostramos c6mo pueden utilizarse las variables ficticias para analizar problemas que lienen mas de dos categorfas discretas.
Esla sencilla espec ificaci6n del modelo de regresi6n lineal es un instrumento muy poderoso para resolver los problemas que implican un desplazamiento de la funci6n linea l
provocado por factores discretos identificables. Ademas, la eSlruClura de regres i6n mUltiple
es un metoda directo para realizar un contraste de hip6tcs is, como hemos hecho en el
cjemplo 13.13. El contraste de hip6tesis es
Ho: p, ~
0 III, '" 0
H,:P2",OIII, ,,, O
548
Esladfslica para adminislraci6n y econom(a
EI rechazo de la hipolesis nula, Ho, !leva a la conclusi6n de que la con stante de los dos
subconjuntos de dalos es diferente. En el ejemplo 13. 13 hemos visto que esta difercncia
entre las constantes lIevaba a la conclusion de que existia una diferencia sign ifica liva entre
los salarios masc ulinos y los feme ni nos una vez eliminado e l efecto de los ailos de expe~
riencia.
Diferencias entre las pendientes
Podemos utilizar variables ficticias para analiza!' y con lraSlar las diferenc ias entre las pen~
dientes aiiad iendo una variable de interacci 6n . La Figura 13.21 muestra un ejemplo repre~
se nlalivo. Para con trastar tanlo las diferenc ias enlre las constantes como las di ferenc ias e n ~
Ire las pendiellles, utili zamos un modelo de regres i6 n mas complejo.
Gender (><2) Experience
Years
Annual
times
Experience Salary
O=Female
Gender
(X I)
l =Male
(V)
0
0
5 $36,730
0
0
0
0
0
1
1
I
I
1
I
0
0
0
0
0
5
7
9
10
14
17
7
9
10
14
17
5
7
9
10
14
17
Annual Salary vs Years of Experience
for Male and Female Engineers
140,650
$46,820
150 ,149
$59,679
167,360
151,535
162,2ffi
172,486
175,022
193,379
$105,979
1120,OCXl
11 00 ,OCXl
~
11:1
•
$00 ,(xx)
•
••
••
5
10
~
'"•
..c
c
160,000
540,000
•
•
•
I
520,000
10
o
15
20
Years of Experience
Figura 13.21.
Datos salariales anuales de Systems Inc.
Regresi6n utilizando variables ficticias para contrastar
las diferencias entre las pendientes
Para averiguar sl existen diferencias significativas entre las pendientes de dos condiciones discretas, hay que expandir nuestro modelo de regresi6n a una forma mas compleja:
(13,34)
Ahora vemos que la pendiente de x, conliene dos componentes, /3, Y fJaX2. Cuando X2 es igual
a 0, la pendiente es el /1, habitual. Sin embargo, cuando X2 es igual a 1, la pendienle es igual a
la suma algebraica de {Jl + {l3' Para estimar 81 modelo, necesitamos en realidad crear un nuevo conjunto de variables transformadas que sean lineales. Por 10 tanto, el modelo utilizado realmente para la estimacion es
(13,35)
Capitulo 13.
Regresion multiple
549
EI modelo de regresion resullanle ahora es lineal con Ires variables. La nueva variable, X 1X2 ' a
menudo se llama variable de interacci6n. Observese que cuando la variable ficticia x2 = 0, esla
variable liene un valor de 0, pera cuando x2 = 1, esla variable Ilene el valor de Xl' EI coeficienIe b3 es una eslimacion de la diferencia entre et coeficienle de X 1 cuando x2 = 1 Y el coeficienIe de X1 cuando x2 = O. Por 10 lanlo, puede utitizarse el estadfslico t de Siudent de b3 para
contrastar las hipotesis
Ho:{!, ~ Ol/!, #0. {!, # 0
H , : ii,
'" 0 I{!, '" O. ii, '" 0
Si rechazamos la hipotesis nula, concluimos que existe una diferencia entre las pendientes de
los dos subgrupos. En muchos casos, nos interesara tanto la diferencia entre las constantes
como la diferencia entre las pendientes y contrastaremos las dos hip6tesis presentadas en esIe apartado.
EJEMPLO 13.14. Modelo de los salarios para Systems Inc.
(estimacion de un modelo utilizando variables ficticias)
EI presidente de Systems Inc. esta interesado en saber si las subidas salariales anuales
de las ingenieras de la empresa han sigo iguales que las de los ingenieros. Ha habido
algunas quejas tanto de los ingenieros como de las ingenieras de que los salarios de cstas no han subido al mismo ritmo que los de aqucllos.
Solucion
La Figura 13.2 1 mueSlra los datos de ]a empresa y un diagrama de puntes disperses.
EI diagrama sugiere que la pendiente es nuts alta en el caso del subgrupo superior, que
representa a los ingenieros. En la Figura 13.22 presentamos el amllisis de regresi6n multiple realizado con el programa Excel, que puede utilizarse para contrastar la hip6tesis
de que las tasas de subida de los dos subgrupos de ingenieros son iguales. En este amilisis vemos que la experiencia multiplicada pOl' el sexo ticne un estadfstico I de Stu;
;
, Ii
;
Gender
and
Salary
Increase
i nmultip le
0,,""
;
0,,""
G"d.,
,
,
S"m,
I,,;~;
F
,
"
d. F
,
(
;
,
Figura 13.22.
,
I
,
Am'ilisis de regresi6n del salario anual en relaci6n con la experiencia y el sexo (salida Excel).
550
Esladislica para adminislracion y econom ia
dent de 14,20 Y Ull p-valor de O. Rechazamos la hip6tesis nu la de que, a medida que
aumenta la experienc ia, los salarios de los ingenieros y de las in genieras han subido al
mismo rilmo. Por 10 tanto, sera importante lomar medidas para abordar la discrimina_
ci6n salarial que es cvidenle en los dalos. Los datos se encueniran en el fichero Gender
and Salary Increase.
EJERCICIOS
Ejercicios basicos
13.67. l,Cuul es la constante del modelo cuando la variable fictic ia es igual a I en las siguientes
ecuacioncs, donde Xl es una variable continua y
X2 es una variable fi cticia que toma un valor de
00 I ?
a) ; = 4 + 8Xl + 3X2
b) = 7 + 6x 1 + 5x2
c)
= 4 + 8.Xl + 3x2 +
4X jX2
13.68. ;..Cm"il es la con sta nte del modele y el coeficienIe de la pendiente de Xj cuando la variable ficticia es igual a I en las siguientes ecuaciones,
donde x. es una variable continua y X2 es una
variable ficticia que toma un valor de 0 0 I?
Y= 4 + 9xj +
1,78x2 +
3 ,09xjX2
y= -3 + 7xl + 4 , 15x2+ 2,5Ix.X2
y = 10 + 5x. + 3,67x2 + 3,98x1X2
Ejercicios aplicados
13.69. EI siguiente modelo se ajusl6 a las obscrvaciones de 1972- 1979 en un intento de explicar la
conducta de la fijaci6n de los prccios.
; = 37xI
y=
-1 .264
+ 5,22t2
(0.029)
(0.50)
donde
y = diferencia entre el precio del ano actual y
cl pretio del ano anterior en d61ares por
barril
XJ = diferentia enlre el precio 01 contado en el
ana actual y el precio al contado en el ano
anterior
X2 = variable fic licia que lama el valor I en
1974 y 0 en los demas. para representar el
cfcC10 cspecffico del embargo del petr6leo
de esc ano
Los nlllneros entre parentesi.s situados dcbajo de
los coeficientes son los errores tfpicas de los
coc fi cicntcs estimados.
Intcrprete vcrbal y grtificamente el coefi cieotc estimado de In variable fiC licia.
+ 48, 18xl + 3.382\"2
(0.91)
(S IS)
+ 3.2 19x4 + 2.005xs
(947)
Y
y
a)
b)
c)
.13.70. Sc ha ajuslado cl siguiente modelo para expli car
los precios de venta de los pisos de una muestra
de 8 15 ventas.
(768)
ff2
- 1.859x)
(488)
= 0,86
donde
= precio de venlu del piso, en d61ares
Xl = melros cuudrados (itiles
X2 = tamana del gamje en mlmero de autom6viles
x ) = antiguedud del pi so en anos
x" = variable fic ticia que toma e1 valor I SI el
piso tiene ch imenca y 0 en caso contrario
Xs = variable fic licia que lorna el valor I si el
piso liene suelos de madern y 0 si liene
suclos de vi Ili 10
a) lnlerprete el coeficiente estimado de X4'
b) Interprete el cocfici ente estimado de Xs.
c) Halle el interva lo de confianza al 95 por
cicnto del efecto de una chimenea en cl precio de venia, manteniendose todo 10 dcmas
constante.
d) Contmste la hip6tcsis nula de que el tipo de
sueIo no afecta al pretio de venta frente a la
hip6tesis altcrnativa de que, manleniendosc
todo 10 demas constantc, los pisos con suc lo
de madera tienen un precio de venta mas al to que los pises con sue lo de vinila.
y
13.71. Se ha ajustado el siguietlte modele a datos sobre 32 compafifas de seguros.
; = 7,62 - 0, 16x.
(0.008)
+
1,23x2
R2 = 0,37
(0.496)
donde
y = relaci6n preeio-benefi cios
Xl = volumcn de activos de las compafifus de
seguros, en miles de milloncs de d61ares
x2 = variable fi cticiu que toma el valor 1 en el
caso de las companfas regionales y 0 cn c1
de las nacionales.
Capitulo 13.
Los numeros en!re parcntesis siwados debajo de
los coeficie ntes son los errores tfpicos de los
coeficientcs estimados.
.y
XI
riable fieticia.
b) Contraste la hip6tesis nula de que el verdadero coeficiente de [a variable ficticia cs 0
frente a la hip6tcsis alternaLiva bilateral.
c) Contraste al nivel del 5 por ciento la hip6lesis nula #1 = (J2 = 0 e interprete su resultado.
a
.\"3
res
x~
= variable fieticia que lorna el valor I 5i los
del estado
x6
+ (J IX] i + {JzX2i + {J:'x3i + I:;
a) Interprete el coefi cienle esri mado de In variable ficticia X5.
b) Interprete el coeficiente estimado de la va·
riable fie ticia x6.
c) Contraste al nivel del 5 pOI" cienlo la hi p6tesis nula de que el verdadero coeficientc de
la variable ficlicia Xs es frente a la hipotesis alternativa de que es posilivo.
d) Controste al nive[ del 5 por cic nto la hi p6lesis nul a de qLle el verdadero coeficiente de
la variabl e ficticia X6 es frente a la hip6te~
sis alternativa de que cs negativo.
c) Hall e e interprete un nivel de confianza del
95 por cienlo del para metro Pl .
Utilice la parte de la salida de la regresi6n esti·
mada mostrada aquf para escribir un informe
que resuma los resultados de este estudio.
MODEL
3
ERROR
"
CORRECTED
TOTAL
49
PARAMETER
641 .
"
MEAN
SQUARE
FVALUE
R-SQUARE
7.13.68
8.48
.356
1159 . 66
6 . 51.2
INTERCEPT
3 . 502
0 .4 91
10 .3 27
x3
,
1. 45
. 59
2 . 45
STD. ERROR
OF ESTIMATE
2 . 419
0 .1 07
4 . 213
13.73. EI siguiente modelo se ajust6 a datos de 50 estados de Estados Unidos.
y=
13.472 + 547xI
(124.3)
- 3.IOOX6
( 1.761)
°
1800 . 70
ESTIMATE
Xl
X2
°
25.21
T FOR HO:
PARAMETER '" 0
+ 5,48x2 + 493x3 + 32,7x4 + 5.793x5
(1.858)
R2 = 0,54
(208.9)
(234)
(2.897)
magistrados del tribunal supremo del esta~
do pueden ser cesados por el gobcrnador,
par el consejo del poder judicial 0 mediante una votaci6n por mayorfa del tribunal
supremo y 0 en casu conlrario
= variable ficticia que lama el valor I si los
magislrados del tribunal su premo son dcsignados tras unas elecciones en las que
inLervienen los partidos poHticos y 0 en
caso contra rio
Los numeros entre parcntcsis situados debajo de
los coeficientcs son los errores tfpicos de los
coeficienles estimados.
°
SUMOF
SQUARES
miles de d61ares
nlimero de leyes aprobadas en la [cgislalllra anterior
= numero de acluaciones de los tribunales de
los estados que dieron lugar a una anulaci6n de legislacion en los 40 anos anterio= duraci6n del mandalo del fisca l general
Yi = ealificaci6n que rdleja el rendimiento glo~
bal de los estudiantes en sus eSludios de
postgrado en derecho
Xli = calificaci6n media de los estudios de grado
X 2i = ca[ ificac ion ell el examen de aceeso a la
universidad
x3i = variable ficlicia que toma el valor I si las
cartas de recomendaci6n del eSLUdiante
son excepcionalmente buenas y en caso
contrario
DF
sueldo anual del fiscal general del estado
.\"4
donde
SOURCE
=
= sueldo anual medio de los abogados en
X2 =
13.72. EI deeano de una facultad de derecho querra
eval uar la importancia de factores que podrfan
ayudar a predecir el exito en los estudios de
postgrado en dcrecho. Sc obtuvieron datos de
una muestra aleatoria de 50 estudianles cuando
lerminaron SLIS eswdios de poslgrado en derecho y se ajust6 el siguiente modelo:
=
551
donde
a) Interpretc el coeficicn lc estimado de la va-
Yi
Regresi6n multiple
13.74. Un grupo consultor ofreee cu rsos de gesti6n financiera para los ejecutivos. Al final de estos
cursos, los participanles deben hacer una valoracion global del valor del curso. Se estim6 para una muestra de 25 cursos In siguiente regresian por mfnimos cuadrados .
y=
42,97
+ 0,3&.1."] + O,52x2
(0.29)
R2
(0.21)
- 0,08X3
(0.1 J)
+ 6.21x4
(0.359)
0,569
=
donde
y
=
va loraci6n media realizada POI" los parlici panIcs en el curso
552
Esladfslica para administraci6n y economia
porcentaje del tiempo de l curso dedicado a
scsiones de discusi6n en grupo
= dinero, en d6larcs, par miembro del curso
decl ieados a prcparnr el malerial del curso
= dinero, en d6lares, por miembro del curso
gaslado en comida y bcbida
= variable fic ticia que toma el valor I 51
in lerviene en el curso un profesor visitantc
y 0 en caso contra rio.
XI =
xl
x~
X2
Los mimeros entre parenlesis sllUados debajo de
los coeficicntcs son los errores tfpicos de los
coeficientcs eSli mados.
a) Interpretc cI cocfi ciente eSlimado de x 4 .
b) Contraste la hip6tesis nu la de que el verda-
dero coeficiente de X4 cs 0 frenle a la hip6lesis alternativa de que es positi vo.
c) Interprete el coerieiente de determi naci6n y
ulilfcelo para eontrastar la hip6tesis nula de
que las cuatro variables indepcndientes. consideradas en conjunto. no influyen li nealmenle en la variable dependiente.
d) Halle e interprele el intervalo de con fi anza
al 95 por ciento de P2'
13.75. En un estud io, se estimo un modelo de regresi6n para camparaI' el rcndimiento de los estudiantes que asistfan a un eurso de estadfslica
para los negocios: un eurso normal de 14 $Cmanas 0 un curso intensivo de 3 semanas. Se
estim6 el siguienle modelo a parti r de las obscrvaciones sobre 350 cSludianles (vease la rcfereneia bi bJiografica 5):
y= -
0.7052
+ 1.4170x I + 2, I 624x2 + 0.8680x)
(0.4568)
+
1,0845x4
(0.3766)
(0.3287)
(0.4393)
+ 0,4694xs + 0.OO38x6 + O.0484x7
(0,0628)
(0.0094)
(0,0776)
R2 = 0,344
donde
y = culi fi euci6n obtcnida en un examen norm(lliz(ldo sobre los conocimientos de cstadisliea despues de asisti r al curso
XI = variable fiClicia que lOrna el valor I si se
asisti6 a un curso de 3 sem.mas y 0 Sl se
asisti6 a un curso de 14 semanas
X 2 = calificaci6n media del estudiante
Xl = variable fi eticia que toma el valor 0 0 I,
dependiendo de ellal dc dos profesorcs imparliera el curso
.1"4 = variab le fi cticia que toma el valor I si el
cstud iante es varon y 0 si es mujer
Xs = cali ficac i6n oblenida en un examen nor-
X6
.1"7
malizado sobre los conoci mienlos de matematieas antes de ;lsiSl ir al eurso
= numero de creditos semcslrales que hubi:!
completado el eSl udi unte
= edad del estudiante
Los numeros entre parentcsis situados debajo de
los coefieienles son los errores tfp icos de los
coe fici entes eSlimados.
Escriba un infomle analizando 10 que pucdc
aprenderse con csta regresi6n ajustada.
Se recom ienda que los sigu ientcs ejercieios
se rcsuelvan con In ayuda de un compulUdor.
13.76. f .. En un estudio de 27 estudiantcs de la Universidad de lllinoi s sc obtu vieron resultados sobre la calificaci6n med ia 0'), c1 numero de horus scmanalcs dedi cadas a eSiudiar (XI), c l nuI11cro medio de horas dcdicadas a eSIt:d iar pura
los examenes (X2), el numero de horas scmtlnaIcs pasadas en los b:lres (x)). el hecho de quc
los CSludiantes tomcn nOlas 0 subrayen cuando
Iccn los libras de texto (X4 = I si sf, 0 si no) y
el numcro medio de ered itos realizados par semestre (xs) . Estime In rcgresi6n de la ca lifieaci6n media con rcspeclo a las cinco vari ables
independicntcs y escriba un infonnc sabre sus
resultados. Los dalOS se cncucnlran en el lichero de datos Student Perrormance de su disco
de dmos.
13.77. ~ -t Lc han pediclo que desarrolle un modelo para anali zar los salarios de una gran empresa.
Los datos para desarrollarlo se encuentran en el
fichero llamado Salorg.
a) Utili zando los datos del fichero. desarrolle
un modelo de regresi6n q ue prediga el salario en funei6n de las variables que se lecc ione. Ca1cule los eSladisricos F y t condicionudos del eoe lieienle de cada variable de
predicci6n inc1 uid:l en el modelo. MuCSlre
lotio 10 que hace y explfquelo minuciosamente.
b) Conrraste la hipOtcs is de que las mujcres tienell un salario anual mt'is bajo condieionado
:I I:ls variables de su modclo. La v:lriable
«Gendec I F» toma el valor I en el caso de
las mujeres y 0 en el de los hombres.
c) Contrasle la hip6tesis de que la I:lsa de subida salafial de las mujeres ha sido mas baja
condicionada a las variables del modelo desarrollado en el apanado (b).
Capitulo 13.
13.9.
Cotton
M~todo
Regresi6n multiple
553
de aplicacion del analisis de regresion multiple
En este apanado presentamos un exten so caso pn"ict ico que indica como se rea lizarfa un
estudio estadfstico. EI eSlud io detenido de este ejemp lo pucde ayudar a utili zar muchos de
los melodbs prescntados en este capitulo y en los anteriores.
EI objelivo de este estudio es desarrollar un Illodelo de regresion mult iple para predeci r
las ventas de teji do de al godon. Los datos para el proyecto proceden del fichero de datos
Cotton, que se encuentra en el disco de datos de estc libro. Las variables de l fich ero de
datos son
quarter
year
cotton q
whoprice
impfab
ex prab
Trimestre del ano
ano de observacion
canli dad de tejido de algod6n producida
indice de precios al por mayor
ean tidad de tej ido importado
cantidad de teji do exportado
Especificacion del modelo
EI pri mer paso para desarroll ar el rnodelo es seleccionar Lln a tcoria cconomica adeeuada
que sirva de base para el amll isis del modelo. Este proeeso de identi ficac ion de un eonjunto de variables de pred iccion probables y la rorma matematica del rnodelo se co noce call e l
Ilombre de espec{{tcacion del mode/a. En este caso, la teorfa adecuada se basa en la de los
modcl os economieos de demanda. La teorfa economica ind ica que cl precio debe producir
un importante efecto: una sub ida del preeio reduce la can tidad demandada. Es probable
que tam bien haya Qt.-as variables que infl uyan en la eantidad demandada de algodo n. Es de
esperar quc la cantidad importada de tejido de algod6 n redllzca la demanda de tejido
interi or y que la cant idad exportada de tejido de algodon aumente la demanda de tej ido
in terior. En el lenguaje econ6m ico, las importaciones y las exportaciones de tejido desplazan la runcion de demanda. Basandonos en este antil isis, nuestra especiricacion inicial incluye el preeia con un eoefie ien te negalivo, el tej ido exportado con un cocficientc posi tivo
yel tej ido im portado con un coet'iciente ncgativo. Se especifica ini cialmente que todos los
coeficientes tienen efeetos li nea les. Por 10 tanto, e l modelo ticne la forma
da nde XI es el prec io al par mayor, Xl es la cant idad de tej ido importado y x 3 es la cantidad
de tejido ex portado.
Tambien ex iste la posih il idad de que la cantidad demandada vade con el tiempo, y, por
10 tanto, el mode lo debe incl uir la posibi lidad de Ll na variable temporal para reducir la variabilidad no expl icada. Para este antilisis queremos uti lizar una variable que represente el
tiempo. Como el tiempo es indicado por una combi naci6n de ano y trimestre, ut ilizamos la
tran sformaci6n
Time = Year + O.2S*Quarter
para producir una nueva variabl e de l tiem po que sea eonlinuamenle creciente.
EI paso siguiente en el amllisis es hacer una descri pci6n cstadfs tiea de las variables y
de sus relaciones. Excl uimos el ano y el trimes tre de este anali sis porq ue han sido sustitu idos par el tiempo y Sll incl usion s610 introduci rfa confusion en el amilisis. Utili zamos cI
554
Esladislica para administraci6n y economia
programa Min itab para oblener medidas do la tendeno ia central y de la dispersion y lalll.
bien para oomprender al go la pauta de las observaciones. La Figll ra 13.23 contienc la sa li.
da Min itab. E1 cxa men de la media, la desv iacion tfpica y el mlnimo y el maximo indi ca la
region pOlencial de apl icaoion del modelo. EI modele de regresi6 n estimado siempre pasa
por la medi a de las variables del modelo. Los valorcs predichos de la variable dependicnte,
«cottonq», pueden utili zarse dentro del rango de las variables independientes.
EI paso siguicnte es examinar las rclaciones simples existentes entre las variables utili zando tanto la matri z de correlaciones como la opcio n de los graJicos matriciales. Estes
deben examinarse conj untamente para averiguar la fuerza de las relaciones lineales (corre.
laciones) y para averiguar la rorma de las re laciones (gn'ifico matricial ).
La Figura 13.24 con tiene la matriz de correlaciones de las variables del estudio elabo.
rada utili zundo Minitab. EI p-valor mostrado con cada correlaci6n indi ca la probabilidad
de que la hip6tesis de la correlaci6n 0 entre las dos variab les sea verdadera. Utili zando
nuestra regia de seleccion basada en el conlraste de hip6tesis, podemos concl ui r que un p_
valor de menos de 0,05 es una prueba de la exislencia de una estrecha re laci6n lineal entre
las dos variables. Examinando la primera colu mna, observamos que cxisten estrechas relndones lineales entre «cottonq}} y tanto «whoprice» como «time». L1 variable «expfab}} ti ene una posi ble relaci6n simple marginulmentc significativa. Una buena regia practica, mostrada en 01 apartado 12. 1, para examin ar los coeficientcs de correlac ion es que cl valor
Figura 13.23.
Esladislicos
descriplivos de las
variables del
mercado del
algod6n (salida
Minitab).
Results for : Cotton.MtW
Descripti ve Statistics: cottonq, w hoprice, impfab, expfab, time
Variable
cottonq
whoprice
impfab
expfab
time
Variable
cottonq
whoprice
imp[ab
expfab
time
Figu ra 13.24.
Correlaciones de las
variables del
mercado del
algodon (salida
Minitab).
N
28
28
28
28
28
N'
0
0
0
0
0
Mean
1779.8
1 06 .81
7 . 52
274 . 0
69 . 625
SR Mean
54 . 9
1.16
1. 38
20 . 3
0 . 389
StDev
290 . 5
6.11
7 . 33
107 . 7
2 . 056
Minimum
1277.0
98 . 00
1.30
80 . 0
66 . 250
Maximum
2287 .0
115.80
27.00
4 77.0
73.000
Correlations: cottonq, w hoprice, impfab, expfab, time
whop rice
cottonq whoprice
-0 . 950
0 . 000
imp fab
i mpfab
0.291
0.133
- 0 .4 39
0 .019
expfab
0.3 7 0
0 . 052
- 0 . 285
0 . 142
0.18 1
0 . 357
-0.950
0 . 000
0 . 992
0 . 000
-0 . 392
0 . 039
time
Ce ll Con tents : Pearson correlat i on
P-Value
expfab
- 0 . 238
0 . 222
Q1
1535.3
100.45
2.78
190.5
67.813
Median
1762 . 5
107 .4 0
4 . 85
277 . 1
69 . 625
Q3
2035.0
11 2.20
9 . 05
358.1
71.438
Capitulo 13.
Regresion multiple
555
abso luto de la corre laci6n debe ser superior a 2 di vidido por la ralz cuadrada del tamano
de la muestra, II. En esle problema, cI valor de sclecei6n es 21fo = 0.38.
La segunda tarea es averiguar si cx isten estrechas relaciones simples entre los pares de
variables de predicci6n posibles. Vemos una estreehfsima correlaci6n entre ~~ Iime» y
«whopricc» y relaciones significati vas entre «impfab» y tanto «timc}) como «whopricc».
Estas elevadas correlaci ones hacen que la varian za de los estimadores de los coeficientes
tanto de «lime) como de «whoprice» sea alta si se incl uyen ambos como variables de pre·
dicci6n.
Tambi en podemos cxaminar [as relaciones entre las variables utili zando [os gr<'ificos
matriciales mostrados en la Figura 13.25. Los diagramas de puntas dispersos individuales
mueslran si mu ltancamente las relaciones entre d iFerentes variables. Constituyen, pues, un
tipo de presentaei6n parecido a una matriz de correlae iones. La ventaja del diagrama de
PUlltos dispersos radiea en que incluye todos los puntos de datos. Tambien se puede vel',
pues, si cx iste una relaci6n no lineal simple entre las variables yJo si ex iste algun agrupa·
miento ex lrano de obscrvaciones. Todas las variables, excepto «year» y «quartef», estan
incluidas en el mismo orden que en In matriz de corre laciones , POI' 10 que hay una comparac i6n direcla entre la matriz de correlaciones y los gn'ificos matri cia1es.
Observese la eorrespondencia entre las eorrelaciol1es y los diagramas de puntos d ispersos. Tanto «whoprice» como (<lime» tienen estrechas relaciones linea les con «cononq». Sin
embargo, la estrecha relaei6n li neal positiva entre «whoprice» y «time» tendra una gran
influencia en los coeficientes estimados, como se muestra en el apanado 13.2, y en los
errorcs tfpicos de los coeficientes, como se muestra en el apartado 13.4. No ex iste ninguna
estrecha relaci6n si mple entre las variables de predicci6n potenciales. Ni las importaciones
ni las exportaciones estan correlacionadas con el precio a1 POI' mayor, con el tiempo 0 entre sf.
cottonq
Figura 13.25.
Graticos matriciales
de las variables del
estlJdio (salida
Minilab).
112
"..
.. ."
~
....
.~
:
.......
whoprice
,, +-----,--'-~I-~~--~
• •
20
• •
••
••
e· ...
hlplab
•
•
.. i"-.~.=:~..~~-'~!c-~',',-'r.'>c'~-~'~'~~=
~'~'~'~'+-..---------.
•
10
e. e..
, •
" -. _..
....- ....
....
. .,....
... . ....
.....
... . _.
•
...
...
100 • •
72
"
•••
••
-
•
e -..
••
._
•
•• •
I.............
• ...
-'
...."... •..
.'..
~
,,~.:.
1'....
..
•
rxpfab
.. ..... ..
.
.
....
.
..
.
.
.
. .. ... ...
·
~<---r--.--~'~'~'~~--~---.--~~'-"~-'~r---~-"'~~'~----i
ISOO 1$00 2 100
96
1M
112
0
10
20
100
300
500
Regresion multiple
El paso sigui ente consiste en esti mar el primer modelo de regresi6n multiple. La tcorfa
econ6mi ca para cste amllisis sug iere que la cantidad produeida de lejido de algod6n debe
estnr relacionada in versamcnte con el precio y con la canlidad importada de tejido y relacionada directamente can la cantidad exportada de tejido. Ademas, la eslrecha correlaci6n
556
Estadisiica para administraci6n y economia
entre el tiempo y la producci6n de tej ido de algod6n indica que la producc i6n dis minuyt>
lineal mente con e l paso del liempo, pero que el precio a[ por mayor lambien subi6 lin eal~
mente con el paso del tiempo. La estrec ha correlaci6 n positiva resultante entre cI ticmJXl y
cl preci o a[ por mayor influye en ambos coefi cicnles en una ecuaci6n de regresi6n rn(ih i~
pi c. Seleccionamos «cQ((Qnq» como variab le depend iente y «wllOprice}}, «impfab », «ex p ~
rab» y «ti me», por ese orden, como variables independientes . E[ primer amili sis de rcgre~
si6n multiple sc muestra en In Fi gura 13.26.
EI aTUl li sis de los cstad fsticos de la regrcsi6n ind ica que e[ valor de R2 es alto y el error
tfpico de [a estimaci6 n (5) es igual a 78,91 , en eomparaci6 n con la desv iaci6n tipica de
290,5 (Fi gura 13.23) de «cottonq », cuando se considera de forma ais lada. Las variables
«irnpbaf;} y «expfnb» son ambas significativas y licncn s ignos que corres ponden a In teoria
econ6 mica. Los pequeiios estadfsticos I de St udent de «whoprice)} y «time» indi can que, en
realidad , existe un grave problema. A mbas variables no pueden incJ uirse co mo predictorcs
porque representan el mismo efecto.
Las reglas para eli minar variables se basan en una combinaci6n tanto de las teorras
INTlRPRETACION subyacentes al modelo como de indicadores estadfsticos. La regia estadfsti ca serfa elim inar
13 variable que tiene el menor t de St udent absoluto, es deci r, «tim e». La teorra economi ca
defenderfa la in clusi6n de una variable del precio en un modelo para predecir la cantidad
producida 0 la cantidad demandada. Vemos que en este caso ambas reg las !levan a la mi srna conclusi6 n. No siempre oellrre asf, por 10 que cs muy importante va [orar bien los reS ll l~
tados y tener daros los objetivos del modelo.
Figura 13.26.
Modelo inicial de
regresion multiple
(salida Minitab) .
Regressio n Analvsis: cottonq versus whopric e, impfab, expfab, time
The regression equation is
cottonq =8876 - 24.3 whoprice - 5 . 57 impfab + 0 . 376 expfab - 65 . 5 time
Predictor
Constant
whoprice
impfab
expfab
time
Coef
8876
-24 . 31
-5 . 565
0.3758
-65 . 51
S = 78.9141
SE Coef
2295
24 . 45
2.527
0.1595
70.24
R- Sq = 93.7\
•
T
3.87
- 0.99
- 2 .20
2.36
-0.99
0.001
0.331
0.03 8
0.027
0.361
R-Sq (adjJ
~
92.6\
Analysis of Variance
Source
DF
Regression
4
Residual Error 23
Tota l
27
ource
whoprice
impfab
expfab
time
DF
1
1
1
1
SS
2134572
143231
2277803
MS
533643
6227
F
85 . 69
P
0.001
Nota
Esta tabla indica
la variabilidad explicada
co ndicionada de cada variable,
dado el orden de entrada
utilizado para esle analisis
de regresion .
Seq S5
2055110
44905
29141
5417
Unusual Observations
Obs Whoprice
18
110
Cottonq
Fit
1810.0 1663.3
5E Fit
29.6
Residual
146.7
se Resid
2.DOR
R denotes an observation with a large standardized residual .
Capitulo 13.
Regresion multiple
557
Es impo rtante fonnular claramente las razones por las que se seleccionan las vari ables
antes de examinar los resultados. En los modelos eeon6micos de demanda 0 de oferta como el que examinamos aquf, desearfamos fervie nlemente seguir la teorla eeon6mica e in clui r cI preeio, a menos que los resultados estad fsticos fueran mlly contrarios a esa decisi6n previa. POI' ejemplo , si eI va lor absoluto de l eSladfslico 1 de Student del liempo ruera
superior a 2,5 0 3 y el valor absoluto del estadfstico f de Student del prccio al pa r mayor
fuera inferior a I, habrfa prucbas contundentes en contra de la teorla de que el prec io es
una importante variab le.
Basandose en este anali sis, se estima un segundo moclelo de regresi6n , mostrado en la
Figura 13.27, en eI que se excluye el liempo como variable de prediceion. Ahara vemos
que la variable «whopricc» cs muy significaliva y que los estadfsti cos s y R2 son esencial mente iguales que los del primer Hllalisi s de regresi6n (Figura 13.26). Observese tambiell
que 1a su ma de los cuadrados de la regres i6n explicada (SCR) y 1a suma de los cuadrados
de los errores residua les (SCE) son esencialmen te iguales. La dcsviac i6n tfpica del coefi ciente de ({whoprice» ha disminu ido de 24,45 a 2,835 y, como consecuencia, la t de Student es con siderab lemen re mayor. Como hemos vista en el apartaelo 13.4, euando exislen
eorrelaciones estrechas entre variables independientes , las varianzas de los estimadores de
los coeficientes son mucho mayores. Vemos aquf ese efecto. Observesc tambien que en este modelo de regresi6n, la estimaci6 n del coeficien te del precio al por mayor cambia de
- 24,31 a - 46,956. En cI apartado 13.2 hemos visto que las correlaciones entre variables
de pred icci6n producen un comp lejo cfccto en las estirnaciones de los coe fi cientes, par 10
Figura 13.27.
Mode lo final del
an<llisis de
regresi6n (salida
Minitab).
Regres~ion Analy~i~:
cottonq
ver~u~
whoprice, impfab. expfab. time
The regression equation is
Predictor
Coef
Constan t
6757 . 0
whoprice -16 . 956
impfab
-6 . 5 1 7
expfab
0 . 3190
5
.
SE Coef
322 . 2
P
0 . 000
0 . 000
0 . 009
2.835 -16 . 56
2 . 306 -2 . 83
0 . 1471
2 . 17
R-Sq
78 . 6998
T
20 . 97
0.040
R-Sq(adj)
93 . 5%
•
92 . 7%
Analysis of Variance
Source
Regression
Residual Error
Total
Source
wh oprice
impfab
expfab
OF
3
24
27
55
MS
F
P
2129156
148648
2277803
709719
6194
111 . 59
0 . 000
OF
Seq 55
1
1
1
2055110
44905
29141
Nota
Estas sucesivas sumas de los
,14-------1 cuadrados
explicadas
condicionadas son iguales
que las de la regresi6n
de la Figura 13.26. que incluian
el tiempo como variable
de prediccion.
Unusual Observations
Obs
18
Whoprice
Cottonq
Fit
SE Fit
Residual
St. Res i d
110
1810 . 0
1642 . 0
18.7
168 . 0
2 . 20R
R denotes an observat ion wi th a large standardized residual.
558
Esladislica para administraci6n yeconomfa
que no siempre ex iSle una direrenc ia tan grande. Sin embargo, Ins correlnciones enlre variables independientes sicmpre aumentnn el e rror tfpico de los coeficicnte5. Los errores Ifpicos de los Olros dos coeficientes no han cmnbiado significati va rnente, debido a que las
correlac iones con el tiempo no eran gra ndcs.
EI programa Minitab tambi en conti ene una lista de observaciones con residuos extremos. Vemos en la observaci6n 18 que eI valor observado de ( cottonq» es muy superior al
valor que predice la ecuacion. En estc caso, podrfamos decidir volver a los datos origi nales
y tratar de averi guar 5i hay un error en los dalos del fi chero. Esa in vestigacion tam bie n
podrfa ayudar a cornprender el proceso estudiado utilizando la regres i6n multip le.
Efecto de la eliminacion de una variable estadisticamente
significativa
~
INTERPRETACION
En este apartado examinamos el decLo de la eliminaci6n de una vari able significativa del
modelo de regresi6n. En la Figura 13.27 hemos visto que «cx pfnb» es una predictor estadfsticamente signifi cati vo de la canlidnd producida de algod6n. Si ll embargo, el ami.li sis de
regresi6n de la Fi gura 13.28 ha eli minado «cxpfab» del modelo de regresi6n de la Figura 13.27.
Observese que, como consccuencia de la eliminac i6n de «cx pfab» , eI error tfpico de In
estimaci6n ha aumcntado de 78,70 a 84,33 y R2 ha disminuido del 93,5 al 92,2 por cie nto.
Estos res ultados indican que el termino de error del modelo ahora es mayor y, por 10 tanto,
ha empeorado la calidad del mOOelo.
EI cstadfstico F cond icionado de (ex prah» puede calcularse uli li z..1ndo las tablas del
anal isis de la varianza de los modelos de las Figuras 13.27 y 13.28. En la sigui ente eeuaci6n , defi nimos la regresi6n lineal a partir de la Figura 13.27 como modelo 1 y la regresi6n de la Fi gura 13.28, eliminado «exprab», como modelo 2. Ut il izando estas convenc iones, cI estad fsti co F cond icionada de la variable «expfab}), X3 , en la hip6les is nula de que
su coeficiente es 0, puede calcularse de la forma siguientc:
I' =
SCR, - SCR,
s;
.1)
Figura 13.28.
Ana!isis de
regresi6n con la
eliminaciOn de!
tejido exportado
(salida Minitab).
=
(2. 129. 156 - 2. 100.0 15)
= 4705
6.194
'
Regress ion Analysis: cottonq versus whoprice, impfab, expfab, time
'I'he regression equation is
cottonq = 5995 - 48.4 whoprice Predictor
Coef
Constant
6994 . 8
whoprice - 48.388
impfab
-6.195
S
= 84.3299
6 . 20 impfab
SE Coef
T
324 . 6 21 55
2 . 955 -16.38
2 .4 65 -2.51
R-Sq
= 92 . 2\
p
0 . 000
0.000
0.0 19
R- Sq(adjJ
= 91.6\
An"lysis of Variance
Source
Regress ion
Residual Error
Total
,
OF
25
27
MS
SS
2100015 1050007
177788
7112
2277803
F
147 65
P
0.000
Capitulo 13.
Regresi6n multiple
Tambi en podcmos calcular cl cSlad fsti co I de Student cond icionado de la variable
mando la ralz cuadrada de la F~-.1 condic ionada:
IX) =
J4,705
559
x ]
10-
2, 169
=
y, natural mente, vemos que es igual que el estadfstico ( de Student de la vari able «expfab»
F cond icionado de una unica variable independiente
siempre es exaetamente igual que el F eondieionado, ya que una F con I grado de libertad
en el numerador es exactamente igual a ,2.
(x3) de la Figura 13.27. EI contrasle
Analisis de los residuos
Despues de aj ustar el modelo de regresi6n, cs util examinar los residuos para avcriguar e6. mo se aj usta real mente el modelo a los datos y los supuestos de la regresi6n. En ·el apanado 12.7, examinamos el analisis de los casas atfpicos y los puntas extremos en la regres ion
simple. Esas ideas tambien se aplican direclame nle a la regres ion mult iple y deben formar
parte del anal isis de los residuos . Recuerdese que los res iduos se calculan de la forma sigui ente:
ei = Yi - Yi
Con el programa Minitab 0 con eualquier olro buen paquetc estadfstico se puede calcular
una variable que contenga los residuos de un anal isis de regres i6n. Se ha hecho para el
modelo final de regresi6n de la F,igura 13.27. EI primer paso eonsiste en exam inar la paUla
de los residuos eonstruyendo un hi stograma, como el de 1a Figura 13.29. Vemos que la di stribuei6n de los rcsiduos es aprox im adamente simctrica. La di stribuei6n tambicn parcee alga uniforme. Observese que se debe en parte al pequeno tamano de la muestra utilizada
para construir eI histograrria.
Histogram of RESI1
Figura 13.29.
Histograma de los
residuos del modelo
final de reg resi6n .
Normal
9
8
7
~ 5
.,.
~
~ 4
3
2
1
o
~
I
t;' 6
V
-150
\
V
-1 00
\
-50
o
RESI1
~
'i-50
100
150
560
Esladfslica para adminislraci6n y economfa
"
Figura 13.30.
Gr.1fico de
probabilidad normal
de los residuos del
modelo.
•
95
•
90
/"
•
BO ~
C
••u
•
"-
lO
GO
so
.,'
<0
"
••
20
•
'"
•••
•
•
•
5
•
1
-200
a
-100
100
200
Residual
La realizaci6n de un gnlfico de probabjlidad normal , como el de la Figura 13.30, es util
para averiguar la paula de los residuos. EI gn'ifico indica la existencia de una relaci6n lineal aproximada y, par 10 tan to, no es posib le rechazar cl supuesto de que los residuos sigucn una di stribuci6n normal.
Tambien es bueno representar los residuos en relaci6n co"n cada una de Jas variables
independiemes incluidas en eJ anaiisis. Eso permite comprobar que 110 hab ra ullas cuan tos
puntos de datos excepc ionalcs 0 una campJeja re laci6 n no lineal condicionada de una de
las variab les independientes. Si el model o se ha ·especificado y se ha estimado correclamente, espe ramos que no exisla ninguna pauta de relaci6n entre las variables indepen dienles y los residuos. La Figura 13.31 muestra cI grMico de los residuos en relaci 6n can la
variable del prccio al por mayor. No observamos ninguna paura excepcional en estc gn'ifico, salvo el elevado caso atfp ico posi tivo cu:ando el precio al por mayor es aproximadamente 110.
En la Figura 13.32 moslramos el grMico de los residuos en relaci6n con el teji do im portado. Una vez mas, no vemos ninguna paUla excepcional de los residuos, pero sf observamos que la mayorfa de las importaciones estan concentradas entre 0 y 10. Par 10 tan to,
200
Figura 13.31.
Diagrama de puntos
dispersos de los
residuos en relaci6n
con el precio.at por
mayor.
•
ISO
100
~
~
~
#
•
SO
w
"
•
•
••
•
•
•
a
-50
•
•
•
•
•
100
104
•
•
•
•
•
•
-100
•
•
•
•
•
•
108
whoprice
112
116
Capitulo 13.
Regresi6n multiple
561
200
Figura 13.32.
Diagrama de puntas
dispersos de los
residuos en relacion
can el tejido
importado.
•
150
•
100
-"
~
50
•
w
~
a
-50
•
•
• •
.'•
•
•
•
•
•
•
• •"
•
-100
•
••
•
•
•
0
5
10
30
2S
20
15
impfab
los valores mas altos del tej ido importado podrfan producir un gran efecto en el coeficiente
de la pendi enle de la recta de regresi6n. Por ul timo, en la Figura 13.33 vemos un gnirico
de los residuos en relaci6n con cl tcj ido expollado. De nuevo, la pau la de los residuos no
sugiere L1n a alternativa a Ja relaci6n lineal.
EI ana lisis final de los residuos exa min<l la relaci6n entre los res iduos y la variab le de·
pend ientc. Consideramos un grafico de los residuos en relaci6n con el valor observado de
la variable dependienle en 'Ia Figura 13.34 y en re laci6n con el valor predicho de la varia·
ble depcndiente en la 13.35. Podemos vcr en In 13.34 que existe una relaci6 n positiva entre
los residuos y el valor observado de «collonq». Hay mas residllos negativos en los valores
bajos de «collonq» y mas res iduos positivos e n los val ores altos de «cottonq ». Es posible
demostrar m<ltemati ca mente que siempre ex iste una corrclaci6n positiva entre los residuos
y los valores observados de la variable dependienle. Por 10 tanIO, un grMico de los residuos
en relac i6n con e l va lor observado 110 suministra ninguna infonnaci6n {Itil. Sin embargo,
siempre se deben representar los resi duos en re laci6 n con los va lorcs predichos 0 ajustados
de la variable depend iente. De esa forma se averigua si los CITores de l modelo son eslables
en el rango de los val ores predichos. En estc ejemplo, observese que no existe ninguna relaci6n entre los res iduos y los valol"es predichos. POI' 10 tanto, los crrores del modclo son
cstables en el rango.
Figura 13.33.
Diagrama de puntas
dispersos de los
residuos en relaci6n
can el tejldo
exportado.
200
•
150
100
"
~
so
w
~
•
,
•
•
•
.'
•
-so
•
•
-100
100
•
•
200
•
•
•
a
•
•
•
•
• •
•
• •
•
•
300
expfab
400
SOO
562
Estadislica para administraci6n y economfa
Figura 13.34.
Diagrama de puntos
dispersos de los
residuos en relacion
con el valor
observado del
algod6n.
200 ,------------------------------------------,
•
150
100
•
..
•
•
• •
50
•
•
•
•
•
0t-----------------------------------••----------1
•
•
-50
•
•
•
•
-100
•
1200
•
•
1600
1400
•
• •
•
2000
1800
•
2200
2400
cottonq
Figura 13.35.
Diagrama de puntas
dispersos de los
residuos en relaci6n
can el valor
predicho del
algodon.
200 ,-------------------------------------------,
•
150
100
50
•
.
•
•
• •
•
•
•
•
0t---------------------------------------••------~
•
•
•
•
• •
-50
•
•
•
•
•
•
-100
•
•
•
1400
1600
1800
Fitted Va lue
2000
2200
En el Capftulo 14 ulili zaremos el analisis de los res iduos para identificar dos situaciones del modelo de regresi6n, la heterocedasticidad y la aUlocorrelaci6n, que violan el supuesto del ana li sis de regresi6n de que la vari anza de los errores es la mi sma en el rango
del modelo.
EJERCICIOS
Ejercicios basicos
13.78. Suponga que se incluyen dos variables independi entes como variables de predicci6n en un amilisis de rcgrcsi6n multiple. l,C6mo cabe esperar
que afecle a los cocficienles de la pendiente estimados cuando estas dos variables lienen una
cOiTeluci6n igual a a) Q,78?
b) 0,08?
c) Q,94?
d) D,33?
13.79. Considere un umilisis de regresi6n con II = 34 Y
cualro variables independientes posibles. Suponga que una de las variables independientes
liene una correlaci6n de 0,23 con la variable depcndicllIc. i,Impli ca eso qlle esta variable independi enle tendr:\ un estadfst icQ I de Student
muy pequeno en el amilisis de regresi6n con las
cuatro variables de predicti6n?
13.80. Considere un anal isis de regresi6n con II = 47 Y
Ires variables independicnles posibles. Suponga
que una de las variables independientes tiene
Capitulo 13.
una correlaci6n de 0,95 con la variable dcpendienle. i,lmpliea eso que esta variable indepen diente tcndra un esladlslico f de Student muy
grande en el amilisis de regresi6n con las tres
variables de predicci6n?
13.81. Considere ll11 anal isis de regresion can 1/ = 49 y
dos variables indepcndientcs posibles. Suponga
que una de las variables independientes liene
una correlaci6n de 0,56 con la variable dependiente. i,lmplica eso que eSla variable independienle lendni un estadfsli co t de Studenl muy
pequeno en el amllisis de regresi6n con las dos
variables de predicci6n?
Regresion multiple
13.83. Sc pidi6 a una mueSlra alealoria de 93 estudiantes universitarios de primer ario de la Universidad de Illinois que valoraran en una escala de r
(baja) a 10 (alta) su opini6n general sobre la vi~
da en la residencia universitaria. Tambien se les
pidi6 que valoraran su nivel de satisfaccion con
los compaficros, con la planta, con la residencia
y con el director de la residencia (se ObluvO informacion sobre la satisfacci6n con la habitacion. pero 6sta sc dcscano mas tarde, porque no
sumi nistrnba mas informaci6n para explicar la
opinion general). Se estim6 cl siguiente modelo:
y = Po + PIX! + P~2 +
pyX]
+ PttX4 + G
donde
Ejercicios aplicados
Y = opini6n general sobre la residencia
= satisfacci6n con los compafieros
-1,3.82. Para averiguar c6mo influye en un eSlado el po-
Xl
del' econ6mico de una compafifa de seguras de
accidentes en su poder polflico, se desarro1l6 cl
siguiente modelo y sc ajust6 a los datos de los
50 estados de ESlados Unidos.
X2
= satis l~'lcci6n
x3
= satisfaccion con la residencia
X4
=
dos de este estudio.
Y = cociente entre el pago de los impuesLos
=
x2 =
x] =
x4 =
x., =
AquI se muestra parte de ]a salida informatica
de la regresi6n eSlimada. Realiee un infon.n c
que resuma los resultados de cste cstudio.
«-SQUARE = 0.5L5
Parameter
Intercept
Xl
X3
X4
X5
Student's t
for HO:
Std. Error
Estimate Parameter '= 0 of Estimate
10.60
-0.90
- 13.85
0.080
O.tOO
2.41
-0.69
-2.83
0.50
5.00
4.40
1.3 1
4.1 8
0.160
0.020
sat isfaccion con cl director de la residen-
Utilice la parte de la salida informatica de la regrcsion es(imada que se muestra a continuaci6n
para realiwr un informe que resuma los resulta-
donde
estatales y locales de la empresa, en miles
de d6lares, y los ingresos fiscales eSlalales
y locales totales en millones de d61ares
coeficicnte de concentraci6n estatal de las
companlas de seguras (que mide la concenrracion de los recursos bancarios)
renla per capita del eSlado en miles de d6lares
cociente entre la renla no agricola y la suma de la renta agrfcola y no agrfcola
cociente entre la reola neta despues de impuestos de la compafiia de seguras y las
reservas de segura (multiplicado POl'
1.000)
media de las reservas de seguro (dividida
PO' lO'(JOO)
con la plama
om
y= Po + P!Xl + fJ~ + pyX] + P.p4 + P.,xs + f'.
XI
563
DEPENDENT VARIABLE, Y OVl':RALL OPINION
SOURCE
DF
MODEL
ERROR
TOTAL
88
4
92
SUN OF
SQUARES
37 . 016
81 . 780
118 . 79
~~
SOUAAE
FVALUE
R~SOUAAE
9.2540
0 . 9293
9 958
0 . 312
PARAMETER
ESTIMATE
STUDENT'S t
FOR HO:
PARAMETER = 0
INTERCEP'l'
3 . 950
0.106
0 122
0 . 092
0 . 1 69
5 . 84
1. 69
1. 70
1.75
2.64
Xl
x2
x3
X4
STD.
ERROR OF
ESTIMATE
0 . 676
0 .063
o. 072
0 053
0 064
"'------=-"-------'-------'--13.84. En un estudio, se ajusl6 el siguiente modele a
47 obscrvaciones mensuales e n un intento de
ex plicar la diferencia entre los tipos de los certificados de dep6sito y los tipos del papel comercial:
y = Po
+ PIX! + P1h + e
donde
y ~ tipo de los cenificados de dep6sito mcnos
tipo del papc1 comcrcial
XI = tiro del papel comercial
X2 = cociente e ntre los prestamos y las invcrsiones y·el capital
564
Esladfslica para administracion y economfa
Utilicc la IXlrtc de la sa lida informatica de la rc~
gresi6n estimada que se muestra a continuaci 6n
para escribir un informe que resuma los resultados de este estudiu.
R-SQUARE - 0 .7 30
STUDENT'S t;
FOR HO:
PARAMETER '" 0
STD.
ERROR OF
ESTIMATE
0 . 1 86
- 4 . 14
5 . 64
0 . 45 0
2 . 08
1. 343
0 . 0 33
0 . 216
PARAMETER
ESTIMATE
INTERCE PT
- 5.55 9
Xl
X2
13.85. (i., Se Ie ha pcdido quc dcsarrolle un modelu de
regresi6n multiple para predeci r el numero
anual de muertes en carrctcra en Estados Unidos en funci6n del rotal de millas recorridas y
de la velocidad media. EI fichcro de datos
Trame Death Rate contiene 10 anos de datos
anuales sabre las tasas de mortalidad pur 100
millones de millas-vchfculo (y), la distancia total reconida en miles de millones de millas-vehfculo (xd Y la velocidad media en millas por
hora de todos los vehfculos (x2)' Ca1cu1c la regresi6n mu ltiple de y con respeclo a XI Y X1 Y
rea lice un informe que anal ice sus resultados.
13.86.
El fichero de datos Household Income cuntiene datos de los 50 est ados de Estados Vll idos.
Las variables incluidas en el fichero son el porcentaje de mujeres que partieipan en la poblaci6n nctiva (y) , la mediana de la renin personal
de los hugares (Xl), el nt' mero med io de anos de
(i <t
estudios de las mujeres (x2) Y la lasa de dese m_
pleo de las mujercs (x)). Calcu[e la regresi6n
multiple de y con respeeto a X I ' X l YX ) Y realiee
Ull in forme sobre sus resultados.
13.87. ( ) Le han pedido que desarrolle un modelo de
regresi6n multipl~ que prediga la ofen a monetaria real de Alemania en funci6n de la rcnta y
del tipo de interes. El fichero de datos Real
Money eontiene 12 observaeiones anllales sobre
cl dinero real pe r capita (y). la renta real per capita (X I) Y los lipos de interes (x2) de Alemania.
Utilkc estos datos para desarrollar un modclo
que prediga el dinero real per c:"ipita en funei6n
de la renla per capita Y del tipo de interes y realice un informc sobre sus resultados.
13.88. ~ oj L"1s Naeiones Unidas Ie han conlralado como consultor para ayudar a identiticar Ius faetores que predigan el crecirniento dc [n industria
manufacturera de los pafses en vias de desarrollo. Ha decidido utilizar una regresi6n multiple
para desarrollar un modelo e identificar las variables importames que prediccn c[ credmiento.
Ha rccugido los datos de 48 pafse~ en el Fichera
de datos Developing Country. Las variables inclllidas son cl crecimiento porcentual de la in dustria manufactllrera (y), cl crccimiento agrfcola porcentual (XI ) ' el crecimicnto porcentual
de las exportacioncs (x2) Y la tasa porcentual de
intlaei6n (x)) de 48 pafses en vfas de desarrollo.
Desarrolle un modelo de regresi6n multiple y
escriba un informe sobre sus resultados .
.
RESUMEN
En este capftulo hemos sentado las bases necesarias para cornprender Y ap[icar los metodos de regresi6n multiple. Hemos cumenzado analizando delalladamente Ius
supuestos del modelo y las consecuencias de esos supuestos. A partir de ahf, hemos presenlado el metodo
de mfn imos cuadrados y los metodos para obtener estimaciones de los coeficientes. Con esas bases, hemos
desarrollado metodos para averiguar e6mu se ajusta el
tlludelo de regresi6n a los datos observados, 10 ellal nos
ha llevado a desarrollar los melodos clasicos de inferencia para contraSfar hip6tesis sobre Ius eoeticientes Y
para eonstruir intervalos de confianza. Eso nos ha llevado a presentar metodos para realizar predieciones de
la variable (\t;pendiente a partir del modelo e inferencias sobre los valores predichos.
Con estas bases y comprendiendo el modele basico,
hemos pllsadu a examinar algunas tecnieas impOrlanles.
Hemos presentado mcrodos para transformar model os
cuadn:lticos en funciones lineales. Tambien hemos desarrollado trans formaciones para modelos lineales logarftmicos. Por ultimo, hemos come{lzado a presentar
metodos para utilizar varinb[es f"ieticias para represenlar variables de predicci6n categ6rieas. El capItulo termina can Ull extenso modelo de aplicaci6n que muestra
c6mo rcalizarfa un analista todo el proceso de desarrollo del modelo de regresi6n. Este proceso eomienza can
sencillos estadfsticos descriptivos, teenicas grufieas Y la
aplicaci6n de metodos de rcgresi6n Y termina con un
analisis de los residuos para cxaminar [a compatibilidad
del modelo con los datos y los supuestos del modelo.
Capitulo 13.
Regresi6n multiple
565
TERM IN OS CLAVE
anal isis de regresi6n utilizando
variables fictic ias, 547
base para ]a infel'enci[l sobre la
regresi6n pob[acional. 513
cocfi cientc de cOl"l'clacic'in Illultiple, 509
coefici ente de determinaci6n ajustado, 509
conlraste de un subconjunto de los
par:illletros de regresic'in, 529
contraste de todos los parametros
de un modele de regresi6n, 527
contrastes de hip6tesis de los
coeficientes de regresi6n, 515
descomposici6n de la suma
de los cuadrados y coeficiente
de detcrrninaci6n, 505
error tfpico de la estimaci6n. 506
est imaci6n JXlr millimos cuadrados
y regrcsi6n muestral multip[e, 498
estimaci6n de [a varianz[l
de los errores, 506
intervalos de confianza de los
coeficicntes de regres i6n, 5 [3
mode[o de regresi6n poblacional
multiple, 494
objctivos de la regresi6n, 49 [
prcdicci6n a part ir de modclos
de rcgresi6n multiple, 533
rcgrcsi6n utilizando vari:,b[es
ficticias para contraSlar las
diferencias emre pendientes, 548
supuCSIOS habituales de [a
regresi6n mUltiple, 497
transformaciones de modelos
cuadnllicos, 537
trans formac iones de mode[os
exponenciales, 540
EJERCICIOS V APLICACIONES DEL CAPiTULO
13.89. EI mctodo de mlnimos cuadrados se utili za
mu~
cho mas a menudo que cllalquier Olro para esti~
mar los parfimelros de un modelo de regresi6n
multiple. Explique la bast! de este metoda de estimrtei6n y explique por que se utili za tanto.
13.90. Es habitual caleular una labia de l amilisis de la
varianza junto con una regresi6n multipl e est imada. Exptique detenidamente que informacion
puede extraerse de esa tabla.
13.91. lndique si eada una de las afirmaeiones siguienles es verdadera 0 fa[ sa.
13.93, Se haee una regresi6n de una variable depend iente can respecto a dos variables indcpcnd ie ntes. Es posib[e que no puedan rechazarse
las hip6tesis Ho: [31 = 0 Y Ho: [32 = 0 a nive!es
bajos de significac i6n y, sin embargo, pucda rcchazarse [a hipotesis No: PI = fl2 = 0 a un Il ivel
muy bajo de significacion. i,En quc c ircunstan e ias podrfa darse este resultado?
13.94. [Para Iweer eSle ejereicio es necesario lIaber
fefdo el apindice del capillllol Suponga que se
esti ma el modelo de rcgrcs i6n por mfnimos (;uadrados:
a) La suma de los cuadrados de los crrorcs de-
YI
be ser menor que la suma de tos cuadrados
de 1.1 reg resi6n .
b) En lugar de realizar una regresi6n multiple,
podemos obtener la mi sma informacion a
partir de regresiones lineales simples de la
variable dependiente con respccto a cada variable independiente.
c) EI coetieiente de determinaci6n no pucdc ser
negativo.
d) EI coeficiente de determi naci6 n ajustado no
puede seT negativo.
c) El coeficie n ~e de correlaci6n multip[e es la
raiz euadrada del eoeficiente de determinac ion.
13.92. Si se aiiadc una variable independiente mas, por
irrelevante que sea, a un modelo de regresi6n
multiple, la suma de [os cuadrados de [os errores es menor. Expl ique por que y anatice las
consecuencias para 1.1 intcrpretaci6n del coeficiente de d eterminaci6n.
=
Po + PIX I; + {J~2; +
C;
Dcmucstre que [os residuos, e;, del modele
~ustado suman O.
13.95. Se realizo un cscudio para evaluar [a influencia
de algunos faetores en [a ereaci6n de nuevas
empresas e n [a industria de chips de computa.dor. Se estim6 el siguiente modelo para ull a
mucstra de 70 paises :
y=
- 59,31
+ 4,983x, + 2,1 98x 2 + 3,8 [6x3
( 1.156)
- O,886x5
(3,055)
(0.210)
+ 3,2 l5x6 + O,085X7
(1.568)
(2.063)
-
0 ,3 [OX4
(0,]]0)
R2 = 0,766
(0.354)
dande
y
=
Xl =
X2
=
x)
=
X4
=
c rcaeio n de nuevas empresas en la industria
poblacion e n millones
tamafio de 1.1 industria
medida de la calidad de vida econ6mica
medida de 1.1 calidad de vida polftica
566
Estadfstica para administraci6n y economfa
medida dc la calidad dc vida medioambiental
= Illcd ida de In calidad de vida san itaria y
cd ucmiva
= medida de la calidad de vida social
Xs =
x6
X1
a) Interprelc los cocfic ientes de regresi6n cstimados.
b) Intcrpretc el coeficientc de determ inacion.
c) Contrasle al nivcl de signifi caci6n del I par
cienlo lu hip6lcsis nula de que las dos variables indepcndic111es, consideradas en conjun.
to, no innuyen lineal mente en la tasa de rcspuestu.
d) Halle e intcrpretc cl intervalo de confianza
al 99 pOl' ciento de (ll '
e) Contrnste In hip6tcsis nula
Los nUlllcros entre pare ntcsis s ituados debajo de
los coeficientes son los errores tfpicos de los
coeticicntcs estimados.
a) Interprete los cocfi cien tes de regresi6n esti-
mados.
Interprele el coe fi cien tc de delenninaci6n .
Halle cl intervalo de con fi anza al 90 pur
dcnto del aumento de la e reaci6n de empre·
sas provocudo por un aumenlO de la calidad
de vida ccon6mica de I unidad, manteniendose toelas las dcmas variables constanles.
COlllrasle al nivel del 5 par cie nto la hip6tesis nula de que, manteniendose todo 10 demas eonslantc, la caUdad de vida medioambienlal no innuye en la creac i6n dc cmpresas
fren te a la hi p6tesis altcmati va bilateral.
Contraste al ni vel del 5 par dento 1a hip6tesis nulu de que. munleniendose todo 10 de·
mas conSlanle, la ca lidad de vida sanitaria y
educuti va no innuye en la crcaci6n de empresas frentc a la hip6tesis alternali va bilateral.
Contrasle In hip61csis nula de que eSlas siCle
'llilriables indepcndientes, considcradas en
conjunto, no inn uyen en la creaci6n de empresns.
b)
c)
d)
e)
f)
frente a la hip6tesis alternativa
H I :(l2<O
e interprete sus resu ltados.
13.97. Una consultora ofrece cursos de gesti6n fin anciera para ejecutivos. AI final de estos cursos.
se pide a los participanles que hagan una valo·
racion global del valor de l curso. Para ver c6mo
innuycn algunos factores en las valoraciones, se
ajust6 el modelo
Y=
Po + /JJxJ + {J~2 + P}-l:J + C
para 25 cursos, donde
Y = va loraci6n media realizada por los participantes en el curso
XI
X2
13.96. Una Cmprcsa de sondcos realiza habituahnente
estudi o~ sobre los ~ogaJ'es pOl' medio de cuesli onartos por correo y liene intcrcs en com>ccr
los factores que innuycn en la tasa de respuesta.
En un expcrimento, se cnviaron 30 jucgos de
cueslionarios a posibles encuestados. EI modelo
de rcgrcsi6n ajustado al conjunto de datos resultanles era
x)
= po rccnluje del cursa dedicado a reulizar
sesiones de di scusi6n en grupo
= ell nlidnd de dinero (en d6lares) por asis-
tetHe al curso ded icndo a la pre paraci6n
del material del curso
= cuntidad de dinero por asistente al cursa
dcdicado a la provisi6n de material no reIndonado con el cursu (comida, bcbidas,
etc.)
A conlinuaci6n SC' mueslra una pane de la salida del progruma SAS dc la regresi6n ajustada.
R- SQUARE - 0.5 7 9
donde
Xl
X2
= numero de preguntas realizadas
= longitud dcl cuestionario en numero de paINTERCEPT
labras
A continuuci6 n se muestra una parte de la salida del programa SAS de la regresi6n cstimada.
ESTIMATE
ERROR OF
ESTiMATE
42.9712
0 . 381 7
0.5 112
0 . 0 15 )
1. 69
2.64
1 . 09
0 . 2018
0 1957
0 0693
Xl
X2
ESTiMATE
7 L 3652
- 1 . 6345
- 0.0162
X)
a) Interprete los coeficicntes de regresi6n esti-
R-SQUARE - 0.637
PARAMETER
INTERCEPT
Xl
X2
s=.
S'l'UDEN'l" S t
FOR HOI
PARAM!:'l'!:R - 0
Y = porcenlaje de respuestas rccibidas
STUDENT'S t
FOR HO:
PARAMETER - 0
STD.
ERROR OF
ESTIMATE
- 2.89
-1 . 78
0 . 6349
0 .0091
mados.
b) Interprete el coefi ciente de delerm inaci6n.
c) Contraste al nivel de signifi caci6n del 5 par
dento la hip6tcsis nula de que las Ires variables indepcndicntes, considcradas en conj un-
Capitulo 13
10, no infillyell linealmenle en la valoraci6n
de! clIrso.
d) Halle e inlerprele el inlervalo de confianza
al 90 por cienlo de !JI'
c) COlltraste la hip6tesis nula
frente a la hip6tesis alternativa
H I :P2> O
e interprete su resullado.
f) Contraste al nivel del 10 por dento la hip6-
tesis nllia
Ho:fh=O
frente a la hip6tesis alternaliva
Regresi6n multiple
567
-'"5 = tasa de accioncs disciplinarias
.\"(, = lasa de absent ismo de los trabajadores
par hora
x7 = attitudes de los trabajadores asalariados,
desde baja (in satisfechos) hasta alta, medidas par media de un cuestionnrio.
x8 = porcenlaje de (rabajadorcs par hom que
haeen al menos una sugereneia en un ana
al programa de sugerencias de la planta.
Tambien se obtuvo por mfllimos cuadrados un
modelo ajustado a partir de estos datos:
y= 9 ,062 - 10,944xl + 0,320-"'2 +0,01 9X3
R2= 0,242
Las variables X4' -"'5' X6' X7 YX8 son medidas de
los resultados de un sistema de relacioncs laborales de la planta. Contraste al nivcl del I
por eiento la hip6tesis nula de que no contribuyen a explicar la eficiencia dirccta del trabajo, dado que tambien se utili zan XI ' x2 Y x3-
e interprete su resu ltado.
13.98. , . Al final de las dases, los profesores sao
evaluados por sus estudiantes en una escala de
I (malo) a 5 (excelellte). Tambiell se les pregunta a los esludiantes que ealifieaci6n csperan
oblener y eSlas se codifiean de la forma siguiente: A = 4, B = 3, etc. EI fichero de datos Teacher Rating coilliene las evaluaciones de los
profesores, las calificaciones medias esperadas
y el numero de estudiantes de las clases de una
muestra aleatoria de 20 clases. Calcule la rcgresi6n multiple de la evaluaci6n con respecto a la
califieaci6n esperada y eJllumero de estudiantes
y realice un informe sobre sus resultados.
13.99. Sistemas Informiiticos Voiadores, S.A., quiere
saber c6mo afectan algullas variables a la eficiencia del Irabajo. Basandose en una muestra
de 64 observaci ones, cstim6 ci siguicnlc mode10 por mfnimos cuadrados:
y= - 16,528 + 28.729xl + 0,022X2 -
0,023x) - 0,054x4
- 0,077X5 +0,411-"'6 + 0,349x7 + 0,028x 8
R2=0,467
donde
y = fndiee de efieiencia directa del trabajo en
la planta de produeci6n
X l = eociente entre las homs extmordinarias y
las horas ordinarias realizadas por todos
los obreros
-"'2 = numero medio de trabajadores por hora en
la planta
x ) = porcemaje dc asalariados que palticipan en
algun programa de calidad de vida laboral
X4 = numero de reclamaciones recibidas por cada 100 trabajadores
13.100. Basandose en las calificaciones obtenidas por
107 esrudiantes en el pri mer examen de un
eurso de estadfstica para los ncgocios, se esti m6
el siguiente modelo por minimos cuadrados:
y=2, 178+0,469x l + 3,369x2 + 3,054x3
(0.090)
(0.456)
(1.457)
donele
y = calificaci6n efectiva del estudiante en el
examen
Xl = calificaci6n csperada por el estudiante en
el examen
X2 = hams semana1es dedicadas a estudiar para el curso
xJ = ealifieaci6n media del estudianle
Los numeros entre parentesis situados debajo
de los eoctieicnles son los errores t(picos de
los eoeficientes estimados.
a) Interprete la estimaci6n de (JI'
b) Halle e inlcrprcte el inlervalo de confianza
al 95 par ciento de P2'
e) Contraste la hip6tesis nu la de que fh es 0
frellte a una hip6tesis altemati va bilateral e
interprete Sll resultado.
d) Interprete el eoeficiente de detenninaci6n.
e) Contraste la hip6tesis nula de que
f) Halle e interprete el coeficiente de correla-
ci6n multiple.
g) Prediga la califieaci6n de un estudiante que
espera una calificaci6n de 80, estudia 8 horas a la semana y tiene una calificaci6n
media de 3,0.
568
Esladislica para adminislracioo y economia
13.101. Basandose en 25 alios de datos aouales, se inlent6 cxplicar el uhorro en la India . EI modclo
ajustado era
Yi = {Jo
+ fJlXli + rJ~2j + f:i
donde
y = variaci6n del tipo real de los dep6si tos
XI = variaci6n de la renta real per capita
X2 = variaci6n del ti po de intercs real
Las estimaciones de los para metros por mfnimos cuadrados (con los crrores tfpicos entre
parentesis) eran (vease la referencia bibliognifica I)
b,
~
b,
0,0974(0,02 15)
~
0.374(0,209)
El coefici ente de dcterminaci6n corrcgido era
iP =
°
13.102. Basandose en datos de 2.679 j ugadorcs de balonceslo de centros de cnselianza secundaria,
sc ajust6 el siguiente modclo:
{J2-'f2i
+ ... + P9-'C91
+C
j
dondc
y = minutos j ugados en 13 tcmporada
XI = porcentaje de li ros de 2 puntos convertidos
Xi = porecmaje de ti ros Iibres
X3 = rebotes por minuto
. 1."4 = puntos por minulo
x~ = raltas por min u\o
X6 = robos de bal6n por minuto
X7 = lapones por mi nu to
XII = perdidas de bal6n por minulo
X9 = asistencias por minuto
Las eSli maciones de los panl.metros por mfni mos cuadrados (con los errores Ifpicos entre
parcnlcsis) son
bo ~
b, ~
b, ~
b, ~
b, ~
358,848 (44,695)
0,2855 (0,0388)
504,95 (43,26)
480,04 (224,9)
-89 1,67 (180,87)
b,
~
bJ ~
bs ~
b, ~
b, ~
R2 = 0,5239
a) Halle e inlcrprcte el inrervalo de confianl.:t
al 90 por cienlo de (J6.
b) Halle e interprete cl illlervalo de con fi:lIlz:I
al 99 por ciento de (J7.
c) COlllraste la hip6tesis nula de que /18 es 0
frente a 1a hip6tesis alteOlativa de que es
negativo. Interprctc Sll resultado.
d) Conlraste la hip6lcsis nula de que fi9 es 0
frente a b hip6tesis alLCrnativa de que e~
positivo. Intcrprete su resultado.
e) Interprele el eocfieiente de determinaci6n.
f) Halle e interprete el cocficienle de cOlrelilci6n multiple.
13.103. Basandosc en datos de 63 regiones, se cstim6
el siguientc modelo por mfnimos cuadrados:
0,9 1
a) Halle e interprete el intervalo de con fia nza
al 99 POI" cicnto de [JI.
b) Contrasle la hip61esis nula de que P2 es
frenle a la hip6tcsis alternativa de quc cs
positivo.
c) Halle el coeficiente de delerminaci6n.
d) Contrasle In hip6tesis nula de que
Ii, ~ p, ~ O.
e) Halle e interprete el coeficicntc de cOlrelaei6n multiple.
Yj = {Jo + PIXI; +
EI coef"icicnte de determinacion es
0,6742 (0,0639)
303 ,8 1 (77,73)
- 3.923,5 ( 120.6)
1.350,3 (2 12.3)
722.95 ( 110,98)
y=
0,58 - 0,052x 1 - 0,005..1."2
(0,U I 9)
RZ = 0.1 7
(0.042)
donde
y = tasa de crec imi enlo del produclo in terior
bruto real
XI = renta real per capita
X2 = lipo impositivo medio en porcentaje del
producto naciona l bruto
Los m"imeros entre parenlesis situados debajo
de los coeficienles son los errores tfpicos de
los coeficientcs est imados.
a) Contraste la hip6tesis nula de que PI es 0
frent e a una hip6tesis alternativa bilatcral.
Interprete Sll resultado.
b) Contraste la hip6lesis nu la de que (J2 es 0
frente a una hip6tesis alternati va bilateral.
Interprete su resultado.
c) Inlerprete el cocficienle de determ inaci6n .
d ) Halle e interprctc cl coefi cicntc de correlacion multiple .
13,104, En un cstudio, se ajust6 el siguicllte modelo de
regresi6n a los datos de 60 golfi stas amateurs:
y=164.683 +34 1, IOX I + 170,02xz + 495,19x) -4,23x-I
(10059)
( 167, t8)
(305.48)
- 136.04Oxs - 35.549x6 + 202,52x7
(25.634)
(16.240)
(90.0)
iP =0,5 16
( 106.20)
donde
y = ganancias por torneo en d61arcs
Xl = longitud med ia del golpe
. 1."2 = porcentaje de veccs en que el golpe acuba en la pisla
X3 = porccntajc de vcces en que se llega cn
buena posici6n al ((green» (<<regulation»)
Capitulo 13.
x" =
Xj
.\"6
.\"7
porcent[lje de veces en que se consigue e l
par despues de haber cafdo en zona de
arena
= niimero media de «putts» reali zados en
los «greens» a los que se ha lIegado en
buena posicion
= numero medi o de «putLs» rcalizados en
los «greens» a los que no se ha lIegado
en buena posici6n
= numcro dc anos quc lleva jugando c\ golfista amateur.
Los numeros entre pantntesi s situados debajo
de los coefic ientes wn [Of; errores tfpicas de
los coeficienles estimados.
Realice un infonne que reSllma 10 que ha
aprcndido con CSIOS resultados.
13.105. f.1 EI Departamento de Economfa quiere desan'ollar un modelo de regresi6n multiple para
predecir la calilicaci6n media (GPA) de los estudiantes en los cursos de economfa. El profesorado del departamento ha reunido datos de
112 licenciados, que contienen las variables
CPA de economfa. SAT verbal, SAT de matcmaticas, ACT de ingles, ACT de cicncias 50ciales y puesto oblenido en el bachillemto
(I'allk). Los dato~ sc encuentmn en el fichero
de datos llamado Student GPA de su disco de
datos. El apendice conticne una descripci6n de
las variables.
a) Uti lice las variables SAT y «rank» para
averiguar eutil es el mcjor modclo de predicci6n. Elimine las variables independientes que no scan significativas . i,Cuales son
los coeficientes, Sll estadfstico , de Student
y el modelo?
b) Utilice las variables ACT y «rank» para
avcriguar cwll es cl mejor modcl0 de prcdicci6n. Elimine las variables indcpcndientes que no scan sigll ifi cati vas. i,Cuales son
los coeficientes. su cstadfstico I de Student
y el modelo?
c) i.Que madelo predice mejor la GPA de
economfa? Aporte pruebas para apoyar su
conclusion .
13.106. ( ... EI fichero de datos Salary Model contiene
una variable dependiente y siete variables independientes. Tiene que desarrollar el «mejol"»
modelo de regresi6n que prediga Yen funei6n
de las siete variables independientes. Los datos
se encuentran en su disco de datos.
La variable dependi enle se llama {<y~) en el
fichero y las variables independientes tambiCIl
Regresi6n multiple
569
tienen Sli propio nombre. Util iee un anal isis dc
regresi6n para averi guar que variables dcbcn
eslal" en el modelo final y para estimar los coeJi cientes. Mueslrc el conlraste P eondicionado
y el contraSle t condicionada de cualqui er variable eliminada. Analice los residuo.'> del modelo por medio dc grMicos. Mueslre SllS resul tados y anal ice SliS canclusiones. Transfonne
las variables si los residuos indican una relaci6n no lineal. Presente claramente su modelo
final , mOSlrando los coeficienles y los estadfslieos I de SllIdent de los coeficientes.
13.107. ~. I Uti lice los datos del fichero Citydat para
estimar una ccuaci6n de rcgrcsion que pueda
utilizarsc para avcriguar cI cfccto marginal que
produce el porcentaje de locales comerciales
cn c1 valor dc mcrcado por vivicnda ocupada
por su propietario. IncJlIya en Sll eCllaci6n de
regresi6n multiple el porcentaje de viviendas
ocupadas por Sli propietario, cl porcentajc dc
locales ind ustriales, el numero mediano de habitaciones par vivienda y la renta per capita
como variables de predicci6n adicionales. Las
variables estrin en Sll disco de datos y se describen en el apendice . Indique cuales son significativas. Sll eeuaci6n fina l debe incluir un icamente las variables significativas. Analice e
inlerprele su modelo final de regresi6n e indique c6mo seleecionaria una ciudad para comprar Sll vivienda.
13.108.
Los rcsponsables de la National Hi ghway
Traffic SafclY Administralion (NHTSA) de Estados Unidos quieren saber si los diferentes tipas de vehfculos de un estado tienen relaei6n
con la (asa de mOltalidad en carretera del estado. Le han pedido quc dcsarrollc varios anal isis de regresi6 n multiple para averiguar si el
peso medio de los vehfculos, el porcelllaje de
vehfculos importados, el porcentaje de camiones ligeros y la antigiiedad media de los autom6viles estan relacionados con las muen es en
accidente ocu rridas en autom6v iles y camionetas. Los datos del anatisis se encuentran en el
fichero de datos Ilamado Crash. que esta en
su disco de datos.
(0,
a) Prepare lIna malriz de correlaciones de las
muertcs ell accidentc y las variables de prcdicci6n. Observe las rclaeioncs si mples entre las muertes en accidente y las variables
de predicci6n. lndique ademas Tualquier
problema posible de multicolinealidad entre las variables de predicei6n.
570
Estadfstica para administracion y economia
a) Caleule la matriz de carrelaciones y eSI<l_
dfsticos deseriptivos del valor de mcreado
de las viviendas y las variables de predic_
cion posibles. Senale los problemas posibles de tllulticolinealidad. Defina el rango
aproxi mado para su modele de rcgresion
utilizando In regIa siguiente: medias de las
variables ± 2 desv iaciones tfpicas.
b) Realice anal isis de regresi6n m(tltiple utilizando las variables de predicci6n. Elirninc
las variables que no sean significativas.
i,Que variable, el tamano de la vivienda a
el tipo impositivo, tiene In relaeion condi eionadn mas cstrecha con c! valor de las vivicndas?
c) Un promotor industrial de un estado del
Medio Oeste ha afirmado que los lipos de
los impuestos locales sobre bienes inrnuebles de las pcquenas ciudades deben bajarse, ya que, de 10 contrario, nadie comprarfi
una vivienda en estas ciudades. Basandose
en su amllisis de este problema, eval (le la
afirmacion del promotor.
b) Realice un ,malisis de regrcsion multiple de
las muertes en accidentc con rcspccto a las
variables de prcdiccion posibles. Elimine
en el modelo de regresi6n eualquier variable de prediccion no significativa, una dc
cada vez. Indique su mejor modelo final.
c) Exponga las conclusiones de su anal isis y
anal ice la importancia condi cionada dc las
variables desde el punto de vista de su relacion COIl las muenes en accidente.
13.109. , If El Departamento de Transporte de Estados
Unidos qui ere saher 5i los estados que tienen
un porcentaje mayor de poblacion urbana tienen una lasa mas alia de rnuenes totales en accidente ocurridas en automoviles y camionetas. Tambien quiere saber si la vcloc idad
media a la que se conduce par las CUlTeteras
rurales 0 el porcentaje de carreteras rurales
que esta asfaltado estan relacionados con las
tasas de muertes en accidente, dado el porcenlaje de ]loblacion urbana. Los datos de este estudio se encuemran en el fichero de datos
Crash almacenado en su disco de datos.
a) Prepare una malriz de conelaciones y estadfsticos descriptivos de las muertes en accidente y las variables de prediccion posi bles. Senale las relaciones y cualquier
problema posib le de multicolinealidad.
b) Realice un anfilisis de regresion mulliple de
las muertes en aceidcnle con respeeto a las
variables de prediccion posibles . Averigiie
euales de las variables deben mantenerse
en el modelo de regresion porque tienen
una relaci6n sign iricativa.
c) Muestre Ins resultados de su analisis desde
el punta dc vista de su modelo rinal de regresion. Indique que variable ... son signifi cali vas.
13.110.
) Un econom isia desea predecir el valor de
mercado de las viviendas de pequenas ei udades del Media Oeste ocupadas por sus propietarios. Ha reunido un cooj uoto de datos de 45
pcquenas ciudades que se refieren a un periodo de dos anos y quiere que los utilice como
fuente de datos para el antilisis. Los datos se
encuentmn en el fiehero Citydat, que est:! en
su disco de datos. Quiere que desarrolle una
ecuacion de prediccion basada en una regresion multiple. Las variables de prediccion posibles son el tamano de la vivienda, el lipo itll positivo, eI porcentaje de loca les comerciales,
la renta per capita y el gasto publico municipal
total.
13.111.
f,
Stuart Wainwright, vicepresidente de compms para una gran cadena nacionaJ de licndas
de ESlados Unidos, Ie ha pedido que realice un
anal isis de las ventas al por menor por estados.
Quiere saber si el porcentaje de descmpJcados
o la renla personal per capita esttin relacionados con las ventas al por menor per ca pila.
Los datos para realizar este estudio se encuentran en cl fich ero de datos Ilamada Retail, que
esla almacenado en su disco de datos.
a) Prepare una matriz de correlaciones, calcuIe los estadfsticos descri ptivos y realice un
anal isis de regresion de las vcntas al por
menor per capila can rcspccto al porcentaje
de desempleados y a la renta personal. Calcule intervalos de confianZil al 95 por cien\0 de los coericientes de la pendiente de cada ecuaci6n de regresi6n.
b) ,;,Cu{Ll es el erecto condieionado de una disminuci6n de la renta per capita de 1.000 $
en las venlas per capita?
c) i, Mejorarfa la ecuacion de prediccion aiiadiendo la poblacion de los estados como
una variable de prediecion adicional?
13.112.
i ~ Un importanle provecdor nacional de materiales de construccion para la construccion
de vi viendas eSla prcocupado por las ve nta ~
tolales del pr6ximo ano. Es bien sabido que
las ventas de la empresa est{1Il relacionadas di rectamente con la inversion nacional total en
Capitulo 13.
viviendu. Algunos banqueros de Nueva York
estan prediciendo que los tipos de intcrcs subiran alredcdor de 2 puntos porccntuales el pr6ximo ano. Le han pedido que realice un analisis de regresi6n para podcr predecir el cfecto
de las vnl'iacioncs de los tipos de intcres en la
inversi6n en viviendu. Usted cree que, adcmas
del !ipo de interes, el PNB, In oferta monClaria, cl gnslo publico y el fndicc de precios de
los bienes ucabados podrfall scr prediclores de
la inversi6n en vivienda. por 10 que llega a la
conclllsi6n dc que ncccsi!<l dos modclos de
rcgrcsi6n multi pIc. Uno inclu ira el tipo de
imcres preferencial y olras importantes variables. EI otro incluirii el tipo de interes dc los
fondos federa les y OIras imponantes variables.
Los datos de series (cmporales para reatizar
cstc cstudio sc cncuentran en cl fichero de datos lIamado Macr02003, que esta almacenado
en su di sco de dalOS y se describe en el apendice del CapItu lo 14.
a) Desarro llc dos modelos de rcgresi6n para
predecir 1a inversi6n en vivienda util izando
el tipo de inten!s prererencial para uno y el
tipo de intercs de 1m: rondos federales para
eI otro. Los modelos finales de regresi6n
deben ineluir solamente variables de predicci6n que produzcan un ereclo condidonado significali vo. Analice los eSladfsticos
de la regresi6n e indique que ecuacion hacc
hIS mejorcs predicciones.
b) Hall e el inlervalo de eonfianza al 95 pOl'
dento del coeficiente dc la pendiente del
111'0 de interes cn ambas ecuaciones de regresi6n.
13.113.
t
La Congrcssional Budget Office (e BO) de
Estados Unidos tiene intercs en saber 5i las tasas de mortalidad infantil de los eslados esttUl
relacionadas con el ni ve l de rec ursos medicos
de que dispone cada uno. Los datos para el estudio se encuentran en el fi chero dc datos lIamado State, que esta almacenado en SlI disco
de datos. L. .I medida de la mortalidad infantil
SUIl las mucrtes de ninos de menos de I ario
por cada tOO nacidos vivos. EI conjunto de variables de pred icci6n pasibles son los medicos
por 100.000 habitantes. la renla personal per
capita y los gastos totales de los hospitales (esta variable debe expresarse en magnitudes per
capi ta dividicndo por la poblaci6n del estado).
a) Reulice un amilisis de rcgrcsi6n mutt iple y
avcrigi.ie que variables de predicci6n deben
incluirse en cI modelo de regresi6n multi -
Regresi6n multiple
571
pie. Interprete su modelo final de regrcsi6n
y anal ice los cocficiente5, sus estudfsticos I
de Student. el error tfpieo de 1a cstimac i6n
y cI R2.
b) JdenLitique dos variables mas que pod rian
ser predictores adicionalcs si se anadieran
al modelo de regresi6n multiple. Contraste
su erecto en un anali sis de regresi6n multi ple e indique si sus sospcchas iniciales cran
corrcctas.
13.11 4. f" Desarro lle un modelo de regresion multi ple para predccir cI salario en funci6n de otras
variables independientes utilizando los datos
del fich ero Salary Model. que se encuentra en
su disco de datos. Para eSle problema no utilice los :tfios de expcriencia sino la edad como
sucedaneo de la experiencia.
a) Describa los pasos scguidos para obtcner el
modclo final de regres i6n.
b) Contnlstc la hip6tcsis de que la lasa de variaci6n de los salarios femeninos en fun ci6n de la edad es menor que la lasa de variad6n de los salarios masculinos en
rutlci6n de la edad. Debe formular su contraste de hip6tesi s de manera que aporte
pruebas conlundemes de la ex istencia dc
di scrimi naci6n de las mujeres [nora: las
mujcres se indic:m mcdiante un <<I » en la
variable «sexo» en 101 columna 5; el eontrasle debe realizarsc condicionado a las
demas variables de predicci6n significa ti·
vas del apartado (a)"I.
13.115. ( I Un grupo de activistas de Peaceful (Montana) cSla tratando de au mentar el desarrollo
de su prfst ino enclave. que ha sido objelo de
algun reconocimienlO nacional en el programa
de tclevisi6n FOllr Dirty Old Mell. Sosticnen
que un OIllmenlO del desarrollo comercial e indus\fial lraera mayor prospcridad e impllcstos
mas bajos a Peaceful. Concrctamentc, sosticnen que un aumento del porcentaje de locales
comcrciales e industri alcs rcducira el tipo del
impuesto sobre bicnes inmuebles y aumentiln1
el valor de mercado de las viviendas ocupnctas
por sus propietarios.
Le han contratado para analizar sus afirmaciones. Para ella ha ohtcnido eI fichero de datos
Citydllt, que conliene dalos de 45 pcquenas
ciudndes. Con estos datos, primero desalTOlla
modclos de regresi6n quc prcdicen el valor medio de las vi viendas ocupadas por sus propietarios y el tipo del impuesto sobre bienes inmuebles. A continuaci6n, avcrigua si y c6mo la
572
Estadistica para administraci6n y economia
adici6n del porectltaje dc locales comerciales y
del poreentaje de locales industriales afeeta a
la variabil idad en estos modelos de regresi6n.
EI modelo b:lsieo para predecir el valor de
mcrcado de las viviendas (e 10) incluye como
variables indcpcndientes el lamano de la vivicnda (c4), el tipo impositivo (e7), la renta
per capita (e9) y el porcentajc de viviendas
ocupadas por sus propietarios (e I2). EI modelo
basico para predcc ir cl tipo imposi ti vo (e7) incluye como variables indepcndientes el valor
cat:lstral (c6), los gaslos municipales actuales
per capita (c5/ c8) y el porcentaje de viviendas
ocupadas por sus propielarios (e I2).
Averiglie si el porccnlaje de locales comerciales (cI4) y el porcentaje de locales industriales (e [5) mejoran la variabilidad explicada
en cada uno de los tlos mOOclus. Realice Ull
contraste F condicionado de cada una de estas
variables adicionales. Primero estime el cfeclo
eondicionado del porcentajc de locales comerciales par 5i so lo y. a cont inuaci6n, el de locales industriales por sf solo. Explique delen idamente los resultados de su analisis. Incluya en
su infonne una explicaci6n de por que cs importunte inc1uir todas las demas variables en el
rnodelo de regresi6n en lugar de exmninar simplerncnte el efecto de la rclaci6n directa y s irnpic entre el poreentaje de locales comerciales
y el de locales industriales en el tipo imposit ivo y en e[ valor de mcrcado de la vivienda.
13.116. f. Utiliee los datos del fi chcro de datos lIamado Student GJ'A. que se cncuentra en Sil
disco de dalos y se describe en el apend ice. a
fin de desarrolluf un modelo para prcdecir In
calificaci6n media (O r A) de ecollornfa de un
estudiantc. ComiCllcc con las variables «ACT
scores», «gender» y «H Spcl».
a) Ut il ice metodos cstadfsticos adecuados para
elegir un subconjunlo de variables de prediccion
cst:ldisticamente
significlilivas.
Describa su estrategia y defina minuciosamente su modelo final.
b) Explique c6mo podrfa utilizar la cornisi6n
de adrnisiones de la un iversidad eSlc mode10 para tamar sus decisiones.
13.117. Un economista estim6 para una mucstm aleatoria de 50 observaciones cl modelo de regresi6n
+ fJ1 logX 1i + IJ2 10gX21 + Ih log:r)/
+ (J;J log X4i + f;i
Log,V; = cr:
donde
y = ingresos brutos generados pOl' una practiea medica
Xli = niirnero medio de horas trabajadas par
los medicos en la praclica
X 2i = numero de medicos en la praetica
x )/ = niimero de personal sanitario auxiliar
(como cn fenneras) cmpleado en la praclica
X 4 1 = numero de habitaciones util izadas en la
practica
Uti li ce In parte de In salida informatica mastrada aquf para realizar un informe sobre estos
resultados.
R- SQUAR£ - 0 .927
PARAMETER
ESTUIATE
INTERCE I?'!'
2 . 347
LOG X,
0 .239
0 . 673
="
x,
LOG "
LOG
0.279
0.082
STUDENT'S t
STD.
F OR HOI
ERROR OF
PARAMETER ... 0
ESTIMATE
3.27
8.31
6 . 64
1.61
0.013
0 . 081
0.042
0.051
Apendice
1. Obtencion de los estimadores por mfnimos
cuadrados
Los esl imadorcs de los coeficientes de un mo de le con dos variab les de pred icci6n sc obtienen de la forma sig uientc:
Capitulo 13.
Regresion multiple
573
Sc minimi za
seE ~
I" [Vi -
(bo + b,xli
+ b,x2,)12
i- I
Aplicando el calculo diferencial, obtenemos un conjunlo de Ires ecuaciones normales que
pucdcn resol verse para hallar los eslimadores de los coe ricientes:
oseE
--~ O
abo
I"
2
IYi - (b o + b,"1i
+ b,x,,)]( - 1)
~ 0
i '" I
"
"
"
"
"
"
oseE
-- ~O
ob ,
I"
2
IYi - (b o + b ,"1i
+
b,x2i)]( - Xli) ~ 0
i= J
"
"
"
"
"
"
"
X li X2i
=
"
L
X 2iYi
i- I
oseE
--~O
8b,
I"
2
o '"x li + b,",,)]( - X2,) ~ 0
[Yi - (b +
i- I
"
"
"
bo
"
"
"
L.
X 2i
+ b,
i_ I
L
/I
X l i X 2i
+
b2
i- I
L
'\~i
/I
=
i- I
L
X 2iYi
i- I
Como consecuencia de la aplicacion del algoritmo de los minimos cuadrados, tenemos un
sistema de tres ec uaciones lineales con tres incognilas, bo, hi Y h2 :
nbo + b l
"
bo
I
;=1
bo
L"
i- I
"
"
"
"
"
I Xli + b 2 iI- I X2i = iI- I Yi
i- I
"
Xli
+ hi
I xt + b2 iI= 1 X l i X 2i = iI'" I XliYi
;= 1
X2i
+ bl
L
"
i- I
X li X 2i
+
b2
"
L. 4
i- I
=
"
L
i- I
X2iYi
574
ESladistica para adminislraci6n y economia
Se rcs llclven las ecuaciones normales para obtencr los coeficientes deseados ea lcuJanclo
pri mero los distintos clladrados de X e Y y los terminos que incluyen los productos entre
eHas.
El tennino de la ordenada en el origen sc est ima de la forma siguiente:
2. Variabilidad total explicada
EI termino SCR de la variabi lidad explicada e n la regresi6n mu ltiple es mas complejo que
el term inG SCR caJculado en la regresi6n simple.
En el modele de regresi6n con dos vari ab les independi entes
y
~
Po + /J,X, + p,X,
observamos que
SCR
"'" (Yi. - y,""
~ L.
i- I
~
I"
[b o + b,xli
+ b,x" - (ho + h,;, + h,",,)J'
i- I
Vemos que la variabil idad explicada tiene Ulla parte relacionada directamente con cada
LIlla de [as variab les independi enles y L1na parte relacionada con la correlaci6 n entre las dos
variables.
Bibliografia
Ghatak. S. y D. Deadman, «Money, Prices and Stabilization Policies in Some Developing Countries», Applied Economics. 21, 1989, pags. 853 -865.
2. Hagermann. R. P., «The Determ inants or Household Vacation Travel: Some Empirical Evidence», Applied Ecollomicl', 13, 198 1, pags. 225-234.
3. MacDonald, J. M. Y P. E. Nelson. «Do the Poor Still Pay More? Food Price Variations in Large
Metropolitan Areas», loumal of Urban Economics, 30. 1991. pags. 344-359.
4. Spellman, L. J., «Entry and Profitabi lity in a Rnte·free Savings and Loan Markel), Quarterly Review oj Economics alld Business, 18. n." 2, 1978, pags. 87-95.
5. Van Scyoc, L. J. Y J. Gleason, «Traditional or Intensive Course Lcnghts? A Comparison of Outcomes in Economics Learning», 101/I'llal oj ECOllomic Educatioll, 24, 1993, pags. 15-22.
I.
Descargar