Regresi6n multiple Esquema del capitulo 13.1. EJ modele de regresion multiple Especificaci6n del modele Desarrollo del modele Graficos tridimensionales 13.2. Estimaci6n de coeficienles 13.3. 13.4. 13.5. Metoda de minimos cuadrados Poder explicativo de una ecuaci6n de regresi6n multiple Intervalos d e confianza y conlrastes de hip6tesis de coeficientes de regresion individuales Intervalos de confianza Contrastes de hip6tesis Contrastes de los coeficientes de regresi6n Contrastes de lodos los coeficientes Contraste de un conjunto de coeficientes de regresi6n Comparaci6n de los contrastes F y t 13.6. 13.7. Predicci6n Transformaciones de modelos de regresion no lineales Transformaciones de modelos cuadralicos 13.8. 13.9. Transformaciones logaritmicas Utilizaci6n de variables ficticias en modelos de regresi6n Diferencias entre las pendientes Metodo de aplicaci6n del analisis de regresi6n multiple Especificaci6n del modelo Regresi6n multiple Efecto de la eliminaci6n de una variable estadfsticamente significativa Analisis de los residuos Introducci6n En el Capitulo 12 presentamos el metodo de regresi6n simple para obtener una ecuaci6n li neal que predice una variable dependiente 0 end6gena en funci6n de una unica variable independiente 0 ex6gena; por ejemplo, el numero total de art fculos vendidos en funci6n del precio. Sin embargo. en muchas situaciones, varias variables independ ientes influyen conjuntamente en una variable dependiente. La regresi6n multiple nos permite averiguar el efecto simultaneo de varias variables independientes en una variable dependiente utilizando el principio de los minimos cuadrados. 488 Estadfstica para administraci6n y economfa Existen muchas aplicaciones importantes de la regresion multiple en al mundo de la emprasa y an la eeonomia. Entre estas aplicaciones se encuentran las siguientes: 1. La cantidad vendida de bianes es una funcion del precio, la renta, la publicidad, 2. 3. 4. el precio de los bienes sustitutivos y otras variables. Existe inversion de capital cuando un empresario cree que puede obtaner un beneficia. Par 10 tanto, la inversion de capital es una tuncion de variables rel acionadas can las posibilidades de obtener beneficios , entre las que se encuenlran el tipo de interes, el producto interior bruto, las expectativas de los consumidores, la renta disponible y el nivel tecnol6gica. EI salano es una funcion de la experiencia, la educacion, la edad y el puesto de trabaja. Las grandes empresas del comercio al par menor y Ja hostelerfa deciden Ja localizacion de los nuevas establecimientos basandose en los ingresos previstos por ventas y/o en la rentabilidad. Utilizanda datos de localizaciones anteriores que han tenido exito y que no 10 han tenido, los analistas pueden construir modelos que predicen las vantas a los beneficios de una nueva 10calizaci6n posible. EI analisis eeonomico y empresarial lien e algunas caracterfsticas unicas en comparaci6n can el analisis de olras disciplinas. Los cientificos naturales trabajan en un laboratorio en el que es posible controlar muchas variables, pero no todas . En cambia, eJ laboratorio del economista y del directiva as el mundo y las cond iciones no pueden controlarse. Por 10 tanto, necesitan instrumentos como la regresion multiple para eslimar el afeelo simultaneo de varias variables. La regresion mUltiple como «instrumenta de labarataria » as muy importante para el trabajo de los directivos y de los economistas. En esta capitulo ve remos muchas aplicaciones especificas en los ejemplos y los ejercicios . Los metodos para ajustar modelos de regresion multiple se basan en el mismo principia de los minimos cuadrados que aprendimos en el Capitu lo 12 y, par 10 tanto, las ideas presentadas en ese cap itulo se axtenderan directamente a la regresi6n multiple. Sin embargo, se intraducen algunas complejidades debido a las relaeiones entre las distintas variables ex6genas. Estas requieren nuevas ideas que se desarrollan en este capitulo. 13.1. EI modelo de regresion multi Ie N uestro objetivo es aprender a utilizar la regresi6n multiple para crear y analizar model os. Por 10 l anto, aprendemos co mo funciona la regresi6n multiple y alg unas directrices para i nlerpretaria. Comprendi endo perfectamente la regresi6 n multiple, es posible reso l ver una umplia variedad de problemas ap licac1os. Este estudio de los metodos de regresi6 n m(lItiple es paralelo al de la rcgresi6n simple. El primer paso para desarrol1ar un modele es la cs peeifieaci6 n de ese modelo, que consistc en la selecei6 n de las variables del modelo y de 13 forma del modelo. A conlinuaci6n, se estudia el metoda de millimos euadrados y se allali ~ za la variabilidad para identificar los efeetos de cada una de las va riables de predi cci6n . Despues se eswd ia 13 estimac ion, los inLervalos de confianza y cl contraste de hi potesis. Se uti l izan frecuentemenle apli cae iones informalicas para indicar como se apl ica la leOrla a problemas real istas. EI estud io de este capItulo sera mas facil si se ponen ell relaci6n sus ideas COil las que presenlamos en el CapItulo 12. Especificacion del modelo Comenzamos con una ap li cac i6n que ill/stm la importante tarea de la espec ificaci6n del modele de regres i6n. L a espec i fi caci6 n del modelo cons iste en la selecc i6n de las variables ex6gcnas y l a forma funcional del mode 10. Capitulo 13. Regresi6n multiple 489 EJEMPLO 13.1. Proceso de produccion (especificacion del modelo de regresion) EI director de produccion de CircuilOs Flexibles. S.A., Ie ha pedido aYllda para estlldiar un proceso de produccion. Los circlli tos fle xibles se producen con un rollo con tinuo de resina flex ible que lleva adherida a su su perficie una Fina peifcll la de material conductor hecho de cobrc. El cobre se adhiere a la resina pasando la res ina por una solucion de cobre. EI grosor del cobre es fu ndamenta l para que los circuilos sean de buena calidad. Depende en parte de In temperatura de la so luci6n de cobre, de la velocidad de la [fnea de produccion, de la densi.dad de la soluc i6n Y del grosor de la resina flexib le. Para controlar el grosor del cebre adheride a la superficie, el director de producci6n necesi ta saber que efecto produce cada una de estas variables. Le ha ped ido ayuda para desarrollar un modele de regresion mu ltiple. Solucion La regres ion multiple puede uti lizarsc para hacer cstimaciones de l efecto que produce cada variable en combinacion con las demas. El desan·ollo del modelo comienza con un ana lisis detenido de l contexto del problema. El primer paso en este ejemplo serfa una extensa conversacion con los ingenieros responsab les del disefio del producto Y de la produccion, con el fin de comprender detall adamente el proceso de l que se pretende desarrollar un modelo. En algu nos casos, se estud iarfa la literatura existente sabre el proceso. Este debe ser comprendido y aceptado per todos los interesados antes de poder desarrell ar Ull modelo util ut ilizando el anal is is de regresion mUltiple. En eSle ejemplo, la variable de pendiente, Y, es el greso!" del cobrc. Las valiables independientes son la temperatura de 1a solucio n de cobre. XI: la velocidad de la lfnea de produccion, X2; la dcnsidad de la solucion, XJ • y el grosor de la res ina fle xible, X4 . Los ingenieros y los cientfficos que comprendfan la tecnologfa de l proceso de recubrimiento identificaron estas variables como posibles predictores del grosor del cobre, Y. Basandose en el estudio del proceso, la especificacion del modele resu ltante es y ~ flo + {!,X, + {!2X, + P3X, + fi,X, En el modelo lineal anterior, las Ii; son coeficienles lineales conSlanles de las Xj que indican el efecto condicionado de cada variable independienle en la determinacion de la variable dependieme, Y, en la poblacion. Por 10 tanIo, las P; son parametros en el modelo de regres i6n Itneal. A continuacion, se producirfa una serie de lotes para haccr mediciones de distintas combi naciones de las variables independientes y la variable depend icnte (vcasc el anaJi sis del diseno experimenta l en el apartado 14.2). EJEMPLO 13.2. Localizac ion de las l iendas (especificacion del modelo) El director de plani ficac i6n de una gran cadena dt{ comercio al por menor estaba insatisfecho con su experienc ia en la apel1ura de nuevas tiendas. En los cuatro ult imos afios, el 25 por ciento de las nuevas tiendas no habfa conseguido las ventas prev istas en e1 periodo de pmeba de dos afios y se habfa ccrrado con cuantiosas perdidas econ6mkas. El director querfa desarro ll ar mejores crilerios para elegir el empi azam iento de las tiendas y llego a la conclusion de que debfa estudiarse la experiencia hi st6rica de las tiendas que habfan tenido exi to y las que habfan fracasado. 490 Esladfslica para adminislraci6n y economia Solucion Hablando con un consultor, lIeg6 a la conclusi6n de que pod ian uti li zarse los datos de las tiendas que habfan conseguido las venlas que estaball previ stas y los datos de las que no las habfan conseguido para desarroll ar un modelo de regresion multiple. El co n ~ suItor sugirio que debra lltil izarse como variable dependiente, y, las ventas del segundo ailo. Se em plearfa un modele de regresion para predec ir las venlas del segundo ailo en funcio n de varias variabl es illdependienles que dcfinen la zona que rodea a la tiencla. Solo se abrirfan tiendas en los lugares en los que las ventas predichas superaran un ni~ vel minima. EI mode lo tambie n indicarfa como afec tan varias variables independientes a las ventas. Tras hablar largo y tendi do con personas de la empresa, el consultor recomend6 las siguien les variables independ icntcs: 1. Xl = lamano de la tienda 2. X 2 = vol umen de trMico de la call e en la que se encuentra la tienda 3. X] = aperlura de la tienda so la a en un centro comercial 4. X4 = exislencia de una tienda rival a menos de 500 metros 5. X 5 = ren La per capita de la poblaci6n residente a menos de 8 kilometros 6. X6 = mitnero total de personas que residen a menos de 8 kjlometros 7. X7 = renta per capita de la poblacion que res ide a menos de 15 kilometros 8. Xl'. = ntimero total de personas que res iden a menos de 15 ki lometros Se uti lizQ la regresi6n multi ple para esli mar los coeficienles del modelo de pre di c~ cion de las ventas a partir de datos recog idos en lodas las liendas abiertas en los ocho 6ltimos anos. En el conjunto de datos habra tiendas que segufan abiertas y tiendas que se habfan cerrado. Se desarro1l6 un modele que podfa utilizarse para predecir las ventas del segun do ano. Este modele contenfa estimadores, b), de los para metros del modelo, p). Para ap licar el modelo g Yi = bo + L bj xji j= l se hici eron mediciones de las variables independienles de cada nueva localizaci6n pro~ pLlesta y se calcu laron las ventas predichas de cada local izac ion. Se uti liz6 cJ nivel pre~ dicho de ven tas , junto con eJ cri terio de los anal istas de marketin g y de un co mite de directores de tiendas de ex iLo, para elegir el lugar en el que se abrirfan [iendas. En la estraleg ia para especificar un modelo influyen los objetivos de l modelo. Uno de los objetivos cs la pred iccion de una variable dependiente 0 «de resultado» . Entre las apli ~ caciones se encuentran la prediccion de las ventas, de la producci6n, del consumo total, de la invers ion total y otros muchos criterios de los resultados empresariales y economicos. EI seg undo objetivo es estimar el efecto marginal de cada variable independiente. Los eco no~ mi stas y los di recti vos neces ilan saber como cambian las medidas de los resultados cuando varian las variables independicn tes, Xj' donde j = I, .. ., K. Por ejemplo: L 2. 3. l,Como varfan las ventas como consecllencia de una subi da del precio y de los gastos pllblicitarios? i..Como varia la producci6n cuando se alteran las cantidades de trabajo y de capi tal ? i.. Disminuye la mortalidad infantil cuando se illcremenlan los gastos en asistenc ia sanitaria y en servicios de saneamiento? Capitulo 13. Regresi6n multiple 491 Objetivos de la regresi6n La regresi6n multiple permite obtener dos importantes resultados: 1. 2. Una ecuaci6n lineal estimada que predice la variable dependiente, Y, en funci6n de K variables independientes observadas, xi' donde j = 1, ...• K. donde i = 1, "" n observaciones. La variaci6n marginal de la variable dependiente, Y, provocada por las variacionas de las variables independienles, que se eslima por medio de los coeficientes, bj. En la regresi6n multiple, estos coeficientes dependen de que otras variables se incluyan en al modelo. EI coeficiente bj indica la variaci6n de Y, dada una variaci6n unitaria de X;, descontando al mismo tiempo el efecto simultaneo de las demas variables independlentes. En algunos problemas, ambos resultados son igual de importantes. Sin embargo, normalmente predomina uno de ellos (por ejemplo, la predicci6n de las ventas de las tiendas, y, en el ejemplo de la localizaci6n de las liendas). La variaci6n margina l es mas diffei l de estimar porque las variab les independ ientes csHi.n relac ionadas no s610 con las variables depen dienles sino lam bien entre Sl. Si dos variubles independie ntes 0 mas varian en un a re lac i6n linea l directa entre sf, es dificil averiguar cI efecto que produce cada variable independienle en la variable dependiente. Exam inaremos delalladamen te el modelo del ejemplo 13.2. EI coeficien te de XI ---es decir, b J- indica la variaci6n que experimentan las ventas del segundo ana por cada variaci6n unitaria del tamano de la tienda. EI coeficiente de Xj indi ca la variaci6n que experi mentan las ventas por cada variaci6n unitari a de la rcnta per capita de la poblaci6n que reside a menos de 8 ki l6metros, miell(ras que la de X7 indica la variaci6n de las ventas por cada variaci6n de la renla per capita de la poblaci6n que res ide a menos de 15 ki l6metros. Es probable, pOI' supuesto, que las variables Xs Y X7 esten correlacionadas. Par 10 tanto, en la medida en que estas variables varfen am bas al mismo tiempo, es diffcil averiguar la contribucion de cada una de elias a la variacion de los ingresos generados por las ventas de las tiendas. Esta correlaci6n entre variables independientes comp lica e l modelo. Es importanle comprendcr que e l mode lo predice los ingresos generados por las ventas de las tiendas ulilizando la combinaci6n de variables que contielle el modelo. El efecto de una variable de prediccion es e l efecto que produce esa variab le cuando se combina con las demas. POI' 10 tanto, en general, el coeficiente de una vari ab le no indica el efecto que produce esa variable en todas las condiciones. Estas complcj idades se anal izanl n mas delen idamenle cuando se dcsarroll e el mode lo de rcgresi6n mUltiple. Desarrollo del modelo Cuando aplicamos la regresi6n mUltiple, construimos un modelo para exp licar la variabilidad de la variable dependiente. Para eso queremos incluir las influencias simultaneas e in* dividuales de varias variables independientes. Supongamos, por ejemplo, que queremos desarrollar un modelo que pred iga el margen anua l de beneficios de las soc iedades de ahorra y cn!dilO in mob ili ari o ulili zando los dalos recog idos durante un periodo de anos. Una especificaci6n inicial del modelo indicaba que el margen an ual de beneficios eslaba relac ionado can los ingresos netos pOl' dolar depositado y el nLimero de oncinas. Se espera que el ingreso neta aumente el margen anua! de benefic ios y se preve que el nllmero de ofic in<ls 492 Estadfstica para adminislraci6n y economia red llcini el margen an ual de benericios dcbido al aumenlO de la competencia. Eso nos lie. varia a especifi car lin modele de regrcs i6n poblacional Y = flo + li,X, + (J,X, + c donde Y = margen anual de beneficios XI = ingresos anuales netos por d61ar depos itado X2 = numcro de ofi cinas existe ntes ese anD Savings LIl Tabla 13. 1 y cl Fichera de dalos Savings and Loa n cont iencJ1 25 observaciones por ano de eS{as variables. Utili zaremos estos datos para desarralJar un modele li neal que prediga el margen anunl de beneficios en fu nci6n de los ingresos por d61ar depos ilado y del nume ro de ofi cinas (vease la referencia bibliografica 4). and Loan Ta bla 13.1. Ano I 2 3 4 5 6 7 8 9 !O II 12 13 Ingresos po r d611l r 3,92 3,6 1 3,,2 3,07 3,06 3, 11 3,2 1 3,26 3,42 3,42 3,45 3.58 3,66 Datos de las asociaciones de ahorro y c redito inmobitiario. Nlimero Mllrgen de d e oficinas beneficios 7.298 6.855 6.636 6.506 6.450 6.402 6.368 6.340 6.349 6.352 6. 361 6.369 6.546 0,75 0,7 1 0,66 0,6 1 0,7 0,72 0,77 0,74 0,9 0,82 0 ,75 0.77 0,78 Ano lngresos por d61a r 14 15 16 17 18 19 20 21 22 23 24 25 3,78 3,82 3,97 4.07 4,25 4.4 1 4.49 4,70 4,58 4.69 4.71 4.78 Numero Margen de de olieinas henelicios 6.672 6.890 7. 115 7.327 7.546 7.93 1 8.097 8.468 8.7 17 8,99 1 9. 179 9.318 0,84 0,79 0,7 0,68 0,72 0,55 0,63 0,56 0,41 0.5 1 0,47 0,32 Pero antes de poder estimar el modelo, es necesario desarrollar y comprender el me· todo de regres i6n multiple. Para comenzar, exami nemos el rnodelo gene ral de regres i6n multiple y observemos sus diferencias CO il el modele de regresi6n simp le. EI modelo de regres i6n mUltiple es donde f'.; es e l tt~rmi no de error aleatorio que tiene la media 0 y la varian za (J2, Y las /lj son los coeficientes 0 efectos margi nales de las variables independie ntes 0 cx6genas, Xj . donde j = I, .. ., K, dados los efeclOs de las demas variables independie ntcs. Las i indi o can las observacioncs, siendo i = I, ... , 1/.. Uti lizamos las minusculas Xji para indi car los va lores especfficos de la variable Xj en la obscrvac i6n i. Suponemos que las 8i son inde· pendientes de Jas Xj y entre sf para que las estimaciones de los coefi cientes y sus va· rianzas sean correctas. En el Capitulo 14 ex plicamos que ocurre cuando se abandon an estos su puestos. Capitulo 13. Regresi6n multiple 493 EI mode lo mucstra l estimado es don de e; es cl residuo 0 diferencia entre el valor observado de Y y el valor estimado de Y obten ido utili zando los coeficientes cstimados, bi' donde j = I, ... , K. EI metodo de regresi6n obl iene estimac iones simultaneas, bi' de los coeficientes del modelo pob lac ional , /Jj' utili zando el metodo de minimos cuadrados. En nuestro ejempJo de las asoc iaciones de ahorro y credi to inmob iliario , el modelo poblacional para los puntos de datos indi viduales es Este modelo reducido con dos variab les de prediccio n solamente brinda la oportunidad de comprender mejor el metodo de regresi6n. La func ion de regres i6n puede representarse gnificBmente en Ires dimensiones, como muesLra la Figura 13. 1. La funci6n de regresi6n se representa mediante un plano en el que los valores de Y son una funci6n de los va lores de la variables independientcs Xl Y X 2. Para cada par pos ible, Xl;, X2i, el valor esperado de la variable dependi enle, Yi. se encuentra en el plano. La Figura 13.2 ilu stra especff"icamentc cl ejemplo de las asociaciones de ahorro y credilo jnmobili ario. Un aumento de Xl provoca un au mento del valor esperado de Y, condicionado al cfeclo de X2 • Asimismo, un aumento de X2 provoca una di sminucion del valor esperado de Y, condicionada al efeclo de XI. Para complelar nuestro modelo, anadimos un (ermino de error I:. Este termino de en·or reconoce que no se cump li ra exaClamenle ninguna relaci6n postu lada y que es probable que haya Olras variables que tamb ie n aFeclen al valor observado de Y. Por 10 tanto, cuando aplicamos ei modelo, observamos el valor esperado de la variable dependiente, Y- represent ado por el plano e n 101 Figura 13.2-, mas un {e rmi no de error alealorio, 1-:, que representa 1a parte de Y no inc\uida en eI valor esperado. Co mo conseCUCllcia, cI mode lo de datos liene la forma y y .x, Figura 13.1. EI plano es el valor esperado de Y en funci6n de XI Y X2. Figura 13.2. Comparaci6n del valor obselVado y el esperado de Yen funci6n de dos variables independienles. 494 Estadistica para administraci6n yeconomia EI modele de reg res ion poblacional multiple EI modelo de regresi6n poblacional multiple define la relaci6n entre una variable dependien!e 0 end6gena, Y, y un conjunto de variables independien!es 0 ex6genas, xi' donde j == 1, ... , K. Se supone que las xji son numeros fijos; Yes una variable aleatoria definida para cada obselVaci6n, i, donde i == 1, ..., n, y n es el numero de obselVaciones. EI modele se define de la forma siguiente: (13.1) donde las Pj son coeficientes constantes y las I: son variables alealorias de 0 y varianza a2 . En el ejemplo de las asociaciones de ahorro y credito inrnobiliario, con dos variables independientes, el modelo de regres i6n pob lacional es Dados valores especfricos de los ingresos netos, Xli' y el numero de oric inas, XZi' el margen de benericios observado, Yi' es la suma de dos partes: el va lor esperado, flo + {JIX li + fJ-zX2i' y el tennino de error aleatorio, f.i . EI termi no de error aleatorio puede concebi rse como In combinaci6n de los efeclos de oLros muchos factores sin iden tificar que afecLan a los margenes de beneric ios. La Fi gura 13.2 ilustra el modele; el plano ind ica el valor esperado de vadas combi naciones de las vari ables indepe ndi entes y la E; es la desviaci6 n entre el plano --el va lor esperado--- y cI valor observado de Y - marcado con un punto grande- de un punto de dato especffico. En genera l, los valores observados de Y no se Cneuentran en el plano sino po r encima 0 por debajo de el, debiclo a los lerminos de error positivos 0 negatiVOS, l:i' La regres i6n si mple, presentada en el capftul o anterior, no es mas que un caso especial de la regres i6n multipl e con una (mi ca variable de predi ec i6n y, por 10 tanto, el plano se reduce a una Hnea. As f pues, la teorla y eI anali sis que hemos desarrollaclo para ta regresi6n si mple tambi en se aplican a la regres i6n multi ple. Si ll embargo, ex iste n algunas interprctaciones mas que desarrollaremos en nuestro eSludio de la regresi6n multiple. Una de eli as se ilustra en el siguiente anali sis de los grafieos trid imensionales. Gnificos tridimensionales Tal vez sea mas fUeil eomprender el metodo de regres i6n multiple mediante una imagen grMi ca sim plificada. Observe el rinc6n de la habitacion en la que esta sentado. Las Hneas formadas pOI' las dos paredes y el suelo representan los ejes de dos vari ables independientes, X I Y X2 . La esquina que forman las dos paredes es el eje de la variable dependiente, Y. Para estimar una recta de regresi6n, relln imos conjllntos de punlOs (x l i. X2i e yJ Representemos ahora estos puntos en su habitac i6n utili zando las esq uinas de las paredes y el slle lo como los tres ejcs. Con estos puntos suspendidos en su habi tae i6n, buscamos un pl ano en el espacio que se aproxi me a todos ell os. Este plano es la fo rma geo metrica de la ecuaci6n de mfnimos cuadrados. Con estes PUlltos en el espacio, ahora subimos y bajaIllOS un plano y 10 hace mos girar en dos direcciones: todos estos movimientos los hacemos simultaneamente hasta que tenemos Lin plano que esta «cerea» de lodos los puntos. Recuerdese que en el Capitulo 12 hieimos esto con una Ifnea recta en dos dimens iones para obtener una ec uaci6 n Capitulo 13. Regresion multiple 495 A contin uacion , extendemos esa idea a tres dimensioncs para oblener una ecu<1ciu n "" INTERPRETACION Este proceso cs, par supuesto, mas complicado que en el caso de In rcgresi6n simple. Perc los problemas reales son complicados y la regres i6n permite analiza!" mcjor In complejidad de estos problemas. Querernos saber c6mo varfa Y cuando varfaX !. Pero sabemos que en estas variaciones influye, a su vez, la forma en que varfaX 2 . Y si XI Y X z siempre varfan a la vez, no podernos saber cuanto contribuye cada variable a las variaciones de Y. Las interpretac iones geomelricas de la regresion multiple son cada vez mas comp lejas a medida que aumenta el numcro de variables independientes. Si n embargo, la analog fa con la regresion simple cs ex traordinari amente uti!. Estimamos los coeficientes minimizando la suma de los cuad rados de las desviaciones de la dimensio n Yen torno a una fu nc ian lineal de las variables independ ientes. En la regres ion si mple, la fu nci 6n es una linea recta en un grafi co bid imen sional. Con dos variables independientcs, la funcion es un plano en un espacio tridimensional. Cuando consideramos mas de dos variables independientes, (enemos varios hiperplanos complejos que son impos ibles de vis ualizar. EJERCICIOS Ejercicios basicos c) l,Cuai es la variaeion de en 2'1 13.1. Dado el modelo lineal eSli mado y= 10 13.5. Dado el modelo lineal estimado + 3xI + 2x2 + 4xJ a) Calcule.V cuando XI b) Calcule c) Calculc d) Calc ule Xl Ycliando XI y cuando y cuando Xl = 20, X2 = = 15, x 2 = = 35. x 2 = = 10, X2 = II y.\") = 10. 14 Y x3 = 20. 19 Y X3 = 25. 17 Yx] = 30. 13.2. Dado el modelo lineal CSlimado y= 10 + 5Xl + 4x2 + 2x] a) Calcule.V cuanda XI ycuando XI b) Ca\Cule c) Calcule y cuando XI d) Calcule Xl y cuando = 20. X 2 = = 15, X2 = = 35, X2 = = 10, x 2 = 11 14 19 17 Y x] Y x3 Y X3 Y x) = = = = 10. 20. 25. 30. 13.3. Dado el modelo lineal eSl imado y= a) Calcule 10 + 4-1 + y cuundo XI y cuanda Ca1cule y cuando Calcuie y cuundo XI = c) XI XI + 8X3 = 20. X2 = 15, x2 = = 20. x 2 = = 1O'.\"2 = b) Ca1cule d) 12x2 11 Y x3 = 10. 24 Y X3 = 20. 19 Y x) = 25. 9 Y X3 = 30. 13.4. Dado el modelo lineal esti mado y= 10 + lxl + a) l,Cuai es la variaci6n de en 4? b) l,Cual es In variaci6n de en I? y cuando x2 aumenla 12t2 + 8x3 y cuando Xl aumenta y cuanda xJ aumenla y= 1O -2x1a) l,Cual es la variacio n de 14x2+&3 ycualldo x] aumenta cn 4? b) l,Cual es la variacion de nuye cn I? c) l,Cmil es la variac ion de nuye en 2? y cuanda X3 dismi- y cuando X2 dismi- Ejercicios aplicados 13.6. Una empresa acromiulica querfa predeeir e\ numcro de horas de trabajo necesario para aeabar el diseno de un nuevo avi6n. Se pensaba que las variables cxplicativas relevantes eran la velocidad m[lxima del avian. Sli peso y el numero de piezas que lenia en comun can olms modelos construidos por 1a cmprcsa. Se tom6 una muestra de 27 aviones de la empresu y se esti mo el S l guienle modelo: Yi = Pu + Pl-\·Ii + fizX2i + {3Y:3j + e,. donde y,. = esfuerzo de disefio en millones de horas de trabajo Xli = veloeidad maxima del avi6n, en kil6mctros par hora X2i = peso del avion, en loneladas 496 Estadistica para administracion y economia X 3" = numcro porccnlual de piews en camLin con atros modelos Los coeficientes de regresi6n estimados cran 6, h j = 0,661 ~ 0.065 6, ~ - 0,018 Xl = rentn semana[ en ciemos de d61ures X 2 = lamano de la familia Las cstimaeiones de los panimetros de la regrcsi6n par mlnimos cuadrados eran bo = Interprete estas estimacioncs. 13.7. En un estud io de la influencia de [as instiwciones fInancieras en los tipos de interes de los bonos alemanes, se anal izaron datos trimestrales de un periodo de 12 aiios. EI modelo postlilado era Yi = flo + fllx li + fJ?'x 2, + e,. dondc Yi = variaci6n de los tipos de inten::-" de los bonos en el trimcstre Xli = variaci6n de las compras de bonos pOl' parle de las instituciones financieras en el trimestre X2,. = variacion de las ventas de oonos POI' p aJ1C de las instituciones financieras en cI trimestre Los eoeficientes de rcgrcs ion parcial estimados eran b, ~ 0,057 b, ~ -0,065 Interprete estas estimaciones . 13.8. Se aj llst6 el siguiente modelo a una muestra de 30 fam Uias para explicnr el consumo de leche por familia : Yi = Po + PIX I ; + P2X2i + 8, dande Yi = consumo de leche, en li tros a In seman a ~ 0,025 b l = 0,052 a) Interprete las estimaciones b J Y b2 . b) j,Es posible hacer una interpretaei6n de la estimacion b o que tenga sentido? 13.9. Se ajust6 eI slguienle modelo a una muestra de 2S estudiantes utilizando datos obtenidos a! final de su primer ano de universidad . El objcl ivo era explicar el aumento de peso de los esrudiantes. Yi = Po + PIXI,. + fliX2; + P:y'<3iC,. donde y,. aumento de peso en kilos durante el primer ano Xli = numero media de comidas a la semana X 2i = numero medio de horns de ejercicio a la semana X3i = numero medio de cerveZ<lS consumidas a la semana = Las estimaciones de los para metros de la regresi6n pOl' mlnimos cuadrados eran b o = 7,35 b2 = ~ 1 , 345 b l = 0,653 b3 = 0,613 a) Interprete las estimaciones hi' b2 Y b 3 . b) t,Es posib le haecr una interpretaci6n de la estimnci6n bo que tenga sentido? 13.2. Estimaci on de coeficientes Los coeficientes de regres i6n mul tiple se ca lcul an utilizando estimadores oblenidos mediante el melodo de mfnimos cuadrados. Este metodo de minimos cuadrados es similar al que presenlamos en el Capitulo 12 para la regresi6 n simple. S in embargo, los estimadores son complicados debi do a las relaciones entre las vari ables independicntes Xj que ocurren simu ltaneamente con las re laciones entre las vari ables independ ientes y la variabl e depend iente. Por ejemp lo , si dos variables indepcndientes aumcntan 0 dismin uycn al mi smo tiempo -corrcl aci6 n pos it iva 0 negati va- mientras que al mismo tiempo la variable dcpendiente aumenta 0 dismin uye, no podemos saber que variab le independ ienle esta relac ionada rea hn ente con la variaci6n de la variable dependi ente. Como consec uenc ia, observamos que los coeficientes de regresi6n estimados son menos fiabl es si hay estrcchas correl ac iones entre dos variables independi cntcs 0 mas. Las estimac iones de los cocfic ientes y sus varianzas sicmprc sc obtienen por com putador. Si n embargo, ded icaremos bastanles esfuerzos a eSlud iar el algebra y las rormas de calcul ar la regresi6n pOl' mfnimos cuadrados. Estos esfuerzos permi tin.lll comprender el metoda y averi guar c6mo influ yen las d ife rentes pautas de los datos en los resultados. Come nzamos con los supuestos habituales del modelo de regres i6 n multi pl e. Capitulo 13. 497 Regresion multiple Supuestos habituales de la regresi6n multiple El modelo de regresion poblacional multiple es y; = fio + fi,Xt; + fJ2-''( 2i + ... + fJKX Ki + t; y suponemos que se dispone de n conjuntos de observaciones. Se postulan los siguienles supuestos habituales para el modelo. 1. Las X/I son 0 bien numeros fijos, 0 bien realizaciones de variables aleatorias, XI' que son independientes de los terminos de error, cr En el segundo caso, la inferencia se realiza condicionada a los valores observados de las xj , 2. EI valor esperado de la variable aleatoria Yes una juncian lineal de las variables independientes ~. 3. Los terminos de error son variables alealorias cuya media es 0 y que tienen la misma varianza, t? Este ultimo supuesto se denomina homocedasticidad a varianza uniforme. y 4. Ell;lJ = ([2 para (i = t , .. ., /1) Los terminos de error aleatorios, c" no eslim correlacionados entre sf, por 10 que para todo i = j 5. No es posible hallar un conjunlo de numeros que no sean iguales a cera, co' c 1 ' tal que ••• , cK' Esta es la propiedad de la ausencia de relacion lineal entre las Xl Los cuatro primeros supuestos son esenc ialmente iguales que los que postulamos en el caso de la regresi6n simp le. Sin embargo, el supuesto 5 excluye algu nos casos en los que existen relaciones lineales e ntre las variables de pred icc ion. Supongamos, pOl' ejemplo, que lenemos interes en ex pl icar la variab il idad de las tarifas que se cobran par cI envlo de mafz. Una variable expl icativa ev idenle serfa la distancia a la que se envfa el maiz. La distancia podrfa medirse en diferentes unidades como millas 0 kil6metros. Pero no tendrfa sentido uti lizar co mo variables de predicci6n tanto la distancia en mill as como la dislanc ia en kil ometros. Estas dos medidas son func iones lineales una de la olra y no satisfarfan el supuesto 5. Ademas, serfa una tonterfa tratar de evaillar sus efectos independientes. Como veremos, las ecuaciones para calcu lar las eslimaciones de los coeficientes y los program as informaticos no funcionan si no se satisface el supuesto 5. En la mayorla de los casos, la especificaci6n adecuada del modelo evi tara que se viole ese su puesto. Metodo de mfnimos cuadrados EI metoda de mfnimos cuadrados para la regresi6n multiple calcu la los coeficientes estimados pa ra min imizar la suma de los clladrados de los residuos. Recue rdese que el residuo es 498 Estadfstica para administraci6n y economia Yi donde Yi es el valor observado de Ye es el valor de Y predi cho a partir de la regres iun. En terminos formales , minimi za mos SCE: seE ~ L" ;=1 L" ~ e; (y; - y;)' ;=1 = L" (y; - (b o + b,x, ; + ... + bKxd)' i"" I Esta minimizaci6n eonsiste en hallar el plano que mejor represente un eonjunto de pu ntas en el espacio, como hemos visto en nuestro analisis de los graficos tridimensionales, Para rea lizar el proeeso formal mente, utili zamos deri vadas pare ia les para desarroll ar un eonjunto de eeuacioncs normal es simuitaneas que se resuelve para obte ne r los estimadores de los coeficien tes. Para los que tc ngan buenos conocimientos de mate maticas, en el apendi ce de l capitul o presentamos algunos de los detalles del proceso, S in embargo, se pueden extracr importantes concJusioncs dandose cucnta de que quere mos enconlrar 1<1 ec uaci6n que mejor re presente los datos observados. Afortunadame nt e, e n las apli caciones estudiadas e n este libra, los co mpl ejos calcul os siemprc se rcalizan utili zando un paquete cstadfstico co mo Minitab, SAS 0 SPSS. Nuestro objetivo es comprender c6mo se interprelan los resu lt ados de las regresioncs y utilizarlos para resolver pro bl emas. Lo hare mos examin ando algunos de los result ados algebraicos inlennedios para ayudar a comprender los e fectos que producen di stintas paUl as de datos e n los estimadores de los cocri cientes. Estimaci6n por minimos cuadrados y regresi6n muestral multiple Comenzamos can una muestra de n observaclones (XI" X2i , "" xKo' y~ donde i = 1, ,." n) medidas para un proceso cuyo modelo de regresi6n pobJacional multiple es Las estimaciones par minimos cuadrados de los coeficientes fJl' fJ 2 , ,." bo' b l , ... , b K para los que la suma de los cuadrados de las desviaciones SCE = L" ;- 1 (Yi - bo - blXli - b2!2i - ... - b KxKi fJ K son los valores (13 .2) es la menor posible . La ecuaci6n resultante (13.3) es la regresi6n muestral multiple de Yean respecto a XI' X2 , Consideremos de nuevo el modelo de regresi6n mente. COil ... , XI(' dos variab les de pred icci6n sola· Capitulo 13. Regresi6n multiple 499 Los estimadores de los eoeficientes pu eden reso lverse utilizando las fonnas s iguientes: (13.4) (13.5) (13.6) donde I~\ I)' = r.l:2.l' = = SXI = ...~> = = I':<IXl s; correlaci6 n muestral entre correlaci6n muestral en tre correlaci6n muestral entre desv iac ion tlpica muestral desv iaci6n Llpica muestrru desv iaci6n tfpica muestrru XI Y Y Xz e Y X I Y X2 de X I de X2 de Y En las ecuaciones de los estimadores de los coeficientes , vemos que la est imaci6n del cocficiente de la pendiente, b l, no s610 depcnde de la correlac i6n entre Y Y XI sino que tam bien la afec(a la correlaci6n en tre X I Y Xl Y la correlaci6n entre Xl e Y. Si la cOlTelaci6n entre XI Y X2 es igual a 0, los estimadores de los coefieientes, hi Y b2• senln igua les que los eSLimadores de los eoeficienles que se obtendrfan en las regres iones simples correspondiemes: debemos sei'iaJar que eslO raras veces ocurre en el anal isis empresari al Y eeon6mico. Y a 1a inversa, si la correlac i6n entre las variables independientes es igual a I, los estimadores de los coeficientes seran indefin idos, pero eso se debenl unicamente a que la cspeciFicaci6 n del modelo es incorrccta Y viol an'i el supuesto 5 de la regresi6n multiple. Si las variab les independientcs estrin correlacio nadas perfecLamcnte, ambas experimen tan variaciones rel ativas silTIllhiineas. Vemos que en ese caso no es posib le saber que variab le predice la variaci6n de Y. En el ejemplo 13.3 vemos el efeclo de las correlaciones en tre las variables independien les examinando el prob lema de las asociaciones de ahorro y eredito inmobiliario, cuyos datos se muesLran en la Tabla 13.1. EJEMPLO 13.3. Margenes de beneficios de las asociaciones de ahorro y credito in mobilia rio (estimacion de los coeficientes de regresion) , Savings and Loan EI presidente de la confederacio n de asoc iaciones de ahorro y credito inmobi li ari o Ie ha pedido que ident ifiqllc las variables que afeclan al margen porcentual de beneficios. Soluci6n En primer Jugar, desarrollamos una especificaci6n del modelo de regresi6n multiple que predice los beneficios como una fllnci6n lineal del porcentaje de ingresos netos por d6lar depositado y el numero de ofi cinas. Util izando los datos de la Tabla 13. 1 que se encuentran en el fichero de datos Savings and Loan, hemos eSlimado un modele de regres i6n multiple, que se observa en las Salidas Minitab y Excel de la Figura 13.3. Los coeficientes esti mados se identifican en la salida de los programas informati cos. Vemos que cada aumento unitari o de los ingresos, Xl' provoca un all menlo de los beneFi cios porcentuaJes de 0,237 -si la olm variable no varfa- y un aumento unitario del 500 Eslad istica para administraci6n y economia Regression Analysis: Y profit versus X1 revenue, X2 offices The regression e quati o n is Y profit = 1 . 56 ~ 0 . 23 7 Xl revenue - 0 . 000 24 9 X2 offices Co eficientes _ _ -;:;;--;:=;-_ _ --:- ---:- de / __-;:~..boo regresion b,. b, p Coe SE Coef T Predictor Con stan t Xl r e v e n ue x 2 of f ices 1 . 564 50 0.23720 0 . 00024908 S = 0 . 0533022 R- Sq = 0.079 4 0 0 . 05556 0 . 00003205 0 . 000 0 . 000 0 . 000 1 9 . 70 4 . 27 - 7 . 77 R-Sq (ad j) = 85 . 3% 8 6 . 5% Ana lys i s of Va ri a n ce OF 2 Source Re g r e ssion Residu a l Er r o r Total 22 24 SS MS 0 . 40151 0 . 0 6 2 50 0 .4 64 02 0 . 2007 6 0 . 00 2 8 4 F 70 . 66 P 0 . 000 ., ; , , R ~ ; G",,", , , s~ ,. ;;;;-" ...,,,.. " v.,,;;-::"'" F . ~ ,,, . , ~ . . .. CoeflC lentes de regreslOn b,.b, boo Figura 13.3. Ecuaci6n de regresi6n de los beneficios de las asociaciones de ahorro y credito inmobiliario: (a) salida Minitab; (b) salida Excel. numero de ofic inas reduce los beneficios en 0,000249. Cons ideremos ahora los dos mode los de regresi6n simple de las Figuras 13.4 y 13.5, en los que hacemos una regresi6n de Y con respeclo a cada variable independienle por separado. Consideremos primero la regresi6n de Ycon respecto a los ingresos. Xl ' de la Figura 13.4. En eSla regresi6n simple, el coeficienle de Xl es -0, 169, que es ciaramenle diferente de + 0.237 de la regresian mu l! iple. M,ls abajo, vemos que la correlaci6n entre X I Y X2 es 0,941. Esta gran correlac i6n produce un gran efecto en el coefi ciente de Xl en la ecuaci6n de regres i6n multiple. Consideremos a conlinuaci6n In regresi6n de Y con respecto a X2 solamenle de la Figura 13.5. En esla regres ian simple, el coeficiente de la pendiente del numero de ofi ~ Capitulo 13. Regresi6n multiple 501 Regression Analysis: V profit versus Xl revenue The regression equation is Y profit = 1.33 - 0.169 xl revenue Predictor Const-ant Xl revenue 5 Coef 1.3262 ~ ... . 0 . 100891 R-Sq = 49 . 5% Analysis of variance DF Source Regression 1 Residual Error 23 Total 24 Figura 13.4. SE Coef 0.1386 0.03559 R-Sq (adj) T p 9.51 - 4.15 0 . 000 0.000 41.4% " S5 M5 F P 0.22990 0.23412 0 . 46402 0.22990 0 . 01018 22 . 59 0 . 000 Coeficiente de regresion b 1 Regresi6n de los beneficios de las asociaCiones de ahorro y cr~dito inmobiliario con respecto a los ingresos. Regression Analysis: Y profit versus X2 revenue The regression equation is Y profit = 1.55 - 0 . 000120 x2 offices Predictor Constant x2 offices 5 • Coef 1 .54 60 ~ . 000120Il> ~0 . 00001434 0 . 0104911 R-Sq(adj) R-Sq '" 75 . 4% Analysis of variance Sourc e DF Reg r ession 1 Residual Error 23 Total 24 Figura 13.5. SE Coef 0.1048 T P 14 . 15 -8 . 39 0.000 0 . 000 . 14.3% 55 M5 F P 0.34913 0 . 11429 0 .4 6402 0 .3491 3 0.00491 10 . 38 0. 000 Coeficiente de regresion ~ Regresi6n de los oeneficios de las asociaciones de ahorro y cr~dito inmobiliario con respecto a! numero de oficinas. cinas, X2, es - 0 ,1XXl120, mientras que en 1a regres i6n multiple es - 0,000249. Este cambio de los coefi c icntes, aunque no es Ian grande como en el caso del coeficiente de X I_ tambie n se debe a la eslrecha correlaci6n ·entre las variables independientes. Las correlaciones entre las Ires variables son Y Beneficios Xl lngresos X2 Oficinas Xl lngresos - 0,704 - 0,868 0 ,94 1 Vcmos que la corrclaci6n entre XI Y X 2 cs 0,941. Por 10 tanio , las dos variables tiendcn a variaI' a la vcz y no es sorprendente que los coeficienles de la regresi6n multipl e sean difercnles de los coeficientes de la regresi6n simple. Debemos senalar que los coeficientes de la regresi6 n multiple son coejiciel1tes cOlldiciol/ados; es dec ir, el coeficienLc est imado 502 Esladislica para adminislracion y economia hi depende de las demas variabl es incJuidas en e l modelo. Eso sicmpre es aSI en la regre. si6n multiple, a menos que dos variables indcpcndientes tengan una correlaci6n 1lluestral de ccm, algo que es l11uy improbabl e. Estas rc laciones tam bien puedcn eSludiarse uli li zando un IlgrMico malricial» de Mini. tab, como e l que muestra la Figura 13.6. No existen grafi cos de este tipo en Excel. Obser. vese que la relaci6n simple entre Y y X2 es claramente lineal. mientras que la relacion sim ple entre Y Y XI es algo curvilfnea. Esta rel ac ion no lineal entre XI e Yexplica en parte por que e l coeficienle de Xl de la regresi6n simple es ran distinto del de la regrcsion multiple. Vemos en este ejem plo que las correlaciones entre variables independientes pueden inOuir considerablcmenle en los coeficientes estimados. Por 10 taniO, si es posible cleg ir, deben cvitarse las variab les independicntes muy correlac ionadas. Pero en mochos casos no es posib le clcgi r. Las estimaciones de los coefi cientes de regres ion sicmpre dependen de las demas vari ables de predicci6n del modelo. En este eje mplo, los beneficios aumentan en funci6n de los ingresos porcentuales por dolar depositado. Sin embargo, e l uumento simultaneo del numero de oficinas -que red ujo los beneficios- ocultarfa el aumento de los beneficios si se utilizara un analisis de regres i6n simple. Por 10 lanlo, es muy importanle especificm correctamente el modelo, es decir, la elecci6n de las variables de predicc i6n. Para especifi car cl modelo es necesario comprender el contexto del problema Y la teoria. Matrix Plot of X1 revenue, X2 offices, V profit Xl' .... v .... nue I~I),)I ) 8000 • 7000 0.' 0.• 0.4 •• •• • • • • • • ~ •• • • • • '. .' ". • • • • • • • •• • • X2 offices . • · '. , 4 Figura 13.6. Instrucciones de Minitab 1. Pulsar Graph 2. Seleccionar Matrix plot 3. Seleccionar Simple 4. Seleccionar Matrix options 5. Seleccionar lower Left •.' •• • •• , • • • •• • I' • • • • • • , 7000 8000 Y profit •• , 9COO • Graficos matricia!es de las variables de las asociaciones de ahorro y crMito inmobiliario. EJERCICIOS Ejercicios basicos 13.10. Calcule los coeficicntes b l Y b 2 del modelo de rcgrcsi6n a) rx ,y = 0,60; r xlY = 0,70; rX • T , = 0,50; sx, = 200; S XI = 100: Sy = 400 b) Tx ,}, = - 0,60: TX1:1 = 0,70; ,-x .... , = - 0,50; Sx, = 200·' s.~, = 100'' S y = 400 c) = 0,40; ':'1:1 = 0,450; = 0,80; S x, = 200'' sx, = 100's ' y =400 d) ':'oY = 0,60; rx,y = - 0,50; ,-x ...., = - 0,60; .~x, = 20C},.' ' .<, = 100'' S y = 400 Tx,y dados los siguientes eSladfsticos sinteticos: ':.,x, Capflulo 13. Regresi6n multiple :jercicios aplicados a) Formulc una ecuaci6n de regresi6n que utili- 13.11. Considere las ccullciones de regrcsi6n lineal eslimadas Y = no + alX I y = bo + blX I 13.12. 503 + "zX2 b) a) Mucstre dctaJladamente los estimadores de los coeficientes de a l Y hi cuando la cOiTelaci6n entre X I Y X 2 es igual a O. b) Muestre detalladnmcnte los estimadores de los coefic ientes de (Jj Y b l cuundo la correiaci6n entre X I Y Xz es igual n I. c) Se recomienda que los siguientes ejercicios se resue lvan con lu ay uda de un computador. d) f 1 Amalgamated Power Inc. Ie ha pedido que eSlime una ecuaci6n de rcgresi6n para averiguar c6mo afeclan algunas variables de predicci6n ,I 101 demanda de ventas de electricidad. Realiza una serie de estimac iones de regrcsi6n Y anali za sus resultados uti lizando los dalos trimestrales de las ventas de electricidad de los 17 dltimos afios que se encuen tran en el fi chero de datos I)ower Demand. a) Estime una ccuHci6n de regresi6n utilizando las ventas de elcctricidad como variable dependicnte y el ndmero de clientes y cl precio como variables de predieei6n. Interprete los eocfieientes. b) Estimc una eeuaei6n de regresi6n (venlas de electricidad) utili zando solumente cl numero de clientes como variable de predicci6n. Interprete el cacfi ciente y compare e1 resultado con cl del apartado (a). e) Estime una ecuaci6n de regrcsi6n (ventas de electricidad) uti lizando el precio Y los gmdos-dfas como variables de predicci6n. Interprcte los coeficiel1(es. Compare cl cocfi cien le del precio con el que ha obten ido en cJ apartado (a). d) Est"ime una ecuaci6n de regresi6n (ventas de electricidad) utili zando Ia renta y [os gradosdfas como variables de predicci6n. Intcrprele los coeficienles. 13.13. , f Transportation Research Inc. Ie ha pcdido que fonnule algunas ecuaeiones de regresi6n multiple para estimar cl efeclo de algunas variables en el ahorro de combustible. Los dalos para este estudio se Cllcuenlran en el fichcro de datos Motors y In variabl e dependiente son las millas por gal6n -milpgal- canforme a la certi ficaci6 n del Departamento de Transparte. e) ce la patencia de los vehiculos - horsepower- y el peso de los veh fc ulos - weightcomo variables indepcndientes. Intcrprctc los cocficientes. Formule una segunda ecuaci6n de regresi6n que anada cl numero de cilindros --cylinder- como variable indcpendiente " la ccuaci6n del npartado (a). Interprete los caefici entcs. Formule una ecunci6n de regresi6n que ulilice el nllmero de cilindros y el peso del vehfculo como variables independienles. Interprete los coeficientes y com pare los resultados con los de los apanados (a) y (b). Formule una ecuacion de regresi6n que uliliee la palencia de los vehCculos, el peso de los vehlcu los y el precio como variables de predicci6n. Interprete los coeficientes. Escriba un breve infonne que resuma sus resultados. 13.14. ' . Transportat ion Rcsearch Inc. Ie ha pedido que fo rmule a!gunas ecuaciones de regresi6n multiple para estimar el efecto de algullas variables en la palencia de los vchCcu los. Los datos para este estudio se enCllcnlran en el fi chero de datos Motors y la variab le depcndiente es la potencia -horsepower- conforme a la certifi caci6n del Depanamento de Transporte. a) Formu!e una eCllaci6n de regresi6n que uti lice el peso de los vehCcu los - weight- y las pu lgadas ciibicas de desplazamiento de los cilindros --displacement- como variables de prcdicci6n. Inlcrprete los coeficientcs. b) Formule una ecuacion de regresi6n que lltilice el peso de los vehfcu los, el desplazam icnto de los cilindros y el niimero de cilindros --<:ylinder- como variables de prcdicci6n. Interprelc los cocfi cientes y compare los resuhados con los del apartudo (a). e) Formulc unCI ecuaci6n de regresi6n que ut ilice el peso de los vehfculos. el desplazamicnto de los cil indros y las millas por gal6n - milpgal- como variables de predicci6n. Interprete [os cocficientes y compare los resultados con los del apartado (a). d) Formule una ecuaci6n de regresion que util ice el peso de los vehfculos, cl desplazamienlo de los cilindros. las millas por gal6n y el precio como variables de prcdicci6n. Interprete los coeficientes y compare los resul tados con los dcl apartado (c). c) Escriba un brevc informe que presellle los resultados de su ana lisis de esle problcma. 505 Capitulo 13. Regresi6n multiple Restando In media muestral de la variab le dependi ente de ambos mi cmbros, tenemos que que puede ex presarse de Ja siguiemc manera: De~v iaci 6 n observada con respecto a Ja media muestral des vi aci6n predicha con respecto a la media muestraJ + res iduo A continuaci6n , elevando <II cuadrado los dos miembros y sumando con respecto al Indice, i, tenemos q lie " (y, - "L. " ::-.' = "L. (y - ,: :- - y, .2 y,. + (y, - • 2 y,) i- I = I" <y,-Y)'+ i_ I I" e; que es la de scomposici6n de la suma de los cuadrados present ada en el Capitulo 12. STC = SCR + SCE Suma tolal de los c uadrados = suma de los cuadrados de In regresi6n Esla descomposici6n simplificada se debe 1:1 + suma de los cuadrados de los errores que )' e; son independientes Yl por 10 tanto. Descomposicion de la suma de los cuadrados y coeficiente de determinacion Comenzamos con el model0 de regresi6n multiple ajustado mediante minimos cuadrados donde las b, son las estimaciones par minimos euadrados de los coeficientes del modelo de regresi6n poblacional y las e son los residuos del modelo de regresi6n estimado. La variabilidad del modelo puede dividirse en los componentes STC = SCR + SCE (13.7) donde estos componentes se definen de la forma siguiente. Suma total de los cuad rados: STC = I" " (y, - Y)' (13.8) " (13.9) 506 Estadistica para administraci6n y economfa Suma de los cuadrados de los errores: SCE " =I (y, - y,)' = I" ei (13.10) Suma de los cuadrados de la regresi6n : SCR = I" tY, - Yl' (13.11) i-I Esla descomposicion puede interpretarse de la forma siguiente: Variabilidad muestral total = variabilidad explicada + variabilidad no explicada EI caeficiante de determinaciOn, R2, de la regresi6n ajustada es la proporcion de la variabilidad muestral total explicada par la regresf6n , SCR R-= = STC SCE -STC (13.12) y se deduce que La suma de los cuadrados de los errores tambi en se utili za para calcular la eSlimaci6 n de la vari anza de los en·ores del model a poblacional, como muestra la ecuaci6n 13.1 3. AI igual que ocurre en 11.1 regres ion simpl e, la varianza de los errores poblacionales se utiliza para la inferencia estadfstica de la regresi6n multip le. Estimacion de la varianza de los errores Dado el modelo de regresi6n poblacional multiple y, = /io + /i ,x" + /i,,,-, + ... + PKXK1 + e, Y los supuestos habituales de la regresi6n, sea q2 18 varianza comun del fermi no de error, I!r Entonces , una estimaci6n insesgada de esa varianza es s' " L" e; = -,',,--,' __ = _,SC , -E - ,--_ II - KI/ - K - (13.13) donde K es el numera de variables independientes en el modelo de regresi6n . La raiz cuadrada de la varianza, s", tambien se llama error tiplco de la estimacion . Uegados a este punta, tamb ien pode mos calcu lar el cuadrado medio de la regresi6n de la forma siguientc: SCR CMR = K Ulilizamos el CMR como medida de la variabi lidad ex plicada ajustada para te ner en cue nta e l numcro de variables independi cn les. Capitulo 13. Regresi6n multiple 507 La media muestral de la variable dependicnte de los beneficios de las asociaciones de ahorro y ered ito inmobiliario es y = 0,674, y hemos uti lizado cstc valor para calcular las dos ultimas eo lumnas de la Tabla 13.2. Utilizando los datos de esta labIa y los co m ponen~ tes, podemos demostrar que SCE 0,0625 ~ STC ~ 0,4640 R' ~ 0,87 En estos resultados, vemos que en esta muestra cl 87 por eicnto de la variabilidad de los beneficios de las asociaciones de ahorro y cred ito in mobilia rio es expl icado por las relaciones lineales con los ingresos netos y el numero de oficinas. Observese que tambien podrfamos calcul ar la suma de los cuadrados de la regres ion a parlir de la identidad SCR ~ STC - SCE ~ 0,4640 - 0,0625 ~ 0,40 15 Tambicn podemos calcu lar una estimac i6n de la varianza de los errores a 2 utilizando la ecuaci6n 13. 13: ? sf! I" ei = SCE II-K- ; ... \ II-K- 0,0625 25 - 2 - 1 ~ 0,0284 La Figura 13.7 presenta la sali du Mini tub y Excel del aml li sis de regresi6n correspondiente al prob lema de las asoc iaciones de ahorro y credito inmobi liario e ind ica las distintas sumas de los cuadrados calculadas. Los paquetes estadisticos calcu lan habitualmcntc cstas cantidades; incluimos los deLalles de la Tabla 13.2 Cmicamente para indicar c6mo sc ca1cuIan las sumas de los cuadrados. A partir de ahora, suponemos que las sumas de los cuadrados se ealculan mediante un paquete estadistico. Los componcntes de la variab ilidad tienen sus correspondientes grados de li bertad. La cantidad STC tiene 1/ - 1 grados de libel1ad porque se neeesita la med ia de Y para eaJcularla. EI eomponente SCR tiene K grados de li bcnad pOl·que los coefieientes K se neces itan para ealcularla. Por ulti mo, el componente SCE tiene 1/. - K - 1 grados de li bertad porque se neeesitan los K coeficientes y la media para eaJcularJ a. Observese que en 1a Figura 13.7 se incluyen los grados de libertad (DF) eOlTespondien Les a cada componente. Utilizamos cI coefic ien te de determinaei6n, R2, habitual mente como es tadistico descriptivo para describi r la fuerza de la relaci6n lineal entre las variab les independientes X y la variable dependienle, Y. Es importante haecr hincapic en que R2 s610 puede utilizarse para com parar modelos de regres i6n que tienen el mismo conj un to de observac ioncs mucstrales de Yi, sie ndo i = 1, ... , Il. Este res ullado se observa en la forma de la ecuaci6n SCE 1- STC Vemos, pues, que el va lor de R2 pllede scr alto bien porq lle SCE es pequefia - 10 que indi ca que los pun tos observados estan eerea de los pun tos prediehos- , bicn porque STC es grande. Hemos visto que SCE y indican la eereanfa de los puntos observados a los puntos prcd iehos. Cuando dos 0 lTlaS eCllaciones de regresi6n tienen la mi sma ST C, R2 es una med idu comparable de la bondad del aj uste de las ecuaciones. La ulili zaci6n de R2 como medi da global de la calidad de una ecuaci6n ajustada puede plantear un probl ema. Cuando se afiaden vari ab les independientcs a un modelo de regre- s; 508 Estadistica para adminiSlracion y economia Regression A nalvsis: V profit versus X l revenue, X2 offices The ~e9~ession Y profit equation is 1 . 56 + 0 . 237 Xl revenue - 0 . 000249 x2 offices - e - - - - -- -- - - - -- - Predictor Constant Xl revenue x2 offices E Coe 1 . 56 450 0 . 23720 0 . 00024908 • SE Coef 0 . 07940 0 . 05556 0 . 00003205 T 19 . 70 4 . 27 - 7 . 77 bo, b" P 0 . 000 0.000 0 . 000 7~~~;~~~::==========~~~=~ Coeficiente de la estimacion 0 . 0 53 ~ 6 = 86y offices dedelerminaci6nR z ""' R- SQ( a djj = 85 . 3% MS~ ~ 70 66 P Varianza de 0 000 ~_ Tota l e 5 _ _ _ _ _ _ CMR ;: SCRjK Sou rce Regres s ion Resid ual Err o r Source Xl revenus '" Error tlpico ....... Ana ly s i s o f Variance X2 Coeficientes 5~ 24 DF Seq SS 1 1 0 . 22990 0 . 17161 SCR . O,401S1 SCE = 0,06250 STC "" 0,46402 Numero de variables independientes (Xl = K Error tipico la estimaci6n 5" Coeficiente i i Numero de I ind ependientes CMR : SCR K Coeficientes boo SCR= 0, 40 151 SCE .. 0,06250 S TC = 0,46402 b" '" Figura 13.1. Salida Minilab (a) y salida Exce l (b) del analisis de regresl6n correspondiente al problema de las asociaciones de ahorro y credilo inmobiliario. (X) '" K Capitulo 13. Regresi6n multiple 509 si6 n multipl e -en casi lodas las siluacioncs ap licadas- , la suma explicada de los cuad rudos, seR, aumenta aunque la variable indepenclicn le adicional no sea una variable de predicci6n importante. Por 10 tanto, pod rfamos enconlrarnos con que R'! ha aumentado espuriamentc dcspues de que se ha anad ido una 0 mas variables de predicc i6 n poco importantes al modelo de regresi6n multiple. En esc caso, el aumentQ del vnlor de J?'! se rfa e nganoso. Para ev itar cste problema, el coeficienle de dete rminac i6n aj ustado puede calcularse como mueSlra la ecuac i6n 13.14. Coeficiente de determinacion ajustado EI coeficiente de determinacion ajustado, R2, se define de la forma siguiente: SCE/(n - K - I ) (13.14) STC/(n - I ) Utilizamos esta medida para tener en cuenta el hecho de que las variables independientes irrelevantes provocan una pequefla reducci6n de la suma de los cuadrados de los errores. Por 10 tanto, el R2 ajustado permite comparar mejor los modelos de regresi6n multiple que tienen diferentes numeros de variables independientes. Volviendo a nuestro ejemp lo de las asociac iones de ahorro y cn!d ito inmobiliario, vemos que 1/ = 25 SCE ~ 0,0625 STC ~ 0,4640 y, por 10 tanto, el coe fic iente aju stado de determi nacion es iP-= 0.0625 / 22 1 - 0,4640/ 24 ~ 0,853 En cste ejemplo, la diferencia entre R2 y iF no es muy grande. Sin embargo, si e l modelo de regresi6n hubiera cOlltenido algunas vari ables independi entes que no fueran importantes predictores co ndi cionados, la diferencia serra grande. Olra medida de la relac ion en la rcgresi6n multi ple es e l coeficie nte de correlac i6 n mu ltiple. Coeficiente de correlacion multiple EI coeficiente de correlaci6n multiple es la correlaci6n entre el valor predicho y el valor observado de la variable dependiente R ~ f(Y,y) ~ y In'i R- (13.15) y es igual a la ra fz cuadrada del coeliciente multiple de determinaci6n . Utilizamos R como olra medida de la fuerza de la relaei6n entre la variable dependiente y las variables independientes. Par 10 tanto, as comparable a la correlaci6n entre Y y X en la regresi6n simple. 510 Estadfstica para administraci6n y economia EJERCICIOS Ejercicios basicos 13.15. Un am'il isis de reg resi6n ha producido la siguiente labia del amllisis de la varianza: suma total de los cuadrados y la suma de cuadrados de la regresi6n Crall STC ~ 3.881 y SCR ~ lo~ 3,549 Analysis of Variance Sou r ce Of' 3 26 Regres~ion Res i dual Error 5S MS 4500 500 s;. a) Calcule SI: Y b) Calcule STC. c) Calcllie R2 Y eI coeficiente ajustado de de- terminacion. 13.16. Un analisis de regresi6n ha prodllcido la s\guiente tabla del an5lisis de la varianza: Analysis of vari an c e OF 2 29 Sou r ce Re g res sion Resi d ua l Error 5S MS 7000 2500 s;. u) Calcule s~ y b) Calcule STC. c) Ca1cu le R2 y cI cocficiente ajustado de determinacion. 13.17. Un an5lisis de regresi6n ha prodllCido la si guicntc tabla del amilisis de la varianza : Anal ys i s o[ Vari a nce S o urce Re gress i on Re s i d ual Er r or , OF SS 45 40000 10000 MS a) Calcu1c s" y s;. b) Ca1cule src. c) CaJcule R2 y cI coericiente ajuslado de detcrminaci6n. 13.18. Un an5lisis de rcgresi6n ha producido la siguiente tabla del alllliisis de la varianza: a) Halle e imcrprc(c el coeficiente de determi_ nacion. b) Halle la slima de los clladrados de los errores. c) Halle el coeficiente ajustado de dClermina_ ci6n . d) Halle e intcrprctc cl coefieiente de corrcla_ ci6n mu.lti ple. 13.20. En el estudio del eJerclcio 13.8, en el que las estimaciones pOl' mfnimos cuadrados se basaball en 30 eonjllntos de observaciones mucslrales. !a suma lotal de los clladrados y la sllma de los cuadrados de la regresi6n eran STC ~ 162.1 y SCR ~ 88.2 a) Hall e e interprete el coeficiente de delermi naci6n. b) Halle el cocficiente de determinaci6n ajustado. c) Halle e inlerprete el coeficiente de correlaci6n mu ltiple. 13.21. En eI estudio del ejercicio 13.9, se utilizaron 25 observaciones para calcular las estimaciones pOl' mfnimos cuadrados. La suma de los cuadrados de la regresion y la suma de los cuadrados de los errores eran SCR ~ 79.2 y SCE ~ 45,9 a) Halle e interprele el coeficiente de determi nacion. b) Halle el cocficientc de detel1llinaci6n ajustado. c) Halle e interprete el coeficiente de correlacion mu.ltiple. Anal ys i s of varian c e So urce Regre s sion Re sidua l Er ror OF 5 200 SS MS 80000 1 5000 a) Ca1cule se y s;. b) Ca1cu le STC. c) Calcule R2 y cI coeficiente ajustado de detenninaci6n. Ejerci cios aplicados 13.19. En el estudio del ejercicio 13.6, en el que las est imaciones por mfn imos cuadrados se basaban en 27 conjuntos de observaciones mueslrales, la 13.22. Vuelva a los datos de las asociaciones de ahorro y credito inmobiliario de la Tabla 13. 1. a) Estime por mfnimos cuadrados la regrcsion del margen de beneficios con respecto al numera de ofici nas. b) Estime por mfnimos cuadrados la regresi6n de los ingresos nelOS con respecto al numel'O de oficinas. c) Estime por mlnimos cuadrados la regresi6n del margen de beneficios con respecto a los ingresos nelos. d) Estime por mfn imos cuadrados la regresion del numero de ofic inas con respeclo a los ingresos nelos. Capitulo 13. Regresi6n multiple 511 13.4. Intervalos de confianza y contrastes de hipotesis de coeficientes de regresion individuales En el apartado 13.2 hcmos dcsarrollado y anali zado los est imadorcs puntuales de los metros del modelo de regresi6n multiple para.~ A continuae ion, desarrollamos intervalos de confianza y con trastes de hipotes is de los eoeficie ntes de regresi6n est imados. Estos interva los de confian za y contrastes de hipotesis dependell de la. varianza de los coefieientes y de la di stribucion de probabilidad de los coeficielltes. En e l apartado 12.5 mostramos que el coeficiente de regres ion simple es una funcion lineaL de la variable dependiente, Y. Los coeficicntes de regresi6n multiple, bj , tam bi en son funciones lineales de la variable depcndi ente, Y, pero el algebra es algo mas comp leja y no se presentara aqul. En la ecuac i6n de reg res ion mCiltipie anterior, vemos que la variable dependiente, Y, es una funci6n lineal de las variables X mas el error aleatorio /;:. Para un conjunlo dado de variables X, la fu ncion es en realidad una constante. Tambiell vimos en los Capftulos 5 y 6 que sumando un a eon stante a una variable aleatoria <.: se obtiene la vari ab le aleatoria Y que tiene la mi sma di stribucion de probabilidad y la misma varianza que la variabl e alcatoria original £. Como consecuencia, la variable dependien le, Y, sigue la misma distribuci61l normal y liene la mi sma varianza que el termino de error, e. Se deduce, pues, que los coerieientes de regresion, bj - que son funci ones lineales de Y-, tambien siguen una dist ribuc i6n normal y su varianza puede obtenerse utili zando la relaci6 n li neal entre los coeficientes de regresion y la variab le dependiente. Este ctilculo se rea lizarfa sigui endo los mi smos pasos que en el caso de la regresion simp le del apartado 12.5, pero el algebra es mas co mplcja. Basandonos en la relac i6n lineal entre los coeficientes e Y, sabemos que las estimaciones de los cocficientes siguen una distribuci6n normal si cl error del Illodelo, G, sigue una di stribuc i6n normal. Como consec ueneia del teorema del Ifmite central, genera lmente observamos que las eSlim aciones de los coefic ientes siguen aproximadamente una di stribucion normal, aunque f. no la siga. Por 10 tanto, los contrastes de hipotesis y los intervalos de confianza que desarrollamos no son afectados seriamente por las desv iaciones con respecto a la normalidad en la di stribuci6n de los terminos de error. Podemos considerar que el termjno de error, e, del modelo de regresion poblacional incluye las influenc ias conj ulllas en la variable dependiente de multitud de faetores no inciuidos en la lista de variables independ ientes. Estos factores pueden 110 tener por separado una gran influenci a, pero su efecto eonju nto puede ser importanle. EI hecho de que el ter~ mino de error este formado par un gran numero de eom ponentes cuyos efeetos son aleatorios es un argumento in tuitivo para suponer que los errores de los coeficientes tamb ien siguen una distribuei6n normal. Como hemos visto antes, los estimadores de los coeficientes, hj' son funeiones lineales de Y, y el valor predicho de Y es una funcion lineal de los estim adores de los coefic ientcs de regres ion. EI computador realiza los ca.lculos resultantes de las complejas relaciones. Sin embargo, estas relaciones a veees pueden pl antear problemas de interpretaci6n, por 10 que dedicamos algun tiempo a expli car la for ma de calcular las varial1zas. Sj no compren- 512 Estadislica para adminislraci6n y economia demos c6mo se ca lcu lan las varianzas, no podl"cmos comprendcr perfectamenle los conIrastes de hip6tes is y los intervalos de con rianza. La varianza de una est imaci6n de un coeri cienle dcpende del lamano de la mues!ra. de la dispcrsi6n de las variables X, de las correlaciones en tre las vari ables independientcs y del termino de error del modelo. Por 10 tanto, estas correlaciones afectan tanto a los intcrval os de confianza como a los con trastes de hi p6tesis. Antes hemos visto que las cOITcla_ ciones entre las vari ables indepcndien tes in fluyen en los estimadores de los coeficiemes. Eslas correJaciones entre variables independi enles tambien aumentan la vari anza de los estimadores de los coeficienles. Una imporlame concl usi6n es que la varianza de los estimadores de los coeficientes, ademas de los estimadores de los coeficientes. depende de todo el co njunlo de variables independ ientes del modelo de regresi6n. El aml li sis anterior de los gn'ifi cos tridimens iona les hacia hin capie en los complejos efeclos que producen varias variab les en la varianza de los coeficienles. A medida que Son estrechas las relaciones entre las vari ables indcpendicntes, las cstimaciones de los coeficientes son mas inestnbles, es decir, tienen una vuri anza mayor. A continuac ion, presentamos un amilisis mas formal de estas complcjidades. Para oblcner buenas estimaciones de los coeficientes --eslimaciones que tengan una baja varianza- debemos buscar un umplio rango para las variables indepcndie nles, elegir vari"bJes independ ientes que no esten eSlrcc h a m~nte rclacionadas entre sf y buscar un modele que este cerca de lodos los puntos de datos. En la pn'ictica, cuando se rea li zan estud ios estadfslicos aplicados en cI mundo de la empresa y la economfa. a menudo hay que utilizar datos que di stan de se r idca les. como los de l ej emplo de Jas asociaciones de ahorro y eredilo inmobili ario. Pero conociendo los efectos aqu f an alizudos. podcmos con tal" con elementos para detcnninar en que medida son apli cables nuestros mode los. Para comprender algo el efeclo de las correlaciones de variables independientes, e)(<1minamos los estimadores de las vari anzas a partir del modelo de regresi6n multiple estimado con dos variables de predicc i6n: Los estimadores de las vari anzas de los coeficientes son s;, = (/I - s' (13.16) e I )s~/I (13.17) y las rafces cuadradas de estos estimadorcs de las varian zas, Sb , Y Sb 2, se denominan errores '(picos de los coejiciellfes. La varianza de los est imadores de los coeficientes aumenta direClamente con la di slancia a Ia que se encuentran los puntos de la Ifneu, medida por la varianza de los en'orcs eSlim udos. Ademfis. una dispersi6n mayor de los valores de las variables independientes - Illcdida por s;, 0 por s.~!- reduce la varianza de los cocfic ientes. Recuerdese que eSlOS resultados tamb ie n se aplican a los estimadores de los coeficicntes de regres i6n simple. Talllb ien vemos que la varianza de los estimadores de los coeficientes aumenta con los aumentos de la correluci6n entre Ins variables indepcndientes de l modelo. A medida que aumenla la correlaci6n entre dos vari ables independientes, es mas diffei! separar el efeclo de cada una de las variables para predeci r las variables dependientes. Cuando aumenta cl s;, Capitulo 13. Aegresion multiple 51 3 numero de. variables indcpendi enles en un mode lo, las influeneias en la varian za de los eoefieientcs eontinuan siendo importantes, pero la estruet ura al gebraiea se vuelve muy eomplcja y no se presenta aqul. EI efeeto de las corre laciones haee que los esti madorcs de las varianzas de los coeficientes dependan de las demas variables inclepenciienles del mode lo. Recuerdese que los estimadores efectivos de los coeficientes lambien depende n de las demas variables inclependientes del modelo, una vez mas debido al efecto de las correlaciones entre las variables independi entes. A continuaei6n, resumimos la base para la inrerencia de los coeficientes de la regresion poblaciona1. Normal mentc, nos interesan mas los coeficientes de regresi 6n f3j que la constante u ordenada en cI origen f3o. Por 10 tanto, centraremos la atencion en los primcros, sciialando que la inferencia sobre la segunda se reali za de una mancra parcc ida. Base para la inferencia de los parametros de la regresion poblacional Sea el modelo de regresi6n poblacional Sean b o' b 1 , .. • , b K las estimaciones par minimos cuadrados de los parametros poblacionales y s/:()' so,' ..., Sb las desviaciones tfpicas estimadas de los estimadores por minimos cuadrados. Entonces, si cumplen los supuestos habituales de la regresi6n y si los terminos de error, 1: 1, siguen una distribucion normal, te (13.18) se distribuye como una distribuci6n t de Student con (n - K ~ 1) grados de libertad. Intervalos de confianza Pueden obtenerse intervalos de confianza de los Pj utilizando la ecuaci6n 13. 19. Intervalos de confianza de los coeficientes de regresion Si los errores de la regresi6n poblacional, £;1' siguen una distribucion normal y se cumplen los supuestos habituales de la reg resion , los intervalos de confianza bilaterales al 100(1 - (1:)% de los coeficientes de regresi6n, Pi' son (13.19) donde t,, _ K_ 1.<>12 es el numero para el que P(t,, -K- I > t,, - K -1.a/2) = 2"" y la variable aleatoria t,, _K_l sigue una distribuci6n t de Student con (n - K - 1) grados de libertad. 514 Estadistica para administraci6n y economia EJEMPLO 13.4. Desarrollo del modelo de las asociaciones de ahorro y credito inmobiliario (estimaclon de intervalos de confianza) Se nos ha pedido que culculemos intcrva los de confianza de los cocfi cientes del mOdelo de regres i6n de las asociac iones de ahorro y credilO inmobi li ario presenlado en e1 ejem. plo 13.3. Soluci6n La Figura 13.8 nluestra la sal ida Minitab del am'ilisis de regres i6n correspondiente al modelo de regresi6n de las asociaciones de ahOJTO y credito inmobi li ario. Los est imado. Regression Analvsi s: V profit versus X1 revenue, X2 offices The regression equation is Y profit = 1.56 + 0 . 237 Xl revenu e - 0 . 000249 X2 offices Predictor S " 0.0533022 1. . 000 .000 R-Sq Analysis of vari ance Sou r ce DF Regression 2 22 Residual Error Total 24 Source Xl r evenue X2 o f fices 'b, tb, Coef Constant Xl revenue X2 offices b, OF 1 1 86.5' R- SS 0 .4 0151 0 . 06250 0 . 46402 tb, .) " MS 0 . 20076 0 . 00284 F 70 . 66 0 . 000 Seq SS 0 . 22990 0 . 17161 (,) ." (b) Figura 13.8. Regresi6n de problema de las asociaciones de ahorro y credito inmobiliario (salidas Minitab y Excel). Capitulo 13. Regresi6n multiple 515 res de los coefic ientes y sus desviacio nes tfpicas cOITes pondientes a las variables de prediccion de los ingresos, hi' y el numero de oficinas, b 2• son b, ~ 0,2372 s'" ~ 0,05556; b, ~ Sb, ~ - 0,000249 0,00003205 Vemos, pue s, que la desv iac i6n tfpica de la di slribuci6n en el muestreo del estimador por minimos cuadrados de [11 se estima en 0,05556 y la de [J2 se eslima en 0,00003205. Para obtener intervalos de confi anza a1 99 por ciento de [1 I Y [12' utilizamos el valor t de Student de la Tabla 8 del apendi ce. 'II - K - J. r.r:!2 = (22.0.005 = 2,8 19 Basandonos en estos resultados, observamos que e1 intervalo de confianza al 99 por ciento de [J I es 0,237 - (2,8 19)(0,05556) < p, < 0,237 + (2,819)(0,05556) 0,080 < p, < 0,394 o sea, Por 10 tanto, el interva lo de cOllfianza al 99 par ciento del aumento esperado del margen de beneficios de las asociaciones de ahorro y cn':dito inmobili ario provocado pOl' un aumento de los ingresos nelos de I unidad, dado un numero rljo de otic inas , va de 0,080 a 0,394. El intervalo de confiunza al 99 por cienlO de [12 es - 0,000249 - (2 ,8 19)(0,0000320) < {3, - 0,000249 + (2,819)(0,0000320) o sea - 0,000339 < fl, < - 0,000 159 Vemos , pues, que el intervalo de co nfianza al 99 por ciellto de la disminuci6n espcrada del margen de beneficios provocada par un aumenlo de 1.000 oricinas, dado un ni vel fijo de ingresos netas, va de 0, 159 a 0,339. Contrastes de hip6tesis Pueden desarrollarsc contrastes de hipolesis de los coeficientes de regrcsi6n utili zando las estimaciones de las varianzas de los coefic ientes. Especialmcntc intcrcsante es e l contraste de hipotcsis que se utili za frecuentemente para averiguar si una variable independi ente especffica es importante en un modelo de regresi6n mUltiple. Contrastes de hip6tesis de los coeficientes de regresi6n Si 105 errores de la regresi6n, [;i' siguen una distribuci6n normal y se cumplen los supuestos habituales del analisis de regresi6n, los siguientes contrastes de hip6tesis tienen el nivel de significaci6n IX: 1. Para contrastar cualquiera de las dos hip6tesis nulas 516 Estadfstica para administraci6n y economia frente a la hip6tesis alternativa la regia de decisi6n es Rechazar Ho si 2. (13.20) Para contrastar cualquiera de las dos hip6tesis nutas Ho: Pj = P* 0 frente a la hip6tesis alternativa H ,: Pj < P* la regia de decision es Rechazar Ho si 3. (13.21 ) Para contrastar la hipotesis nula flo : lij = /i* frente a la hip6tesis alternativa bilateral H , :Pj # fI* la regia de decision es Rechazar Ho si "'" o (13.22) Muchos analistas sostiencn que si no podemos rechazar la hip6tesis condicionada de INTlRPRHACION que cI coeficiente es 0, debemos concluir que la variable no debe inclu irse en el modelo de regresi6n. EI estadfstico f de Student de esle con traste normal mente se ca lcula en la mayorfa de los programas de regresi6n y se indica al lado de la eSlimaci6n de la varianza de los coeficientes: ademas, normahnenle se induye el p-valor del contrasle de hip6tcs is. Estos se muestran en la salida Minirab de la Figu ra 13.8(a). Utili zando el estadfstico t de Student indicado 0 e l p-valor, podemos saber inmediatamcnte si una variable de pred icc i6n es significativa, dadas las dcmas variables del mode lo de regresi6n. Exislen ciaramenle olros mclodos para decidir si una variable independiente debe inc1uirse en un modele de regresi6n. Vemos que el metodo de selecci6n anlerior no liene en cuenta e l error de Tipo II: el coeficiente poblacionai no es igual a 0, pero no rechazamos la hip6tesis nu la de que es igual a 0. ESle es un prob lema importanle cuando un modelo basado en la leoria eeon6mica 0 en otra teoria y cspccificado con cuidado incluye eierlas va riables indepe ndi enles. En esc caso, debido a un gran error, c, y/o a las correlaciones en tre variables independientes, no podemos rechazar la hi p6lcsis de que e l coeficiente es O. En este caso, muchos analistas incluiran la variable independ icnte en el modelo porque creen que debe primar la especificaci6n original del modelo basada en la leoria 0 la experiencia Capitulo 13. Regresi6n multiple 517 econ6m icas. Se trata de una cuesti6n diffcil que exige haecr una buena valoracio n basandose tanto en los resultados cstadisticos como en la tcoria economica sobre la relacion subyacente analizada. EJEMPLO 13,5, Desarrollo del modele de las asociaciones de ahorro y cn3dito inmobiliario (contrastes de hipotesis de coeficientesj Se nos ha pedido que averiguemos si los coeficielltes del modele de regres i6n de las asociaciones de ahorro y eredito inmobi li ario son predictores significativos de los beneficios . Solucion En el contraste de hipotesis para esta cuesti6n uti lizaremos los resul tados de la regrcsi6n real izada con el programa Minitab moslrados en la Figura 13.8(a). En plimer lugar, queremos averigllar si los ingresos (Olales aumentan significativamente los beneficios dado el efecto del numero de oficinas, es decir, descontando la infillencia de este. La hipotesis nula es frente a la hip6tesis alternativa H,:[J, >0 EI contraste puede reaJizarse ca lculando el estadfstico dado Ho: 0,237 - 0 --'cc,..,-,-"..,- 0,05556 1 de Student del coeficiente, = 4 27 ' En la Tabla 8 de la t de Student del apendice podemos ver que el valor crftieo del estadfstico t de Student es t 22• 0.OO5 = 2,819 La Figura 13.8(a) tam bien indica que el p-valor del contraste de hip6tesis es inferior a 0,005. Basandonos en esta ev idencia, rechazamos Ho Y aceptamos HI y conclui mos que los ingresos totales son un predictor estad fsticamente sign ificativo del aumento de los beneficios de las asoc iac iones de ahorro y credito inmobiliario, dado que hemos ten ido en cuenta el efecto del numero de oficinas. Tambien podemos averiguar si cl numero total de oficinas reduce significativamente los margenes de beneficios. La hip6tes is nula es Ho: Ii, = 0 fre nte a la hip6tesis alternativa H, : Ii, < 0 518 Estadistica para adminislraci6n y economia EI contruste puede reali zarse calculando e l estadfst ico t de Student del coe fici cnte, dudo Ho: - 0,000249 = - 7,77 0,0000320 ° En la Tabl a 8 del apendice podemos ver que el valor crftico del estadfstico 1 de Student es 122.0.005 = 2,8 19 La Figura 13.8(a) lambi en indi ca que el p-valor del contraste de hip6resis es in fe rior a 0,005. Basandol1os en esto evidencia, rechazamos Ho Y uccptumos H I y concluimos que el numero de ofic inas es un pred ictor estadfst ieamente significativo de la reducc i6 n de los beneficios de las asociaciones de ahorro y ered ilo inmobil iario, dado que hemos tenido en CLienta el efeelo de los ingresos tolales. Es importanle hacer hineapie en que los dos contrates de hip6tes is se basan en el conjunlo de vari ables incluidas en el mode lo de regresi6n. Por ejempl o, si se incluyeran mas variab les de predicci6n, estos conlrastes ya no serfan v~lidos. Con mas variables en el model o, las esti maciones de los coeficientes y sus desv iaciones tfpicas estimadas serfan diferenles y, pOI' 10 lanto, tambien 10 serfa el estad fsl ico t de Student. Observcse que en la sa lida Minilab del amllisis de regresi6n mostrada en la Figura 13.8(a). el eSLadfstico t de Student de la hip6tesis nula -Ho: fJj = 0- es eI cotiente entre el coe fi ciente eSlimado y e1 error tfpi co de l coeficiel1le estimado. que se encuentra en las dos col umnas si Luadas a la izquierda de l estHdistico r de Student. Tambien se muestra la probabi lidad 0 p-valor de l contrasle de hip6tesis de dos colas: H/ Pj -::j::. 0. Por 10 tunto. c ualquier analista puede realizar estos contrastes de hip6tesis directamente examinando la salida del aml li sis de regresion multiple. El estadistico t de Student y el pvalor se ca lculan en todos los paquetes eSLadfsticos modernos. La mayorfa de los anal istas buscan estos resultados habitualmen te cliando examinan la salida del analisis de regresi6n de un progrHma estadfstico. EJEMPLO 13,6. faclores que afeclan al Ii po del impueslo sobre bienes inmuebles (amilisis de los coeficienles de regresi6n) Un ayunta mi ento encarg6 un estudi o para averiguar los ractores que influyen en los im puestos urbanos sobre los bicnes inmuebles de las ciudades de 100.000-200.000 habi tHntes. Solucion Uti lizando una muestra de 20 ciudades de Estados Un idos, se est im6 el siguiente mode10 de regresi6 n: y= 1,79 + Q,000567x, + 0,0 183x2 (0.000 139) R2= 0,7 1 (0.0082) 0,OOO 191x, (0.000446) 11 = 20 donde y = lipo efecti vo del impuesto de bienes inmuebles (impuestos efectivos di vid idos XI pOl' el valor de mercado de la base imposiriva) = numero de viviendas por kil6 metro cuadrado Capitulo 13. Aegresi6n multiple X2 x) 519 porccntajc de los ingresos lTIunici pales lotales represcnlado por las ayudas procedentcs de las adm inistraciones de los estados y de In adrninistraci6n federal = renta personal per capita mediana en d61ares = Los numeros entre purentesis que se encuentran debajo de los coeficienles son los errores lfpicos de los coeficientes eslimados. La presenlacion anterior constituye un buen fonnato para mostrar los resultados de un modelo de regresi6n. Los resultados indican que las estimaciones cond icionadas de los efeclOs de las tres vmi ables de predicci6n son las sigui entes: 1. 2. 3. Un 3l1mento de una vivienda pOl' kilometro cuadrado eleva el tipo erectivo del impueslo sobre bienes inmuebl es en 0,000567. Observese que los tipos del impuesto sobre bienes inmuebles l10rmalmente se expl'esan en d61ares pOl' cada 1.000 $ de valor catastral de la propiedad. Asf, un aumento de 0,000567 ind ica que los tipos del impuesto sobre bienes inmuebles son 0,567 $ mas altos por 1.000 $ de valor catastral de la propiedad. Un aumento de los ingresos municipales totales de un 1 par dento procedenle de las ayudas de las administraciolles de los estados y de la administraci6n federal eleva el tipo impositi vo erectivo en 0,0 183. Un aumen lO de la renta personal per capita mediana de 1 $ provoca una dismi!luci6n esperada del tipo impositivo efectivo de 0,000 191. Hacemos de nuevo hincapie en que estas estimaciones de los coeficientes 5610 son validas en un mode lo que incluya las tres variables de predicci6n an leriores. Para comprender mejor la eXDclilud de eSlOs efectos, constnliremos intervalos de confianza al 95 por dento condicionados. En el modelo de regres i6n estimado, el error tiene (20 - 3 - I) = 16 grados de libertad. Por 10 tanto, el estadistico I de Student para calcular los intervalos de con l'i anza es, como se observa en el apendice, t I6. 0 .0 2.'i = 2,12. EI fonnato del interva lo de confia nza es bj - tn - K- !'~b) < fij < bj + f/l -K-I.rs.r-sbJ Por 10 tanto, el coeficiente del numero de viviendas por kil6metro cuadrado tiene un intervalo de confianza al 95 por ciento de 0,000567 - (2,12)(0,000139) < 0,000272 < p, < 0,000567 + (2, 12)(0,000139) II, < 0,000862 EI coefi cienle del porcelltaje de ingresos representados pOI' las ayudas tiene un intervalo de confianza al 95 por cienlo de 0,0 183 - (2,12)(0,0082) < 0,0009 < II, < 0,0183 + (2, 12)(0,0082) #, < 0,0357 Par ultimo, el coefi ciente de la renla personal per capita mediana {iene un intervala de confianza al 95 par dento de - 0,000 19 1 - (2, 12)(0,000446) < - 0,0011 37 < Ii, < - 0,000 19 1 + (2, 12)(0,000446) p, < 0,000755 Una vez m6s hacernos hincapie en que estos intervalos dependen de que se incluyan las tres variables de predicci6n en el modelo. 520 Esladislica para administraci6n y economfa Vemos que el illlervalo de confi anza 31 95 por cienlo de fi3 incluye 0 y, por 10 tanto, podriamos no rechazar la hip61esis de dos colas de que este coeficiente es O. Bas{mdo_ nos en eSle intervalo de confian za. conc1 uimos que X) no es una variabl e de predicc i6n estadisticamente signiricaliva en el modelo de regresi6n mult iple. Sin embargo. los intervalos de confianza de las otras dos variables no incluyen 0 y, por 10 tanto, conc lui mos que eslas son estadfslicarnen te signifi cat ivas. EJEMPLO 13.7. Efeclos de los faclores fiscales en los precios de la vivienda (estimaclon de los coeficienles del modelo de regresi6n) Citydat Northern Ci ty (Minnesota) tenfa interes en saber c6mo afec laba la promoci6n inmob iliaria local al precio de mercado de las viviendas de la ci lldad. Northern City es una de las numerosas ciudadcs no metropolitanas pequenas del Med io Oeste de Estados Unidos cuya pobl aci6n osc il a entre 6.000 y 40.000 habitantes. Uno de los objeti vos era averiguar c6mo in fluiria un aumento de la canlidad de locales comerciales en e l valor de las viviendas locales. Los dalos se encuenl ran en e l fi chero de dalos Citydat. Solucion Para res ponder a esta pregunta. se recog ieron datos de algunas ci udades y se utilizaron para construi r un modelo de regresi6n que est ima el efecio de vari:lb les cl ave en e l pre· cio de 13 vivienda. Para este estudio se obtu vieron las siguienles variables de cada ciudnd : Y (hseva l) = precio medio de mercado de las viviendas de 13 ci udad XI (s izchse) = numero med io de habitaciones de las vivielldas X2 (i ncom72) = rcnta med ia de los hogares Xl (tax rate) = tipo imposilivo por mil d61ares de valor catastra l de las viviendas X4 (comper) = porcenlaje de propiedades inmobili arias imponi bles que son comer- ciales La Figura 13.9 mllcslra los resultados de la regrcsi6n multi ple, obtcn idos por medio de l programa Mini tab. EI coeficiente del numero medio de habitaciones de las viviendas es 7,878 y 1a desviaci6n Ifp ica del coeficiente es 1,809. En esle estudio, los valores de las viviendas se expresan en unidades de 1.000 $ Y la media de todas las ciudadcs es de 2 1.000 $. As!, por ejempio, si e l numero med io de habitaciones de las viv iendas de una c iuclad es mayor en 1,0, el precio medio es mayor e n 7.878 $. EI estadfs lico I de Student resu ltante es 4,35 y el p-va lor es 0,000. Par 10 Ianto, se rechaza la hip61es is condicionada de que este cocficiente es igllal a 0. Se obliene eI mi sl110 result ado en e l caSD de las variables de la renla y del tipo im pos il ivo. Ln variable «inco m72» esta ex presada en unidades de d61ares y, POI' 10 tanIO, si In renla media de una ciudad es mayor en 1.000 $, el coefi ciente de 0,003666 indica que el prec io medi o de la vivienda es 3.666 $ mayor. Si e l tipo im posilivo aumcnta un I por ciento, el precio medio de la vivienda se reduce en 1.720 $. Vemos que el a n ~ li sis de regres i6n Beva a la concl usion de que cada lI na de estas tres variables es un importante predictor del precio medio de la vivienda de las ciudades inclu idas en eSle estudio. Sin embargo, vemos que el coeficienle del porcenLaje de loca les comerci ales , «comper», es - 10,6 14 y la desviaci6n (ipica del coefi ciente es 6,49 1, 10 que da un estadfstico t de Student igual a - 1,64. Observese que esle resul lado permitc establecer una importante concl ll si6n. EI cocfi ciente tendria un p-valor de Capitulo 13. Regresi6n multiple 521 Regression Analysis: hseval versus sizehse, income72, taxrate, Comper The regression equation is hseval = -28 1 + 7.88 sizehse + 0.000367 incom72 - 172 taxrate -10.6 Comper Predictor Constant Sizehse incom72 taxrate Comper S . Coef -28.075 7.878 0.003666 -171.80 -10.614 3 . 67686 SE Coef 9.766 1.809 0.001344 43.09 6 .4 91 R-Sq " 47.4% T p -2.87 4.35 2 . 73 -3 . 99 -1 . 64 0.005 0 . 000 0 . 008 0.000 0.106 R-SQ(adj) ~ 45.0% Analysis of variance Source Regression Residual Error Total OF 4 85 89 5S 1037.49 11 49 . 14 2186 . 63 M5 F P 259.37 13 . 52 19.19 0.000 Figura 13.9. Modelo de regresi6n del precio de la vivienda (salida Minitab). una cola de 0,053 0 un p-valor de dos colas de 0,106. Por 10 tanto, parece que reduce algo el prec io medio de las viviendas. Dado que se han incluido los efectos del tamano de las viv iendas, la renta y el tipo im pos itivQ en el precio de mercado de las viviendas, vemos que el porcentaj e de loca les comerciales no eleva los predos de la vivienda. POI' 10 tanto. este analis is no apoya el argumento de que el valor de mercado de las vivi endas au mentanl si se construyen mas locales comerciales. Esa conclus i6n s610 es ciel1a en un modelo que incluya estas cuatro variables de predicc i6n. Observese tambien que los valores de R 2 = 47,4 por ciento y Sr (error tfpico de In regresi6n) = 3,677 estan inc1uidos en la salida del anulis is de regresi6n. Los defensores de Ull aumento de In promoci6n de locales comerc iales tambien 505tenlan que cI aumento de la canlidad de locales comerciales reducirfa los impuestos pagados por lus viviendas oc upadas POI' sus propietarios. Esta tesis se contrast6 utilizando los resultados de la regresi6n de la Fi gura 13.10 obtenidos con el program a Excel. Se indican los estimadores de los coeficientes y sus errores tfpicos. Los estadfst icos 1 de Student de los coe li cientes del tamano de la vivienda y el tipo impositivo son 2,65 y 6,36, 10 cual indica que estas variables son importantes predictores. EI estadfsti co r de Student de la rcnta es 1,83 con un p·valor de 0,07 para un contraste de dos colas. POl' 10 tanto, la renla tiene alguna influencia como predictor, perc su efecto no es tan fuerte como el de las dos vari abl es anteriores. Vemos de nuevo que hay margen para extraer conclusiones s6l idas. La hip6tesis condic ionada de que un au mento de los locales co· merciales reduce los impuestos sobre las viv iendas ocupadas por sus propietarios puede contrastarse utili zando el estadfsti co t de Student de la vari ~lble «com per» en los resultados de la regresi6n. E1 estadfstico I de Student es - 1,03 con un p-valor de 0,308. POl' 10 tanto, la hip6tesis de que un aumento de los locales comerciales no reduce los impuestos sobre la vivienda no puede rechazarse. No existen pmebas en eSle ana li sis de que los impuestos sobre las viviendas disminuirian si se conslruyeran mas locales comerciales. Basandose en los ana lisis de regres i6n real izados en este estudio, los consultores lIegarotl a la conclu si6n de que no ex istfan pruebas de que un allmen to de los locales comerciales elevaria el valor de mercado de las viviendas 0 reducirfa los impuestos sabre bienes inl1lllebles de las viviendas. 522 Estadistica para administraci6n y economia --- ~ ----- - Mkr-osoft Excel· CITYDAT l[) EOe ~dit I[JIe'N loser! F~mat 10015 Q.~ t~ :tiindo'N t!elo D~!iI d :. ~ ~ ora. " . ~I @J (1) ~ "'" ~1 ... SUMMARY OUTPUT . 10 .OI U I Coeficiente multiple de determinaci6n R2 SCR SCE STC Estadisticos t Errores tipicos de Student de los coe ficientes Coeficientes bo, b 1 , ~, ~, b. Figura 13.10. Modelo de regresi6n de los impuestos sabre las viviendas (salida Excel). EJERCICIOS Ejercicios basicos 13.23. Los resu ltados del and Usis de un modelo de rcgresi6n son los siguientes: y= 1,50 + 4 ,8x 1 + 6,9x2 (3.1) (2, 1) R2 = 0,71 II = 7,2x) (2,8) 24 Los numeros entre parentesis situados debajo de las cstimaciones de los coeficientes son los errores tfpicos muestrales de las estimaciones de los coefici entes. u) CaJcu lc intervalos de confianza al 95 par ciento bilaterales de los tres coeficientes de In pendiente de regrcsi6n. b) Contrastc pam cada uno de los coeficientes de la pcndientc las hip61esis Ho : Pj = 0 frente a 13.24. Los resultados del am'il isis de un modelo de rcgresi6n son los siguicntes: ;; = 2.50 + 6,8x 1 + 6,9x2 - 7,2x) (3.1) R2 = 0.85 II (3.7) (3.2) = 34 Los numeros entre parentesis siluados debajo de las estimaciones de los coeficientes son los crrores tfpicos muestrales de las estim:lciones de los eoefi cientcs. Capitulo 13. a) Calcule imcrvalos de confianza al 95 por denlo bilaterales de los Ires coefieientes de la pendienle de regresi6n. b) Conlrasle para cada uno de los coeficienles de la pendiente las hip6tesis frente a H I : Ili > ° 13.25. Los resultados del anal isis de lin modelo de regresi6n son los siguientes: y= - 101 ,50 + 34,8x, + 56,9x2 (12.1) R2 = 0,71 (23.7) 57,b:3 (3 2.S) 65 II = Los numeros entre parentesis situados debajo de las estimaciones de los coeficientes son los en-ores I{picos mueslrales de las estimaciones de los coeficientes. a) Calculc intcrvalos dc confianza al 95 por ciento bilaterales de los Ires cocficientes de la pendiente de regresi6n. b) Contraste para eada uno de los coefieientes de la pendiente las hip6tesi s frentc a Hj : y= - 9,50 + 17,8x + 26,9x2 - 9,21:3 j (7.1 ) /I (13 .7) n.8) = 39 Los numeros entre parentesis situados debajo de las estimaciones de los coeficientes son los errores tfpicos muestrales de las estimaciones de los coefidcntes. a) Calcule intervalos de eonfianza al 95 por cicnto bilatcralcs de los tres coeficientes de la pendiente de rcgresi6n. b) Contraste para cada uno de los coeficientes de la pendiente las hip6tesis flo:{Jj = 0 frente a HJ :/1) > 0 Ejercicios aplicados 13.27. En cI estudio del ejercicio 13.6, los errorcs tfpicos estimados eran S;" = 0,099 S;" = 0,032 a) Hall e intervalos de eonfianza al 90 y el 95 por demo de fJ I' b) Halle intervalos de confianza al 95 y el 99 par eiemo de #2' 523 c) Contraste la hip6tesis nub de que, man leniendose todo 10 demas constanle, el peso del avi6n no liene una intluencia lineal en su esfuerw de diseiio frente a la h ip6tesis alter· nativa bilateral. d) La suma de los cuadrados de los en-ores de cSla rcgresi6n era 0.332. Utilizando los mismos datos, se aj usl6 una regresi6n lincal simple del esfuerzo de diseno can respecto al nlimero poreemual de piezas cornunes, 10 que dio una suma de los cuadrados de los errores de 3.311. Contraste al nivel del I par ciento la hip6tesis mila de que la velocidad maxima y el peso, considerados conjunta· mente, no contribuyen nada en un senti do li neal a la explicaci6n del esfuerz.o de diseno, dado quc cl numero porcentual de pi czas comimes tambicn se util iza como variable explieativa. l3.28. En cI estudio del ejercicio 13.8, en cl que la regresi6n mueslral se basaba en 30 observaciones, los errores tfpicos eSli mados eran fJj > 0 13.26. Los resultados del amilisis de un modelo de regresi6n son los siguientes: Regresi6n multiple S", = 0,023 a) Comraste la hip6lesis nul a de que, dado el tamano de la familia, el consumo de leche no depende lineal mente de la rema frenle a la hip6tesis a.lternativa unilateral adecuada. b) Halle intervalos de eonfianza del 90, el 95 y el 99 por ciento de f32' 13.29. En el estudio de los ejercicios 13.9 y 13.21, en los que la regresi6n muestral se basaba en 25 observaciones, los errores t[picos estimados eran Sb, = 0,189 Sb, = 0,565 a) Contraste la hip6tesis nula de que, manteniendose 10£10 10 dem.is conslanle, las horas de ejercicio no illtluyen lineal mente en el flumento de peso frente a la hip6tesis allernativa unilateral adecuada. b) Conlrasle la hip6tesis nula de que, rnanteniendose todo 10 demas eonstante, el eonsu· rna de cerveza no in nuye lineal mente en el aumento de peso frente a la hip61esis alter· nativa unilateral adecuada. c) Halle intervalos dc confianza del 90, el 95 y el 99 por ciento de fJI' 13.30. Vuelva a los datos del ejemplo 13.6. a) Contraste la hip6tesis nula de que, manteniendose todo 10 dernas constante, la ren ta 524 Estadislica para adminislraci6n y economia personal per capita mediana no InOuye en el ripo efcclivo del impuesto sobre bienes inmuebJes frente a una hipotesis alternativa bilateral. h) Conlraste la hip61esis nula de que las tres variables independicntes, consideradas con juntamente, no influyen linealmenle en d tipo erectivo del Impuesto sobre bienes 111muebles. 13.31. , ~ Vue!va a los datos del ejemplo 13.7 que se eneuentran en el fichero de datos Citydat. a) Halle inrervalos de confianza al 95 y al 99 por cienlo de la variaci6n esperada del prccia de mercado de las viviendas provocada par un aumcnlo del numero medio de habitaeiones de I unidad cuando no varIan los valores de todas las demas variables independientes. b) Contraste [a hip6tesis nula de que, manteniendose todo 10 demas constanle, 141 renla media de [as hogares no influye en el precio de mereado frente a la hip6tesis ahernativa de que cuanto mayor es la renta media de [os hogares, milS alto es el precio de mercado. 13.32. En Ull estudio de los ingresos gencrados pOl' las loterfas naciona[es, se ajust6 la siguiente ecuaci6n de regrcsi6n de 29 parses que tienen lorcrfas: y=- 31 ,323 + O,04045xI + 0,8772r2 (0.00755) (0.3t07) 365,Olx3 - 9,929Kr4 (263.88) (3.4520) R2 = 0,51 donde y = d61ares de ingresos anua[es netos per capita generados por la [olerfa XI = renta personal media per C<'ipita del pars X2 = numero de hOleles: motcles, hosta[es y aJbergues pOl' mil habitantcs del pars x ) = ingresos anua[es gastables per capita generados por las apuestas, las carreras y otros juegos de azar legaJizados X4 = porcentaje de la fronte ra nacional que limita con un pars 0 parses que licnen una loterfa Los numeros entre parenlesis situados debajo de los coeficientes son los en'orcs t[picos de los coeficicntes estimados. a) Inlcrprete el coefieiente estimado de Xl' b) Halle e interprete eJ intervalo de con fi anza al 95 por ciento del coeficienle de x2 en [a regresi6n poblacional. c) Contraste la hipolcsis nula de que el cocficiente de x) en la regresi6n pobJaeiona[ es () frente a la hip6tesis alternativa de que eSlc cocficicnte cs ncgativo. Interprete sus resu[ _ tados. 13.33. Se realiz6 un estudio para averiguar si podfan ulilizarse algunas caracterfsticas para explic:n la variabil idad de los preeios de los homos. Se csrim6 para una muestra de 19 homos la siguienlc regresi6n: .y = - 68,236 + 0,0023xl + 19,729x2 + 7,653Xl (0.005) (8.992) (3.082) . R2 = 0.84 donde y = prec io en d61ares x I = porencia del homo en BTU pOl' hora Xl = cocficicntc de eficienc ia energetica X3 = numero de posic iones Los numeros entre parentesis situados debajo de los coeficientes son los errores tfpicos de los cocfieientcs estimados. a) Halle el intervalo de confianza al 95 por cien lo de 141 subida esperada del preeio resultante de un aurnento de [as posiciones cllando los valores de la polencia y el fndice de eficiencia energetica se mantienen fijos. b) Contraste 13 hip6tesis nula de que, mall1enicndosc todo 10 demas cOnstante, el fndice de eficiencia energetica de [os homos no afecta a su precio frente a la hip61esis alternativa de que cuanto mas a[lo es e[ rndiee de eficiencia energetica, mas alto cs cl precio. 13.34. En un estudio de [a demanda nigeriana de importac iones se ajust6 el siguiente mode[o a 19 ariaS de datos: y= - 58,9+0,20x l - O,IOx2 (0.0092) if2 = 0,96 (0.084) donde y = cantidad de importaciones XI = gastos »crsonales de con sumo x 2 = preclo de las importaciones -:- precios intcriorcs Los numeros entre parentesis situados debajo de los coeficientes son Jos errores t(picos de los coeficientes estimados. a) Halle el intervalo de con fi anza a[ 95 por dento de fJ l' b) Contrastc la hipotcsis nula de que liz = 0 frente a la hip6tesis a[tcrnaliva un ilateral adecuada. Capitulo 13. 13.35. En un estud io de las tenenc ias extranjeras en bancos bril{micos., se o btu vo la siguientc rcgrc~ si6n muestral, basada en 14 obscrvaciones an ualcs y= - 3,248 + 0, 10 l xI (0,0023) - O,244x2 + 0,057x3 (0,080) R2 = 0,93 Xl = x3 = y = - 0.00232 - 0 ,00024xl - Q,00002x2 (0,00010) + 0,48 122x4 + 0,04950x5 (0.77954) ii' y = proporci6n de ac ti v QS a final del ano en filiales de bancos bri tani cos en manos de eXlranjcros en po rcentaj c de los activos 10tales X I = variaci6 n anual , en miles de milloncs de libras, de la invers i6n cxtranjcra directa en Gran Bretafia (excluidos finan zas, seguros y bienes inmuebl es) relaci6n precio-benefi cios de los bancos fndi ce del valor de cambia de In libra Los ml mcros entre parentesis s ituados de bajo de los coefi cientes son los erfores tfpicas de los coeficientes cstimados . a) Halle el intervalo de conllanza al 90 por ciento de /31 e interprele su resultado. b) Contraste la hipotesis nula de que fh cs 0 frente a la hip6tesis alternati va de que es negati vo e interprete su resultado. c) Contraste la hip6tesis nula de que /33 es frente a la hip6tcsis alternativa de que es posil ivo e interprete s u resultado. ° 13.36. En un estudio de las diferencias enlre los ni veles de demanda de bomberos par parte de las ciudades, se obtuvo la siguienle rcgrcsi6n mues- 525 Iral , basada en datos de 39 eiudades de Mnryland: (0.00925 ) donde Regresi6n multiple (0,0 11 72) (0,0000 18) 0,000 1Q."(6 (0.00005) + 0,00034x, (0,0001 2)- + 0,00645x7 (0.00306) ~ 0.3572 donde y = nLI1TIero de bomberos a tie mpo eompleto per c{ipila X I = salario base maximo de los bamberos en miles de dol ares X 2 = porcentaje de pablaci6n xJ = renta per capita estimada cn miles de d61ares X4 = densidad de poblaci6n X5 = can lidad de ayudas intergubernamencales per capita en miles de d61ares X6 = numero de kil6melros de di slancia hasta la capital de la region x 7 = parcentaje de la poblaci6n que son varones y lienen entre 12 y 2 1 aila:> Los n(imcros entre parenlesis siluados debajo de los caeficientes son los errores tfpicos de los coefi cienles estimados. a) Hallc c intcrprcte el inlervalo de confianza al 99 por ciento de /3:;. b) Contrasle la hip61esis nul a de que IJ4 es frente a la hip6rcsis ahcrnativa bilateral e interprete su resultado. c) ContraSle In hip6tesis nuln de que #7 es frente a la hipotesis allernali va bilateral e illierprele su resultado. ° ° 13.5. Contrastes de los coeficientes de re resion En el apartado anterior hemos moslrado c omo puede re a li zarse un contraste de hip6tesis cond ic ionado para averiguar si el coeficiente de una variable es pecffica es s igniricativo en un modelo de regresi6n. Existen, sin embargo, s ituac iones en las q ue no s inleresa saber cual e s e l efeclo de la combinaci6n de varias variables . POl' ejemplo, e n un modelo que predice la ean lidad ve nd ida, podrfa interesarnos saber e ua! es el e fecto eonjunto tanto del precio del vendedor com o del precio del competidor. En olros caso s, podrfa inte rcsarnos saber si la combinaci6n de lodas las variables es un util predicto r de la variable dcpendiente. Contrastes de todos los coeficientes En p ri mer lugar, presenlamos eontraste s de h ip6tesis para averiguar s i los eonjuntos de varios coeficiente s son lodos simultaneamente iguales a O. Con sidere mos de nuevo e l mode lo 526 Estadfslica para adminislracion y economfa Comenzamos examinando la hip6tesis nula de que todos los cocficientes son si mult u_ neamcnte iguales a cero: La aceptac i6n de esta hip6tcsis nos lIevarfa a concluir que ni ngun a de las variables de predicci6n del mode lo de regresi6n es estadfsticamente signi ficati va y, por 10 tanto, que no sum inistran ningu na informaci6n uti!. Si eso ocurriera, tendrfamos que volver al proceso de especificaci6n del modelo y desarrollar un nuevo conjunto de variables de predi ccion. Afortun adamen le, en la mayorfa de los casos apl icados esta hip6tcsis se rechuza porque el proceso de especificacion normal mente lIeva a la identificaci6n de al menos una variable de pred icci6n significativa. Para contrastar la hipotesis anterior, podcmos utili zar la descomposic i6n de la variabilidad desarrol lada en el aparlado 13.3: STC ~ SCR + SCE Recuerdese que SCR es la cantidad de variabil idad exp li cada por la regres ion y SCE es la cantidad de variabil idad no expl icada. Recuerdese tambien que la varianza del modelo de regresi6n puede estimarse utilizando 2 s , ~ SCE ---=-='---(II - K - 1) Si la hi p6tesis nula de que todos los coefic ientes son iguales a 0 es verdadcra, entonees el cuadrado medio de fa regresi6n SCR CMR~ ­ K tam bien es una medida de l error con K grados de libertad. Como eonsccuencia, el coc iente de F~ SCR/K SCE/(II - K - 1) CMR 2 S, sigue una distribucion F con K grados de libcrtad en el numerador y 11 - K - I grados de libertad en el denomi nador. Si la hi p6tesis nula es verdadera, lanto el numerador como el denominador son estimaciones de la varianza pobl acional. Como sefialamos en eI apartado 11 .4, cI coeicnte entre las varianzas muestra les independi entes de poblaciones que tienen varianzas poblacionales iguales sigue una distribuci6n F si las poblaciones siguen una distribuei6n normal. Se compara el valor ealculado de F con el valor criti co de F de la Tabla 9 del apendi ce a un nivel de significaci6n GC Si el valor ealculado es mayor que el valor crftico de la tabla, reehazamos la hipolesis nul a y conclui mos que al menos uno de los cocficien tes no es igual a O. Este metoda de con traste se resu me en la ecuaci6n 13.23. Capitulo 13. Regresi6n multiple 527 Contraste de todos los para metros de un modelo de regresi6n Consideremos el modelo de regresi6n multiple Para contrastar la hip6tesis nula frente 8 18 hi p6tesis alternativa HI = Al menos un {Jj i=- 0 a un nivel de significaci6n a, u\ilizamos la regia de decision Rechazar Ho: si CMR --,> FK,, S . - K- l. rt , (13.23) donde FK . n _ K _ 1 ." es el valor eritieo de F de la Tabla 9 del apendice para el que P(FK.I1 - K- 1 > FK.n - K- l. rt) = rx La variable aleatoria calculada FK. n - K - l sigue una distribueion F con K grados de libertad en el numerador y (n - K - 1) grados de libertad en el denominador. EJEMPLO 13.8. Modelo de prediccion de los precios de la vivienda (contraste simultaneo de coeficientes) Duranle el desarrollo del modelo de predicci6n de los precios de 1a vjvienda para NOfthem City, los analistas querfan saber si exjslian pruebas de que la combinaci6n de cuatro variables de predicci6n no era un predictor significativo de l precio de la vivienda. Es decir, querian contrastar la hip6tesis Solucion Citydat Esle metoda de contraste puede ilustrarse mediante la regresi6n de los precios de la vivienda de la Figura 13.9 realizada uti lizando el fichero de datos Citydat. En la tabla del ao.11isis de la varianza, el estadislico F calculado es 19,19 can 4 grados de Iibertad en el numerador y 85 grados de libeltad en el denominador. EI calcu lo de F es F~ 259,37 13,52 ~ 1919 • Este valor es mas alto que el valor crftico de F = 3,6 para rx = 0,0 1 de la Tabla 9 del apendice. Observese, ademas, que el Minitab -y la mayoria de los paquetes estadfsticos- caJcula cI p-valor, que en este ejcmplo es igua1 a 0,000. Por 10 tanto, rechazarfa· mos la hip6tesis de que todos los coeficientes son iguales a cero. 528 Estadistica para administraci6n y economfa Contraste de un subconjunto de coeficientes de regresion En los apartados anteriores hemos desarrollado cOl1 trastes de hi p6tesis de panimetros de re ~ grcs i6n indiv iduales y de todos los panimetros en conjunto. A continuaci6n , desarrollamos un contraste de hip6tesis de un subconjunto de panimetros de regresi6n, como el ejemplo del conjunlo de precios que acabamos de anal izar. Utilizamos estc contraste para averiguar si el efecto conjunto de varias variab les independientes es signi ficativo en un mode lo de regresion. Consideremos un modclo de regresion que contiene las variables indepencli enles Xj Y La hipotesis nula que se contrasla es j = 1, ... , K Si Ho es verdadera, las variables Zj no deben inc\uirsc en el modelo de regresi6n porque 110 suministran ninguna informaci6n para explicar la conducta de la variable dependiente mas que la que su mini stran las variables Xj' EI metodo para reali zar este contrasle se resume en la ecuaci6n 13.24 y se analiza detalladamente a continuaci6n. EI contraste se reali za comparando la suma de los cuadrados de los en'ores, SCE, del modelo de regresi6n completo, que incluye tanto las variables X como las variables Z, con la SCE(r) de un mode lo restring ido que s610 incluye las vari ables X. Primero realizamos una regres i6n con respecto al modele de regresi6n co mpleto anterior y obtencmos la suma de los cuadrados de los errorcs, SCE. A continu acion realizamos la regresi6n restringida, que excl uye las variables Z (obscrvese que en esta regres i6n se apli ca la reslriccion de que los coefi cientes tY.j son iguales a 0): A partir de esta regresi6n obtenemos la suma restringida de los cuadrados de los en'O~ res, SCE(r). A continuaci6n, calcu lamos cl estadfstico F con r grados de libertad en eI nu ~ merador (r es el numero dc variables elimin adas simulliineamente del modele restringido) Y Il - K - r - I grados de libertad en el denominador (los grados de libertad del error en el. modelo que induye lanto las variables independienles X como Z). EI estadfstico F cs F ~ ~ (SC£(r) ~ SCEJ/r 2 S, donde s~ cs la varian za estimada del error del modelo compl eto. Este estadfstico sigue L1na distribucion F con r grados de libertad en el numerador y 11 - K - r - 1 grados de liber~ tad en el denominador. Si el valor de F calcu lado es mayor que cJ valor crflico de F, enlonces se rechaza la hip6lesis nula y concluimos que las variables Z co mo conjunto deben incluirse en e l modelo. Obscrvcse que este contrasle no imp lica que las variabl es Z individuales no dcban exc\uirse, par ejemplo, utilizando el contraste f de Student antes ana li za~ do. Ademus, el contraste para lodas las Z no implica que no pueda excluirse un subconjunto de las variab les Z utili zando este metodo de contraste con un subconj unto diferente de vari ables Z. Capitulo 13. Regresi6n multiple 529 Contraste de un subconjunto de los parametros de regresi6n Dado un modele de regresion con la descomposicion de las variables independienles en los subconjuntos X y Z, Para contrastar la hip61esis nula Ho: IX] = 1X2 = ... = IX,. = 0 de que los parametros de regresi6n de un subconjunto son simullaneamente iguales a 0, frente a la hip61esis alternativa HI: Al menos un IXj =f. 0 (j = I .... , r) compararnos la surna de los cuadrados de los errares del modelo completo can la suma de los cuadrados de los errores del modelo restringido. Primero, hacemos una regresi6n para el mo~ delo complei0, que inciuye todas las variables independienles. y obtenernos la surna de los cuadrados de los errores, SeE. A continuaci6n, hacemos una regresion restringida, que excluye las variables Z cuyos coeficlenles son las a: el numero de variables excluidas es r. A parlir de esla regresion obtenemos la suma restringida de los cuadrados de los errares, SCE(i) . A continuacion, calculamos el estadfstico F y apHcamos la regia de declsi6n para el nivel de sig~ nificaci6n IX: Rechazar Ho si (SCE(r) - SCEJ /r s:, Comparacion de los contrastes Fy > F,..II - K- ,· - l.(l (13.24) t Si util izaramos la ecuaci6n 13.24 can r = I, podrfamos contrastar la hip6tcsis de que una {mica variable, Xj' no mejora la pred icc ion de la variable depend icntc, dadas las demas variables independientes del modelo. Por 10 tanto, tenemos cl contraste de hip6tesis Ho : Pj ~ 0 I Ii, l' O,} l' I H,: Pj l' 0 111,1' O, } 1'1 Antes hemos visto que este contraste tambien podfa reali zarse util izando un contraste , de Student. Utilizando metodos que no presentamos en este libra. podemos demostrar que los con trastes F y f correspondienles pcrmiten lI egar exactamente a las mismas conclusiones sobre el contraste de hip6tesis de una unica variable. Ademas, el estadfstico I calculado para el coeficiente bj es igual a la raiz cuadrada del estad fstico F calculado correspond icnte. Es decir. don de Fx., es el estad fslico F calculado utili zando la eCllacion 13.24 cuando se ex cluye la variable Xj del modelo y, por 10 tanto, r = I. Demostramos este resultado numerico en el ejemplo 13.9. La teoria estadfstica de la dislribucion tambicn dcmuestra que una variable aleatori a l' con 1 grado de libertad en el numerador es el cuadrado de una variable aleatoria t cuyos grados de libeltad son iguales al denominador de la variable aleatoria F. POI" 10 tanIO, los con trastes F y t siempre !levan a las mismas conc lusiones sobre el contraste de hipo(es is de una unica variab le independiente en un modele de regres ion multiple. 530 Esladfslica para administraci6n y econom ia EJEMPLO 13.9. Predicci6n del precio de la vivienda en las pequenas cludades (contrastes de hip6tesis de sUbconjuntos de coeficientes) Los promo rores de l modelo de predieei6 n del pree io de la vivienda de l ejemplo 13.8 querfan ave riguar si el e feelo eonjullio del lipo imposili vQ y del poreentaje de locl.lles eomereiales contribuye a la predi ee i6 n despues de inc1ui r previamente los efeelos del tamano de la vivienda y de la renla. Solucion Continuando con eI problema de los eje mpl os 13.7 y 13.8) tenemos un contraste condieionado de la hip6tesis de que dos variables no son predielores sign ifica livos, dado que las alras dos son prediclOres significativos: ESle conlrasle se realiza uti lizando el metoda de la ecuaci6n 13.24. La Fig ura 13.9 presenLa la regresi6n del mode lo eompleto can las cuatro variables de predicc i6n. En esa regresi6n, SeE = 1.149, 14. En 13 Fi gura 13.11 tenemos 11.1 regresion reducida en la que las (micas variables de predicci6n son el tamano de la vi vienda y la renta. En esa regresi6n, SeE = L.426,93. La hip6tesis se contrasta primero calculando el estadfsti co F euyo nume rador es la suma de los euadrados de los errores del modela redueido [SCE(r )] me nos la SCE del modelo completo. F ~ ( 1.426,93 - 1.1 49, 14)/2 13,52 10 27 ~ ' Regression Analysis: hseval versus sizehse. income72 The regression equ~ tion is hseval = -42 . 2 + 91. 4 si zchse + 0 . 000393 i n com72 Predictor Cons tant Sizehse i ncom72 Coef - 42.208 9 . 135 0 . 003927 R-Sq :: 34 . 7% S '" 4 . 04987 Analysis of l' p - 4 . 30 0 . 000 0 . 000 0 . 009 4 . 71 2 . 67 R-Sq(ad j) . 33 . 2% Va ri~ncc Source Regres sion Residua l Error Tot al Source s i zehse i ncom72 SE Coef 9 . 81 0 1 . 940 0 . 001473 OF 2 87 89 OF Seq 55 1 643 . 12 116 . 58 1 SS 7 59. 70 4 26 . 9 2 186 . 63 MS F P 379 . 8 5 1 6 . 40 23.1 6 0 . 000 SCE(rl Figura 13.11 . Regresion del precio de la vivienda: modelo reducido (salida Minitab). Capitulo 13. Regresion multiple 531 EI estadfstico F liene 2 grados de libenad ---colTespondientes a las dos vari ab les conl"rastadas simultaneamente- en el numerador y 85 grados de libertad en el denominador. Observese que e l estimador de la varianza, = 13,52, se obliene a pm1ir del modele completo de la Figura 13.9, en la que el error tiene 85 gracias de libertad. Vemos en la Tabla 9 del apcndice que e l valor crilieo de F can IX = 0,01 Y 2 Y 85 grados de Iibertad es aproximadamente 4,9. Como el valor calculado de F es mayor que el va· lor critico, rechazamos la hip61esis nula de que el tipo imposilivo y el porcenlaje de 10· cales comerciales no estan en la combinaci6n significati va. EI efecto conjunto de estas dos variables si mejora el modele que pred ice el precio de la vivienda. POI' 10 tanto, el tipo imposit ivo y el porcentaje de locales comerciales deben incill irse en el modelo. s; Tambicn hemos calcu lado esta regres i6n excluyendo la variable «compr» y hemos observado que 1a SeE resultante era SCE(I) ~ 1.I 85,29 El estadfstico F calcu lado de esla variable era F~ (1.I85,29 - 1.149,14)/ 1 13,52 ~ 2 674 ' La rafz cuadrada de 2,674 es 1,64, que es el estadfstico I calculado para la variabl e «compo> en la salida del am'ilis is de regresi6n de la Figura 13 .9. Util izando cl estadfsti co F calclil ado 0 c l cstadfsti co 1 calcu lado, obtendrfamos este resultado para las hi p6tcsis de esta variable: Ho : /3compr = °I 111 oft 0, I #- compr HI : /Jcompr #- 0 I /31 #- 0, I #- COl1lpr EJERC1CIOS Ejercicios basicos c) Analisis de Ia varianza 13.37. Suponga que ha estimado coelicientes para el siguiente modelo de regresi6n : Source Regression Residual Error DF 3 " 55 46000 25000 M5 5S 87000 48000 MS d) Analisis de la varianza Contraste la hip6tesis de que las tres variables de predicci6n son igllales a 0, dadas las siguientes tablas del amilisis de la varianza. a) Analisis de la varianza Source Reg ression Residual Error OF 3 26 5S 4500 MS SOD b) AmiUsis de la varianzu Source Regression Residual Error DF 3 " SS 9780 2100 Source Regression Residua l Error OF 3 26 Ejercicios ap1icados 13.38. Vuelva al eSludio del esfucr7.0 de diseno de aYiones de los ejercicios 13.6 y 13.19. u) Contraste la hip6tcsis nulu MS b) Muestre la tabla del amllisis de la varianza. 532 Estadistica para administraci6n y economfa 13.39. Para el e.-audio de la intlucncia de Ins instituciones finaneieras en los precios de las aeciones del ejercicio 13.7, se utilizaron 48 observaciones lrimestrales y se observo que cl codicicnte cOlTegido de determinuci6n era R2 = 0,463. Contraste lu hip6tcsis nuia. 13.40. Vllelva al estudio del consumo de leche, deserito en los ejercicios 13.8, 13.20 Y 13.28. a) Conrraste In hip6tesis nulo Ho'~' ~ ~,~O b) Mllestre In tabla del anMisis de la varianza. 13.41. Vllelva al estudio del numento de peso, descrilO en los ejercicios 13.9. 13.21 Y 13.29. a) Contraste la hip6tesis nula b) Muestre In tabla del analisis de la varianza. 13.42. Vuelva aJ ejercicio 13.32. Contraste la hip6tesis nula de que las cuatra variables independicnrcs. consideradas en conjunto, no inn uyen linealmente en los ingresos generados por las loterfas nacionales. 13.43. Vuelva al ejercicio 13.33. Contraste la hip61esis nula de que las tres variables independientes, consideradas en conjunto, 110 inlluyen linealmente en el precio de los hornos. 13.44. Vuclva al es\udio del cjercicio 13.34. Contraste la hip6tesis nula de que los gastos personales de eonsumo y el precio relativo de las importaeiones, eonsiderados en conjunto, no afectan linealmente a In demanda nigeriana de importac lones. dependientc, dado que las de mas variables indcpendientes (K - KI ) lambien se ulilizan. Su. pongamos que se vllelve a estimar la regresi6n excluyendo las KI variables indepen<iicntes de interes. Sea SCE* la suma de los clladrados de los efrores y R *l el coeficiente de determinaci6n de esta regresi6n. Dernuestre que cI estudfslico para contrastar nuestra hip6tesis nula, introducido en el apartado 13.5, puede expresarse de la forma siguiente: (SeE':' - SC£)/ K J R2 - R*2 SCE/(n - K - I) I - R2 13.46. Se realiza lIna regresi6n de una variable dependientc ·con respecto a K variables independienles utilizundo 11 conjuntos de observaciones muestra1cs. SeE es la sum a de los cuadrados de los errores y R2 es el coeficiente de detenni naci6n de esta rcgresi6n estimada. Queremos contrastar la hipiltesis nula de que KI de estas variables independientes, eonsideradas en conj unto, no afectan lineal mente a la variable KI 13.47. En el estudio de los eJerclclos 13.8, 13.20 Y 13.28 sobre el consumo de leche, se ailadic. al modelo de regresi6n una tercera variable independiente: el mimero de ninos cn edad preescolar que habfu en el hogar. Cuando se estim6 esIe modelo ampliado. se observ6 que In suma de los cuadrados de los errores era 83,7. Contraste la hip6tesis nul a de que, mante n h~ndose todo 10 demas constante, el numero de nifios en edad preescolar que hay en el hogar no afecta linealmente al consumo de leche. 13.48. Suponga que una variable dependiente est,! relacionada con K variables independientes a traves de un modelo de regresi6n multiple. Sea R2 el eoeficiente de delerminaci6n y iP el coefieiente cOlTegido. Suponga que se utilizan n conjunros de observaciones para ajustar la regresion. a) Demuestre que -2 R ~ (n - I )R2 -K n - K - I b) Dcmuestre que 13.45. Vuelva al esludio de los delerminantes de la demanda de bomberos en una ciudad anal izado en el ejcrcicio 13.36. Contraste la hip6tesis nula e interprete sus resultados. K - II - R 2 ~ -, (II-K-I)R +K 11-1 c) Demuestre que el estadfstico para contraslar la hi p6tesis nula de que todos los eocficienles de regresi6n son 0 puede expresnrse de la forma sigu iente: SCRIK n - K- I SeE/(n - K - I ) K donde K A ~-~­ n-K - I ii2+A R' Capflulo 13. Regresi6n multiple 533 13.6. Prediccion Una apl icac i6n imp0!1ante de los modelos de regresion es predecir los val ores de la variable depend iente, dados los valores de las variabl es independientes. Las prediccioncs pueden realizarse directamente a partir del modelo de regresion estimado utili zando las estimaciones de los cocficicntes de ese modelo, como mueSlra la eCllacion 13.25. Predicciones a partir de los modelos de regresion multiple Dado que se cumple el modele de regresi6n poblacional y que los supuestos habituales del ana.lisis de regresj6n son va.lidos, sean bo' b1 , ••. , bK las estimaciones par mlnimos cuadrados de los co.eficientes del modelo, Pi' siendo j = 1, ... , K, basados en los puntos de datos Xl" >S" ••• , X Ki (/ = 1, ... , n). En tal caso, dada una nueva observa~i6n de un punta de datos, Xl, n + l' X 2 , n+ l' "', X K, n+ l' la mejor predieei6n lineal insesgada de Yn + 1 es (13.25) Es muy arriesgado haeer prediceiones que se basan en valores de X fuera del rango de los datos utillzados para eslimar los eoeficientes del modelo, ya que no tenemos pruebas que apoyen el modelo lineal en esos puntas. Ademas de querer conocer el va lor predicho de Y para un conj unto de xj ' a men udo nos interesa calcu lar un intervalo de confianza 0 un intervalo de predicci6n. Como sefialamos en el apartado 12.6, el interva lo de confianza incluye el valor esperado de Y con la probabilidad 1 - 0:. En cambio, el intervalo de prediccion incluye los valores individua les prcdicllos: los valores esperados de Y mas el termi no de error aleatorio. Para hallar estos intervalos, es necesario calcu lar estimaciones de las desv iacioncs tfpicas del valor esperado de Y y los puntas individua les. Estos calculos son sim ilares en la forma a los utilizados en la regresi6n simple, pem las ecuaciones de los esti madores son mucho mas complicadas. Las desviaciones tfpicas de los valores prediehos, .'ij' son L1na funei6n del error tfpico de la est imaci6n, se; la desviaci6n tfpica de las variables de predicci6n; las correlaciones entre las variables de predicci6n; y e! cuadrado de la distancia entre la media de las variables independientes y las X para la predicci6n. Esla desv iacion lfpi ca es similar a la desv iaci6n tfpica de las prcdicciones de la regres i6n si mple del Capitulo 12. Sin embargo, las ecuaciones de la regresi6n multiple son muy complejas y no se presentan aquf; [0 que hacemos es calcular los valores uti li zando el programa !y1initab. La mayorfa de los paquetes estadfsticos buenos calcu lan las desv iaciones tfpicas del intervalo de predicci6n y del intervalo de confianza y los correspondientes interval os. Excel no permite calcular la desv iaci6n tfpica de las variables predichas. EJEMPLO 13.10. Prediccion del margen de beneficios de las asociaciones de ahorro y credito inmobiliario (predicciones del modelo de regresi6n) Le han ped ido que haga una predicei6n del margen de beneficios de las asoc iaciones de ahorro y cn:dito inmobiliario para un ano en el que e1 porcentaje de ingresos netos es 534 Estad{stica para administraci6n y economfa 4,50 Y hay 9.000 oficinas, ulilizando el modelo de regresion de las asociaciones de ahorro y credilO inmobiliario. Los datos se enc uenlran en el lichero Savings and Loan. Savings and Loan Solucion Utilizando la nolacion de la ecuaci6n 13.25. tenemos las variables XI .,, + I = X 2.,,+ I 4,50 = 9.000 Uti lizando estos valores, observamos que nuestro predictor puntual del margen de beneficios es , )',, + 1 = b o + b IX I. II + 1 + b,;t·2.II + l = 1,565 + (0,237)(4,50) - (0,000249)(9.000) = 0,39 Por 10 tanto, cn un ana en el que el porcentaje de ingresos netos por d61ar depositado es 4,50 y el numero de oficinas es 9.000, predecimos que el margen porcentual de benefitios de las asoc iaciones de ahorro y credito inmobili ario es 0.39. Los valores predichos, los intervalos de confianza y los intervalos de predicci6n pueden calcularse directamente por medio del programa Minitab. La Figura) 3. 12 muestro la salida del analisis de regresi6n. Se presenta el valor predicho, = 0,39 y su desviaci6n tfpica, 0,0277, junto con el intervalo de confianza y el y Regression Analysis: Y profit versus Xl revenue, X2 offices The regression equation is Y profit 2 1 . 56 + 0 . 237 Xl revenue - Predictor Constant Xl revenue X2 offices S eoef 1 . 56450 0 . 23720 ~0.00024908 0 . 0533022 R-Sq SE Coef 0 . 07940 0.5556 0.00003205 86 . 5\ Analysis of variance Sou rce OF Regression 2 Residua l Error22 Total 24 5S 0.40151 0 . 06250 0 . 46402 0 . 000249 X2 offices T 19 . 70 4.27 -7.77 P 0.000 0.000 0 . 000 Instrucciones de Minitab 1. STAT> REGRESSION > REGRESSION> OPTIONS R-Sq(adj) = 85.3\ 2. Pulsar New Observation Values 3. Seleccionar Fits, Confidence limits, Prediction limits F P 0 . 20076 70 . 66 0 . 00284 MS 0.000 Valor predicho pred:.~c~c~ed;;v~a~,;u~e~S;f;o~r;:N:e~W~O~b:,~e;r~v:;~::~~~~~~=-_ ~ 95\ CI 0 . 4476) __ 95' PI 0.2656, 0 . S148y.1.- - tntervalo ",,::::::~-:":::::::::=::::~ de predicci6n Values of Predictor s for New Observations New x. Obs Xl reven ue offices 1 4 . 509000 Error tfpico del valor predicho ___ Intervalo deconfianza )<------ deVal predicci6n ores de las variables Figura 13.12. Predicciones e intervalos de predicci6n de la regresi6n multiple (salida Minitab). Capitulo 13. Regresi6n multiple 535 intervalo de predi cci6n. EI intervalo de confianza -Cl- es un intervalo del va lor esperado de Y en la funcio n lineal defi nida por los valores de las variables independientes. Este in tervalo es una funeion del elTor {ipieo del modele de regresion. la di slancia a la que se enc uenlran los valores de Xj de sus medias muestral es individuales y la corre lacion entre las variables Xj uti lizadas para aju star el modelo. El intervalo de prediccion -Pl- es un intervalo para un unieo valor observado. Por 10 tanto, incluye Ja variabilidad del valor esperado mas la variabilidad de un unico punlo en tome al valor predicho. EJERCICIOS Ejercicios basicos 13.49. Dada la ecuaci6n de regresi6n multiple estimada y = 6 + 5xI + 4X2 + 7X3 + 8X4 calcular el valor predicho de Y cuando a) XI = lO, x2 = 23 , x3= 9, x4= 12 b) XI = 23, X2= IS, X3 = lO, x4 = II c) XI = 10, -'"-2 = 23 , x )= 9, X4= 12 d) Xl = -10, X2 = 13, x 3 = - 8, X4 = - 16 Ejercicios aplicados 13.50. Utilizando In informaci6n del ejercicio 13.9. prediga el aumento de peso de un estud iante de primer ano que come una media de 20 comidas a la scmana, hace ejcrcicio durante una media de 10 horas a 1a semana y consume una media de 6 cervezas a la semana. 13.51. Utilizanda la informaci6n del ejercicio 13.8. prediga cl consumo semanal de lechc de una fami lia de cuatro personas que (iene una renta de 600 $ a la semana. bo = 0,578 13.52, En la regresi6n del esfuerzo de diseno de aviones de! ejercicio 13.6, la ordenada en e! origen estimada era 2,0. Prediga el esfu erzo de diseno de un avi6n que iiene una velocidad maxima de mach I,D pesa 7 toncladas y tiene un 50 por ciento de piezas en comlin con otros modelos. 13.53. Una agencia inmobi li aria afi rma que en su ciudad el precio de venta de una vivienda en d61ares (y) ~epende de su lamana en metros cuadrados de superficie (Xl), el tamano del solar en metros cuadrados (~) , el numero de dormilorio~ (X.3 ) y cl numero de cuartos de bano (X4). Basandosc en una muestra aleatoria de 20 vcnlas de vivicndas, sc obluvo el siguienle modela esti mado por minimos cuadrados: y= 1.998,5 + 22,352x 1 + (2,5543) 1,468~+6.767 , 3x3 ( 1.4492) ( 1820,8) + 2.70 1,lX4 (1996. 2) R2 = 0,9843 Los numeros entre parentesis situados debajo de los coefi cientes son los errores t(picos de los coelicientes estimados. a) Interprete en el contexto de este modelo el coeficiente estimado de x2. b) Intcrpretc el cocficiente de determi nacion. c) Suponicndo que el modelo esta especificado correctamente, contrasle al nivel del 5 por ciento la hipotesis Ilula de que. manteniendose todo 10 demas conS(antc, el precio de venta no depende del numero de cuartos de banD frente a la hip6tesis alternariva unilateral adecuada. d) Estime el precio de venia de una vivienda de 1.250 metros cuadrados de superficie, un solar de 4.700 metros euadrados, 3 dormitorios y un cuarto de bano y medio. 13.7. Transformaciones de modelos de regresion no lineales Hemos visto como puede utili zarse el anali sis de regresion para eSli mar relaciones lineales que predicen una variable dependiente en funcion de una 0 mas variables independientes. Estas aplicaciones son muy importanlcs. Sin embargo, hay, ademas, algunas relaciones economicas y empresarial es que no son estrictamente lineales. En este apartado desalToll a- 536 Estadistica para administraci6n y economia mos metodos para modificar algunos fonnatos de los lllodcJos no lineales con eI fin de poder utili zar los rnetodos de regrcs i6n mult iple para estimar los coeficientes del mocleln. POI' 10 tanto, eI objeli vo de los apartados 13.7 y 13.8 es am pli ar la variedad de problemas que puedcn adaptarse a un amilisis de rcgresi6n. De esta forma vemos que el amilisis de regresi6n tiene aun mayores apl icaciones. Examinando el algoritmo de mfn imos cuadrados. vcmos que maniplilando con ellidado los modelos no linea les, es posible ulili zar los mfn imos euadrados en un eonjulllO mas am. plio de problemas aplicados. Los supuestos sobre las variables independientes en la regresi6n multipl e no son muy restrietivos. Las variables independientes definen puntos en los que medimos un a variable aleatoria Y. Suponemos que hay una relaci6n li neal entre los ni veles de las vari ables independientes Xj , do nde j = I, ... , K, y e l valor csperado de la variable dependiente Y. Podemos aproveehar eSla libertad para ampii ar el conjunto de modclos que pueden estimarse. POI' 10 tanto, podemos ir mas alia de los modelos lineales en nuestras apli cac iones del anal isis de regresi6n multiple. En la Fi gura 13. 13 se muestran Ires ejempJos: (a) (b) (c) Las funeiones de ofena pueden no ser lineales. EI aumen lo de la produce i6n total con un au menlo del nu mero de trabajadorcs puede ser cada vcz menor a medi da que se anaden mas trabajadorcs. EI eOSle med io pOl' uni dad producida a menudo se minimi za en un ni vel de prodllcc i6 n intermedio. >- o >- -ri -ri C :Q u c • c u• • , , 0 0 " 0 u ~ • 0 ~ ~ " 0 u Precio, P (,I Numero de trabajadores, Xl (b) Figura 13.13. Producci6n total, Xl (0) Ejemplos de funciones cuadraticas. Transformaciones de model os cuadraticos Hemos ded ieado bastante liempo al desarro llo del anali sis de regres io n para esti mar eeuaciones lineales que rcprcsentan di versos procesos cmpresariales y econ6micos. Tam bien hay muchos procesos que pueden representa rse mejor mediante ecuaciones no li neales. EI ingreso total tiene una re laci6n cuadralica con el prcc io y el ingreso maxi mo se obliene en un ni vel intermedin de precios si la funci6 n de demanda tiene pendiente negativa. En muchos casos, el coste min imo de prod uec i6n pOl' unidad se obti ene en un nivel de producci6n inlermedio y cl coste por unidacl es decreciente a medida que nos aproximamos al coste mfnimo pa r unidad y despues aumenta a partir de ese coste minima par unidad. Podemos anali zar algun us de estas relaciones econ6 micas y cmpresaria les utili zando un modela cuaddtico: y = Po + p,X, + P,xi + , Capitulo 13. Regresi6n multiple 537 Para eslimar los coe ricientes de un modele clladrati co para apl icac iones de este tipo, podemos transfonnar 0 modificar las variab les, co mo muestran las ec uHciones 13.26 y 13.27. De esta forma. un modelo cuadrat ico no li neal se convierte en un modele que es lineal en un conjunlo modifi cado de variabl es. Transformaciones de modelos cuadraticos La funci6n cuadratica y ~ Po+ /J,X, + p,X; + , (13.26) puede transformarse en un modelo lineal de regresi6n multiple definiendo nuevas variables: y despues especificando el modele (13.27) que es lineal en las variables transformadas. Las variables cuadraticas transformadas pueden combinarse can olras variables en un modelo de regresi6n multiple. Por 10 lanto, podemos ajustar una regresi6n cuadratica multiple ulilizando variables transfonnadas. EI objetivo es encontrar modelos que sean lineales en otras formas matematicas de una variable. Transfo nnando las variables. podemos estimar un modelo lineal de regresi6n multiple y utilizar los resultados como un mode lo no lineal. Los melodos de inferencia para los modclos elladdli cos transformados son los mi smos que hemos desarrollado para los modelos lineales. De esta fo rma, evitamos la confusi6n que se tendr!a si se utili zaran llnos metodos eSladfslicos para los rnodelos lineales y oLres para los mode los cli adrat icos. Los coefic ientes dcben combinarse para poder interprctarlos. Asi, si tenemos un modelo cuadra Ii co, e l efeeto de una variable. X. es ind icado por los cocficientes tanlo de los tenninos lineal es como de los termi nos cuadnitieos. Tambi en realizamos un scncill o contraste de hi p6tesis para averi guar s i un modelo cuadralico es una mejora can respecto a un modelo !inc.1!. La variable ~ 0 no es mas que una variable ad icional cuyo coefic iente puede contrastarse - Ho: {J2 = 0-- utili zando la / de Student co nd icionada 0 el estadfstico F. Si un modelo cuadratico se ajusta a los datos mejor que un modelo lineal , el coefi ciente de la variable cuadratica -~ = sera sign ifi cati vamen te diferente de O. EI melodo es e l mis mo si tenemos variables como 23 = X~ 0 2 4 = XTX2 . xi xi- EJEMPLO 13.11. Costes de produccion (estimaclon de un modelo cuadratico) Prod uction Cost Arnold Sorenson, director de producc i6n de New Front iers Instruments Inc., tenia interes en estimar la relaci6 n matema.tica entre el numero de montajes eleetro nicos producidos en un tu rno de 8 horas y el coste medio pOl' montaje. Esta funci6n se utilizarfa despues para estimar el coste de varios pedidos de producci6n y averiguar el ni vel de producci6n que minimizaria el cosle med io. Los datos se encllentran en el fi chere de datos Production Cost. 538 Estadistica para administraci6n yeconom fa Solucion Arnold recogi6 datos de nueve turnos duran te los cual es el numero de monlajes oscil6 enlre 100 y 900. Tambien obluvo en el departamento de contabilidad eJ coste medio pa r un idad en que se incuni6 durante esos dlas. Estos datos se presentan en un diagrama de puntos dispersos realizado por media del programa Excel y mostrado en la Figura 13.14. Sus estudios de economfa y su exper ienc ia 10 !levaron a sospechar que la funci6n podr!a ser cuadr.:itica can un coste media min ima intennedio. Diseii6 Sll amil isis para cOlls iderar tanto lIna funci6n de cosle media de producci6n lineal como lI na cuadratica. La Figura 13.15 es la regresi6n si mple del cosLe como una funci6n lineal del nume· ro de unidades. Vemos que la relaci6n lineal cs cas i plana, 10 que indica que no ex iste un a relaci6n linea! entre el coste medio y e l numero de unidades producidas. Si Arno ld hubiera utili zado simplemente esta relaci6 n, habr!a cometido graves errores en sus me· todos de estirnaci6n del coste. La Fi gura 13.16 presenta la regresi6n cuadratica que muestra el coste media por unidad como una funci6n no lineal del numero de unidades producidas. Observese que b2 es diferente de 0 y, por 10 tanto, debe inclui rse en el modelo. Observese tambie n que el R2 del modelo cuadriitico es 0,962. mientras que en el modelo lineal es 0,174. Utilizan· do eJ modelo cuadnitico, Arnold ha elaborado un modelo de coste media mucho mas uti!. Numero de Coste med io Un idades por unidad 5,5 ~ 100 210 290 415 509 613 697 806 908 5, 11 4,42 4,07 3,52 3,33 3,44 3,77 4,07 • • 5 ~ , c " 4,5 0 0. • 0 '5 •E 4 ~ • 3,5 " 3 • • • 0 4,28 • o 200 600 400 800 1.000 Numero de unidades Figura 13.14. Coste media de producci6n en funci6n del numero de unidades. Regression Analysis: Mean Cost per Unit versus Number of Units The regress i on equation is Mean Co s t per Unit = 4 . 43 - 0 . 000 855 Numbe r of Units Pred ictor Constant Numbe r of Un i t s 5 • 0.547614 Cocf 4 . 4330 -0 . 0008547 SI> Coe f 0 . 399 4 0 . 0007029 R- Sq = 17 .4\ R-Sq( a dj) • T P 11.10 -1.22 0 . 000 0 . 263 5.6\ Analysis of varia n ce Source Regression Res i d u a l Error Tota l DF 1 7 8 55 0 .44 33 2 . 0992 2.5425 M5 F P 0 . 4 4 33 0 . 299 9 1 .48 0 . 263 Figura 13.15. Regresi6n linea! del coste medio en funci6n del numero de unidades (salida Minitab). Capitulo 13. Regresi6n multiple 539 Regression Analysis: Mean Cost per Unit versu s Number of Units, No Units Squared The regression 0qu3tion is Mean Cost per Unit = 5 . 91 - 0.000884 Number of Units No Units Squ3red Predictor coef Const3nt 5.9084 Number of Units -0 .0088415 No Units Squared -0.00000793 SE Coef T 0.1614 36 . 60 0 . 0007344 - 12 . 0 4 0 . 00000071 11 . 15 S = 0 . 125875 R-Sq(adj) R- Sq = 96.2\ 0 + 0 . 000008 P 0.000 0.000 0.000 94 . 9% Analysis o f Variance Sourc e Regress ion Residual Error Total Figura 13.16. , OF SS MS F P 1 . 2230 75.97 O. 000 6 2 .44 59 0 . 0955 2.5425 8 0 . 0151 Modelo cuadratico del coste media en juncian del numero de unidades (salida Minitab). Transformaciones logarftmicas Algunas relaciones econ6m icas pueden anali zarse mediante fu nciones exponenciales. Por ejcmplo, si la variaci6n porcentual de la cantidad vend ida de bienes varfa linealmente en respuesta a las variaciones porcentuales del precio, la funci6n de demanda tendnl una forma exponencial: donde Q es la cantidad demandada y P es el precio por unidad. Las funciones de demanda exponenciaies tienen elasticidad constante y, pOl' 10 tanto, una variaci6n del prccio de un 1 pm ciento provoca la misma variaci6n porcentual de la cantidad demandada en todos los niveles de precios. En cambio, los modelos lineales de demanda indican que una variac i6n unitaria de la variable del preeio provoea la mi s ma variaci6n de la canlidad demandada en todos los nive les de precios. Los modelos exponenciales de demanda se ulilizan mucho en el amilisi s de la conducta del mercado. Una importante caracterfstica de estos modelos es que el coeficiente [lr es la c1asticidad constante, e, de la demanda Q con respecto al prec io P: JQIQ e= - =p, aplP Este resultado se desarrol1a en la mayorfa de los iibros de texto de microeconomfa. Los coeficientes del modelo exponenciai se estiman utili zando transformaciones logarft micas, como muestra la ecuac i6n 13.29. La transformaci6n logarftmica supone que el tennillo de error aleatorio multi plica el verdadero valor de Y para obtener el va lor observado. Por 10 tan to, en el mode lo exponen cial el error es un porcen taje del verdadero valor y la varianza de la distribuci6n de l error au menta cuando aumenta Y. Si este resu ltado no es cierto, la lrans rormacion logarft mica no es correcla. En ese caso, debe utili zarse una lecni ca de esti maci6n no lineal mucho rmis comp leja. Estas tecni cas eSlan fu era del alcance de este li bro. 540 Esladislica para administracion y economia Transformaciones de model os exponenciales Los coeficientes de los modelos exponenciales de la forma (13.28) pueden estimarse tomando primero el logaritmo de los dos miembros para obtener una ecuacion que es lineal en los logaritmos de las variables: log (l') = log (Po) + fl, log (X,) + II, log (X, ) + log (,) (13.29) Utilizando esla forma, podemos hacer una regresion del logaritmo de Y con respecto a los 10garitmos de las dos variables X y obtener estimaciones de los coeficientes PI y IJ 2 directamente del anal isis de regresi6n. Dado que los coeficientes son elasticidades, muchos economistas utilizan esla forma del modele en la que pueden suponer que las elasticidades son constantes en el rango de los datos. Observese que esle metoda de estimaci6n requiere que los errores alealorios sean multiplicativos en el modelo exponencial original. Par 10 tanto, el termino de error, c, sa 9xprasa como un aumento 0 una disminucion porcentual y no como la adici6n 0 la sustracci6n de un error aleatorio, como hemos vislo en los modelos lineales de regresi6n. Otra importante aplicaci6n de los mode los exponenciales es la funci6n de producci6n Cobb-Douglas, que tiene la forma donde Q es la cantidad producida, L es la cantidad utilizada de trabaja y K es la canLidad de capita l. PI Y P2 son las contribuciones relativas de las variaciones del tTabajo y de las variac iones del capital a las variaciones de la cant idad producida. En un caso especial, eorrespondiente a los rendimientos constan les de escala , sc plantea la restrieei6n de que la su ma de los coefic ientes sea igual a I. En ese caso, 111 Y 112 son las conlribuciones porcentualcs del lrabajo y cl capilal al au mento de la produclividad. La estimac i6n de los coeficientes cuando su suma cs iguaJ a I es un ejemp lo de est imaci6n rcstringida en los modelos de regrcsi6n. La ecuaci6n 13.29 es modificada par la restricc i6n fl, + #, = I y, pOl' 10 tanto, se incluye la sust ituci6n de la fo rma II, fl, = I - y la nueva ecuae i6n de estimaci6n se conv ierte en log(y) = log ({30) log(Y) - log (X, ) = log ({Io) log (;,) = log (Po) + /I,log(X,) + ( I - P,) log(X, ) + log (F.) + fl, [log(X,) -log(X, )] + log(") + p,log G:) + log (to) (13.30) Vemos , pues, que el coeficiente PI se obticne haciendo una regres i6n de log (Y/X2 ) con respecto a log (X I/X2). A con linuaci6n , se calcu la 132 reSlando PI de 1,0. Todos los buenos paquetes estadfsticos pucden calc ular faci lmcnte las transformaciones necesarias de los 'datos para los modelos logarftmicos. En el ejemplo siguicntc utilizamos el programa Mi nitab, pero podrfan obtenerse resultados sim ilares ulilizando olros muchos paquetes. Capitulo 13. EJEMPLO Regresi6n multiple 541 13.12. Funcion de produce ion de Minong Boat Works (estimacion del modelo exponencial) Minong Boat Works comenz6 a producir pequcnos barcos de pesca a principios de la decada de 1970 para los pescadores del norte de Wisconsin. Sus propietarios desarro!Jaron un metoda de producci6n de bajo coste para producir barcos de cali dad. Como consecuenci a, ha aumentado Sli demanda con el paso de los aoos. EI metoda de producci6n utili za una terminal de trabajo con un conjunlo de planlill as y herramientas electrieas que pueden ser manejadas por un numero variable de trabajadores. EI numero de tenn inales (unidades de capital) ha aumentado can cl paso de [os anos de 1 a 20 para sati sfaeer la demanda de barcos. Al mismo tiempo, la plantilla se ha incrementado de 2 trabajadores al ailo a 25. Ahara los propietarios estan eonsiderando la posibi lidad de aumentar sus ventas en olros mereados de Michi gan y Minnesota. Por 10 tanto, neeesi[an saber cminto tienen que aumentar el numero de terminales y el numero de trabajadores para iograr diversos aumentos del nivel de producci6n. Soluci6n Boat Prodm:tion Su hija, licenciada en economfa, sugiere que estinien una funci6n de producci6n CobbDouglas restringida utili zando datos de alios antcriorcs. Explica que esta fu nci6n de produccion les permilira predecir el numero de barcos producidos can diferentes ni ve les de term inales y de trabajadores. Los propielarios estan de acuerdo en que esc anal isis es una buena idea y Ie piden que 10 realice. Comienza el amili sis recogiendo los datos hi stOl'icos de produccion de la empresa, que se encuentran en el fichero de datos Boat Production. Para estimar los coeficientes, primero debe transformar la especificaci6n original del model a en una forma que pueda estimarse mediante una regresion par mInimal' cuadrados. EI modelo de la runcion de producci6n Cobb-Douglas es can la restricci6n P2~ I - P, donde Yes el numero de bareos prod ucidos al ana, K es el numero de terminales (uni dades de capital) ulili zadas cada ano y L es e[ numero de trabajadores utili zados cada ana . La funci6n de produccion Cobb-Douglas restringida se transforma en la forma de est imacio n: para hacer una estimacion par mfnimos cuadrados. La est imaci6n del modelo de regresi6n se nluestra en la Figura 13.17 y la ecuacion resullanle es: log G) ~ 3,02 + 0,84510g (~) (13.31) En este resultado, vemos que el coeficiente del modelo estimado, bb es 0,845. Por 10 tanto, b2 = 1 ~ 0.845 = 0, 155. Par Ultimo, log (b o) = 3,02. Este ana li sis muestra que el 84,5 pOl' ciento del valor de la produccion procede del trabajo y el 15,5 por ciento del 542 Estadistica para administraci6n y economia The regression equation is logbotunit 3 . 02 ~ 0 . 845 logworunit Predictor Constant logworun Coef SE Coef T p 3 . 02325 0 . 81\479 0 . 04387 0 . 09062 68.92 9.32 0 . 000 0 . 000 R- Sq", 79 . 8\ S " 0 . 1105 R-SQ(adj) '" 78.9t; Analysis of Variance Source Regression Residual Er r or Total OF 1 SS 1 . 0618 22 23 0 . 2688 1.3306 MS F P 1 . 0618 0 . 0122 86.90 0 . 000 Figura 13.17. AnAlisis de regresi6n de la fu nci6n de producci6n restringida (salida Minitab). capital. Tras rea lizar las oportunas transformaciones algebraicas, cl modele de la Fun ~ ci6n de producci6n es Y - 20.49K"·'4> LO.,,, (13.32) Esta Funci6n de producci6n puede util izarse para predecir la prod ucci6n esperada lItil i~ zando diversos niveles de capital y de tTabajo. La Fi gura 13. 18 muestra una comparaci6n del ntimero observado de barcos y el nil· mere predicho de barcos a partir de Ia ecuaci6n de regres i6n transformada. EI numero predi cho de barcos se ha calculado utili za ndo la ecuaci6n 13.32. Ese amllisis tambien indica que el R"l de In regresi6n del m1mero de barcos Con respecto al numero predicho de barcos es 0.973. Este R2 puede interpretarse exaclamente igual que el R2 de cualquier modelo de regresi6n lineal y, por 10 tanto, vemos que el mlmero predicho de barcos conslituye un buen aj uste de los datos observados sabre la producci6n de barcos. El R2 de los datos de la regresion transFormada de la Fi gura 13. 17 no puede interpretarse fucilmenle como un indicador de la relaci6n entre el numero de barcos producidos y las variabl es independientes del trabajo y el capital , ya que las unidades estan expresadas en logaritmos de cocientes. Number of Boats = 11.82 + 1.199 Forecast Number of Boats 500 5 R·Sq : R-5q(adj) 400 .••• ~ • 300 ~ ...••E , z • 200 • •• • • • 100 • •• 0 0 100 200 300 Forecast Number of Boats 400 Figura 13.18. Comparaci6n de la producci6n observada y la predicha. 25.t 9t6 9 7.3% 97.2% Capitulo 13, 543 Regresi6n multiple EJERCICIOS Ejercicios basicos 13.54. Considcrc las dos ccuaeiones siguienles eslimadas utilizando los tnelodos desarrollados en eSle apartado. i. Yi Segun los esludios recientes de una consultora nacionaI. los eoefieientes del modelo deben lener la siguiente restricei6n: fl, + ii, ~ 2 = 4x u ii. Yi = I + lx i + ~ Calcule los valores de y,. cuanda 8, 10. Xi = I, 2, 4, 6, 13.55. Considere las dos ecuaciancs siguientcs eSlimadas utilizando los mciodos desarrollados en este apanado. i. Yi = 4xl.~ ii. Yi = I + 2rj +2xt Calcule los valores de Yi cuando xi = 1, 2, 4, 6, 8, 10. 13.56. Considcre las dos ecuaciones siguientes estimadas utilizando los melodos desarrollados en este apartado. i. Yi = 4xu ii. Yi = 1 + lxi + 1,7x~ Ca1cule los valores de y,. cuando Xi = I, 2, 4, 6, 8, 10. 13.57. Considere las dos eeuaeiones siguientcs cSTimadas uti li zando los melodos desarrollados en este apartado. i. Yi = 3Xl ,2 ii. Yi = 1 + 5Xi + 1,5x~ Calcu le los valorcs dc Yi cuando Xi = 1, 2, 4, 6, 8, 10. Ejercicios aplicados 13.58. Describa un ejempJo ex trafdo de su experiencia en el que un modelo cuadn'it ico sea mejor que un modelo lineal. 13.59. Juan Sanchez. presidcnte de Estudios de Mercado, S.A. , Ie ha pedido que estime los eoeficienles del modelo Y = {Jo + {J1Xl + {J2X~ + {J1X2 donde Y son las vcntas esperadas de sumi nistros de oficina de un gran distribuidor minorisla de sum inistros de ofieina, X l es la renla total dispDnible de los residentes que viven a menos de 5 kil6metros de la tienda y X2 es eJ nutnero 10tal de personas cmpleadas en empresas euya actividad se basa en la informacion que se eneuentran a menos de 5 ki l6metros de la tienda. Dcscriba como eSlimarfa los coeficientes de! mode!o utilizando el metodo de minimos cuadrados. 13.60. En un estudio de los dctcrminanles de los gastos de los hogares en viajes de vacaciones, se obtuvieron datos de una muestra de 2.246 hogares (vease la refcrencia bibliografiea). EI mode10 estimado era logy = - 4,054+ 1, 155610gxl -0,440Slogx2 (0.0546) (0.0490) R' ~ 0,168 donde Y = gasTo en viajes de vaeaciones = gasto total anual de eonsumo X 2 = numero de miembros del hogar XI Los nutneros entre paremcsis que se encucnlran debajo de los eocficientes son los errores tfpicos de los eoefidcntcs csti mad os. a) Interprete los coeficientes de regrcsi6n esti- mados. b) imerprete el coeficiente de determinacion. c) Manteniendosc todo 10 demas eonstante, halie el intervalo de confianza al 95 par demo del aumento poreentual de los gastos en viajes de vacacioncs provocado por un aumenlo del gasto anual tolal de consumo de un I por eiento. d) Suponiendo que cl modelo eSla especificado correetamente, eonlraSle al nivel de significaei6n del I por ciento la hip6tesis nula de que, manteniendosc todo 10 demas constante, el numero de miembros de un hogar no afccta a los gastos en viajes de vacaciones fre nle a In hipotesis alternaliva de que cuanto mayor es el numero de miembros del hogar, menor es el gasto en viajes de vaeaciones. 13.61. En lin estud io. se estim6 el siguiente modelo para una muestra de 322 supermcrcados de grandes zonas metropolitanas (vease la referencia bibliografica 3): Logy = 2,921 + 0,680 logx (0.077) f(2 = 0,19 544 Estadistica para adminlstracion y economia glas- que prediga el numero de mi cro procc~a_ dores producidos por un fabricante. Y. Cll fUIl _ ci6n de las unidades de capital. Xl: las unidade~ de trabajo, X2, y el numero de informaticos que rcu1i7..un investi gaci6 n basica. X). Especifique la forma del modclo e indique con cuidado y exhausl ivamcntc c6mo estimarfa los coeficientes. Hugalo utilizando primcro un modelo sin rcstricciones y a conlinuaci6n incluyendo la restricci6n de que los cocficicntcs de las Ires vari ablcs deben sumar I. donde y = tamai\o de la tienda x = renta mediana del distrito poslal cn el que se encuentm la tienda Los numeros entre parenlesis que figurnn dcba~ jo de los coefic ienles son los errores Ifpicos de los coeficientes eSlimados. a) interprcle el coeficienle estimado de log x. b) Contraslc la hip61csi s nula de que la renta no infiuye en el tamano de In ticnda frcntc a la hip6Lcs is al lernaLiva de que un aurnento de la ['emu tiende a ir acompufiado de un aume nto del tamano de la tienda. 13.64. Considere el sigui ente modelo no lineal COn crrores multiplicativos. 13.62. Un economisU\ agrfcola cree que la canti dad consumida de carne de vacuno (y) en toncladas al ano en Estados Unidos depende de su precio (XI) en d61ares por ki lo, del prccio de la carne de porci no (X2) en d61ares por kilo, del prccio del polio (x) en d61ares por kilo y de la renla por hagar (X4) en mi les de d6lares. Se ha oblenido la siguientc regrcsi6n muestrol POI' mfnimos cuadrados utili zando 30 observacioncs anuales: y = fJoXf'X~XglXh; p, + p, + O,416 10gx4 (0. 103) 1 113+P4 ~ 1 a) Muestre c6mo obrendria estimaciones de los cocfi cicnles. Deben satisfacerse las restricdalles de los coeficienles. Muestre lodo 10 que hace y explfq uelo. b) loCual es la elasticidad constanle de Y con rcspecto a X4 ? Logy= - 0,024 - 0,529 10gx, + 0,217 logx2+ 0,193 logx3 (0.168) ~ (0.\06) Sc rccom ienda que los siguiemcs cjercieios se resuelvan con la ayuda de un computador. R2 = 0,683 (0. 163) Los numerus entre parcntesis que se encuentran debajo de los cocfi cientes son los errores I{picos de los coeficientes estimados. Intcrprctc cI eocfici ente de log X I ' b) Interprete el coefic iente de log x2' c) Contraste al nivel de significac ion del I POI' d ento la hip61esis nula de que el coeficiente de logx4 en la regresi6n poblacional es 0 frente a la hip61esis altemativa de que e..<; positivo. d ) Contrastc la hip61esis nul a de que las cuatro variables (logxl' logx2' log x), logx4 ) no liencn, en conjunto, ninguna influencia lineal en logy. e) Al econom isla lambicn Ic prcocupa que la crec ienle concienciaci6n de las consecucncias del consumo frecuente de came roja para la salud pueda haber influ ido en !a demanda de carne dc vacuno. Si eso es asf, loc6mo influ irfa en su opini6n sobre la regresi6n eslimada original? .1) 13.63. Le han pedido que desarrolle una funci6n de produccion cxponenci al -forma Cobb-DoLL- 13.65. , j Angclica Chandra, presidenta de Benefi ts Rescarch Inc., Ie ha pedido que esludie la estructura snlnri al de su emprcsa. Benefits Research ofrece consu ltoria y gcsli6n de los programas de seguro medico y de jubi laci6n para los empleados. Sus cJienles son grandes y medianas cmprcsas. Primero Ie pide que desarrotlc Ull modclo de rcgrcsi6n que eSlime el salario es-. perado en funci6n de los anos de cxpcricncia en la empresa. Debe examinar modelos lineales. cuadraticos y cubicos y averiguar CUll l es mas adccuudo. Eslime modclos de regresi6n adecuados y cscriba un breve informe quc rccomiende el mejor modelo. Uli lice los dulOS del fi chero Benefi ts Research. 13.66. #. EI fic hero de duloS German Im ports muesIra las importaciones real es alemanas (y). el consuillo privado real (XI) y el tipo de cambio rcal (x2) en d61ares estadouni dcnses pOl' marco de un periodo de 3 1 arios. Esli me el modelo y escriba un informe sobre sus resultados . Capitulo 13. Regresi6n multiple 545 13.8. Utilizacion de variables ficticias !In modelos de~gresion En el amllis is de la regresi6n multiple, hemos supuesto hasta ahora que las variables independ ientes, xj , ex istfan en un rango y conten fan muchos valorcs difcrcnles. Sin embargo, en los supuestos de ]a regres i6n multiple la unica restricc i6n a la que estan sujems las variab[es independientes es que son valores fijos. Por 10 Ian to, podrfamos tener una variable independiente que tamara solamente dos valores: Xj = 0 Y .lj = [. Esta cstructura se denomina normalmcntc variable fieficia, y veremos que co nstituye un val ioso instrumento para aplicar la regresi6n multiple a situaciones en [as que hay variab les categ6ricas. Un importante ejemplo es una funci6 n lineal que varIa en respuesta a alguna innuencia. Consideremos primero una ecuaci6n de regresi6n simple: y ~ (iu+ (i,X, Supongamos ahora que introducimos una variable fictic ia, Xl' que toma los valores 0 y I Y que la ecuaci6n resultante es y~ fJo + /J,X, + (i,X2 Cuando X 2 = 0 en esla ecuaci6 n, la constante es f3l), pero cuando X 2 = 1, la constanle cs flo + fl2· Yemos, pues, que [a variable fict icia desplaza la relaci6n lineal entre Y y X] en el valor del coefic iente f32. De esta forma, podcmos representar el efecto de los desplazamienlOS en nuestra ecuaci6n de regresi6n. Las variables ficticias tambien se [Iaman va riables de illdicador. Comenzamos nuestro ana lisis con un ejemp lo de una importante aplicaci6n. EJEMPLO 13.13. Amilisis de la discriminacion salarial (eslimacion de un modelo utilizando variables ficlicias) Gender and Salary EI pres idente de Investors LLd. quiere averiguar si existe alguna plUeba de la presencia de discriminaci6n salarial en los salarios de las mujeres y los hombres anali stas financieros. La Figura 13. 19 muestra un ejemplo de los salarios anuales de los analistas en relaci6n con sus anos de experiencia. Yease el fich ero de datos Gender and Salary. Solucion Examinando los datos y el grMico, vemos dos subconjuntos diferentes de salarios y parece que los sa larios de los hombres son uniformemente mas attos cualesquiera que sean los anos de experiencia. Este problema puede anali zarse estimando un modelo de regresi6n multiple del salario, Y, en funci6n de los anos de experiencia, Xl> con una segunda variable, X2 , que lOrna dos valores: o Mujeres analistas Hombres analistas El modelo de regresi6n multiple resullante puede analizarse ulili zando los metodos que hemos aprendido, senalando que el coeticiente b] es una estimaci6n del aUlllent.o anual esperado del salario par ana de experien- 546 Esladislica para administraci6n y economia Scatterplot of Annual Salary (Y) vs Years Experience (Xl) 110000 """"" • 100000 )C • • 90000 (X2) O=fema le i - Male • • 0 1 ~ .. •.,i:" ,•< 80000 '" 60000 < • • 70000 • • • • 50000 40000 • • • 5.0 7.5 10.0 12.5 Yers Experience (Xl) 15.0 175 Figura 13.19. Ejemplo de una paula de datos que indica la existencia de discriminaci6n salarial. cia y b2 cs el au mcnto que experimenta eI salario medio cuando el analisla es un h OIl1~ bre en Jugar de una mujer. Si b2 es positivo, eso indica que los salarios de los hombres SOil un iformemenle mas altos. La Figura 13.20 presenta el anali sis de regresi6n multiple de Minitab para este pro~ blema. En este an6. li sis vemos que el coeficiente de Xl -gender- tiene un eSladfstico t de Student igual a 14,88 y un p-valor de 0, 10 que nos Ileva a rechazar la hi pOles is nul a de que el codiciente es igual a O. Este resu hado indica que los salarios de los hombres son sign ificati vamente mas altos. Tambien vemos que b2 = 4.076,5, 10 que indica que el valor esperado del aumento 8nual es 4.076,50 $ Y que b l = 14.638,7, 10 que indica que los salarios de los hombres son, en promedio, 14.683,70 $ m~1s altos. Este tipo de amilisis se ha util izado con exilo en algunos juicios sobre discriminaci6n salarial, por 10 que la mayoria de las empresas realizan anali sis parecidos a este para averiguar si existe algun a prueba de discriminaci6n salaria!. Esle tipo de ejemplos tiene numerosas apl icaciones en algunos problemas entre los que se encuenlran los sigu ientes: 1. 2. 3. 4. Es probable que la relaci6n entre el numero de unidades vendidas y el precio se desplace si entra un nuevo competidor en el mercado. La relaci6n entre el consumo agregado y la renia di sponible agregada puede desplazarse en tiempos de guerra 0 como consecuencia de algun otro gran acon~ tecimi ento nacional. La relaci6n entre la producci6n total y el numero de trabajadores puede desplazar~ se como consecuencia de la introducci6n de una nueva tecnologia de produccion. La funci6n de demanda de un produclo puede variar como consecuencia de una nueva campana publicitaria 0 de la publi caci6n de una nOlicia relativa al producto. Este anali sis ha in Lroducido el concepto de regresi6n l1ti lizando variables ficticias como un metodo para ampliar nueslra capacidad de anal isis. El metodo se resume a continuaci6n. Capitulo 13. Regresi6n multiple 54 7 The regression equation is Annual Salary (Y) = 23608 + 14684 Gender (X2) O=Fema l e l=Male + 4076 Years Experience (Xl) Predictor Constant Gender (X2) O=Female l =Male Year Experience (Xl) S = 1709.48 R-Sq = 99 . H Coef T p 1434 16.46 987 . 0 14.88 121.3 33 . 61 0 . 000 0 . 000 0 . 000 S8 Coef 23608 14683 . 7 407 6 . 5 R-Sq (adj) = 99.2% Analysis of Variance Source Regression Residual Error Total Figura 13.20. DP 2 9 11 SS 39 4824096 26300913 3974541710 MS 1974120398 2922324 P 675 . 53 P 0 . 000 Analisis de regresion del ejemplo de la discriminacion salarial: salario anual en relacion can los anos de experiencia y el sexo (salida Minitab). Analisis de regresi6n utilizando variables ficticias La relaci6n entre Y y X, puede desplazarse en respuesta a un cambio de una determinada condicion. EI etecta del desplazamiento puede estimarse utilizando una variable ficticia que tiene el valor 0 (no se cum pie la condici6n) y 1 (se cumple la condicion). Como muestra la Figura 13.19, lodas las observaciones del conjunto superior de puntos de dalos lienen la variable ticlicia x2 = 1, Y las observaciones de los puntos inferiores tienen la variable ficlicia x2 = O. En estos casos, la relaci6n entre Y y X, es especificada por el modelo de regresion multiple (13.33) EI coeficiente b2 represenla el desplazamiento de la funcion entre el conjunto de puntos inferior de la Figura 13.19 y el superior. Las funciones de cada conjunto de puntos son y= bo + bXI cuando Xl = 0 y cuando X2 = 1 En la primera funci6n, la constante es bo' mientras que en la segunda es b o + b 2 • En el Capitulo 14 mostramos c6mo pueden utilizarse las variables ficticias para analizar problemas que lienen mas de dos categorfas discretas. Esla sencilla espec ificaci6n del modelo de regresi6n lineal es un instrumento muy poderoso para resolver los problemas que implican un desplazamiento de la funci6n linea l provocado por factores discretos identificables. Ademas, la eSlruClura de regres i6n mUltiple es un metoda directo para realizar un contraste de hip6tcs is, como hemos hecho en el cjemplo 13.13. El contraste de hip6tesis es Ho: p, ~ 0 III, '" 0 H,:P2",OIII, ,,, O 548 Esladfslica para adminislraci6n y econom(a EI rechazo de la hipolesis nula, Ho, !leva a la conclusi6n de que la con stante de los dos subconjuntos de dalos es diferente. En el ejemplo 13. 13 hemos visto que esta difercncia entre las constantes lIevaba a la conclusion de que existia una diferencia sign ifica liva entre los salarios masc ulinos y los feme ni nos una vez eliminado e l efecto de los ailos de expe~ riencia. Diferencias entre las pendientes Podemos utilizar variables ficticias para analiza!' y con lraSlar las diferenc ias entre las pen~ dientes aiiad iendo una variable de interacci 6n . La Figura 13.21 muestra un ejemplo repre~ se nlalivo. Para con trastar tanlo las diferenc ias enlre las constantes como las di ferenc ias e n ~ Ire las pendiellles, utili zamos un modelo de regres i6 n mas complejo. Gender (><2) Experience Years Annual times Experience Salary O=Female Gender (X I) l =Male (V) 0 0 5 $36,730 0 0 0 0 0 1 1 I I 1 I 0 0 0 0 0 5 7 9 10 14 17 7 9 10 14 17 5 7 9 10 14 17 Annual Salary vs Years of Experience for Male and Female Engineers 140,650 $46,820 150 ,149 $59,679 167,360 151,535 162,2ffi 172,486 175,022 193,379 $105,979 1120,OCXl 11 00 ,OCXl ~ 11:1 • $00 ,(xx) • •• •• 5 10 ~ '"• ..c c 160,000 540,000 • • • I 520,000 10 o 15 20 Years of Experience Figura 13.21. Datos salariales anuales de Systems Inc. Regresi6n utilizando variables ficticias para contrastar las diferencias entre las pendientes Para averiguar sl existen diferencias significativas entre las pendientes de dos condiciones discretas, hay que expandir nuestro modelo de regresi6n a una forma mas compleja: (13,34) Ahora vemos que la pendiente de x, conliene dos componentes, /3, Y fJaX2. Cuando X2 es igual a 0, la pendiente es el /1, habitual. Sin embargo, cuando X2 es igual a 1, la pendienle es igual a la suma algebraica de {Jl + {l3' Para estimar 81 modelo, necesitamos en realidad crear un nuevo conjunto de variables transformadas que sean lineales. Por 10 tanto, el modelo utilizado realmente para la estimacion es (13,35) Capitulo 13. Regresion multiple 549 EI modelo de regresion resullanle ahora es lineal con Ires variables. La nueva variable, X 1X2 ' a menudo se llama variable de interacci6n. Observese que cuando la variable ficticia x2 = 0, esla variable liene un valor de 0, pera cuando x2 = 1, esla variable Ilene el valor de Xl' EI coeficienIe b3 es una eslimacion de la diferencia entre et coeficienle de X 1 cuando x2 = 1 Y el coeficienIe de X1 cuando x2 = O. Por 10 lanlo, puede utitizarse el estadfslico t de Siudent de b3 para contrastar las hipotesis Ho:{!, ~ Ol/!, #0. {!, # 0 H , : ii, '" 0 I{!, '" O. ii, '" 0 Si rechazamos la hipotesis nula, concluimos que existe una diferencia entre las pendientes de los dos subgrupos. En muchos casos, nos interesara tanto la diferencia entre las constantes como la diferencia entre las pendientes y contrastaremos las dos hip6tesis presentadas en esIe apartado. EJEMPLO 13.14. Modelo de los salarios para Systems Inc. (estimacion de un modelo utilizando variables ficticias) EI presidente de Systems Inc. esta interesado en saber si las subidas salariales anuales de las ingenieras de la empresa han sigo iguales que las de los ingenieros. Ha habido algunas quejas tanto de los ingenieros como de las ingenieras de que los salarios de cstas no han subido al mismo ritmo que los de aqucllos. Solucion La Figura 13.2 1 mueSlra los datos de ]a empresa y un diagrama de puntes disperses. EI diagrama sugiere que la pendiente es nuts alta en el caso del subgrupo superior, que representa a los ingenieros. En la Figura 13.22 presentamos el amllisis de regresi6n multiple realizado con el programa Excel, que puede utilizarse para contrastar la hip6tesis de que las tasas de subida de los dos subgrupos de ingenieros son iguales. En este amilisis vemos que la experiencia multiplicada pOl' el sexo ticne un estadfstico I de Stu; ; , Ii ; Gender and Salary Increase i nmultip le 0,,"" ; 0,,"" G"d., , , S"m, I,,;~; F , " d. F , ( ; , Figura 13.22. , I , Am'ilisis de regresi6n del salario anual en relaci6n con la experiencia y el sexo (salida Excel). 550 Esladislica para adminislracion y econom ia dent de 14,20 Y Ull p-valor de O. Rechazamos la hip6tesis nu la de que, a medida que aumenta la experienc ia, los salarios de los ingenieros y de las in genieras han subido al mismo rilmo. Por 10 tanto, sera importante lomar medidas para abordar la discrimina_ ci6n salarial que es cvidenle en los dalos. Los datos se encueniran en el fichero Gender and Salary Increase. EJERCICIOS Ejercicios basicos 13.67. l,Cuul es la constante del modelo cuando la variable fictic ia es igual a I en las siguientes ecuacioncs, donde Xl es una variable continua y X2 es una variable fi cticia que toma un valor de 00 I ? a) ; = 4 + 8Xl + 3X2 b) = 7 + 6x 1 + 5x2 c) = 4 + 8.Xl + 3x2 + 4X jX2 13.68. ;..Cm"il es la con sta nte del modele y el coeficienIe de la pendiente de Xj cuando la variable ficticia es igual a I en las siguientes ecuaciones, donde x. es una variable continua y X2 es una variable ficticia que toma un valor de 0 0 I? Y= 4 + 9xj + 1,78x2 + 3 ,09xjX2 y= -3 + 7xl + 4 , 15x2+ 2,5Ix.X2 y = 10 + 5x. + 3,67x2 + 3,98x1X2 Ejercicios aplicados 13.69. EI siguiente modelo se ajusl6 a las obscrvaciones de 1972- 1979 en un intento de explicar la conducta de la fijaci6n de los prccios. ; = 37xI y= -1 .264 + 5,22t2 (0.029) (0.50) donde y = diferencia entre el precio del ano actual y cl pretio del ano anterior en d61ares por barril XJ = diferentia enlre el precio 01 contado en el ana actual y el precio al contado en el ano anterior X2 = variable fic licia que lama el valor I en 1974 y 0 en los demas. para representar el cfcC10 cspecffico del embargo del petr6leo de esc ano Los nlllneros entre parentesi.s situados dcbajo de los coeficientes son los errores tfpicas de los coc fi cicntcs estimados. Intcrprete vcrbal y grtificamente el coefi cieotc estimado de In variable fiC licia. + 48, 18xl + 3.382\"2 (0.91) (S IS) + 3.2 19x4 + 2.005xs (947) Y y a) b) c) .13.70. Sc ha ajuslado cl siguiente modelo para expli car los precios de venta de los pisos de una muestra de 8 15 ventas. (768) ff2 - 1.859x) (488) = 0,86 donde = precio de venlu del piso, en d61ares Xl = melros cuudrados (itiles X2 = tamana del gamje en mlmero de autom6viles x ) = antiguedud del pi so en anos x" = variable fic ticia que toma e1 valor I SI el piso tiene ch imenca y 0 en caso contrario Xs = variable fic licia que lorna el valor I si el piso liene suelos de madern y 0 si liene suclos de vi Ili 10 a) lnlerprete el coeficiente estimado de X4' b) Interprete el cocfici ente estimado de Xs. c) Halle el interva lo de confianza al 95 por cicnto del efecto de una chimenea en cl precio de venia, manteniendose todo 10 dcmas constante. d) Contmste la hip6tcsis nula de que el tipo de sueIo no afecta al pretio de venta frente a la hip6tesis altcrnativa de que, manleniendosc todo 10 demas constantc, los pisos con suc lo de madera tienen un precio de venta mas al to que los pises con sue lo de vinila. y 13.71. Se ha ajustado el siguietlte modele a datos sobre 32 compafifas de seguros. ; = 7,62 - 0, 16x. (0.008) + 1,23x2 R2 = 0,37 (0.496) donde y = relaci6n preeio-benefi cios Xl = volumcn de activos de las compafifus de seguros, en miles de milloncs de d61ares x2 = variable fi cticiu que toma el valor 1 en el caso de las companfas regionales y 0 cn c1 de las nacionales. Capitulo 13. Los numeros en!re parcntesis siwados debajo de los coeficie ntes son los errores tfpicos de los coeficientcs estimados. .y XI riable fieticia. b) Contraste la hip6tesis nula de que el verdadero coeficiente de [a variable ficticia cs 0 frente a la hip6tcsis alternaLiva bilateral. c) Contraste al nivel del 5 por ciento la hip6lesis nula #1 = (J2 = 0 e interprete su resultado. a .\"3 res x~ = variable fieticia que lorna el valor I 5i los del estado x6 + (J IX] i + {JzX2i + {J:'x3i + I:; a) Interprete el coefi cienle esri mado de In variable ficticia X5. b) Interprete el coeficiente estimado de la va· riable fie ticia x6. c) Contraste al nivel del 5 pOI" cienlo la hi p6tesis nula de que el verdadero coeficientc de la variable ficlicia Xs es frente a la hipotesis alternativa de que es posilivo. d) Controste al nive[ del 5 por cic nto la hi p6lesis nul a de qLle el verdadero coeficiente de la variabl e ficticia X6 es frente a la hip6te~ sis alternativa de que cs negativo. c) Hall e e interprete un nivel de confianza del 95 por cienlo del para metro Pl . Utilice la parte de la salida de la regresi6n esti· mada mostrada aquf para escribir un informe que resuma los resultados de este estudio. MODEL 3 ERROR " CORRECTED TOTAL 49 PARAMETER 641 . " MEAN SQUARE FVALUE R-SQUARE 7.13.68 8.48 .356 1159 . 66 6 . 51.2 INTERCEPT 3 . 502 0 .4 91 10 .3 27 x3 , 1. 45 . 59 2 . 45 STD. ERROR OF ESTIMATE 2 . 419 0 .1 07 4 . 213 13.73. EI siguiente modelo se ajust6 a datos de 50 estados de Estados Unidos. y= 13.472 + 547xI (124.3) - 3.IOOX6 ( 1.761) ° 1800 . 70 ESTIMATE Xl X2 ° 25.21 T FOR HO: PARAMETER '" 0 + 5,48x2 + 493x3 + 32,7x4 + 5.793x5 (1.858) R2 = 0,54 (208.9) (234) (2.897) magistrados del tribunal supremo del esta~ do pueden ser cesados por el gobcrnador, par el consejo del poder judicial 0 mediante una votaci6n por mayorfa del tribunal supremo y 0 en casu conlrario = variable ficticia que lama el valor I si los magislrados del tribunal su premo son dcsignados tras unas elecciones en las que inLervienen los partidos poHticos y 0 en caso contra rio Los numeros entre parcntcsis situados debajo de los coeficientcs son los errores tfpicos de los coeficienles estimados. ° SUMOF SQUARES miles de d61ares nlimero de leyes aprobadas en la [cgislalllra anterior = numero de acluaciones de los tribunales de los estados que dieron lugar a una anulaci6n de legislacion en los 40 anos anterio= duraci6n del mandalo del fisca l general Yi = ealificaci6n que rdleja el rendimiento glo~ bal de los estudiantes en sus eSludios de postgrado en derecho Xli = calificaci6n media de los estudios de grado X 2i = ca[ ificac ion ell el examen de aceeso a la universidad x3i = variable ficlicia que toma el valor I si las cartas de recomendaci6n del eSLUdiante son excepcionalmente buenas y en caso contrario DF sueldo anual del fiscal general del estado .\"4 donde SOURCE = = sueldo anual medio de los abogados en X2 = 13.72. EI deeano de una facultad de derecho querra eval uar la importancia de factores que podrfan ayudar a predecir el exito en los estudios de postgrado en dcrecho. Sc obtuvieron datos de una muestra aleatoria de 50 estudianles cuando lerminaron SLIS eswdios de poslgrado en derecho y se ajust6 el siguiente modelo: = 551 donde a) Interpretc el coeficicn lc estimado de la va- Yi Regresi6n multiple 13.74. Un grupo consultor ofreee cu rsos de gesti6n financiera para los ejecutivos. Al final de estos cursos, los participanles deben hacer una valoracion global del valor del curso. Se estim6 para una muestra de 25 cursos In siguiente regresian por mfnimos cuadrados . y= 42,97 + 0,3&.1."] + O,52x2 (0.29) R2 (0.21) - 0,08X3 (0.1 J) + 6.21x4 (0.359) 0,569 = donde y = va loraci6n media realizada POI" los parlici panIcs en el curso 552 Esladfslica para administraci6n y economia porcentaje del tiempo de l curso dedicado a scsiones de discusi6n en grupo = dinero, en d6larcs, par miembro del curso decl ieados a prcparnr el malerial del curso = dinero, en d6lares, por miembro del curso gaslado en comida y bcbida = variable fic ticia que toma el valor I 51 in lerviene en el curso un profesor visitantc y 0 en caso contra rio. XI = xl x~ X2 Los mimeros entre parenlesis sllUados debajo de los coeficicntcs son los errores tfpicos de los coeficientcs eSli mados. a) Interpretc cI cocfi ciente eSlimado de x 4 . b) Contraste la hip6tesis nu la de que el verda- dero coeficiente de X4 cs 0 frenle a la hip6lesis alternativa de que es positi vo. c) Interprete el coerieiente de determi naci6n y ulilfcelo para eontrastar la hip6tesis nula de que las cuatro variables indepcndientes. consideradas en conjunto. no influyen li nealmenle en la variable dependiente. d) Halle e interprele el intervalo de con fi anza al 95 por ciento de P2' 13.75. En un estud io, se estimo un modelo de regresi6n para camparaI' el rcndimiento de los estudiantes que asistfan a un eurso de estadfslica para los negocios: un eurso normal de 14 $Cmanas 0 un curso intensivo de 3 semanas. Se estim6 el siguienle modelo a parti r de las obscrvaciones sobre 350 cSludianles (vease la rcfereneia bi bJiografica 5): y= - 0.7052 + 1.4170x I + 2, I 624x2 + 0.8680x) (0.4568) + 1,0845x4 (0.3766) (0.3287) (0.4393) + 0,4694xs + 0.OO38x6 + O.0484x7 (0,0628) (0.0094) (0,0776) R2 = 0,344 donde y = culi fi euci6n obtcnida en un examen norm(lliz(ldo sobre los conocimientos de cstadisliea despues de asisti r al curso XI = variable fiClicia que lOrna el valor I si se asisti6 a un curso de 3 sem.mas y 0 Sl se asisti6 a un curso de 14 semanas X 2 = calificaci6n media del estudiante Xl = variable fi eticia que toma el valor 0 0 I, dependiendo de ellal dc dos profesorcs imparliera el curso .1"4 = variab le fi cticia que toma el valor I si el cstud iante es varon y 0 si es mujer Xs = cali ficac i6n oblenida en un examen nor- X6 .1"7 malizado sobre los conoci mienlos de matematieas antes de ;lsiSl ir al eurso = numero de creditos semcslrales que hubi:! completado el eSl udi unte = edad del estudiante Los numeros entre parentcsis situados debajo de los coefieienles son los errores tfp icos de los coe fici entes eSlimados. Escriba un infomle analizando 10 que pucdc aprenderse con csta regresi6n ajustada. Se recom ienda que los sigu ientcs ejercieios se rcsuelvan con In ayuda de un compulUdor. 13.76. f .. En un estudio de 27 estudiantcs de la Universidad de lllinoi s sc obtu vieron resultados sobre la calificaci6n med ia 0'), c1 numero de horus scmanalcs dedi cadas a eSiudiar (XI), c l nuI11cro medio de horas dcdicadas a eSIt:d iar pura los examenes (X2), el numero de horas scmtlnaIcs pasadas en los b:lres (x)). el hecho de quc los CSludiantes tomcn nOlas 0 subrayen cuando Iccn los libras de texto (X4 = I si sf, 0 si no) y el numcro medio de ered itos realizados par semestre (xs) . Estime In rcgresi6n de la ca lifieaci6n media con rcspeclo a las cinco vari ables independicntcs y escriba un infonnc sabre sus resultados. Los dalOS se cncucnlran en el lichero de datos Student Perrormance de su disco de dmos. 13.77. ~ -t Lc han pediclo que desarrolle un modelo para anali zar los salarios de una gran empresa. Los datos para desarrollarlo se encuentran en el fichero llamado Salorg. a) Utili zando los datos del fichero. desarrolle un modelo de regresi6n q ue prediga el salario en funei6n de las variables que se lecc ione. Ca1cule los eSladisricos F y t condicionudos del eoe lieienle de cada variable de predicci6n inc1 uid:l en el modelo. MuCSlre lotio 10 que hace y explfquelo minuciosamente. b) Conrraste la hipOtcs is de que las mujcres tienell un salario anual mt'is bajo condieionado :I I:ls variables de su modclo. La v:lriable «Gendec I F» toma el valor I en el caso de las mujeres y 0 en el de los hombres. c) Contrasle la hip6tesis de que la I:lsa de subida salafial de las mujeres ha sido mas baja condicionada a las variables del modelo desarrollado en el apanado (b). Capitulo 13. 13.9. Cotton M~todo Regresi6n multiple 553 de aplicacion del analisis de regresion multiple En este apanado presentamos un exten so caso pn"ict ico que indica como se rea lizarfa un estudio estadfstico. EI eSlud io detenido de este ejemp lo pucde ayudar a utili zar muchos de los melodbs prescntados en este capitulo y en los anteriores. EI objelivo de este estudio es desarrollar un Illodelo de regresion mult iple para predeci r las ventas de teji do de al godon. Los datos para el proyecto proceden del fichero de datos Cotton, que se encuentra en el disco de datos de estc libro. Las variables de l fich ero de datos son quarter year cotton q whoprice impfab ex prab Trimestre del ano ano de observacion canli dad de tejido de algod6n producida indice de precios al por mayor ean tidad de tej ido importado cantidad de teji do exportado Especificacion del modelo EI pri mer paso para desarroll ar el rnodelo es seleccionar Lln a tcoria cconomica adeeuada que sirva de base para el amll isis del modelo. Este proeeso de identi ficac ion de un eonjunto de variables de pred iccion probables y la rorma matematica del rnodelo se co noce call e l Ilombre de espec{{tcacion del mode/a. En este caso, la teorfa adecuada se basa en la de los modcl os economieos de demanda. La teorfa economica ind ica que cl precio debe producir un importante efecto: una sub ida del preeio reduce la can tidad demandada. Es probable que tam bien haya Qt.-as variables que infl uyan en la eantidad demandada de algodo n. Es de esperar quc la cantidad importada de tejido de algod6 n redllzca la demanda de tejido interi or y que la cant idad exportada de tejido de algodon aumente la demanda de tej ido in terior. En el lenguaje econ6m ico, las importaciones y las exportaciones de tejido desplazan la runcion de demanda. Basandonos en este antil isis, nuestra especiricacion inicial incluye el preeia con un eoefie ien te negalivo, el tej ido exportado con un cocficientc posi tivo yel tej ido im portado con un coet'iciente ncgativo. Se especifica ini cialmente que todos los coeficientes tienen efeetos li nea les. Por 10 tanto, e l modelo ticne la forma da nde XI es el prec io al par mayor, Xl es la cant idad de tej ido importado y x 3 es la cantidad de tejido ex portado. Tambien ex iste la posih il idad de que la cantidad demandada vade con el tiempo, y, por 10 tanto, el mode lo debe incl uir la posibi lidad de Ll na variable temporal para reducir la variabilidad no expl icada. Para este antilisis queremos uti lizar una variable que represente el tiempo. Como el tiempo es indicado por una combi naci6n de ano y trimestre, ut ilizamos la tran sformaci6n Time = Year + O.2S*Quarter para producir una nueva variabl e de l tiem po que sea eonlinuamenle creciente. EI paso siguiente en el amllisis es hacer una descri pci6n cstadfs tiea de las variables y de sus relaciones. Excl uimos el ano y el trimes tre de este anali sis porq ue han sido sustitu idos par el tiempo y Sll incl usion s610 introduci rfa confusion en el amilisis. Utili zamos cI 554 Esladislica para administraci6n y economia programa Min itab para oblener medidas do la tendeno ia central y de la dispersion y lalll. bien para oomprender al go la pauta de las observaciones. La Figll ra 13.23 contienc la sa li. da Min itab. E1 cxa men de la media, la desv iacion tfpica y el mlnimo y el maximo indi ca la region pOlencial de apl icaoion del modelo. EI modele de regresi6 n estimado siempre pasa por la medi a de las variables del modelo. Los valorcs predichos de la variable dependicnte, «cottonq», pueden utili zarse dentro del rango de las variables independientes. EI paso siguicnte es examinar las rclaciones simples existentes entre las variables utili zando tanto la matri z de correlaciones como la opcio n de los graJicos matriciales. Estes deben examinarse conj untamente para averiguar la fuerza de las relaciones lineales (corre. laciones) y para averiguar la rorma de las re laciones (gn'ifico matricial ). La Figura 13.24 con tiene la matriz de correlaciones de las variables del estudio elabo. rada utili zundo Minitab. EI p-valor mostrado con cada correlaci6n indi ca la probabilidad de que la hip6tesis de la correlaci6n 0 entre las dos variab les sea verdadera. Utili zando nuestra regia de seleccion basada en el conlraste de hip6tesis, podemos concl ui r que un p_ valor de menos de 0,05 es una prueba de la exislencia de una estrecha re laci6n lineal entre las dos variables. Examinando la primera colu mna, observamos que cxisten estrechas relndones lineales entre «cottonq}} y tanto «whoprice» como «time». L1 variable «expfab}} ti ene una posi ble relaci6n simple marginulmentc significativa. Una buena regia practica, mostrada en 01 apartado 12. 1, para examin ar los coeficientcs de correlac ion es que cl valor Figura 13.23. Esladislicos descriplivos de las variables del mercado del algod6n (salida Minitab). Results for : Cotton.MtW Descripti ve Statistics: cottonq, w hoprice, impfab, expfab, time Variable cottonq whoprice impfab expfab time Variable cottonq whoprice imp[ab expfab time Figu ra 13.24. Correlaciones de las variables del mercado del algodon (salida Minitab). N 28 28 28 28 28 N' 0 0 0 0 0 Mean 1779.8 1 06 .81 7 . 52 274 . 0 69 . 625 SR Mean 54 . 9 1.16 1. 38 20 . 3 0 . 389 StDev 290 . 5 6.11 7 . 33 107 . 7 2 . 056 Minimum 1277.0 98 . 00 1.30 80 . 0 66 . 250 Maximum 2287 .0 115.80 27.00 4 77.0 73.000 Correlations: cottonq, w hoprice, impfab, expfab, time whop rice cottonq whoprice -0 . 950 0 . 000 imp fab i mpfab 0.291 0.133 - 0 .4 39 0 .019 expfab 0.3 7 0 0 . 052 - 0 . 285 0 . 142 0.18 1 0 . 357 -0.950 0 . 000 0 . 992 0 . 000 -0 . 392 0 . 039 time Ce ll Con tents : Pearson correlat i on P-Value expfab - 0 . 238 0 . 222 Q1 1535.3 100.45 2.78 190.5 67.813 Median 1762 . 5 107 .4 0 4 . 85 277 . 1 69 . 625 Q3 2035.0 11 2.20 9 . 05 358.1 71.438 Capitulo 13. Regresion multiple 555 abso luto de la corre laci6n debe ser superior a 2 di vidido por la ralz cuadrada del tamano de la muestra, II. En esle problema, cI valor de sclecei6n es 21fo = 0.38. La segunda tarea es averiguar si cx isten estrechas relaciones simples entre los pares de variables de predicci6n posibles. Vemos una estreehfsima correlaci6n entre ~~ Iime» y «whopricc» y relaciones significati vas entre «impfab» y tanto «timc}) como «whopricc». Estas elevadas correlaci ones hacen que la varian za de los estimadores de los coeficientes tanto de «lime) como de «whoprice» sea alta si se incl uyen ambos como variables de pre· dicci6n. Tambi en podemos cxaminar [as relaciones entre las variables utili zando [os gr<'ificos matriciales mostrados en la Figura 13.25. Los diagramas de puntas dispersos individuales mueslran si mu ltancamente las relaciones entre d iFerentes variables. Constituyen, pues, un tipo de presentaei6n parecido a una matriz de correlae iones. La ventaja del diagrama de PUlltos dispersos radiea en que incluye todos los puntos de datos. Tambien se puede vel', pues, si cx iste una relaci6n no lineal simple entre las variables yJo si ex iste algun agrupa· miento ex lrano de obscrvaciones. Todas las variables, excepto «year» y «quartef», estan incluidas en el mismo orden que en In matriz de corre laciones , POI' 10 que hay una comparac i6n direcla entre la matriz de correlaciones y los gn'ificos matri cia1es. Observese la eorrespondencia entre las eorrelaciol1es y los diagramas de puntos d ispersos. Tanto «whoprice» como (<lime» tienen estrechas relaciones linea les con «cononq». Sin embargo, la estrecha relaei6n li neal positiva entre «whoprice» y «time» tendra una gran influencia en los coeficientes estimados, como se muestra en el apanado 13.2, y en los errorcs tfpicos de los coeficientes, como se muestra en el apartado 13.4. No ex iste ninguna estrecha relaci6n si mple entre las variables de predicci6n potenciales. Ni las importaciones ni las exportaciones estan correlacionadas con el precio a1 POI' mayor, con el tiempo 0 entre sf. cottonq Figura 13.25. Graticos matriciales de las variables del estlJdio (salida Minilab). 112 ".. .. ." ~ .... .~ : ....... whoprice ,, +-----,--'-~I-~~--~ • • 20 • • •• •• e· ... hlplab • • .. i"-.~.=:~..~~-'~!c-~',',-'r.'>c'~-~'~'~~= ~'~'~'~'+-..---------. • 10 e. e.. , • " -. _.. ....- .... .... . .,.... ... . .... ..... ... . _. • ... ... 100 • • 72 " ••• •• - • e -.. •• ._ • •• • I............. • ... -' ...."... •.. .'.. ~ ,,~.:. 1'.... .. • rxpfab .. ..... .. . . .... . .. . . . . .. ... ... · ~<---r--.--~'~'~'~~--~---.--~~'-"~-'~r---~-"'~~'~----i ISOO 1$00 2 100 96 1M 112 0 10 20 100 300 500 Regresion multiple El paso sigui ente consiste en esti mar el primer modelo de regresi6n multiple. La tcorfa econ6mi ca para cste amllisis sug iere que la cantidad produeida de lejido de algod6n debe estnr relacionada in versamcnte con el precio y con la canlidad importada de tejido y relacionada directamente can la cantidad exportada de tejido. Ademas, la eslrecha correlaci6n 556 Estadisiica para administraci6n y economia entre el tiempo y la producci6n de tej ido de algod6n indica que la producc i6n dis minuyt> lineal mente con e l paso del liempo, pero que el precio a[ por mayor lambien subi6 lin eal~ mente con el paso del tiempo. La estrec ha correlaci6 n positiva resultante entre cI ticmJXl y cl preci o a[ por mayor influye en ambos coefi cicnles en una ecuaci6n de regresi6n rn(ih i~ pi c. Seleccionamos «cQ((Qnq» como variab le depend iente y «wllOprice}}, «impfab », «ex p ~ rab» y «ti me», por ese orden, como variables independientes . E[ primer amili sis de rcgre~ si6n multiple sc muestra en In Fi gura 13.26. EI aTUl li sis de los cstad fsticos de la regrcsi6n ind ica que e[ valor de R2 es alto y el error tfpico de [a estimaci6 n (5) es igual a 78,91 , en eomparaci6 n con la desv iaci6n tipica de 290,5 (Fi gura 13.23) de «cottonq », cuando se considera de forma ais lada. Las variables «irnpbaf;} y «expfnb» son ambas significativas y licncn s ignos que corres ponden a In teoria econ6 mica. Los pequeiios estadfsticos I de St udent de «whoprice)} y «time» indi can que, en realidad , existe un grave problema. A mbas variables no pueden incJ uirse co mo predictorcs porque representan el mismo efecto. Las reglas para eli minar variables se basan en una combinaci6n tanto de las teorras INTlRPRETACION subyacentes al modelo como de indicadores estadfsticos. La regia estadfsti ca serfa elim inar 13 variable que tiene el menor t de St udent absoluto, es deci r, «tim e». La teorra economi ca defenderfa la in clusi6n de una variable del precio en un modelo para predecir la cantidad producida 0 la cantidad demandada. Vemos que en este caso ambas reg las !levan a la mi srna conclusi6 n. No siempre oellrre asf, por 10 que cs muy importante va [orar bien los reS ll l~ tados y tener daros los objetivos del modelo. Figura 13.26. Modelo inicial de regresion multiple (salida Minitab) . Regressio n Analvsis: cottonq versus whopric e, impfab, expfab, time The regression equation is cottonq =8876 - 24.3 whoprice - 5 . 57 impfab + 0 . 376 expfab - 65 . 5 time Predictor Constant whoprice impfab expfab time Coef 8876 -24 . 31 -5 . 565 0.3758 -65 . 51 S = 78.9141 SE Coef 2295 24 . 45 2.527 0.1595 70.24 R- Sq = 93.7\ • T 3.87 - 0.99 - 2 .20 2.36 -0.99 0.001 0.331 0.03 8 0.027 0.361 R-Sq (adjJ ~ 92.6\ Analysis of Variance Source DF Regression 4 Residual Error 23 Tota l 27 ource whoprice impfab expfab time DF 1 1 1 1 SS 2134572 143231 2277803 MS 533643 6227 F 85 . 69 P 0.001 Nota Esta tabla indica la variabilidad explicada co ndicionada de cada variable, dado el orden de entrada utilizado para esle analisis de regresion . Seq S5 2055110 44905 29141 5417 Unusual Observations Obs Whoprice 18 110 Cottonq Fit 1810.0 1663.3 5E Fit 29.6 Residual 146.7 se Resid 2.DOR R denotes an observation with a large standardized residual . Capitulo 13. Regresion multiple 557 Es impo rtante fonnular claramente las razones por las que se seleccionan las vari ables antes de examinar los resultados. En los modelos eeon6micos de demanda 0 de oferta como el que examinamos aquf, desearfamos fervie nlemente seguir la teorla eeon6mica e in clui r cI preeio, a menos que los resultados estad fsticos fueran mlly contrarios a esa decisi6n previa. POI' ejemplo , si eI va lor absoluto de l eSladfslico 1 de Student del liempo ruera superior a 2,5 0 3 y el valor absoluto del estadfstico f de Student del prccio al pa r mayor fuera inferior a I, habrfa prucbas contundentes en contra de la teorla de que el prec io es una importante variab le. Basandose en este anali sis, se estima un segundo moclelo de regresi6n , mostrado en la Figura 13.27, en eI que se excluye el liempo como variable de prediceion. Ahara vemos que la variable «whopricc» cs muy significaliva y que los estadfsti cos s y R2 son esencial mente iguales que los del primer Hllalisi s de regresi6n (Figura 13.26). Observese tambiell que 1a su ma de los cuadrados de la regres i6n explicada (SCR) y 1a suma de los cuadrados de los errores residua les (SCE) son esencialmen te iguales. La dcsviac i6n tfpica del coefi ciente de ({whoprice» ha disminu ido de 24,45 a 2,835 y, como consecuencia, la t de Student es con siderab lemen re mayor. Como hemos vista en el apartaelo 13.4, euando exislen eorrelaciones estrechas entre variables independientes , las varianzas de los estimadores de los coeficientes son mucho mayores. Vemos aquf ese efecto. Observesc tambien que en este modelo de regresi6n, la estimaci6 n del coeficien te del precio al por mayor cambia de - 24,31 a - 46,956. En cI apartado 13.2 hemos visto que las correlaciones entre variables de pred icci6n producen un comp lejo cfccto en las estirnaciones de los coe fi cientes, par 10 Figura 13.27. Mode lo final del an<llisis de regresi6n (salida Minitab). Regres~ion Analy~i~: cottonq ver~u~ whoprice, impfab. expfab. time The regression equation is Predictor Coef Constan t 6757 . 0 whoprice -16 . 956 impfab -6 . 5 1 7 expfab 0 . 3190 5 . SE Coef 322 . 2 P 0 . 000 0 . 000 0 . 009 2.835 -16 . 56 2 . 306 -2 . 83 0 . 1471 2 . 17 R-Sq 78 . 6998 T 20 . 97 0.040 R-Sq(adj) 93 . 5% • 92 . 7% Analysis of Variance Source Regression Residual Error Total Source wh oprice impfab expfab OF 3 24 27 55 MS F P 2129156 148648 2277803 709719 6194 111 . 59 0 . 000 OF Seq 55 1 1 1 2055110 44905 29141 Nota Estas sucesivas sumas de los ,14-------1 cuadrados explicadas condicionadas son iguales que las de la regresi6n de la Figura 13.26. que incluian el tiempo como variable de prediccion. Unusual Observations Obs 18 Whoprice Cottonq Fit SE Fit Residual St. Res i d 110 1810 . 0 1642 . 0 18.7 168 . 0 2 . 20R R denotes an observat ion wi th a large standardized residual. 558 Esladislica para administraci6n yeconomfa que no siempre ex iSle una direrenc ia tan grande. Sin embargo, Ins correlnciones enlre variables independientes sicmpre aumentnn el e rror tfpico de los coeficicnte5. Los errores Ifpicos de los Olros dos coeficientes no han cmnbiado significati va rnente, debido a que las correlac iones con el tiempo no eran gra ndcs. EI programa Minitab tambi en conti ene una lista de observaciones con residuos extremos. Vemos en la observaci6n 18 que eI valor observado de ( cottonq» es muy superior al valor que predice la ecuacion. En estc caso, podrfamos decidir volver a los datos origi nales y tratar de averi guar 5i hay un error en los dalos del fi chero. Esa in vestigacion tam bie n podrfa ayudar a cornprender el proceso estudiado utilizando la regres i6n multip le. Efecto de la eliminacion de una variable estadisticamente significativa ~ INTERPRETACION En este apartado examinamos el decLo de la eliminaci6n de una vari able significativa del modelo de regresi6n. En la Figura 13.27 hemos visto que «cx pfnb» es una predictor estadfsticamente signifi cati vo de la canlidnd producida de algod6n. Si ll embargo, el ami.li sis de regresi6n de la Fi gura 13.28 ha eli minado «cxpfab» del modelo de regresi6n de la Figura 13.27. Observese que, como consccuencia de la eliminac i6n de «cx pfab» , eI error tfpico de In estimaci6n ha aumcntado de 78,70 a 84,33 y R2 ha disminuido del 93,5 al 92,2 por cie nto. Estos res ultados indican que el termino de error del modelo ahora es mayor y, por 10 tanto, ha empeorado la calidad del mOOelo. EI cstadfstico F cond icionado de (ex prah» puede calcularse uli li z..1ndo las tablas del anal isis de la varianza de los modelos de las Figuras 13.27 y 13.28. En la sigui ente eeuaci6n , defi nimos la regresi6n lineal a partir de la Figura 13.27 como modelo 1 y la regresi6n de la Fi gura 13.28, eliminado «exprab», como modelo 2. Ut il izando estas convenc iones, cI estad fsti co F cond icionada de la variable «expfab}), X3 , en la hip6les is nula de que su coeficiente es 0, puede calcularse de la forma siguientc: I' = SCR, - SCR, s; .1) Figura 13.28. Ana!isis de regresi6n con la eliminaciOn de! tejido exportado (salida Minitab). = (2. 129. 156 - 2. 100.0 15) = 4705 6.194 ' Regress ion Analysis: cottonq versus whoprice, impfab, expfab, time 'I'he regression equation is cottonq = 5995 - 48.4 whoprice Predictor Coef Constant 6994 . 8 whoprice - 48.388 impfab -6.195 S = 84.3299 6 . 20 impfab SE Coef T 324 . 6 21 55 2 . 955 -16.38 2 .4 65 -2.51 R-Sq = 92 . 2\ p 0 . 000 0.000 0.0 19 R- Sq(adjJ = 91.6\ An"lysis of Variance Source Regress ion Residual Error Total , OF 25 27 MS SS 2100015 1050007 177788 7112 2277803 F 147 65 P 0.000 Capitulo 13. Regresi6n multiple Tambi en podcmos calcular cl cSlad fsti co I de Student cond icionado de la variable mando la ralz cuadrada de la F~-.1 condic ionada: IX) = J4,705 559 x ] 10- 2, 169 = y, natural mente, vemos que es igual que el estadfstico ( de Student de la vari able «expfab» F cond icionado de una unica variable independiente siempre es exaetamente igual que el F eondieionado, ya que una F con I grado de libertad en el numerador es exactamente igual a ,2. (x3) de la Figura 13.27. EI contrasle Analisis de los residuos Despues de aj ustar el modelo de regresi6n, cs util examinar los residuos para avcriguar e6. mo se aj usta real mente el modelo a los datos y los supuestos de la regresi6n. En ·el apanado 12.7, examinamos el analisis de los casas atfpicos y los puntas extremos en la regres ion simple. Esas ideas tambien se aplican direclame nle a la regres ion mult iple y deben formar parte del anal isis de los residuos . Recuerdese que los res iduos se calculan de la forma sigui ente: ei = Yi - Yi Con el programa Minitab 0 con eualquier olro buen paquetc estadfstico se puede calcular una variable que contenga los residuos de un anal isis de regres i6n. Se ha hecho para el modelo final de regresi6n de la F,igura 13.27. EI primer paso eonsiste en exam inar la paUla de los residuos eonstruyendo un hi stograma, como el de 1a Figura 13.29. Vemos que la di stribuei6n de los rcsiduos es aprox im adamente simctrica. La di stribuei6n tambicn parcee alga uniforme. Observese que se debe en parte al pequeno tamano de la muestra utilizada para construir eI histograrria. Histogram of RESI1 Figura 13.29. Histograma de los residuos del modelo final de reg resi6n . Normal 9 8 7 ~ 5 .,. ~ ~ 4 3 2 1 o ~ I t;' 6 V -150 \ V -1 00 \ -50 o RESI1 ~ 'i-50 100 150 560 Esladfslica para adminislraci6n y economfa " Figura 13.30. Gr.1fico de probabilidad normal de los residuos del modelo. • 95 • 90 /" • BO ~ C ••u • "- lO GO so .,' <0 " •• 20 • '" ••• • • • 5 • 1 -200 a -100 100 200 Residual La realizaci6n de un gnlfico de probabjlidad normal , como el de la Figura 13.30, es util para averiguar la paula de los residuos. EI gn'ifico indica la existencia de una relaci6n lineal aproximada y, par 10 tan to, no es posib le rechazar cl supuesto de que los residuos sigucn una di stribuci6n normal. Tambien es bueno representar los residuos en relaci6n co"n cada una de Jas variables independiemes incluidas en eJ anaiisis. Eso permite comprobar que 110 hab ra ullas cuan tos puntos de datos excepc ionalcs 0 una campJeja re laci6 n no lineal condicionada de una de las variab les independientes. Si el model o se ha ·especificado y se ha estimado correclamente, espe ramos que no exisla ninguna pauta de relaci6n entre las variables indepen dienles y los residuos. La Figura 13.31 muestra cI grMico de los residuos en relaci 6n can la variable del prccio al por mayor. No observamos ninguna paura excepcional en estc gn'ifico, salvo el elevado caso atfp ico posi tivo cu:ando el precio al por mayor es aproximadamente 110. En la Figura 13.32 moslramos el grMico de los residuos en relaci6n con el teji do im portado. Una vez mas, no vemos ninguna paUla excepcional de los residuos, pero sf observamos que la mayorfa de las importaciones estan concentradas entre 0 y 10. Par 10 tan to, 200 Figura 13.31. Diagrama de puntos dispersos de los residuos en relaci6n con el precio.at por mayor. • ISO 100 ~ ~ ~ # • SO w " • • •• • • • a -50 • • • • • 100 104 • • • • • • -100 • • • • • • 108 whoprice 112 116 Capitulo 13. Regresi6n multiple 561 200 Figura 13.32. Diagrama de puntas dispersos de los residuos en relacion can el tejido importado. • 150 • 100 -" ~ 50 • w ~ a -50 • • • • .'• • • • • • • • •" • -100 • •• • • • 0 5 10 30 2S 20 15 impfab los valores mas altos del tej ido importado podrfan producir un gran efecto en el coeficiente de la pendi enle de la recta de regresi6n. Por ul timo, en la Figura 13.33 vemos un gnirico de los residuos en relaci6n con cl tcj ido expollado. De nuevo, la pau la de los residuos no sugiere L1n a alternativa a Ja relaci6n lineal. EI ana lisis final de los residuos exa min<l la relaci6n entre los res iduos y la variab le de· pend ientc. Consideramos un grafico de los residuos en relaci6n con el valor observado de la variable dependienle en 'Ia Figura 13.34 y en re laci6n con el valor predicho de la varia· ble depcndiente en la 13.35. Podemos vcr en In 13.34 que existe una relaci6 n positiva entre los residuos y el valor observado de «collonq». Hay mas residllos negativos en los valores bajos de «collonq» y mas res iduos positivos e n los val ores altos de «cottonq ». Es posible demostrar m<ltemati ca mente que siempre ex iste una corrclaci6n positiva entre los residuos y los valores observados de la variable dependienle. Por 10 tanIO, un grMico de los residuos en relac i6n con e l va lor observado 110 suministra ninguna infonnaci6n {Itil. Sin embargo, siempre se deben representar los resi duos en re laci6 n con los va lorcs predichos 0 ajustados de la variable depend iente. De esa forma se averigua si los CITores de l modelo son eslables en el rango de los val ores predichos. En estc ejemplo, observese que no existe ninguna relaci6n entre los res iduos y los valol"es predichos. POI' 10 tanto, los crrores del modclo son cstables en el rango. Figura 13.33. Diagrama de puntas dispersos de los residuos en relaci6n can el tejldo exportado. 200 • 150 100 " ~ so w ~ • , • • • .' • -so • • -100 100 • • 200 • • • a • • • • • • • • • • • 300 expfab 400 SOO 562 Estadislica para administraci6n y economfa Figura 13.34. Diagrama de puntos dispersos de los residuos en relacion con el valor observado del algod6n. 200 ,------------------------------------------, • 150 100 • .. • • • • 50 • • • • • 0t-----------------------------------••----------1 • • -50 • • • • -100 • 1200 • • 1600 1400 • • • • 2000 1800 • 2200 2400 cottonq Figura 13.35. Diagrama de puntas dispersos de los residuos en relaci6n can el valor predicho del algodon. 200 ,-------------------------------------------, • 150 100 50 • . • • • • • • • • 0t---------------------------------------••------~ • • • • • • -50 • • • • • • -100 • • • 1400 1600 1800 Fitted Va lue 2000 2200 En el Capftulo 14 ulili zaremos el analisis de los res iduos para identificar dos situaciones del modelo de regresi6n, la heterocedasticidad y la aUlocorrelaci6n, que violan el supuesto del ana li sis de regresi6n de que la vari anza de los errores es la mi sma en el rango del modelo. EJERCICIOS Ejercicios basicos 13.78. Suponga que se incluyen dos variables independi entes como variables de predicci6n en un amilisis de rcgrcsi6n multiple. l,C6mo cabe esperar que afecle a los cocficienles de la pendiente estimados cuando estas dos variables lienen una cOiTeluci6n igual a a) Q,78? b) 0,08? c) Q,94? d) D,33? 13.79. Considere un umilisis de regresi6n con II = 34 Y cualro variables independientes posibles. Suponga que una de las variables independientes liene una correlaci6n de 0,23 con la variable depcndicllIc. i,Impli ca eso qlle esta variable independi enle tendr:\ un estadfst icQ I de Student muy pequeno en el amilisis de regresi6n con las cuatro variables de predicti6n? 13.80. Considere un anal isis de regresi6n con II = 47 Y Ires variables independicnles posibles. Suponga que una de las variables independientes tiene Capitulo 13. una correlaci6n de 0,95 con la variable dcpendienle. i,lmpliea eso que esta variable indepen diente tcndra un esladlslico f de Student muy grande en el amilisis de regresi6n con las tres variables de predicci6n? 13.81. Considere ll11 anal isis de regresion can 1/ = 49 y dos variables indepcndientcs posibles. Suponga que una de las variables independientes liene una correlaci6n de 0,56 con la variable dependiente. i,lmplica eso que eSla variable independienle lendni un estadfsli co t de Studenl muy pequeno en el amllisis de regresi6n con las dos variables de predicci6n? Regresion multiple 13.83. Sc pidi6 a una mueSlra alealoria de 93 estudiantes universitarios de primer ario de la Universidad de Illinois que valoraran en una escala de r (baja) a 10 (alta) su opini6n general sobre la vi~ da en la residencia universitaria. Tambien se les pidi6 que valoraran su nivel de satisfaccion con los compaficros, con la planta, con la residencia y con el director de la residencia (se ObluvO informacion sobre la satisfacci6n con la habitacion. pero 6sta sc dcscano mas tarde, porque no sumi nistrnba mas informaci6n para explicar la opinion general). Se estim6 cl siguiente modelo: y = Po + PIX! + P~2 + pyX] + PttX4 + G donde Ejercicios aplicados Y = opini6n general sobre la residencia = satisfacci6n con los compafieros -1,3.82. Para averiguar c6mo influye en un eSlado el po- Xl del' econ6mico de una compafifa de seguras de accidentes en su poder polflico, se desarro1l6 cl siguiente modelo y sc ajust6 a los datos de los 50 estados de ESlados Unidos. X2 = satis l~'lcci6n x3 = satisfaccion con la residencia X4 = dos de este estudio. Y = cociente entre el pago de los impuesLos = x2 = x] = x4 = x., = AquI se muestra parte de ]a salida informatica de la regresi6n eSlimada. Realiee un infon.n c que resuma los resultados de cste cstudio. «-SQUARE = 0.5L5 Parameter Intercept Xl X3 X4 X5 Student's t for HO: Std. Error Estimate Parameter '= 0 of Estimate 10.60 -0.90 - 13.85 0.080 O.tOO 2.41 -0.69 -2.83 0.50 5.00 4.40 1.3 1 4.1 8 0.160 0.020 sat isfaccion con cl director de la residen- Utilice la parte de la salida informatica de la regrcsion es(imada que se muestra a continuaci6n para realiwr un informe que resuma los resulta- donde estatales y locales de la empresa, en miles de d6lares, y los ingresos fiscales eSlalales y locales totales en millones de d61ares coeficicnte de concentraci6n estatal de las companlas de seguras (que mide la concenrracion de los recursos bancarios) renla per capita del eSlado en miles de d6lares cociente entre la renla no agricola y la suma de la renta agrfcola y no agrfcola cociente entre la reola neta despues de impuestos de la compafiia de seguras y las reservas de segura (multiplicado POl' 1.000) media de las reservas de seguro (dividida PO' lO'(JOO) con la plama om y= Po + P!Xl + fJ~ + pyX] + P.p4 + P.,xs + f'. XI 563 DEPENDENT VARIABLE, Y OVl':RALL OPINION SOURCE DF MODEL ERROR TOTAL 88 4 92 SUN OF SQUARES 37 . 016 81 . 780 118 . 79 ~~ SOUAAE FVALUE R~SOUAAE 9.2540 0 . 9293 9 958 0 . 312 PARAMETER ESTIMATE STUDENT'S t FOR HO: PARAMETER = 0 INTERCEP'l' 3 . 950 0.106 0 122 0 . 092 0 . 1 69 5 . 84 1. 69 1. 70 1.75 2.64 Xl x2 x3 X4 STD. ERROR OF ESTIMATE 0 . 676 0 .063 o. 072 0 053 0 064 "'------=-"-------'-------'--13.84. En un estudio, se ajusl6 el siguiente modele a 47 obscrvaciones mensuales e n un intento de ex plicar la diferencia entre los tipos de los certificados de dep6sito y los tipos del papel comercial: y = Po + PIX! + P1h + e donde y ~ tipo de los cenificados de dep6sito mcnos tipo del papc1 comcrcial XI = tiro del papel comercial X2 = cociente e ntre los prestamos y las invcrsiones y·el capital 564 Esladfslica para administracion y economfa Utilicc la IXlrtc de la sa lida informatica de la rc~ gresi6n estimada que se muestra a continuaci 6n para escribir un informe que resuma los resultados de este estudiu. R-SQUARE - 0 .7 30 STUDENT'S t; FOR HO: PARAMETER '" 0 STD. ERROR OF ESTIMATE 0 . 1 86 - 4 . 14 5 . 64 0 . 45 0 2 . 08 1. 343 0 . 0 33 0 . 216 PARAMETER ESTIMATE INTERCE PT - 5.55 9 Xl X2 13.85. (i., Se Ie ha pcdido quc dcsarrolle un modelu de regresi6n multiple para predeci r el numero anual de muertes en carrctcra en Estados Unidos en funci6n del rotal de millas recorridas y de la velocidad media. EI fichcro de datos Trame Death Rate contiene 10 anos de datos anuales sabre las tasas de mortalidad pur 100 millones de millas-vchfculo (y), la distancia total reconida en miles de millones de millas-vehfculo (xd Y la velocidad media en millas por hora de todos los vehfculos (x2)' Ca1cu1c la regresi6n mu ltiple de y con respeclo a XI Y X1 Y rea lice un informe que anal ice sus resultados. 13.86. El fichero de datos Household Income cuntiene datos de los 50 est ados de Estados Vll idos. Las variables incluidas en el fichero son el porcentaje de mujeres que partieipan en la poblaci6n nctiva (y) , la mediana de la renin personal de los hugares (Xl), el nt' mero med io de anos de (i <t estudios de las mujeres (x2) Y la lasa de dese m_ pleo de las mujercs (x)). Calcu[e la regresi6n multiple de y con respeeto a X I ' X l YX ) Y realiee Ull in forme sobre sus resultados. 13.87. ( ) Le han pedido que desarrolle un modelo de regresi6n multipl~ que prediga la ofen a monetaria real de Alemania en funci6n de la rcnta y del tipo de interes. El fichero de datos Real Money eontiene 12 observaeiones anllales sobre cl dinero real pe r capita (y). la renta real per capita (X I) Y los lipos de interes (x2) de Alemania. Utilkc estos datos para desarrollar un modclo que prediga el dinero real per c:"ipita en funei6n de la renla per capita Y del tipo de interes y realice un informc sobre sus resultados. 13.88. ~ oj L"1s Naeiones Unidas Ie han conlralado como consultor para ayudar a identiticar Ius faetores que predigan el crecirniento dc [n industria manufacturera de los pafses en vias de desarrollo. Ha decidido utilizar una regresi6n multiple para desarrollar un modelo e identificar las variables importames que prediccn c[ credmiento. Ha rccugido los datos de 48 pafse~ en el Fichera de datos Developing Country. Las variables inclllidas son cl crecimiento porcentual de la in dustria manufactllrera (y), cl crccimiento agrfcola porcentual (XI ) ' el crecimicnto porcentual de las exportacioncs (x2) Y la tasa porcentual de intlaei6n (x)) de 48 pafses en vfas de desarrollo. Desarrolle un modelo de regresi6n multiple y escriba un informe sobre sus resultados . . RESUMEN En este capftulo hemos sentado las bases necesarias para cornprender Y ap[icar los metodos de regresi6n multiple. Hemos cumenzado analizando delalladamente Ius supuestos del modelo y las consecuencias de esos supuestos. A partir de ahf, hemos presenlado el metodo de mfn imos cuadrados y los metodos para obtener estimaciones de los coeficientes. Con esas bases, hemos desarrollado metodos para averiguar e6mu se ajusta el tlludelo de regresi6n a los datos observados, 10 ellal nos ha llevado a desarrollar los melodos clasicos de inferencia para contraSfar hip6tesis sobre Ius eoeticientes Y para eonstruir intervalos de confianza. Eso nos ha llevado a presentar metodos para realizar predieciones de la variable (\t;pendiente a partir del modelo e inferencias sobre los valores predichos. Con estas bases y comprendiendo el modele basico, hemos pllsadu a examinar algunas tecnieas impOrlanles. Hemos presentado mcrodos para transformar model os cuadn:lticos en funciones lineales. Tambien hemos desarrollado trans formaciones para modelos lineales logarftmicos. Por ultimo, hemos come{lzado a presentar metodos para utilizar varinb[es f"ieticias para represenlar variables de predicci6n categ6rieas. El capItulo termina can Ull extenso modelo de aplicaci6n que muestra c6mo rcalizarfa un analista todo el proceso de desarrollo del modelo de regresi6n. Este proceso eomienza can sencillos estadfsticos descriptivos, teenicas grufieas Y la aplicaci6n de metodos de rcgresi6n Y termina con un analisis de los residuos para cxaminar [a compatibilidad del modelo con los datos y los supuestos del modelo. Capitulo 13. Regresi6n multiple 565 TERM IN OS CLAVE anal isis de regresi6n utilizando variables fictic ias, 547 base para ]a infel'enci[l sobre la regresi6n pob[acional. 513 cocfi cientc de cOl"l'clacic'in Illultiple, 509 coefici ente de determinaci6n ajustado, 509 conlraste de un subconjunto de los par:illletros de regresic'in, 529 contraste de todos los parametros de un modele de regresi6n, 527 contrastes de hip6tesis de los coeficientes de regresi6n, 515 descomposici6n de la suma de los cuadrados y coeficiente de detcrrninaci6n, 505 error tfpico de la estimaci6n. 506 est imaci6n JXlr millimos cuadrados y regrcsi6n muestral multip[e, 498 estimaci6n de [a varianz[l de los errores, 506 intervalos de confianza de los coeficicntes de regres i6n, 5 [3 mode[o de regresi6n poblacional multiple, 494 objctivos de la regresi6n, 49 [ prcdicci6n a part ir de modclos de rcgresi6n multiple, 533 rcgrcsi6n utilizando vari:,b[es ficticias para contraSlar las diferencias emre pendientes, 548 supuCSIOS habituales de [a regresi6n mUltiple, 497 transformaciones de modelos cuadnllicos, 537 trans formac iones de mode[os exponenciales, 540 EJERCICIOS V APLICACIONES DEL CAPiTULO 13.89. EI mctodo de mlnimos cuadrados se utili za mu~ cho mas a menudo que cllalquier Olro para esti~ mar los parfimelros de un modelo de regresi6n multiple. Explique la bast! de este metoda de estimrtei6n y explique por que se utili za tanto. 13.90. Es habitual caleular una labia de l amilisis de la varianza junto con una regresi6n multipl e est imada. Exptique detenidamente que informacion puede extraerse de esa tabla. 13.91. lndique si eada una de las afirmaeiones siguienles es verdadera 0 fa[ sa. 13.93, Se haee una regresi6n de una variable depend iente can respecto a dos variables indcpcnd ie ntes. Es posib[e que no puedan rechazarse las hip6tesis Ho: [31 = 0 Y Ho: [32 = 0 a nive!es bajos de significac i6n y, sin embargo, pucda rcchazarse [a hipotesis No: PI = fl2 = 0 a un Il ivel muy bajo de significacion. i,En quc c ircunstan e ias podrfa darse este resultado? 13.94. [Para Iweer eSle ejereicio es necesario lIaber fefdo el apindice del capillllol Suponga que se esti ma el modelo de rcgrcs i6n por mfnimos (;uadrados: a) La suma de los cuadrados de los crrorcs de- YI be ser menor que la suma de tos cuadrados de 1.1 reg resi6n . b) En lugar de realizar una regresi6n multiple, podemos obtener la mi sma informacion a partir de regresiones lineales simples de la variable dependiente con respccto a cada variable independiente. c) EI coetieiente de determinaci6n no pucdc ser negativo. d) EI coeficiente de determi naci6 n ajustado no puede seT negativo. c) El coeficie n ~e de correlaci6n multip[e es la raiz euadrada del eoeficiente de determinac ion. 13.92. Si se aiiadc una variable independiente mas, por irrelevante que sea, a un modelo de regresi6n multiple, la suma de [os cuadrados de [os errores es menor. Expl ique por que y anatice las consecuencias para 1.1 intcrpretaci6n del coeficiente de d eterminaci6n. = Po + PIX I; + {J~2; + C; Dcmucstre que [os residuos, e;, del modele ~ustado suman O. 13.95. Se realizo un cscudio para evaluar [a influencia de algunos faetores en [a ereaci6n de nuevas empresas e n [a industria de chips de computa.dor. Se estim6 el siguiente modelo para ull a mucstra de 70 paises : y= - 59,31 + 4,983x, + 2,1 98x 2 + 3,8 [6x3 ( 1.156) - O,886x5 (3,055) (0.210) + 3,2 l5x6 + O,085X7 (1.568) (2.063) - 0 ,3 [OX4 (0,]]0) R2 = 0,766 (0.354) dande y = Xl = X2 = x) = X4 = c rcaeio n de nuevas empresas en la industria poblacion e n millones tamafio de 1.1 industria medida de la calidad de vida econ6mica medida de 1.1 calidad de vida polftica 566 Estadfstica para administraci6n y economfa medida dc la calidad dc vida medioambiental = Illcd ida de In calidad de vida san itaria y cd ucmiva = medida de la calidad de vida social Xs = x6 X1 a) Interprelc los cocfic ientes de regresi6n cstimados. b) Intcrpretc el coeficientc de determ inacion. c) Contrasle al nivcl de signifi caci6n del I par cienlo lu hip6lcsis nula de que las dos variables indepcndic111es, consideradas en conjun. to, no innuyen lineal mente en la tasa de rcspuestu. d) Halle e intcrpretc cl intervalo de confianza al 99 pOl' ciento de (ll ' e) Contrnste In hip6tcsis nula Los nUlllcros entre pare ntcsis s ituados debajo de los coeficientes son los errores tfpicos de los coeticicntcs estimados. a) Interprete los cocfi cien tes de regresi6n esti- mados. Interprele el coe fi cien tc de delenninaci6n . Halle cl intervalo de con fi anza al 90 pur dcnto del aumento de la e reaci6n de empre· sas provocudo por un aumenlO de la calidad de vida ccon6mica de I unidad, manteniendose toelas las dcmas variables constanles. COlllrasle al nivel del 5 par cie nto la hip6tesis nula de que, manteniendose todo 10 demas eonslantc, la caUdad de vida medioambienlal no innuye en la creac i6n dc cmpresas fren te a la hi p6tesis altcmati va bilateral. Contraste al ni vel del 5 par dento 1a hip6tesis nulu de que. munleniendose todo 10 de· mas conSlanle, la ca lidad de vida sanitaria y educuti va no innuye en la crcaci6n de empresas frentc a la hip6tesis alternali va bilateral. Contrasle In hip61csis nula de que eSlas siCle 'llilriables indepcndientes, considcradas en conjunto, no inn uyen en la creaci6n de empresns. b) c) d) e) f) frente a la hip6tesis alternativa H I :(l2<O e interprete sus resu ltados. 13.97. Una consultora ofrece cursos de gesti6n fin anciera para ejecutivos. AI final de estos cursos. se pide a los participanles que hagan una valo· racion global del valor de l curso. Para ver c6mo innuycn algunos factores en las valoraciones, se ajust6 el modelo Y= Po + /JJxJ + {J~2 + P}-l:J + C para 25 cursos, donde Y = va loraci6n media realizada por los participantes en el curso XI X2 13.96. Una Cmprcsa de sondcos realiza habituahnente estudi o~ sobre los ~ogaJ'es pOl' medio de cuesli onartos por correo y liene intcrcs en com>ccr los factores que innuycn en la tasa de respuesta. En un expcrimento, se cnviaron 30 jucgos de cueslionarios a posibles encuestados. EI modelo de rcgrcsi6n ajustado al conjunto de datos resultanles era x) = po rccnluje del cursa dedicado a reulizar sesiones de di scusi6n en grupo = ell nlidnd de dinero (en d6lares) por asis- tetHe al curso ded icndo a la pre paraci6n del material del curso = cuntidad de dinero por asistente al cursa dcdicado a la provisi6n de material no reIndonado con el cursu (comida, bcbidas, etc.) A conlinuaci6n SC' mueslra una pane de la salida del progruma SAS dc la regresi6n ajustada. R- SQUARE - 0.5 7 9 donde Xl X2 = numero de preguntas realizadas = longitud dcl cuestionario en numero de paINTERCEPT labras A continuuci6 n se muestra una parte de la salida del programa SAS de la regresi6n cstimada. ESTIMATE ERROR OF ESTiMATE 42.9712 0 . 381 7 0.5 112 0 . 0 15 ) 1. 69 2.64 1 . 09 0 . 2018 0 1957 0 0693 Xl X2 ESTiMATE 7 L 3652 - 1 . 6345 - 0.0162 X) a) Interprete los coeficicntes de regresi6n esti- R-SQUARE - 0.637 PARAMETER INTERCEPT Xl X2 s=. S'l'UDEN'l" S t FOR HOI PARAM!:'l'!:R - 0 Y = porcenlaje de respuestas rccibidas STUDENT'S t FOR HO: PARAMETER - 0 STD. ERROR OF ESTIMATE - 2.89 -1 . 78 0 . 6349 0 .0091 mados. b) Interprete el coefi ciente de delerm inaci6n. c) Contraste al nivel de signifi caci6n del 5 par dento la hip6tcsis nula de que las Ires variables indepcndicntes, considcradas en conj un- Capitulo 13 10, no infillyell linealmenle en la valoraci6n de! clIrso. d) Halle e inlerprele el inlervalo de confianza al 90 por cienlo de !JI' c) COlltraste la hip6tesis nula frente a la hip6tesis alternativa H I :P2> O e interprete su resullado. f) Contraste al nivel del 10 por dento la hip6- tesis nllia Ho:fh=O frente a la hip6tesis alternaliva Regresi6n multiple 567 -'"5 = tasa de accioncs disciplinarias .\"(, = lasa de absent ismo de los trabajadores par hora x7 = attitudes de los trabajadores asalariados, desde baja (in satisfechos) hasta alta, medidas par media de un cuestionnrio. x8 = porcenlaje de (rabajadorcs par hom que haeen al menos una sugereneia en un ana al programa de sugerencias de la planta. Tambien se obtuvo por mfllimos cuadrados un modelo ajustado a partir de estos datos: y= 9 ,062 - 10,944xl + 0,320-"'2 +0,01 9X3 R2= 0,242 Las variables X4' -"'5' X6' X7 YX8 son medidas de los resultados de un sistema de relacioncs laborales de la planta. Contraste al nivcl del I por eiento la hip6tesis nula de que no contribuyen a explicar la eficiencia dirccta del trabajo, dado que tambien se utili zan XI ' x2 Y x3- e interprete su resu ltado. 13.98. , . Al final de las dases, los profesores sao evaluados por sus estudiantes en una escala de I (malo) a 5 (excelellte). Tambiell se les pregunta a los esludiantes que ealifieaci6n csperan oblener y eSlas se codifiean de la forma siguiente: A = 4, B = 3, etc. EI fichero de datos Teacher Rating coilliene las evaluaciones de los profesores, las calificaciones medias esperadas y el numero de estudiantes de las clases de una muestra aleatoria de 20 clases. Calcule la rcgresi6n multiple de la evaluaci6n con respecto a la califieaci6n esperada y eJllumero de estudiantes y realice un informe sobre sus resultados. 13.99. Sistemas Informiiticos Voiadores, S.A., quiere saber c6mo afectan algullas variables a la eficiencia del Irabajo. Basandose en una muestra de 64 observaci ones, cstim6 ci siguicnlc mode10 por mfnimos cuadrados: y= - 16,528 + 28.729xl + 0,022X2 - 0,023x) - 0,054x4 - 0,077X5 +0,411-"'6 + 0,349x7 + 0,028x 8 R2=0,467 donde y = fndiee de efieiencia directa del trabajo en la planta de produeci6n X l = eociente entre las homs extmordinarias y las horas ordinarias realizadas por todos los obreros -"'2 = numero medio de trabajadores por hora en la planta x ) = porcemaje dc asalariados que palticipan en algun programa de calidad de vida laboral X4 = numero de reclamaciones recibidas por cada 100 trabajadores 13.100. Basandose en las calificaciones obtenidas por 107 esrudiantes en el pri mer examen de un eurso de estadfstica para los ncgocios, se esti m6 el siguiente modelo por minimos cuadrados: y=2, 178+0,469x l + 3,369x2 + 3,054x3 (0.090) (0.456) (1.457) donele y = calificaci6n efectiva del estudiante en el examen Xl = calificaci6n csperada por el estudiante en el examen X2 = hams semana1es dedicadas a estudiar para el curso xJ = ealifieaci6n media del estudianle Los numeros entre parentesis situados debajo de los eoctieicnles son los errores t(picos de los eoeficientes estimados. a) Interprete la estimaci6n de (JI' b) Halle e inlcrprcte el inlervalo de confianza al 95 par ciento de P2' e) Contraste la hip6tesis nu la de que fh es 0 frellte a una hip6tesis altemati va bilateral e interprete Sll resultado. d) Interprete el eoeficiente de detenninaci6n. e) Contraste la hip6tesis nula de que f) Halle e interprete el coeficiente de correla- ci6n multiple. g) Prediga la califieaci6n de un estudiante que espera una calificaci6n de 80, estudia 8 horas a la semana y tiene una calificaci6n media de 3,0. 568 Esladislica para adminislracioo y economia 13.101. Basandose en 25 alios de datos aouales, se inlent6 cxplicar el uhorro en la India . EI modclo ajustado era Yi = {Jo + fJlXli + rJ~2j + f:i donde y = variaci6n del tipo real de los dep6si tos XI = variaci6n de la renta real per capita X2 = variaci6n del ti po de intercs real Las estimaciones de los para metros por mfnimos cuadrados (con los crrores tfpicos entre parentesis) eran (vease la referencia bibliognifica I) b, ~ b, 0,0974(0,02 15) ~ 0.374(0,209) El coefici ente de dcterminaci6n corrcgido era iP = ° 13.102. Basandose en datos de 2.679 j ugadorcs de balonceslo de centros de cnselianza secundaria, sc ajust6 el siguiente modclo: {J2-'f2i + ... + P9-'C91 +C j dondc y = minutos j ugados en 13 tcmporada XI = porcentaje de li ros de 2 puntos convertidos Xi = porecmaje de ti ros Iibres X3 = rebotes por minuto . 1."4 = puntos por minulo x~ = raltas por min u\o X6 = robos de bal6n por minuto X7 = lapones por mi nu to XII = perdidas de bal6n por minulo X9 = asistencias por minuto Las eSli maciones de los panl.metros por mfni mos cuadrados (con los errores Ifpicos entre parcnlcsis) son bo ~ b, ~ b, ~ b, ~ b, ~ 358,848 (44,695) 0,2855 (0,0388) 504,95 (43,26) 480,04 (224,9) -89 1,67 (180,87) b, ~ bJ ~ bs ~ b, ~ b, ~ R2 = 0,5239 a) Halle e inlcrprcte el inrervalo de confianl.:t al 90 por cienlo de (J6. b) Halle e interprete cl illlervalo de con fi:lIlz:I al 99 por ciento de (J7. c) COlllraste la hip6tesis nula de que /18 es 0 frente a 1a hip6tesis alteOlativa de que es negativo. Interprctc Sll resultado. d) Conlraste la hip6lcsis nula de que fi9 es 0 frente a b hip6tesis alLCrnativa de que e~ positivo. Intcrprete su resultado. e) Interprele el eocfieiente de determinaci6n. f) Halle e interprete el cocficienle de cOlrelilci6n multiple. 13.103. Basandosc en datos de 63 regiones, se cstim6 el siguientc modelo por mfnimos cuadrados: 0,9 1 a) Halle e interprete el intervalo de con fia nza al 99 POI" cicnto de [JI. b) Contrasle la hip61esis nula de que P2 es frenle a la hip6tcsis alternativa de quc cs positivo. c) Halle el coeficiente de delerminaci6n. d) Contrasle In hip6tesis nula de que Ii, ~ p, ~ O. e) Halle e interprete el coeficicntc de cOlrelaei6n multiple. Yj = {Jo + PIXI; + EI coef"icicnte de determinacion es 0,6742 (0,0639) 303 ,8 1 (77,73) - 3.923,5 ( 120.6) 1.350,3 (2 12.3) 722.95 ( 110,98) y= 0,58 - 0,052x 1 - 0,005..1."2 (0,U I 9) RZ = 0.1 7 (0.042) donde y = tasa de crec imi enlo del produclo in terior bruto real XI = renta real per capita X2 = lipo impositivo medio en porcentaje del producto naciona l bruto Los m"imeros entre parenlesis situados debajo de los coeficienles son los errores tfpicos de los coeficientcs est imados. a) Contraste la hip6tesis nula de que PI es 0 frent e a una hip6tesis alternativa bilatcral. Interprete Sll resultado. b) Contraste la hip6lesis nu la de que (J2 es 0 frente a una hip6tesis alternati va bilateral. Interprete su resultado. c) Inlerprete el cocficienle de determ inaci6n . d ) Halle e interprctc cl coefi cicntc de correlacion multiple . 13,104, En un cstudio, se ajust6 el siguicllte modelo de regresi6n a los datos de 60 golfi stas amateurs: y=164.683 +34 1, IOX I + 170,02xz + 495,19x) -4,23x-I (10059) ( 167, t8) (305.48) - 136.04Oxs - 35.549x6 + 202,52x7 (25.634) (16.240) (90.0) iP =0,5 16 ( 106.20) donde y = ganancias por torneo en d61arcs Xl = longitud med ia del golpe . 1."2 = porcentaje de veccs en que el golpe acuba en la pisla X3 = porccntajc de vcces en que se llega cn buena posici6n al ((green» (<<regulation») Capitulo 13. x" = Xj .\"6 .\"7 porcent[lje de veces en que se consigue e l par despues de haber cafdo en zona de arena = niimero media de «putts» reali zados en los «greens» a los que se ha lIegado en buena posicion = numero medi o de «putLs» rcalizados en los «greens» a los que no se ha lIegado en buena posici6n = numcro dc anos quc lleva jugando c\ golfista amateur. Los numeros entre pantntesi s situados debajo de los coefic ientes wn [Of; errores tfpicas de los coeficienles estimados. Realice un infonne que reSllma 10 que ha aprcndido con CSIOS resultados. 13.105. f.1 EI Departamento de Economfa quiere desan'ollar un modelo de regresi6n multiple para predecir la calilicaci6n media (GPA) de los estudiantes en los cursos de economfa. El profesorado del departamento ha reunido datos de 112 licenciados, que contienen las variables CPA de economfa. SAT verbal, SAT de matcmaticas, ACT de ingles, ACT de cicncias 50ciales y puesto oblenido en el bachillemto (I'allk). Los dato~ sc encuentmn en el fichero de datos llamado Student GPA de su disco de datos. El apendice conticne una descripci6n de las variables. a) Uti lice las variables SAT y «rank» para averiguar eutil es el mcjor modclo de predicci6n. Elimine las variables independientes que no scan significativas . i,Cuales son los coeficientes, Sll estadfstico , de Student y el modelo? b) Utilice las variables ACT y «rank» para avcriguar cwll es cl mejor modcl0 de prcdicci6n. Elimine las variables indcpcndientes que no scan sigll ifi cati vas. i,Cuales son los coeficientes. su cstadfstico I de Student y el modelo? c) i.Que madelo predice mejor la GPA de economfa? Aporte pruebas para apoyar su conclusion . 13.106. ( ... EI fichero de datos Salary Model contiene una variable dependiente y siete variables independientes. Tiene que desarrollar el «mejol"» modelo de regresi6n que prediga Yen funei6n de las siete variables independientes. Los datos se encuentran en su disco de datos. La variable dependi enle se llama {<y~) en el fichero y las variables independientes tambiCIl Regresi6n multiple 569 tienen Sli propio nombre. Util iee un anal isis dc regresi6n para averi guar que variables dcbcn eslal" en el modelo final y para estimar los coeJi cientes. Mueslrc el conlraste P eondicionado y el contraSle t condicionada de cualqui er variable eliminada. Analice los residuo.'> del modelo por medio dc grMicos. Mueslre SllS resul tados y anal ice SliS canclusiones. Transfonne las variables si los residuos indican una relaci6n no lineal. Presente claramente su modelo final , mOSlrando los coeficienles y los estadfslieos I de SllIdent de los coeficientes. 13.107. ~. I Uti lice los datos del fichero Citydat para estimar una ccuaci6n de rcgrcsion que pueda utilizarsc para avcriguar cI cfccto marginal que produce el porcentaje de locales comerciales cn c1 valor dc mcrcado por vivicnda ocupada por su propietario. IncJlIya en Sll eCllaci6n de regresi6n multiple el porcentaje de viviendas ocupadas por Sli propietario, cl porcentajc dc locales ind ustriales, el numero mediano de habitaciones par vivienda y la renta per capita como variables de predicci6n adicionales. Las variables estrin en Sll disco de datos y se describen en el apendice . Indique cuales son significativas. Sll eeuaci6n fina l debe incluir un icamente las variables significativas. Analice e inlerprele su modelo final de regresi6n e indique c6mo seleecionaria una ciudad para comprar Sll vivienda. 13.108. Los rcsponsables de la National Hi ghway Traffic SafclY Administralion (NHTSA) de Estados Unidos quieren saber si los diferentes tipas de vehfculos de un estado tienen relaei6n con la (asa de mOltalidad en carretera del estado. Le han pedido quc dcsarrollc varios anal isis de regresi6 n multiple para averiguar si el peso medio de los vehfculos, el porcelllaje de vehfculos importados, el porcentaje de camiones ligeros y la antigiiedad media de los autom6viles estan relacionados con las muen es en accidente ocu rridas en autom6v iles y camionetas. Los datos del anatisis se encuentran en el fichero de datos Ilamado Crash. que esta en su disco de datos. (0, a) Prepare lIna malriz de correlaciones de las muertcs ell accidentc y las variables de prcdicci6n. Observe las rclaeioncs si mples entre las muertes en accidente y las variables de predicci6n. lndique ademas Tualquier problema posible de multicolinealidad entre las variables de predicei6n. 570 Estadfstica para administracion y economia a) Caleule la matriz de carrelaciones y eSI<l_ dfsticos deseriptivos del valor de mcreado de las viviendas y las variables de predic_ cion posibles. Senale los problemas posibles de tllulticolinealidad. Defina el rango aproxi mado para su modele de rcgresion utilizando In regIa siguiente: medias de las variables ± 2 desv iaciones tfpicas. b) Realice anal isis de regresi6n m(tltiple utilizando las variables de predicci6n. Elirninc las variables que no sean significativas. i,Que variable, el tamano de la vivienda a el tipo impositivo, tiene In relaeion condi eionadn mas cstrecha con c! valor de las vivicndas? c) Un promotor industrial de un estado del Medio Oeste ha afirmado que los lipos de los impuestos locales sobre bienes inrnuebles de las pcquenas ciudades deben bajarse, ya que, de 10 contrario, nadie comprarfi una vivienda en estas ciudades. Basandose en su amllisis de este problema, eval (le la afirmacion del promotor. b) Realice un ,malisis de regrcsion multiple de las muertes en accidentc con rcspccto a las variables de prcdiccion posibles. Elimine en el modelo de regresi6n eualquier variable de prediccion no significativa, una dc cada vez. Indique su mejor modelo final. c) Exponga las conclusiones de su anal isis y anal ice la importancia condi cionada dc las variables desde el punto de vista de su relacion COIl las muenes en accidente. 13.109. , If El Departamento de Transporte de Estados Unidos qui ere saher 5i los estados que tienen un porcentaje mayor de poblacion urbana tienen una lasa mas alia de rnuenes totales en accidente ocurridas en automoviles y camionetas. Tambien quiere saber si la vcloc idad media a la que se conduce par las CUlTeteras rurales 0 el porcentaje de carreteras rurales que esta asfaltado estan relacionados con las tasas de muertes en accidente, dado el porcenlaje de ]loblacion urbana. Los datos de este estudio se encuemran en el fichero de datos Crash almacenado en su disco de datos. a) Prepare una malriz de conelaciones y estadfsticos descriptivos de las muertes en accidente y las variables de prediccion posi bles. Senale las relaciones y cualquier problema posib le de multicolinealidad. b) Realice un anfilisis de regresion mulliple de las muertes en aceidcnle con respeeto a las variables de prediccion posibles . Averigiie euales de las variables deben mantenerse en el modelo de regresion porque tienen una relaci6n sign iricativa. c) Muestre Ins resultados de su analisis desde el punta dc vista de su modelo rinal de regresion. Indique que variable ... son signifi cali vas. 13.110. ) Un econom isia desea predecir el valor de mercado de las viviendas de pequenas ei udades del Media Oeste ocupadas por sus propietarios. Ha reunido un cooj uoto de datos de 45 pcquenas ciudades que se refieren a un periodo de dos anos y quiere que los utilice como fuente de datos para el antilisis. Los datos se encuentmn en el fiehero Citydat, que est:! en su disco de datos. Quiere que desarrolle una ecuacion de prediccion basada en una regresion multiple. Las variables de prediccion posibles son el tamano de la vivienda, el lipo itll positivo, eI porcentaje de loca les comerciales, la renta per capita y el gasto publico municipal total. 13.111. f, Stuart Wainwright, vicepresidente de compms para una gran cadena nacionaJ de licndas de ESlados Unidos, Ie ha pedido que realice un anal isis de las ventas al por menor por estados. Quiere saber si el porcentaje de descmpJcados o la renla personal per capita esttin relacionados con las ventas al por menor per ca pila. Los datos para realizar este estudio se encuentran en cl fich ero de datos Ilamada Retail, que esla almacenado en su disco de datos. a) Prepare una matriz de correlaciones, calcuIe los estadfsticos descri ptivos y realice un anal isis de regresion de las vcntas al por menor per capila can rcspccto al porcentaje de desempleados y a la renta personal. Calcule intervalos de confianZil al 95 por cien\0 de los coericientes de la pendiente de cada ecuaci6n de regresi6n. b) ,;,Cu{Ll es el erecto condieionado de una disminuci6n de la renta per capita de 1.000 $ en las venlas per capita? c) i, Mejorarfa la ecuacion de prediccion aiiadiendo la poblacion de los estados como una variable de prediecion adicional? 13.112. i ~ Un importanle provecdor nacional de materiales de construccion para la construccion de vi viendas eSla prcocupado por las ve nta ~ tolales del pr6ximo ano. Es bien sabido que las ventas de la empresa est{1Il relacionadas di rectamente con la inversion nacional total en Capitulo 13. viviendu. Algunos banqueros de Nueva York estan prediciendo que los tipos de intcrcs subiran alredcdor de 2 puntos porccntuales el pr6ximo ano. Le han pedido que realice un analisis de regresi6n para podcr predecir el cfecto de las vnl'iacioncs de los tipos de intcres en la inversi6n en viviendu. Usted cree que, adcmas del !ipo de interes, el PNB, In oferta monClaria, cl gnslo publico y el fndicc de precios de los bienes ucabados podrfall scr prediclores de la inversi6n en vivienda. por 10 que llega a la conclllsi6n dc que ncccsi!<l dos modclos de rcgrcsi6n multi pIc. Uno inclu ira el tipo de imcres preferencial y olras importantes variables. EI otro incluirii el tipo de interes dc los fondos federa les y OIras imponantes variables. Los datos de series (cmporales para reatizar cstc cstudio sc cncuentran en cl fichero de datos lIamado Macr02003, que esta almacenado en su di sco de dalOS y se describe en el apendice del CapItu lo 14. a) Desarro llc dos modelos de rcgresi6n para predecir 1a inversi6n en vivienda util izando el tipo de inten!s prererencial para uno y el tipo de intercs de 1m: rondos federales para eI otro. Los modelos finales de regresi6n deben ineluir solamente variables de predicci6n que produzcan un ereclo condidonado significali vo. Analice los eSladfsticos de la regresi6n e indique que ecuacion hacc hIS mejorcs predicciones. b) Hall e el inlervalo de eonfianza al 95 pOl' dento del coeficiente dc la pendiente del 111'0 de interes cn ambas ecuaciones de regresi6n. 13.113. t La Congrcssional Budget Office (e BO) de Estados Unidos tiene intercs en saber 5i las tasas de mortalidad infantil de los eslados esttUl relacionadas con el ni ve l de rec ursos medicos de que dispone cada uno. Los datos para el estudio se encuentran en el fi chero dc datos lIamado State, que esta almacenado en SlI disco de datos. L. .I medida de la mortalidad infantil SUIl las mucrtes de ninos de menos de I ario por cada tOO nacidos vivos. EI conjunto de variables de pred icci6n pasibles son los medicos por 100.000 habitantes. la renla personal per capita y los gastos totales de los hospitales (esta variable debe expresarse en magnitudes per capi ta dividicndo por la poblaci6n del estado). a) Reulice un amilisis de rcgrcsi6n mutt iple y avcrigi.ie que variables de predicci6n deben incluirse en cI modelo de regresi6n multi - Regresi6n multiple 571 pie. Interprete su modelo final de regrcsi6n y anal ice los cocficiente5, sus estudfsticos I de Student. el error tfpieo de 1a cstimac i6n y cI R2. b) JdenLitique dos variables mas que pod rian ser predictores adicionalcs si se anadieran al modelo de regresi6n multiple. Contraste su erecto en un anali sis de regresi6n multi ple e indique si sus sospcchas iniciales cran corrcctas. 13.11 4. f" Desarro lle un modelo de regresion multi ple para predccir cI salario en funci6n de otras variables independientes utilizando los datos del fich ero Salary Model. que se encuentra en su disco de datos. Para eSle problema no utilice los :tfios de expcriencia sino la edad como sucedaneo de la experiencia. a) Describa los pasos scguidos para obtcner el modclo final de regres i6n. b) Contnlstc la hip6tcsis de que la lasa de variaci6n de los salarios femeninos en fun ci6n de la edad es menor que la lasa de variad6n de los salarios masculinos en rutlci6n de la edad. Debe formular su contraste de hip6tesi s de manera que aporte pruebas conlundemes de la ex istencia dc di scrimi naci6n de las mujeres [nora: las mujcres se indic:m mcdiante un <<I » en la variable «sexo» en 101 columna 5; el eontrasle debe realizarsc condicionado a las demas variables de predicci6n significa ti· vas del apartado (a)"I. 13.115. ( I Un grupo de activistas de Peaceful (Montana) cSla tratando de au mentar el desarrollo de su prfst ino enclave. que ha sido objelo de algun reconocimienlO nacional en el programa de tclevisi6n FOllr Dirty Old Mell. Sosticnen que un OIllmenlO del desarrollo comercial e indus\fial lraera mayor prospcridad e impllcstos mas bajos a Peaceful. Concrctamentc, sosticnen que un aumento del porcentaje de locales comcrciales e industri alcs rcducira el tipo del impuesto sobre bicnes inmuebles y aumentiln1 el valor de mercado de las viviendas ocupnctas por sus propietarios. Le han contratado para analizar sus afirmaciones. Para ella ha ohtcnido eI fichero de datos Citydllt, que conliene dalos de 45 pcquenas ciudndes. Con estos datos, primero desalTOlla modclos de regresi6n quc prcdicen el valor medio de las vi viendas ocupadas por sus propietarios y el tipo del impuesto sobre bienes inmuebles. A continuaci6n, avcrigua si y c6mo la 572 Estadistica para administraci6n y economia adici6n del porectltaje dc locales comerciales y del poreentaje de locales industriales afeeta a la variabil idad en estos modelos de regresi6n. EI modelo b:lsieo para predecir el valor de mcrcado de las viviendas (e 10) incluye como variables indcpcndientes el lamano de la vivicnda (c4), el tipo impositivo (e7), la renta per capita (e9) y el porcentajc de viviendas ocupadas por sus propietarios (e I2). EI modelo basico para predcc ir cl tipo imposi ti vo (e7) incluye como variables indepcndientes el valor cat:lstral (c6), los gaslos municipales actuales per capita (c5/ c8) y el porcentaje de viviendas ocupadas por sus propielarios (e I2). Averiglie si el porccnlaje de locales comerciales (cI4) y el porcentaje de locales industriales (e [5) mejoran la variabilidad explicada en cada uno de los tlos mOOclus. Realice Ull contraste F condicionado de cada una de estas variables adicionales. Primero estime el cfeclo eondicionado del porcentajc de locales comerciales par 5i so lo y. a cont inuaci6n, el de locales industriales por sf solo. Explique delen idamente los resultados de su analisis. Incluya en su infonne una explicaci6n de por que cs importunte inc1uir todas las demas variables en el rnodelo de regresi6n en lugar de exmninar simplerncnte el efecto de la rclaci6n directa y s irnpic entre el poreentaje de locales comerciales y el de locales industriales en el tipo imposit ivo y en e[ valor de mcrcado de la vivienda. 13.116. f. Utiliee los datos del fi chcro de datos lIamado Student GJ'A. que se cncuentra en Sil disco de dalos y se describe en el apend ice. a fin de desarrolluf un modelo para prcdecir In calificaci6n media (O r A) de ecollornfa de un estudiantc. ComiCllcc con las variables «ACT scores», «gender» y «H Spcl». a) Ut il ice metodos cstadfsticos adecuados para elegir un subconjunlo de variables de prediccion cst:ldisticamente significlilivas. Describa su estrategia y defina minuciosamente su modelo final. b) Explique c6mo podrfa utilizar la cornisi6n de adrnisiones de la un iversidad eSlc mode10 para tamar sus decisiones. 13.117. Un economista estim6 para una mucstm aleatoria de 50 observaciones cl modelo de regresi6n + fJ1 logX 1i + IJ2 10gX21 + Ih log:r)/ + (J;J log X4i + f;i Log,V; = cr: donde y = ingresos brutos generados pOl' una practiea medica Xli = niirnero medio de horas trabajadas par los medicos en la praclica X 2i = numero de medicos en la praetica x )/ = niimero de personal sanitario auxiliar (como cn fenneras) cmpleado en la praclica X 4 1 = numero de habitaciones util izadas en la practica Uti li ce In parte de In salida informatica mastrada aquf para realizar un informe sobre estos resultados. R- SQUAR£ - 0 .927 PARAMETER ESTUIATE INTERCE I?'!' 2 . 347 LOG X, 0 .239 0 . 673 =" x, LOG " LOG 0.279 0.082 STUDENT'S t STD. F OR HOI ERROR OF PARAMETER ... 0 ESTIMATE 3.27 8.31 6 . 64 1.61 0.013 0 . 081 0.042 0.051 Apendice 1. Obtencion de los estimadores por mfnimos cuadrados Los esl imadorcs de los coeficientes de un mo de le con dos variab les de pred icci6n sc obtienen de la forma sig uientc: Capitulo 13. Regresion multiple 573 Sc minimi za seE ~ I" [Vi - (bo + b,xli + b,x2,)12 i- I Aplicando el calculo diferencial, obtenemos un conjunlo de Ires ecuaciones normales que pucdcn resol verse para hallar los eslimadores de los coe ricientes: oseE --~ O abo I" 2 IYi - (b o + b,"1i + b,x,,)]( - 1) ~ 0 i '" I " " " " " " oseE -- ~O ob , I" 2 IYi - (b o + b ,"1i + b,x2i)]( - Xli) ~ 0 i= J " " " " " " " X li X2i = " L X 2iYi i- I oseE --~O 8b, I" 2 o '"x li + b,",,)]( - X2,) ~ 0 [Yi - (b + i- I " " " bo " " " L. X 2i + b, i_ I L /I X l i X 2i + b2 i- I L '\~i /I = i- I L X 2iYi i- I Como consecuencia de la aplicacion del algoritmo de los minimos cuadrados, tenemos un sistema de tres ec uaciones lineales con tres incognilas, bo, hi Y h2 : nbo + b l " bo I ;=1 bo L" i- I " " " " " I Xli + b 2 iI- I X2i = iI- I Yi i- I " Xli + hi I xt + b2 iI= 1 X l i X 2i = iI'" I XliYi ;= 1 X2i + bl L " i- I X li X 2i + b2 " L. 4 i- I = " L i- I X2iYi 574 ESladistica para adminislraci6n y economia Se rcs llclven las ecuaciones normales para obtencr los coeficientes deseados ea lcuJanclo pri mero los distintos clladrados de X e Y y los terminos que incluyen los productos entre eHas. El tennino de la ordenada en el origen sc est ima de la forma siguiente: 2. Variabilidad total explicada EI termino SCR de la variabi lidad explicada e n la regresi6n mu ltiple es mas complejo que el term inG SCR caJculado en la regresi6n simple. En el modele de regresi6n con dos vari ab les independi entes y ~ Po + /J,X, + p,X, observamos que SCR "'" (Yi. - y,"" ~ L. i- I ~ I" [b o + b,xli + b,x" - (ho + h,;, + h,",,)J' i- I Vemos que la variabil idad explicada tiene Ulla parte relacionada directamente con cada LIlla de [as variab les independi enles y L1na parte relacionada con la correlaci6 n entre las dos variables. Bibliografia Ghatak. S. y D. Deadman, «Money, Prices and Stabilization Policies in Some Developing Countries», Applied Economics. 21, 1989, pags. 853 -865. 2. Hagermann. R. P., «The Determ inants or Household Vacation Travel: Some Empirical Evidence», Applied Ecollomicl', 13, 198 1, pags. 225-234. 3. MacDonald, J. M. Y P. E. Nelson. «Do the Poor Still Pay More? Food Price Variations in Large Metropolitan Areas», loumal of Urban Economics, 30. 1991. pags. 344-359. 4. Spellman, L. J., «Entry and Profitabi lity in a Rnte·free Savings and Loan Markel), Quarterly Review oj Economics alld Business, 18. n." 2, 1978, pags. 87-95. 5. Van Scyoc, L. J. Y J. Gleason, «Traditional or Intensive Course Lcnghts? A Comparison of Outcomes in Economics Learning», 101/I'llal oj ECOllomic Educatioll, 24, 1993, pags. 15-22. I.