ECONOMETRÍA I PRÁCTICA CON SPAD Y EXCELL Para realizar el estudio de la regresión mediante SPAD y EXCELL, hemos decidido buscar información sobre el sector de la hostelería en España en la base de datos del Instituto Nacional de Estadística (INE). Así, hemos logrado los siguientes datos sobre el volumen de negocio en el sector hostelero por comunidades autónomas durante el último trimestre de 2001: Andalucía, Ceuta y Melilla Aragón Asturias Baleares Canarias Cantabria Castilla y León Castilla la Mancha Cataluña Comunidad Valenciana Extremadura Galicia Madrid Murcia Navarra País Vasco Rioja (La) Volumen de negocio Nº empresas Nº locales Personas ocupadas Inversión 166925 1863 2112 23013 33598 20353 15695 479634 351724 13730 40674 12732 320512 95978 7400 35151 224469 9896 34732 32457 7228 506 303 1428 1631 354 890 396 2592 932 197 931 1315 192 438 659 91 524 340 2070 1975 421 978 420 3349 1034 203 966 1616 207 504 816 105 3261 2318 62357 34273 2495 6676 2386 41568 13237 1504 5755 25704 1792 3732 4424 1090 2241 2877 53311 67917 2888 6171 2736 52956 13666 1221 4619 35369 1901 1728 3045 531 Por tanto, nos encontramos ante un modelo formado por una variable explicada (volumen de negocio), y 4 explicativas (empresas, locales, personas ocupadas e inversión). Lo que nosotros pretendemos es saber si el volumen de negocio se explica adecuadamente con dichas variables explicativas, por lo que primero buscaremos cuál es la combinación óptima de variables para realizar la regresión más adecuada. Para ello hemos importado la tabla a SPAD convirtiéndola en una base de datos de SPAD para después, a través del programa, encontrar la combinación óptima. A continuación presentamos los resultados obtenidos en SPAD: RECHERCHE DES AJUSTEMENTS OPTIMAUX MODELE 1 DEFINITION :−−−−− MODELE V1 = V2−−V5 1 APUREMENT DES INDIVIDUS ACTIFS AYANT UNE DONNEE MANQUANTE POUR LA VARIABLE ENDOGENE INDIVIDUS ACTIFS RETENUS POUR LES CALCULS: 17 INDIVIDUS ACTIFS EXCLUS POUR LES CALCULS: 0 GESTION DES DONNEES MANQUANTES. AUCUNE VALEUR MANQUANTE DETECTEE LES MEILLEURS AJUSTEMENTS DU MODELE REGRESSION MULTIPLE VARIABLE ENDOGENE NUMERO 1 : C1 VOLU 1 VARIABLE + CONSTANTE, DDL(STUDENT) = 15 AJUSTEMENT 1 R**2= 0.978 F(R2)= 668.0038 PROBA= 0.0000 V−TEST= 99.99 COEFFICIENT STUDENT PROBA V−TEST IDEN LIBELLE DE LA VARIABLE 8.1816 25.85 0.000 99.99 C4 POCU AJUSTEMENT 2 R**2= 0.915 F(R2)= 161.0459 PROBA= 0.0000 V−TEST= 99.99 COEFFICIENT STUDENT PROBA V−TEST IDEN LIBELLE DE LA VARIABLE 6.2422 12.69 0.000 99.99 C5 INVE AJUSTEMENT 3 R**2= 0.717 F(R2)= 38.0170 PROBA= 0.0000 V−TEST= 4.29 COEFFICIENT STUDENT PROBA V−TEST IDEN LIBELLE DE LA VARIABLE 138.5077 6.17 0.000 4.29 C3 NLOC 2 VARIABLES + CONSTANTE, DDL(STUDENT) = 14 AJUSTEMENT 1 R**2= 0.993 F(R2)= 982.7562 PROBA= 0.0000 V−TEST= 7.91 COEFFICIENT STUDENT PROBA V−TEST IDEN LIBELLE DE LA VARIABLE 5.8404 12.44 0.000 99.99 C4 POCU 2 2.0113 5.43 0.000 3.92 C5 INVE AJUSTEMENT 2 R**2= 0.978 F(R2)= 312.0105 PROBA= 0.0000 V−TEST= 6.88 COEFFICIENT STUDENT PROBA V−TEST IDEN LIBELLE DE LA VARIABLE 1.5400 0.11 0.914 0.11 C2 NEMP 8.1331 14.81 0.000 99.99 C4 POCU AJUSTEMENT 3 R**2= 0.978 F(R2)= 311.7447 PROBA= 0.0000 V−TEST= 6.88 COEFFICIENT STUDENT PROBA V−TEST IDEN LIBELLE DE LA VARIABLE −0.2596 0.02 0.984 0.02 C3 NLOC 8.1928 12.90 0.000 5.29 C4 POCU 3 VARIABLES + CONSTANTE, DDL(STUDENT) = 13 AJUSTEMENT 1 R**2= 0.998 F(R2)= 1817.8450 PROBA= 0.0000 V−TEST= 8.30 COEFFICIENT STUDENT PROBA V−TEST IDEN LIBELLE DE LA VARIABLE −28.3032 5.07 0.000 3.70 C2 NEMP 5.9380 20.96 0.000 99.99 C4 POCU 2.6925 10.34 0.000 5.29 C5 INVE AJUSTEMENT 2 R**2= 0.997 F(R2)= 1698.1130 PROBA= 0.0000 V−TEST= 8.25 COEFFICIENT STUDENT PROBA V−TEST IDEN LIBELLE DE LA VARIABLE −24.2848 4.81 0.000 3.58 C3 NLOC 6.1906 20.55 0.000 99.99 C4 POCU 2.6144 9.96 0.000 5.29 C5 INVE AJUSTEMENT 3 R**2= 0.979 F(R2)= 205.3405 PROBA= 0.0000 V−TEST= 6.49 3 COEFFICIENT STUDENT PROBA V−TEST IDEN LIBELLE DE LA VARIABLE 88.6516 0.90 0.383 0.87 C2 NEMP −78.9043 0.90 0.387 0.87 C3 NLOC 8.8110 9.40 0.000 5.09 C4 POCU 4 VARIABLES + CONSTANTE, DDL(STUDENT) = 12 AJUSTEMENT 1 R**2= 0.998 F(R2)= 1261.6143 PROBA= 0.0000 V−TEST= 7.84 COEFFICIENT STUDENT PROBA V−TEST IDEN LIBELLE DE LA VARIABLE −34.5618 0.94 0.368 0.90 C2 NEMP 5.5372 0.17 0.867 0.17 C3 NLOC 5.8798 13.08 0.000 5.29 C4 POCU 2.7056 9.62 0.000 5.04 C5 INVE CROISSANCE DU R**2 EN FONCTION DU NOMBRE DE VARIABLES 0.717 (R**2 MIN) (R**2 MAX) 0.998 +−I−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−I−+ 1 | 1**********************************************1*************1 | 2 | *************************************************************2***1 | 3 | **************************************************************1***2 | 4 | ******************************************************************1 | +−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−+ MODELE 2 DEFINITION FIN A la vista de estos resultados, hemos considerado que la mejor combinación de variables explicativas para realizar la regresión es la que utiliza el nº de empresas, el nº de personas ocupadas y la inversión como variables explicativas. Hemos llegado a esta conclusión porque es la combinación que presenta la mayor R^2, con un nivel de 0,998, lo que significa que esas variables explicativas explican en un 99,8 % a la variable explicada (volumen de negocio). 4 Así mismo, presentan una probabilidad crítica muy mínima, muy por debajo de 0,05, lo que significa que con una seguridad mayor que un 95 % podemos afirmar que todos los coeficientes son diferentes de 0. Por tanto, hemos elegido como variables explicativas óptimas el nº de empresas, el nº de personas ocupadas y el nivel de inversión para explicar el volumen de negocio en el último trimestre. Una vez que hemos decidido cuáles son las mejores variables, hemos vuelto a EXCELL para realizar la regresión con la Herramienta de Análisis de Datos, obteniendo los siguientes resultados: Con los resultados que hemos logrado, demostramos que las variables explicativas que hemos elegido son buenas puesto que, aparte de que la R^2 es muy alta, de un 0,9971, las probabilidades críticas son adecuadas porque son inferiores a 0,05. Una vez que hemos calculado el cuadrado de los residuos y el cuadrado de la diferencia de los residuos, hemos logrado calcular una d de Durbin de 2,0818. Además, puesto que se trata de un modelo con 3 variables explicativas y 17 observaciones obtenemos una d1 de 0,9 y una d2 de 1,71 por lo que llegamos a la siguiente regla de decisión: Si 0 " d* " 0,9 autocorrelación positiva Si 0,9 " d* " 1,71 zona de duda o indeterminación Si 1,71 " d* " 3,29 Independencia con un 95 % de seguridad Si 3,29 " d* " 3,1 zona de duda o indeterminación Si 3,1 " d* " 4 autocorrelación negativa Ya que nuestra d de Durbin es de 2,0818, se encontrará en la zona de independencia, por lo que podemos afirmar con un 95 % de seguridad que no existe autocorrelación. CONCLUSIÓN Para terminar, y a modo de conclusión, hemos llegado a la conclusión de que el volumen de negocio en el sector de la hostelería en España en el último trimestre de 2001 se explica en más del 99 %, y con una seguridad superior al 95 %, por los niveles del número de empresas, personas ocupadas y de inversión en el sector durante el último trimestre. 5