INTRODUCCIÓN A LA ECONOMETRÍA (LE Y LADE, mañana) Prof. Magdalena Cladera APLICACIONES DE INFERENCIA ESTADÍSTICA DE EXCEL Y SPSS CONTENIDOS APLICACIONES DE INFERENCIA ESTADÍSTICA DE EXCEL........................................................................ 2 1. Probabilidad................................................................................................................................................... 2 1.1. La distribución normal ............................................................................................................................ 3 1.2. La distribución chi-cuadrado .................................................................................................................. 5 1.3. La distribución t de Student.................................................................................................................... 6 1.4. La distribución F de Snedecor ............................................................................................................... 7 2. Estimación puntual ........................................................................................................................................ 9 2.1. Estimación de la media .......................................................................................................................... 9 2.2. Estimación de la varianza ...................................................................................................................... 9 2.3. Estimación de la proporción................................................................................................................. 10 2.4. Cálculo de estimaciones con la herramienta para el análisis de datos Estadística Descriptiva.......... 11 3. Estimación por intervalos ............................................................................................................................ 13 3.1. Intervalos de confianza para la media de una población normal con varianza desconocida.............. 13 3.2. Intervalos de confianza para la media de una población normal con varianza conocida.................... 14 4. Contrastación de hipótesis .......................................................................................................................... 14 4.1. Contraste de igualdad de varianzas de dos poblaciones normales .................................................... 14 4.2. Contraste de igualdad de medias suponiendo varianzas conocidas................................................... 15 4.3. Contraste de igualdad de medias suponiendo varianzas desconocidas pero iguales ........................ 16 4.4. Contraste de igualdad de medias suponiendo varianzas desconocidas y distintas............................ 17 APLICACIONES DE INFERENCIA ESTADÍSTICA DE SPSS........................................................................ 19 1. Ajuste de la distribución de una variable a la normal .................................................................................. 19 2. Estimación de parámetros........................................................................................................................... 20 3. Contrastación de hipótesis .......................................................................................................................... 21 ANEXO 1. Generación de números aleatorios................................................................................................ 25 ANEXO 2. Obtención de histogramas ............................................................................................................. 26 ANEXO 3. Variables en el archivo EDT2000 .................................................................................................. 27 ANEXO 4. Guía para el trabajo propuesto ...................................................................................................... 27 Bibliografía....................................................................................................................................................... 28 APLICACIONES DE INFERENCIA ESTADÍSTICA DE EXCEL 1. PROBABILIDAD Excel dispone de varias funciones que permiten trabajar con distribuciones de probabilidad. Para utilizar una función se deben seguir los siguientes pasos: 1) Seleccionar la opción Función en el menú Insertar (Figura 1) o hacer clic sobre el icono de la barra de fórmulas (Figura 2). 2) Entonces se abrirá una ventana en la que se pueden seleccionar distintos tipos de funciones. Elegiremos las funciones Estadísticas (Figura 3). Dentro de la categoría de funciones Estadísticas seleccionaremos la función concreta que nos interese, dependiendo del tipo de distribución con el que vayamos a trabajar. Figura 1 Figura 2 2 Figura 3 A continuación se presentan las principales funciones que pueden utilizarse dependiendo del tipo de distribución de probabilidad con el que se esté trabajando. 1.1. La distribución normal DISTR.NORM(x, µ, σ, acum) Si acum = VERDADERO, esta función halla el valor de la función de distribución en el punto x, para una variable aleatoria normal de media µ y desviación típica σ. Es decir, la P(X<x). Si acum = FALSO, halla el valor correspondiente a la función de densidad. Por ejemplo, se tiene una variable aleatoria normal con media 5000 y desviación típica 100 la probabilidad de que esta variable tome un valor inferior a 4950? (Figura 4). 10 . ¿Cuál es DISTR.NORM.INV(probabilidad, µ, σ) Halla el valor que deja a la izquierda una probabilidad determinada, en la distribución de una variable normal de media µ y desviación típica σ. Por ejemplo, se tiene una variable aleatoria normal con media 5000 y desviación típica 100 10 . ¿Cuál es el valor que deja a la izquierda una probabilidad de 0,025? Es decir, ¿Cuál es el valor, x, tal que la P(X<x) = 0,025? (Figura 5). DISTR.NORM.ESTAND(z) Halla el valor de la función de distribución en el punto z, para una variable aleatoria normal de media 0 y desviación típica 1. Es decir, la P(Z<z). Por ejemplo, ¿cuál es la probabilidad de que una variable normal estándar tome un valor inferior a –1,96? (Figura 6). DISTR.NORM.ESTAND.INV(probabilidad) Halla el valor de la distribución de una variable aleatoria normal estándar, que deja a la izquierda una probabilidad determinada. Por ejemplo, ¿cuál es el valor que deja a la izquierda una probabilidad de 0,975 en la distribución de una variable normal estándar? (Figura 7). 3 Figura 4 Figura 5 4 Figura 6 Figura 7 1.2. La distribución chi-cuadrado DISTR.CHI(x, grados de libertad) Halla el complementario del valor de la función de distribución en el punto x, para una variable aleatoria con distribución chi-cuadrado de un determinado número de grados de libertad. Es decir, la P( χ g2.l . >x). Por ejemplo, ¿cuál es la probabilidad de que una variable aleatoria con distribución chi-cuadrado de 10 grados de libertad, tome un valor superior a 15? (Figura 8). PRUEBA.CHI.INV(probabilidad, grados de libertad) Halla el valor de la distribución de una variable aleatoria con distribución chi-cuadrado con un determinado número de grados de libertad, que deja a la derecha una probabilidad determinada. Por ejemplo, ¿cuál es el valor que deja a la derecha una probabilidad de 0,025 en la distribución de una variable chi-cuadrado con 10 grados de libertad? (Figura 9). 5 Figura 8 Figura 9 1.3. La distribución t de Student DISTR.T(x, grados de libertad, colas) Halla el complementario del valor de la función de distribución en el punto x, para una variable aleatoria con distribución t de Student con un determinado número de grados de libertad, considerando una o dos colas, según se indique. Si se considera una cola, devuelve la probabilidad representada en el gráfico de la Figura 10 (a), y si se consideran dos colas devuelve la probabilidad representada en el gráfico de la Figura 10 (b). Por ejemplo, ¿cuál es la probabilidad de que una variable aleatoria con distribución t de Student con 10 grados de libertad, tome un valor inferior a –2 o superior a 2? (Figura 11). Figura 10 x x -x (a) (b) 6 DISTR.T.INV(probabilidad, grados de libertad) Para una distribución t de Student con un determinado número de grados de libertad, halla el valor que deja en los extremos de la distribución una probabilidad determinada. Por ejemplo, ¿cuál es el valor que deja en los extremos de una distribución t de Student con 10 grados de libertad una probabilidad del 0,05 (repartida 0,025 en cada cola)? (Figura 12). Figura 11 Figura 12 1.4. La distribución F de Snedecor DISTR.F(x, grados de libertad 1, grados de libertad 2) Halla el complementario del valor de la función de distribución en el punto x, para una variable aleatoria con distribución F, con grados de libertad 1 en el numerador y grados de libertad 2 en el denominador. Es decir, la P(F>x). Por ejemplo, ¿cuál es la probabilidad de que una variable aleatoria con distribución F, con 6 y 12 grados de libertad, tome un valor superior a 3? (Figura 13). DISTR.F.INV(probabilidad, grados de libertad 1, grados de libertad 2) Para una distribución F con grados de libertad 1 en el numerador y grados de libertad 2 en el denominador, halla el valor que deja a la derecha de la distribución una probabilidad determinada. Por ejemplo, ¿cuál es el valor que deja por encima una probabilidad de 0,05 en una distribución F(6, 12)? (Figura 14). 7 Figura 13 Figura 14 8 2. ESTIMACIÓN PUNTUAL Una vez que se ha seleccionado la muestra y se tienen los datos en una hoja de cálculo, se pueden utilizar diversas funciones o herramientas para estimar el valor de determinados parámetros. Si para la estimación de algún parámetro no se dispone de una función, se puede crear una fórmula para calcularlo a partir de los datos muestrales. 2.1. Estimación de la media PROMEDIO(rango de datos) Esta función calcula la media aritmética de un rango de datos. Si se aplica esta función a los datos muestrales de una determinada variable, se obtiene la media muestral, es decir, una estimación de la media poblacional de dicha variable. Por ejemplo, en el archivo EDT2000.xls se tiene la información proporcionada por una encuesta realizada a una muestra de 100 turistas con el objetivo de estimar varias características de los turistas que visitaron las Islas Baleares en el año 2000, entre las que se incluye el gasto turístico. En este archivo, la variable DÍAS recoge los días que cada turista pasó en las Islas. Para estimar la estancia media de los turistas que visitaron las Islas Baleares en 2000, se puede calcular la media de la estancia de los 100 turistas de la muestra (Figura 15). Figura 15 2.2. Estimación de la varianza VAR(rango de valores) Esta función, aplicada a datos muestrales, calcula la varianza muestral corregida ( Ŝ 2 ). Siguiendo con el ejemplo anterior, la varianza muestral corregida de la variable DÍAS se calcula como estimación de la varianza poblacional de esta variable (Figura 16). 9 Figura 16 VARP(rango de valores) Esta función, aplicada a datos muestrales, calcula la varianza muestral ( S 2 ). Siguiendo con el ejemplo anterior, puesto que la muestra es grande se puede utilizar la varianza muestral de la variable DÍAS como estimación de la varianza poblacional de esta variable (Figura 17). Puede observarse que, puesto que la muestra es grande, el valor de la varianza muestral y el de la varianza muestral corregida son muy similares. Figura 17 2.3. Estimación de la proporción Para calcular el valor de la proporción muestral puede hacerse lo siguiente: Si se tiene una variable que sólo toma dos valores, 0 ó 1, se puede utilizar la función PROMEDIO, puesto que la proporción muestral es igual a la media muestral. Por ejemplo, en el archivo EDT2000.xls se tiene la variable VOLVER, que toma valor 1 si el turista dice que piensa volver de vacaciones a las Islas y valor 0 si responde que no. La media de los valores muestrales de esta variable es la proporción muestral (Figura 18). Si se tiene una variable que toma más de dos valores puede utilizarse la función FRECUENCIA(datos, grupos) para obtener el número de observaciones de cada valor y, entonces, dividiendo por el tamaño muestral calcular la proporción de individuos que presentan cada uno de los valores de la variable. Por ejemplo, la variable NACIONALIDAD tienen cuatro valores posibles. La proporción muestral de turistas de cada nacionalidad, que aparece en la siguiente tabla, se calcula dividiendo por el tamaño muestral (100) el número de observaciones con cada valor (Figura 19): 10 Nacionalidad Alemana (1) Británica (2) Española (3) Otras (4) Proporción muestral 36/100 = 0,36 36/100 = 0,36 8/100 = 0,08 20/100 = 0,20 Figura 18 Figura 19 2.4. Cálculo de estimaciones con la herramienta para el análisis de datos Estadística Descriptiva La herramienta para el análisis de datos Estadística Descriptiva permite obtener los valores de un conjunto de características de un determinado rango de datos. Antes de utilizar cualquier herramienta de análisis de datos hay que activar esta componente. Para ello, hay que seleccionar la opción Complementos en el Menú Herramientas. Entonces, se abre un cuadro de diálogo en el que hay que activar la opción Herramientas para análisis (Figura 20). 11 Figura 20 Una vez activada, para utilizar esta herramienta hay que seleccionar la opción Análisis de datos en el menú Herramientas. Se abrirá un cuadro de diálogo en el que seleccionamos la herramienta con la que vamos a trabajar, en nuestro caso, Estadística Descriptiva (Figura 21). Figura 21 En la ventana de Estadística Descriptiva (Figura 23), si se activa la casilla Resumen de Estadísticas, se generará una tabla de resultados con los valores de las siguientes medidas: media ( y ), error típico de la 2 media ( Ŝ n ), mediana, moda, desviación estándar ( Ŝ ), varianza ( Ŝ ), curtosis, coeficiente de asimetría, rango, mínimo, máximo, suma, cuenta, k-ésimo mayor, k-ésimo menor. Si se activa la casilla Nivel de confianza para la media, se incluirá en la tabla de resultados la mitad de la amplitud del intervalo de confianza para la media, correspondiente al nivel de confianza que se haya indicado (se explicará con más detalle en el apartado 3). Por ejemplo, si se aplica esta herramienta a la variable DÍAS (Figura 23), se obtienen los resultados de la siguiente tabla: 12 Figura 22 DÍAS Media Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo Máximo Suma Cuenta Nivel de confianza(95,0%) 9,98 0,4175397 7 7 4,1753969 17,433939 0,1922893 0,8749896 18 3 21 998 100 0,8284895 En esta tabla aparecen sombreados los valores de la media muestral y de la varianza muestral corregida. Figura 23 3. ESTIMACIÓN POR INTERVALOS 3.1. Intervalos de confianza para la media de una población normal con varianza desconocida En la ventana de la herramienta de análisis de datos Estadística Descriptiva (Figura 23), si se activa la casilla Nivel de confianza para la media, se incluirá en la tabla de resultados la mitad de la amplitud del intervalo de confianza para la media, correspondiente al nivel de confianza que se haya indicado. El intervalo de confianza se calcula bajo el supuesto de que la población es normal con varianza desconocida, es decir, que se calcula el intervalo de confianza que se corresponde con la siguiente expresión: ˆ α 2 S IC(µ) = y ± t n −1 n ˆ α 2 S , es decir, la mitad de la amplitud del intervalo. Entonces, El valor que proporciona el programa es t n −1 n para obtener los extremos del intervalo, sumamos y restamos a la media muestral ese valor. Por ejemplo, en la tabla de resultados para la variable DÍAS de la Figura 22, se tiene que la media muestral es igual a 9,98 y, en la fila correspondiente al intervalo de confianza para la media del 95% se tiene el valor 0,828. Entonces, el IC95%(µ) es: 13 IC95%(µ) = [9,98 – 0,828; 9,98+0,828] = [9,15; 10,80] 3.2. Intervalos de confianza para la media de una población normal con varianza conocida La Función INTERVALO.CONFIANZA(alfa;desv. estándar;tamaño) permite calcular intervalos de confianza, de nivel de confianza (1 – alfa)100%, para la media de una población normal con desviación típica conocida y para un determinado tamaño muestral. El valor que proporciona esta función es la mitad σ de la amplitud del intervalo, es decir: Z . α 2 n Por ejemplo, si se supone que la varianza de los días de estancia es 16, la función INTERVALO.CONFIANZA(alfa;desv. estándar;tamaño), utilizando un nivel de confianza del 95%, devuelve el valor 0,784 (Figura 24). Entonces, el intervalo de confianza para la media es: IC95%(µ) = [9,98 – 0,784; 9,98+0,784] = [9,19; 10,76] Figura 24 4. CONTRASTACIÓN DE HIPÓTESIS 4.1. Contraste de igualdad de varianzas de dos poblaciones normales La herramienta de análisis de datos Prueba F para varianzas de dos muestras, permite contrastar la hipótesis de igualdad de varianzas de dos poblaciones normales. Para acceder a ella hay que seleccionar la opción Análisis de datos del menú Herramientas. Por ejemplo, en el archivo EDT2000 hay una hoja en la que están organizados, de forma separada, los datos de los turistas repetidores (que han visitado las Islas Baleares más de una vez) y los de los no repetidores. Si se utiliza la Prueba F para varianzas de dos muestras (Figura 25), para contrastar la hipótesis de igualdad de las varianzas del gasto realizado por los turistas repetidores (GASTO R) y los no repetidores (GASTO NR), se obtiene la tabla de la Figura 26. En esta tabla se tienen las estimaciones de las medias y las varianzas del gasto, el número de observaciones en cada muestra y los grados de libertad. F es el estadístico de contraste, P(F<=f) una cola es el p-valor del contraste y Valor crítico para F (una cola) es el valor de las tablas con el que se compara el estadístico de contraste. El contraste se hace unilateral por la derecha. 14 Figura 25 Figura 26 Media Varianza Observaciones Grados de libertad F P(F<=f) una cola Valor crítico para F (una cola) GASTO R GASTO NR 66.444738 75.055932 1019.6764 299.04782 63 37 62 36 3.4097437 7.567E-05 1.6677131 4.2. Contraste de igualdad de medias suponiendo varianzas conocidas La herramienta de análisis de datos Prueba z para medias de dos muestras, permite contrastar la hipótesis de igualdad de medias de dos poblaciones normales. Para acceder a ella hay que seleccionar la opción Análisis de datos del menú Herramientas. Por ejemplo, se puede contrastar la hipótesis de que el gasto turístico medio de los turistas repetidores y los no repetidores es el mismo, suponiendo que la varianza de esta variable es 1000 para los turistas repetidores y 300 para los no repetidores (Figura 27). Los resultados de este contraste son los de la tabla de la Figura 28. En esta tabla se tienen las estimaciones de las medias, el valor de las varianzas poblacionales conocidas, el número de observaciones en cada muestra y el valor de la diferencia entre las medias según la hipótesis nula (0). Z es el estadístico de contraste, P(Z<=z) una cola es el p-valor del contraste si se hace unilateral y Valor crítico para Z (una cola) es el valor de las tablas con el que se compara el estadístico de contraste si el contraste es unilateral. Las dos últimas filas son el p-valor y el valor de tablas si el contraste es bilateral (en la fila que aparece sombreada en la figura se genera un error puesto que es el p-valor y no el valor crítico). Este contraste también puede utilizarse para contrastar la hipótesis de igualdad de medias de dos poblaciones no normales, pero utilizando muestras grandes. En este caso el valor que se utilizará para la varianza de cada población será el de la varianza muestral. También puede utilizarse para contrastar la hipótesis de igualdad de proporciones en dos poblaciones. 15 Figura 27 Figura 28 Media Varianza (conocida) Observaciones Diferencia hipotética de las medias z P(Z<=z) una cola Valor crítico de z (una cola) Valor crítico de z (dos colas) Valor crítico de z (dos colas) GASTO NR GASTO R 75.055932 66.444738 300 1000 37 63 0 1.7584443 0.0393359 1.644853 0.0786719 1.9599611 4.3. Contraste de igualdad de medias suponiendo varianzas desconocidas pero iguales La herramienta de análisis de datos Prueba t para dos muestras suponiendo varianzas iguales, permite contrastar la hipótesis de igualdad de medias de dos poblaciones normales, bajo el supuesto de que las varianzas poblacionales son desconocidas pero iguales. Para acceder a ella hay que seleccionar la opción Análisis de datos del menú Herramientas. Por ejemplo, se puede contrastar la hipótesis de que el gasto turístico medio de los turistas repetidores y los no repetidores es el mismo, en el caso habitual de que no se conozcan las varianzas poblacionales, pero suponiendo que éstas son iguales para las dos poblaciones (Figura 29). Los resultados de este contraste son los de la tabla de la Figura 30. La presentación es la misma que en el caso de la prueba z, cambiando únicamente el tipo de distribución utilizada, de manera que aparecen los grados de libertad para la distribución t; y, además, se obtiene la estimación de la varianza conjunta de ambas poblaciones (Varianza agrupada). 16 Figura 29 Figura 30 Media Varianza Observaciones Varianza agrupada Diferencia hipotética de las medias Grados de libertad Estadístico t P(T<=t) una cola Valor crítico de t (una cola) P(T<=t) dos colas Valor crítico de t (dos colas) GASTO NR GASTO R 75.055932 66.444738 299.04782 1019.6764 37 63 754.9557 0 98 1.5131214 0.0667336 1.6605509 0.1334672 1.9844674 4.4. Contraste de igualdad de medias suponiendo varianzas desconocidas y distintas La herramienta de análisis de datos Prueba t para dos muestras suponiendo varianzas desiguales, permite contrastar la hipótesis de igualdad de medias de dos poblaciones normales, bajo el supuesto de que las varianzas poblacionales son desconocidas y distintas. Para acceder a ella hay que seleccionar la opción Análisis de datos del menú Herramientas. Por ejemplo, se puede contrastar la hipótesis de que el gasto turístico medio de los turistas repetidores y los no repetidores es el mismo, en el caso habitual de que no se conozcan las varianzas poblacionales, y suponiendo que éstas son diferentes para las dos poblaciones (Figura 31). Los resultados de este contraste son los de la tabla de la Figura 32. La presentación es la misma que en el caso anterior, aunque aquí no aparece la estimación de la varianza conjunta de ambas poblaciones, puesto que se supone que las varianzas son diferentes. 17 Figura 31 Figura 32 Media Varianza Observaciones Diferencia hipotética de las medias Grados de libertad Estadístico t P(T<=t) una cola Valor crítico de t (una cola) P(T<=t) dos colas Valor crítico de t (dos colas) GASTO NR GASTO R 75.055932 66.444738 299.04782 1019.6764 37 63 0 98 1.7480303 0.0417953 1.6605509 0.0835906 1.9844674 18 APLICACIONES DE INFERENCIA ESTADÍSTICA DE SPSS SPSS es una aplicación para el análisis estadístico y econométrico de datos. A continuación se presentan algunas de las herramientas básicas que ofrece este programa para la inferencia estadística. Para convertir un archivo de Excel en un archivo de SPSS es suficiente con abrir el archivo desde este programa y guardarlo. Si el archivo tiene varias hojas se tiene que indicar cuál es la que se quiere abrir, y si sólo quieren utilizarse parte de los datos hay que indicar cuál es el rango que se desea importar. Por ejemplo, en el archivo EDT2000, los datos están en la hoja EDT2000 y en el rango A1:K101 (Figura 33). Figura 33 1. AJUSTE DE LA DISTRIBUCIÓN DE UNA VARIABLE A LA NORMAL Habitualmente, poder suponer que las variables con las que se trabaja siguen una distribución normal, simplifica los instrumentos estadísticos que tienen que utilizarse para hacer inferencias sobre las características de estas variables. Un primer análisis que puede ayudar a decidir si es posible suponer que una determinada variable se distribuye normalmente, consiste en representar gráficamente los valores muestrales de esa variable mediante un histograma y ver como se ajusta a la curva normal. Para obtener esta representación gráfica mediante SPSS hay que seleccionar la opción Histograma del menú Gráfico. Se abre una ventana en la que hay que elegir la variable que se quiere graficar y activar la casilla Mostrar curva normal (Figura 34). Figura 34 19 2. ESTIMACIÓN DE PARÁMETROS Con SPSS, se pueden obtener determinados estadísticos muestrales utilizando la opción Estadísticos Descriptivos del menú Analizar. Seleccionando la opción Descriptivos se abre una ventada en la que se elige la variable o las variables que se van a utilizar (Figura 35). Pulsando el botón opciones se pueden elegir los estadísticos que se quieren obtener (Figura 36). Utilizando como ejemplo la variable DÍAS, se obtienen los resultados que aparecen en la Figura 37. En esta tabla se tiene el número de observaciones, la media muestral, el error estándar de la media muestral, la raíz de la varianza muestral corregida y la propia varianza muestral corregida. Figura 35 Figura 36 Figura 37 Estadísticos descriptivos DÍAS N válido (según lista) N Estadístico 100 100 Media Estadístico Error típico 9,98 ,42 20 Desv. típ. Estadístico 4,18 Varianza Estadístico 17,434 3. CONTRASTACIÓN DE HIPÓTESIS Si se selecciona la opción Comparar medias del menú Analizar aparecen las siguientes alternativas (Figura 38): Medias. Este comando permite calcular la media de una o varias variables, existiendo la opción de hacer los cálculos para el total de la muestra o separando por grupos de observaciones. En la casilla Dependientes se introducen las variables para las que se calculará la media. En la casilla Independientes se introducen las variables que, en su caso, servirán para formar los grupos. Pulsando el botón opciones se pueden elegir los estadísticos que quieren obtenerse. (Figura 41). Prueba T para una media. Con esta opción se puede hacer un contraste para la media de una población normal con varianza desconocida. En el botón opciones se puede elegir el nivel de significación. (Figura 43). Prueba T para muestras independientes. Esta opción realiza un contraste de igualdad de medias en dos poblaciones normales con varianzas desconocidas (iguales o distintas). Previamente realiza un contraste de igualdad de varianzas. En la casilla Contrastar variables se introducen las variables para las que se quieren comparar las medias, y en la casilla Variable de agrupación, la que se utilizará para distinguir los grupos. En el botón opciones se puede elegir el nivel de significación. (Figura 45). Figura 38 Ejemplo: Se crea una nueva variable que toma valor 1 si el turista es repetidor y valor 0 si no es repetidor. Para ello, se selecciona la opción Recodificar (En distintas variables) del menú Transformar. Se abre una ventana en la que se selecciona la variable a partir de la que se crea la nueva, se le da nombre y si se quiere se le pone una etiqueta para identificarla fácilmente. En nuestro caso, la variable original es repetici y la nueva variable se llamará repetido (Figura 39). 21 Figura 39 Pulsamos el botón Valores antiguos y nuevos para asignar los valores a la nueva variable. La variable repetido tomará valor 0 si la variable repetici tomaba valor 1, y tomará valor 1 en los demás casos (el valor 6 era no contesta y quedará igual) (Figura 40). Figura 40 Esta nueva variable se utilizará para comparar el gasto de los turistas repetidores y los no repetidores. En primer lugar, se calcula la media del gasto para los turistas repetidores, para los no repetidores y para el total de la muestra (Figura 41), obteniendo los resultados de la Figura 42. 22 Figura 41 Figura 42 Informe GASTO 1 repetidor 0 no repetidor ,00 1,00 Total Media 75,06 66,44 69,63 N 37 63 100 Desv. típ. 17,29 31,93 27,65 A continuación, se contrasta la hipótesis de que la media del gasto es igual a 64 euros (Figura 43), obteniendo los resultados de la Figura 44. Figura 43 Figura 44 Estadísticos para una muestra N GASTO 100 Media 69,63 Desviación típ. 27,65 Error típ. de la media 2,77 23 Prueba para una muestra Valor de prueba = 64 GASTO t 2,036 gl Diferencia de medias 5,63 Sig. (bilateral) ,044 99 95% Intervalo de confianza para la diferencia Inferior Superior ,14 11,12 Por último, se contrasta la hipótesis de igualdad de gasto medio, para los turistas repetidores y los no repetidores (Figura 45). Los resultados se presentan en la Figura 46. El p-valor del contraste de igualdad de varianzas es inferior a 0,05, por lo que se puede rechazar la hipótesis de igualdad de varianzas. Asumiendo que las varianzas son distintas, la fila relevante para el contraste de igualdad de medias es la segunda, en la que no se han asumido varianzas iguales (sombreada en la tabla de resultados). Figura 45 Figura 46 Estadísticos de grupo GASTO 1 repetidor 0 no repetidor 1,00 ,00 N 63 37 Media 66,44 75,06 Desviación típ. 31,93 17,29 Error típ. de la media 4,02 2,84 Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F GASTO Se han asumido varianzas iguales No se han asumido varianzas iguales 8,544 Sig. ,004 Prueba T para la igualdad de medias t gl Sig. (bilateral) Diferencia de medias Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior -1,513 98 ,133 -8,61 5,69 -19,90 2,68 -1,748 97,506 ,084 -8,61 4,93 -18,39 1,17 24 ANEXO 1. GENERACIÓN DE NÚMEROS ALEATORIOS Herramientas → Análisis de datos → Generación de números aleatorios Figura 47. Generación de 10 muestras de tamaño 5, suponiendo que la distribución poblacional es normal estándar 25 ANEXO 2. OBTENCIÓN DE HISTOGRAMAS Herramientas → Análisis de datos → Histograma Figura 48. Ejemplo Figura 49. Resultado 26 ANEXO 3. VARIABLES EN EL ARCHIVO EDT2000 En la siguiente tabla aparecen las variables contenidas en el archivo EDT2000, que se ha utilizado en algunos de los ejemplos de esta guía, y el significado de cada uno de sus valores. Variables EDAD Valores 1 Menos de 30 años 2 Entre 30 y 45 3 Entre 45 y 60 4 Más de 60 5 N/C NACIONALIDAD 1 Alemana 2 Británica 3 Española 4 Otras ALOJAMIENTO 1 Hotel 2 Apartamento/Chalet 3 Casa de amigos o familiares 4 Otros 1 Hostales y Hoteles de 1 y 2 * CATEGORÍA 2 Hotel 3* 3 Hoteles 4 y 5* 4 No hotel/hostal PAQUETE ¿Ha contratado un paquete turístico? 1 Sí 0 No Días de estancia DÍAS 1 Muy buena IMPRESIÓN 2 Buena 3 Normal 4 Mala 5 N/C REPETICIONES 1 Una vez 2 Dos veces 3 Tres veces 4 Cuatro veces 5 Más de cuatro veces 6 N/C VOLVER ¿Piensa volver de vacaciones a las Islas Baleares? 1 Sí 2 No 3 N/C GASTO Gasto total per càpita y día ANEXO 4. GUÍA PARA EL TRABAJO PROPUESTO En el trabajo se debe explicar lo siguiente: 1. Presentación y motivación del trabajo. Qué se pretende analizar y para qué. Fuentes de los datos. Se trata de presentar el marco en el que se va a desarrollar el trabajo, qué tema se va a tratar, qué es lo quiere conocerse y qué interés puede tener. Posteriormente, se deben comentar los datos que van a utilizarse para analizar las cuestiones planteadas, citando su fuente. 2. Análisis que se van a realizar. Una vez que se han indicado los objetivos del trabajo se indicará cuáles van a ser las técnicas estadísticas que se van a aplicar, a qué variables se van a aplicar cada una de ellas y por qué. 3. Resultados. Presentación de los resultados e interpretación de los mismos. 4. Conclusiones. El trabajo terminará con un resumen de los resultados obtenidos, dando respuesta a las cuestiones planteadas al inicio. 5. Bibliografía, si se ha utilizado. El trabajo debe entregarse de la siguiente forma: - Un disquette con el archivo de Excel en el que estén los datos y los cálculos realizados, de forma clara y organizada. 27 - En papel, la redacción del trabajo. En la primera hoja debe figurar el nombre del alumno, los estudios (LE o LADE) y el grupo. Fecha límite: Puedes encontrar datos en las siguientes webs: - Banco de España. http://www.bde.es/estadis/estadis.htm - Banco Central Europeo http://www.ecb.int/stats/stats.htm - Instituto Nacional de Estadística. http://www.ine.es/ (en INEBASE o en la base de datos TEMPUS). - Eurostat (Oficina de Estadística de la Comunidad Europea). http://europa.eu.int/comm/eurostat/ - Fondo Monetario Internacional. http://dsbb.imf.org/ - OCDE. http://www.oecd.org BIBLIOGRAFÍA Pérez, César (2002). Estadística Aplicada a través de Excel, Prentice Hall, Madrid. Pérez, César (2001). Técnicas Estadísticas con SPSS, Prentice Hall, Madrid. 28