Ejercicios del curso

Anuncio
Nota: estos ejercicios han sido extraídos del libro “Estadística aplicada al Turismo” del autor
más idolatrado por las masas de la EUM, José María Raya Vílchez, y próximamente será
puesto a la venta por la editorial Prentice Hall. El autor estará todos los martes de 10 a 12h y
todos los jueves de 8 a 10h en la EUM con sus discípulos de Estadística de Turismo firmando
ejemplares a todo aquel/aquella fan que lo desee.
Análisis unidimensional: ejercicios propuestos
Ejercicios previos
1. Construye una lista de números tal que el valor mínimo sea 2, el máximo 20, el
primer cuartil sea 5, el tercero 19 y la mediana 10.
2. Un estudio sobre el nivel ocupacional en los hoteles revela que 90 millones de
pernoctaciones correspondieron a viajeros extranjeros y 50 millones a viajeros
nacionales. Por países, fueron los turista de Alemania quienes realizaron
mayor número de pernoctaciones con 35 millones, seguidos de los franceses
con 20 millones y los procedentes del Reino Unido con 17 millones. Otras
naciones se reparten el resto. Indica ante qué tipo de variable nos
encontramos. Dibuja un gráfico adecuado para estos datos.
3. Durante el mes de abril del año 2003 se realizó un estudio sobre el coste del
menú en 6 restaurantes de la costa azul.
Paralelamente, se analizó la
demanda de los mismos. Los datos resultantes son:
Menús
Precio
Menús solicitados
A
12
500
B
26
750
C
20
700
D
13
450
E
30
900
F
17
590
Determina:
a) La media aritmética de los precios y la demanda.
b) El coeficiente de variación de ambas variables.
c) Comenta los resultados
4. El grado de ocupación de las zonas turísticas con más número de turistas,
durante el año 2003 se prevee:
Zonas turísticas
Grado de ocupación prevista
Costa de Alicante
60
Costa Brava
50
Costa del sol
50
Palma-Calviá
57
Sur de Gran Canaria
70
Calcula:
a) La media de la ocupación prevista de estas zonas
b) El coeficiente de variación
c)Comenta los resultados
5. Una agencia de viajes de Granada ha vendido durante un año 50.000 billetes
de avión y 90.000 de tren. Se sabe que la media aritmética de ventas de
billetes de avión de las agencias en dicha población es de 45000 con una
varianza de 2000 y que las ventas de billetes de tren muestra una media de
75000 con una desviación de 1500. Calcula en qué tipo de billetes se
encuentra más aventajada dicha agencia respecto a su competencia.
6. Tras realizar un estudio del número de personas que acuden los lunes al
campo de Golf de un hotel cercano al Montseny, se obtuvieron los siguientes
resultados: media=100, mediana=95.5 y moda=107.5
a) Determina si es grande o pequeño el grado de asimetría de dicha
distribución
b)
¿Cuál es el signo de la asimetría de la misma?¿Cómo sería
aproximadamente su representación gráfica?
7. La media de edad de 9 personas es de 40 años. Entra una de 36. ¿Cuál es la
nueva edad media?¿Puedes determinar la mediana de esas 10 personas?
8. Dos diplomadas de Turismo con diferente grado de experiencia han recibido
dos ofertas de trabajo. A la primera le han ofrecido un sueldo de 13.000€ y a la
segunda le han ofrecido 20.500€. Sabemos que la distribución de sueldos
correspondiente a la categoría de la primera persona tiene una media de
14500€ y una desviación típica de 1000€. Por otro lado, la distribución
correspondiente al trabajo que han ofrecido a la segunda diplomada tiene una
media de 21000€, con desviación típica de 1500€. ¿Cuál de las dos personas
ha recibido una mejor oferta en relación a su categoría?
9. Para un conjunto de datos la media es 80.5, la mediana 84, la desviación típica
10.5, el cuartil primero 75.5 y el cuartil tercero 96.
a)¿Qué porcentaje de las observaciones están por encima de 96?¿Qué
porcentaje son menores o iguales a 84?
b)¿Qué porcentaje de datos caería dentro del intervalo (59.5, 101.5) si
aplicamos la regla de Chebychev?¿Qué porcentaje caería dentro de ese
intervalo si la distribución fuese normal?¿Y dentro del intervalo (49, 112)?
Ejercicios tipo
1. Las siguientes series de datos reflejan el número de veces al año que tres familias
diferentes han ido de viaje durante los últimos 24 años:
F1 6 12 13 3 5 6 13 10 10 6 9
F2 2 3
10 8 3 2 4 11 3 2 4 4 6
7
8
1
1
7 0 5 2
6
8
6 10 4
5 6 2 1 6
9 3 4 5 10 3
F3 1 20 2
4 6 6 8
5
3
2 4
4 3 6 3 7
3 5 8 7 1
5
11 1
a) Tabula los datos.
b) Dibuja para cada familia los diagramas de tallo y hojas para cada
familia. Escoge diferentes agrupaciones.
c) Compara las familias. Calcula alguna medida de centralización y
dispersión para ello.
2. Los siguientes datos reflejan el gasto en € realizado por 26 turistas en Salou durante
su estancia en el 2003. Los datos no cuentan lo que forma parte del “pack”. Es decir,
el viaje, el alojamiento y media pensión. Son: 500, 100, 750, 550, 600, 900, 1200, 750,
540, 890, 950, 900, 1050, 1020, 670, 800, 1300, 850, 1050, 1100, 1400, 640, 580, 700,
980, 570.
a) Calcula el porcentaje de valores de gasto superiores a 700 y el porcentaje de
valores de gasto que se sitúan entre 650 y 990
b) Encuentra la distribución de frecuencias relativas con clases: 500-600, 600900, 900-1100, 1100-1400 y represéntala en un histograma
c) Encuentra y distribución de frecuencias relativas con clases iguales que te
parezca adecuada, representa el histograma y en base al histograma, calcula:
c.1) El porcentaje de valores de gasto superiores a 850
c.2) El porcentaje de valores de gasto entre 550 y 900.
c.3) Desde la oficina de turismo de Salou se pretende incentivar al 25%
que más gastaron en sus vacaciones ofreciéndoles un descuento de un
10% en cualquier “pack” que escojan en la temporada del 2004(siempre
que el destino sea Salou, naturalmente). ¿Cuál ha debido ser el gasto
mínimo en el 2003 realizado por las familias premiadas?
3. Los siguientes datos reflejan la distancia en km que diversos alojamientos de la
provincia de Barcelona tienen respecto al centro de la capital:38, 38, 65, 23, 23, 18,
18, 28, 40, 28, 65, 65, 72, 50, 40, 38, 18. Todos estos alojamientos son los que
presentan un precio más ajustado dentro de los que posee una agencia y son
utilizados en las temporadas de otoño, invierno y primavera. Contesta:
a) Dibuja el gráfico que resulta más adecuado para este tipo de datos.
b) ¿Cuál es la distancia media de los alojamientos? ¿y la distancia
mediana?
c) Calcula los percentiles 10 y 90. Escribe una frase interpretando el
valor obtenido.
d) Calcula
los
tres
cuartiles
y
dibuja
el
diagrama
de
caja
correspondiente a la distribución de los datos. Coméntalo.
e) ¿Consideras que la anterior media es representativa del conjunto de
datos?
f)
¿Puede considerarse la distribución de datos simétrica?¿Qué tipo
de apuntamiento presenta?
g) Resume en unas pocas líneas la información obtenido a partir de los
cálculos.
4. La siguiente tabla muestra la distribución de la distancia en km que tuvieron que
recorrer los espectadores que acudieron a la fase final de la Euroliga de Baloncesto
celebrada en Barcelona en el 2003.
KM
Porcentaje
[0, 250)
30
[250,500)
5
[500,750)
10
[750,1000)
10
[1000,1250)
10
[1250,1500)
10
[1500,1750)
5
[1750,2000)
5
[2000,2250)
10
[2250,2500]
10
a) Dibuja el histograma de frecuencias y comenta su forma
a) Calcula los percentiles 10 y 90. Escribe una frase interpretando los valores
obtenidos
b) Tomando como marca de clase el punto medio de cada intervalo, calcula la media y
la mediana de los datos.
c) ¿Qué medida de centralización encuentras más adecuada dada la tipología de
datos?
d) Calcula una medida de dispersión que consideres adecuada.
e) Comenta qué tipo de asimetría y apuntamiento, presentan, a tu juicio, los datos,
5. Con el objetivo de conocer hasta qué punto aumenta el ruido en su ciudad en
temporada alta, el ayuntamiento de Marbella ha recogido un conjunto de medidas del
nivel de ruido del transporte, en decibelios, en un importante cruce de su ciudad: 55.9,
56.4, 60.4, 63.3, 67.2, 54.3, 64.0, 55.8, 60.1, 67.8. 76.3, 59.8, 66.2, 69.3, 55.2, 72.7,
58.2, 61.3, 62.6, 70.0, 65.7.
a) Agrupa los datos en clases o intervalos
b) Confecciona una tabla con las clases, las marcas de clase y las frecuencias.
c) Realiza un histograma
d) Añade al diagrama anterior el polígono de frecuencias.
e) ¿Cuál sería el valor que dejaría por debajo al 50% de la población, y al 75% y al
90%?¿Cómo se llaman estos valores?
f) Determina el valor del percentil 10. Explica su significado
f) Utiliza la regla de Chebychev para determinar que porcentaje de medidas se
_
_
tendrían que encontrar entre x ± 2s, x ± 3s. Compara los valores obtenidos con el
número de datos que se encuentran realmente en dichos intervalos. Comenta los
resultados.
g) Utiliza alguna medida de dispersión adicional para mejorar tu análisis de la misma.
6. La siguiente tabla muestra la distribución de la renta, en $, de los espectadores que
siguieron la gira “Ziggy Stardust” de David Bowie en 1972, en todo el mundo. Dicha
gira, una de las más exitosas de todos los tiempos, sirve a las principales agencias
mundiales como referencia para conocer el tipo de público que asiste a estos grandes
acontecimientos como el tour “The rising” de Bruce Springsteen del 2003 y poner el
precio a los paquetes turísticos promocionales.
Ingresos
Porcentaje
[0,1000)
1
[1000,2000)
2
[2000,3000)
3
[3000,4000)
4
[4000,5000)
5
[5000,6000)
5
[6000,7000)
5
[7000,10000)
15
[10000, 15000)
26
[15000, 25000)
26
[25000, 50000)
8
[50000, 125000)
2
a) Dibuja el histograma de frecuencias y comenta su forma. Consta dicha impresión
con los cálculos del coeficiente de asimetría y curtosis.
b) Calcula el percentil 10 y 90. Escribe una frase que comente el sentido de dichos
valores
c) Calcula la media y la desviación estándar. Dibuja el diagrama de caja. Comenta la
dispersión de la variable
d) ¿Qué medida de centralización consideras más adecuada? Justifica tu respuesta.
e) Dibuja la curva de Lorenz y calcula alguna medida de concentración. Comenta los
resultados
1. La siguiente tabla muestra los sueldos en € de los empleados de una agencia
turística:
1200 1350 1200 1450 800 800 2100 1500 1350 1200
a) Calcula la media y la desviación típica
b) Si se decide un aumento lineal para todos los trabajadores, ¿en cuánto
aumenta la media?¿ Y la varianza?
c) Si se decide un aumento del sueldo en un 15%, ¿en cuánto aumenta la
media?¿ y la varianza?
d) Si se aumenta el sueldo del trabajador que más cobra en 500€, ¿cómo
aumenta la media?¿Y si se hace ello con el trabajador que menos cobra?
e) Calcula el coeficiente de variación y comenta si la media es una medida
representativa.
f)
Calcula alguna medida de concentración y comenta los resultados
Ejercicios con SPSS
A partir de la base de datos ENALGUNLUGAR.SAV. Contesta:
1. Realizar la tabla de frecuencias de tus nuevas variables edad y hotel así como de la
variable destinaciones. ¿Qué pasaría si hubieras hecho la tabla de frecuencias de la
variable eda tal y como la tenías al principio?¿O si lo hubieras hecho de la variable
precio noche?¿Qué deberías de hacer para solucionar dicho problema?
2. Realiza las estadísticas descriptivas de tus variables más interesantes.
3. ¿Qué variable presenta mayor dispersión?
4. Se halla la edad media en el intervalo de mayor frecuencia?
5. ¿Cuál es el país más representado en la muestra?
6. Califica el número de estrellas de los hoteles de tu muestra
7. Utiliza el diagrama “boxplot” para comentar la dispersión de alguna variable.
Análisis bidimensional: ejercicios propuestos
Ejercicios previos
1. En la tabla siguiente se observan los resultados de una encuesta que cruza grupos
de edad con sus preferencias en cuanto al medio de transporte a utilizar durante sus
vacaciones:
Jóvenes
Adultos
Grandes
Autobús
20
12
15
Coche
15
20
16
Moto
17
12
8
Bicicleta
10
5
12
a) Calcula el porcentaje de individuos que son adultos sobre el total que van en
autobús
b) Del total de individuos encuestados, ¿qué porcentaje son jóvenes y prefieren utilizar
la bicicleta?
c) Calcula las distribuciones marginales.
2. El 70% de la población de La Habana durante verano son hombres y el 30% de la
población total tiene más de 35 años, ¿Cuál es el porcentaje de la población que son
hombres mayores de 35 años?
3. Supongamos que todos los turistas que van a las estaciones de esquí del Pirineo
por semana santa se gastan un 25% de su sueldo mensual durante su estancia. ¿Cuál
será el coeficiente de correlación entre las variables X(sueldo mensual) e Y(Gasto en
turismo de esquí durante semana santa en el Pirineo)?
4. ¿Qué signo presentará el coeficiente de correlación entre la edad de un coche de
segunda mano y su alquiler diario?
5.Tenemos los siguientes datos: n=26
Σx=1287 Σy=1207 Σx2=66831 Σy2=59059
Σxy=62262. Calcula el coeficiente de correlación lineal de Pearson.
6.¿Qué tipo de dependencia intuyes, a priori, entre el número de banderas rojas de
una playa durante la temporada de baño y el número de visitantes de las mismas?
7.Comenta las siguientes frases:
a)”Si la ordenada de una regresión es 0, la recta pasa por el origen de ordenadas”
b) ”Los coeficientes β y β’ no tienen por qué presentar el mismo signo”
c) ”La nube de puntos entre dos variables cuyo coeficiente de correlación es nulo
tendrá forma de 0”
d) “El signo del coeficiente de determinación depende del signo de la varianza de los
residuos”
e)”Un coeficiente de correlación entre de 1 o –1 indica una dependencia funcional”
Ejercicios tipo
1. El gestor de una agencia de viajes realiza una sondeo para conocer la actitud de
sus comerciales, personal administrativo y becarios en referencia a una reducción
proporcional de sus sueldos que se utilizaría para la mejora de la calefacción, el aire
acondicionado y el hilo musical de su lugar de trabajo.
A favor
Indiferente
En contra
Comercial
4
4
13
P.A.S
5
8
13
Becarios
10
15
10
a) Completa la tabla. Determina las distribuciones marginales
b) Del total de becarios, ¿qué porcentaje se muestra indiferente?
c) Entre los comerciales, ¿qué porcentaje está a favor?¿Y entre el P.A.S?
d) De los que están a favor, ¿qué porcentaje son becarios?¿Y comerciales?
e) De los que están a favor, ¿cuántos son comerciales?¿Y P.A.S?
f) Estudia la asociación o independencia de ambos atributos.
2. La siguiente tabla muestra la tasa de paro del sector turístico en España en función
de su edad para el año 2000.
Edad
Tasa de paro
22
20%
27
15%
32
10%
37
8%
42
7%
47
6%
52
9%
57
10%
62
8%
67
3%
a) Dibuja el diagrama de dispersión y calcula el coeficiente de correlación. Comenta
las ventajas que tiene la utilización del coeficiente de correlación en relación ala
covarianza.
b) Calcula la recta de regresión entre la tasa de paro y la edad. Comenta los
resultados
c) ¿Cuál sería según tu recta la tasa de paro que correspondería al grupo de edad de
40 años?
d) Calcula el coeficiente de bondad del ajuste y comenta su resultado.
e) Realiza los contrastes de significación para la pendiente y la constante de tu
modelo. Comenta los resultados.
3. Una importante agencia de viajes quiere realizar un estudio entre el aumento en sus
gastos en publicidad y el incremento en sus ventas. La tabla adjunta muestra los
resultados recogidos para los últimos años:
% Aumento en publicidad
0
11
9
8
6
7
10
% Aumento en ventas
2
8
7
9
3
5
11
a) Dibuja la nube de puntos y coméntala.
b) ¿Tiene sentido el coeficiente de correlación lineal? Justifica tu respuesta.
c) Calcula la recta de regresión. Interpreta su resultado.
d) Haz una previsión sobre el aumento de las ventas en el caso de que la publicidad
se aumente en un 15%.
e) ¿Cuánto vale el coeficiente de determinación? Justifica tu respuesta.
4. El director de un camping de Loredo ha observado durante la temporada de verano
la temperatura media de cada semana y los litros de agua que los clientes han
comprado en el supermercado.
Temperatura
Litros de agua
22
1000
31
1950
30
1800
28
1750
25
1600
26
1550
30
2000
20
1050
18
900
a) Dibuja la nube de puntos
b) Calcula el coeficiente de correlación y coméntalo.
c)¿Puede planificar el supermercado del camping la cantidad de litros de agua a
encargar a sus proveedores en función de la temperatura esperada? Realiza los
cálculos necesarios para ello.
d)¿Qué cantidad de agua se necesitaría si se espera una temperatura de 32 grados?
e)¿Cómo puedes calificar el ajuste que has realizado? Ayúdate del coeficiente de
determinación
f) Realiza el contraste de la hipótesis de no significación de la pendiente de la
regresión, es decir, de que la temperatura no influencia los litros de agua comprados.
5. Una consultora turística pretende realizar un estudio de mercado. En particular, le
interesan las opiniones de un grupo de control, según su edad, sobre un nuevo
producto turístico que relaciona el tiempo libre con la salud y que le ha sido encargado
por un gran complejo hotelero.
Malo
Normal
Bueno
Niños
30
80
75
Jóvenes
90
45
40
Adultos
20
90
100
Total
Total
a) ¿Qué porcentaje de niños encuentran el nuevo producto bueno?¿Qué porcentaje de
la muestra son jóvenes y encuentran el producto malo?
b) ¿Qué porcentaje de las personas que encuentran el producto bueno son niños o
adultos?
c)Estudia la independencia o asociación de estos atributos
6. Los siguientes datos reflejan la relación entre el precio de habitación diario y el
número de estrellas de varios hoteles de Calella en verano.
Y=Precio
120 90 40 20
X=Num.estrellas 5
4
2
1
a) Dibuja la nube de puntos
b) Calcula el coeficiente de correlación y coméntalo.
c) Calcula la recta de regresión entre el precio y el número de estrellas del hotel.
Coméntala
d) ¿Cuál sería el precio esperado por parte diario si te quieres alojar en un hotel de
tres estrellas?
e)¿Cómo puedes calificar el ajuste que has realizado? Ayúdate del coeficiente de
determinación
f) Realiza el contraste de la hipótesis de no significación de la pendiente de la
regresión, es decir, de el número de estrellas del hotel no influencia el precio diario de
una habitación.
Ejercicio con SPSS
A partir del fichero Salarios.xls
a) Realiza el diagrama de dispersión entre la variable salario hora y nivel de
educación.
b) Calcula el coeficiente de correlación y la recta de regresión entre el salario hora y el
nivel de educación.
c) Comenta los siguientes resultados: la pendiente, el coeficiente de determinación y
sus componentes y el contraste de significación.
d) Realiza la regresión entre el salario hora como variable dependiente y las variables
años de experiencia, nivel de educación y sexo como variables independientes.
Comenta los mismos resultados que en c).
e) Compara la regresión del apartado b) con la regresión del apartado c).
Series temporales: ejercicios propuestos
Ejercicios tipo
1. Se ha analizado la serie temporal correspondiente a los empleos netos creados por
los Juegos Europeos del deporte y la salud en los últimos cinco años a partir de los
datos trimestrales de los distintos países donde se han celebrado. La tendencia viene
dada por la siguiente recta de regresión: T=342.3+6.7t (donde t es el número de
trimestre desde 1 a 20). Los coeficientes de variación estacional viene dados en la
siguiente tabla.
Trimestre
Coeficiente de variación estacional
1
0.8
2
1.2
3
0.9
4
1.3
Encuentra los valores predichos de la serie para el primer año de celebración de los
Juegos, teniendo en cuenta la tendencia y la variación estacional. Calcula igualmente
la predicción para los juegos del próximo año(2004) que se celebrarán en Mataró.
2. Se conoce que el precio de las comidas servidas en diversos restaurantes de León
durante las siguientes estaciones y años( en euros):
1995
1996
1997
1998
Primavera
18
18,3
18,6
18,4
Verano
27,7
27,5
29,4
30,5
Otoño
21
22,1
21,8
23,7
Invierno
17,5
18,2
19,4
19,7
Se pide:
a) Descomponer dicha serie temporal en sus componentes no observados. Calcula la
tendencia por los dos métodos que conoces(determinista y evolutiva).
b) Obtener el índice de variación estacional
c) Desestacionalizar la serie temporal
d) Comentar la existencia de autocorrelación en la serie
e) Representar gráficamente el índice de variación y la serie desestacionalizada.
3. Una agencia de viajes de Madrid declara los ingresos que obtiene según la estación
del año, durante el periodo 1998-2001 en millones de euros
1998
19999
2000
2001
Primavera
7,2
8,4
8,6
8,2
Verano
10,4
10,5
11
10,9
Otoño
6,3
6,7
6,9
6,6
Invierno
4,5
4,4
4,8
4,6
Calcula:
a) Los componentes de dicha serie temporal. Calcula la tendencia por el método de las
medias móviles
b) La serie desestacionalizada
Ejercicio con SPSS
Entra en la web del Instituto de estadística de tu comunidad autónoma1(por ejemplo
dicha web para Cataluña es www.idescat.es ). Bájate alguna de las series que hacen
referencia al sector turístico.
Realiza:
a) La gráfica de la serie.
b) La descomposición temporal de la serie que hayas escogido. Calcula la
tendencia por los dos métodos que conoces(determinista y evolutiva).
c) Obtén la serie desestacionalizada y comprueba si la serie presenta
autocorrelación.
d) La gráfica de la serie desestacionalizada y del índice de variación estacional.
1
En la web del Instituto Nacional de Estadística(www.ine.es) tienes un link a todas ellas.
Descargar