TRABAJO FINAL METODOS ESTADISTICOS 1º Documentación Índice:

Anuncio
TRABAJO FINAL
METODOS ESTADISTICOS
1º Documentación
Índice:
Identificación de las variables:
justificación de la elección del −−−−−−−−−−−−−−−−−−−−−−−− Pág. 3−4
tipo de variable.
Análisis estadístico de cada −−−−−−−−−−−−−−−−−−−−−−−−−−−− Pág. 5−11
una de las variables:
Análisis conjunto de las −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Pág. 12−13
variables:
Conclusiones: −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Pág. 14
Bibliografía: −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Pág. 15
Identificación de las variables: justificación de la elección del tipo de variable.
He elegido dos variables para su estudio estadístico, estas son Nº de Bibliotecas públicas y Nº de Habitantes
de las Comunidades Autónomas.
La razón de la elección de estas dos variables, es el interés que tiene su estudio estadístico para los
profesionales de la información. Así podremos observar si el número de bibliotecas esta relacionado con el
numero de habitantes de las diferentes comunidades autónomas de España, así como, observar diferentes
aspectos de las mismas que sin su estudio estadístico no podríamos ver.
Estas dos variables proceden de un muestreo aleatorio, puesto que los individuos de la muestra se eligen al
azar, de modo que todos los individuos de la población tienen la misma probabilidad de ser elegidos.
Son variables cualitativas discretas, puesto que sus valores se expresan mediante números y además son
variables discretas, porque son valores aislados.
Estas variables han sido extraídas de las bases de datos del Instituto Nacional de Estadística de España y
ambas corresponden a datos extraídos de estudios pertenecientes al año 2005.
Las variables son:
CC. AA.
Andalucía
Aragón
Nº Habitantes Empadronados
7.849.799
1.269.027
Nº Bibliotecas Públicas
645
213
1
Asturias
Baleares
Canarias
Cantabria
Castilla León
C. Mancha
Cataluña
Valencia
Extremadura
Galicia
Madrid
Murcia
Navarra
País Vasco
Rioja
Ceuta
Melilla
1.076.635
983.131
1.968.280
562.309
2.510.849
1.894.667
6.995.206
4.692.449
1.083.879
2.762.198
5.964.143
1.335.792
593.472
2.124.846
301.084
75.276
65.488
103
112
167
36
276
438
412
458
394
325
90
43
80
225
23
2
1
Análisis estadístico de cada una de las variables:
• Tabla de frecuencias:
X = Nº de Bibliotecas Públicas
Y
1
2
23
36
43
80
90
103
112
167
213
225
276
325
394
412
438
458
645
ni
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Ni
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Fi
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
2
19
1
100%
Y = Nº de Habitantes Empadronados
Y
65.488
75.276
301.084
562.309
593.472
983.131
1.076.635
1.083.879
1.269.027
1.335.792
1.894.667
1.968.280
2.124.846
2.510.849
2.762.198
4.692.449
5.964.143
6.995.206
7.849.799
ni
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
19
Ni
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Fi
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
0,05263158
1
%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
5,20%
100%
• Gráficos:
Variable X = Nº de Bibliotecas Públicas
3
4
Variable Y = Nº de Habitantes Empadronados
5
(X 1, E6)
6
(X 1, E6)
• Medidas de centralización:
♦ Media:
;
;
♦ Mediana:
7
Es el centro físico de los datos, ordenados de mayor a menor, por lo tanto:
Me X = 167
Me Y = 1.335.792
♦ Moda:
Es el valor que aparece con una frecuencia mayor, puede haber más de una moda: unimodal, bimodal,
trimodal, plurimodal.
En este caso, para ambas variables la moda será plurimodal.
Mo X = todo los valores que aparecen puesto que todos tiene frecuencia 1
Mo Y = todo los valores que aparecen puesto que todos tiene frecuencia 1
♦ Cuartiles:
Para X:
Se coge el valor de la tabla de frecuencias absolutas que sea inmediatamente mayor a 4,75, por lo tanto:
Y se realiza lo mismo con los demás cuartiles:
8
Para Y:
Se coge el valor de la tabla de frecuencias absolutas que sea inmediatamente mayor a 4,75, por lo tanto:
Y se realiza lo mismo con los demás cuartiles:
• Medidas de dispersión:
♦ Varianza:
Para X:
Para Y:
♦ Desviación típica:
Para X:
Para Y:
♦ Coeficiente de Variación:
9
Para X:
Para Y:
Análisis conjunto de las variables:
• Ajustar un modelo de regresión simple:
Así lo muestra el programa Statgraphics:
• Escribir la ecuación del modelo resultante. Dibujar el diagrama de dispersión correspondiente y la
recta ajustada. Obtener el coeficiente de correlación lineal y el coeficiente de determinación.
La ecuación del modelo resultante es:
Nº Habitantes Empadronados =
453950 + 8776,52*Nº Bibliotecas públicas
♦ Diagrama de dispersión:
10
♦ Coeficiente de correlación lineal:
♦ Coeficiente de determinación:
Conclusiones:
Respecto al Análisis descriptivo de cada una de las variables, los valores y datos hallados para las dos
variables muestran un resumen estadístico de las mismas, de particular interés están los coeficientes de
asimetría y curtosis estandarizados que se pueden utilizar para determinar si la muestra procede de una
11
distribución normal. Tanto de una variable como de la otra los valores estadísticos fuera del rango de −2 a +2
indican alejamiento significante de normalidad que tendería a invalidar cualquier test estadístico respecto a la
desviación normal. En este caso, el valor del coeficiente de asimetría estandarizado no esta dentro del rango
esperado para los datos de una distribución normal. El valor del coeficiente de curtosis estandarizado esta
dentro del rango esperado para los datos de una distribución normal.
Respecto al Análisis conjunto de las variables, al comprobar la ecuación del modelo ajustado podemos aclara
muchas cosas, existe relación estadísticamente significativa entre Nº de Habitantes Empadronados y Nº de
Bibliotecas públicas para un nivel de confianza del 99%.
El estadístico R cuadrado indica que el modelo explica un 48,9% de la variabilidad en Nº de Habitantes
Empadronados. El coeficiente de correlación, indica una relación moderadamente fuerte entre las variables. El
error estándar de la estimación muestra la desviación típica de los residuos que es 1726000. El error absoluto
medio de 1068690 es el valor medio de los residuos. Se examinan los residuos para saber si hay alguna
correlación significativa. Dado que el valor es superior a 0,05 no hay indicio de auto correlación serial en los
residuos.
Bibliografía:
PEÑA, Daniel. Fundamentos de Estadística. Madrid: Alianza Editorial.
2001. 683 p. ISBN 84−206−8696−4.
Otros: Instituto Nacional de Estadística de España. http://www.ine.es [Consulta 8 de Septiembre de 2006]
Manugistics, Inc. Statgraphics Plus Versión 5. http://www.statgraphics.com [Consulta 8 de Septiembre de
2006]
Apuntes Asignatura Métodos Estadísticos. Curso 2005−2006.
14
12
Descargar