Subido por A Max Ricardo Heredia

muestreo

Anuncio
DPTO. MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA
UNIVERSIDAD DE GRANADA
AMPLIACIÓN
DE
TÉCNICAS CUANTITATIVAS
TEORÍA, EJERCICIOS Y PRÁCTICAS
1
2
INFORMACIÓN GENERAL (Exámenes, temario, bibliografía,...) . . . . . . . .
6
APUNTES:
1. Elementos del problema de muestreo. . . . . . . . . . . . . . . . . . . . . . . .
1.1 Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Selección de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Errores de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Errores de no muestreo. . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Métodos de recolección de datos. . . . . . . . . . . . . . . . . . . . . . . .
1.5 Diseño del cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Planificación de la encuesta. . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Razones para el uso del muestreo. . . . . . . . . . . . . . . . . . . . . . .
11
11
12
13
13
15
16
16
16
17
2. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas
aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . .
2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de
estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
2.2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
2.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . .
2.3.1 Estimación de la media, proporción y total poblacionales. . . . . . .
2.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
23
24
25
27
30
3. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Selección de una muestra aleatoria estratificada. . . . . . . . . . . . . . . .
3.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
3.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .
3.4 Asignación de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Asignación óptima. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Asignación de Neyman. . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3 Asignación proporcional. . . . . . . . . . . . . . . . . . . . . . . .
3.5 Estratificación después de seleccionar la muestra. . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
38
39
42
43
43
44
44
50
52
4. Muestreo con información auxiliar. . . . . . . . . . . . . . . . . . . . . . . . .
4.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Estimación de razón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
4.2.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
4.3 Estimación de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
4.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
4.4 Estimación de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
4.4.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
63
63
64
65
68
69
70
71
72
72
74
18
19
19
3
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Selección de una muestra sistemática. Usos. Ventajas. . . . . . . . . . . . .
5.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas,
aleatorias y periódicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
75
82
82
84
86
5.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .
88
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
6. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . .
6.2 Formación de los conglomerados. Conglomerados y estratos. . . . . . . . .
6.3 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
6.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
92
92
92
97
98
7. Estimación del tamaño de la población. . . . . . . . . . . . . . . . . . . . . . .
7.1 Muestreo directo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Muestreo inverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Muestreo por cuadros.
7.3.1 Estimación de la densidad y tamaño de la población. . . . . . . . .
7.3.2 Muestreo por cuadros en el espacio temporal. . . . . . . . . . . . .
7.3.3 Cuadros cargados. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
108
108
109
8. Indicadores estadísticos regionales. . . . . . . . . . . . . . . . . . . . . . . . .
8.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Medidas de desigualdad-concentración regional. . . . . . . . . . . . . . . .
8.2.1 Curva de Lorenz. Índice de Gini. . . . . . . . . . . . . . . . . . . .
8.2.2 Coeficiente de Theil. Índice de Theil. . . . . . . . . . . . . . . . . .
8.2.3 Desigualdad individual y colectiva. . . . . . . . . . . . . . . . . . .
8.3 Medidas de dispersión regional. . . . . . . . . . . . . . . . . . . . . . . . .
8.4 Coeficiente de asociación geográfica de Florence. . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
117
117
117
117
119
123
126
126
128
9. Medidas de localización espacial. . . . . . . . . . . . . . . . . . . . . . . . . .
9.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Cocientes de localización y especialización. . . . . . . . . . . . . . . . . . .
9.3 Coeficientes de localización sectorial. . . . . . . . . . . . . . . . . . . . . .
9.4 Coeficientes de especialización regional. . . . . . . . . . . . . . . . . . . . .
9.5 Coeficientes de diversificación. . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
130
130
131
132
134
136
137
10. Contrastes χ 2 de Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.1 Contrastes χ 2 de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . .
10.2 Contrastes χ 2 de independencia. . . . . . . . . . . . . . . . . . . . . . . .
10.3 Contrastes χ 2 de homogeneidad. . . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
143
110
112
112
114
143
147
150
152
11. Inferencia no paramétrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. . . . . . . . . . .
11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. . . . . . . . . . . . .
11.3 Contraste de Mann-Whitney. . . . . . . . . . . . . . . . . . . . . . . . . .
11.4 Test de las rachas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.5 Test de los signos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.6 Test de Wilcoxon de los signos-rangos. . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
162
162
165
168
176
178
179
181
EJERCICIOS:
Ejercicios del capítulo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
190
196
207
217
220
230
234
236
240
248
PRE-PRÁCTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
259
PRÁCTICAS:
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introducción al SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
276
279
286
293
311
317
320
327
330
333
337
351
366
FORMULARIOS Y TABLAS ESTADÍSTICAS . . . . . . . . . . . . . . . . .
381
5
INFORMACIÓN GENERAL
Licenciatura: Economía
Carácter: Obligatoria
Créditos: 4,5
Periodo lectivo: Segundo curso. Segundo cuatrimestre.
Departamento: Métodos Cuantitativos para la Economía y la Empresa
Objetivos de la Asignatura:
o Completar los conocimientos previos de estadística con el estudio de nuevos conceptos
en muestreo en poblaciones finitas, técnicas cuantitativas para el análisis regional e
inferencia no paramétrica, dotando al alumno de las herramientas estadísticas e
informáticas necesarias para poder abordar la resolución de supuestos prácticos.
o La asignatura es de tipo teórico-práctico. Se considera fundamental la comprensión de
los conceptos, la capacidad de elección del método en la resolución de los problemas
prácticos que se planteen, la solución de dichos problemas mediante la hoja de cálculo
Excel y el paquete estadístico SPSS, así como la interpretación de los resultados.
o Una hora de clase a la semana será en el aula de informática donde se utilizarán los
programas Excel y SPSS.
Sistema de Evaluación:
• En cualquiera de las convocatorias de examen de esta asignatura se realizarán dos
pruebas: una escrita (valorada en al menos el 60% de la calificación) y otra con
ordenador (valorada como máximo en el 40% de la calificación), siendo necesario
superar como mínimo un 35% en cada una para hacer media y en su caso aprobar la
asignatura. En ambas pruebas los alumnos podrán utilizar el “formulario” (con todas
las expresiones utilizadas en la asignatura) y las “tablas estadísticas”, dicha
información se facilitará por internet y/o en la fotocopiadora del centro. También se
permite el uso de calculadora no programable en la prueba escrita.
• Los alumnos podrán ser evaluados mediante un examen previo a la convocatoria
oficial de Junio. La superación de este examen o parte del mismo eximirá de la
realización de todo el examen final (escrito y ordenador) o de alguna de las partes en
esa convocatoria.
6
TEMARIO
1. Elementos del problema de muestreo.
1.1 Definiciones básicas.
1.2 Selección de la muestra.
1.3 Fuentes de error.
1.3.1 Errores de muestreo.
1.3.2 Errores de no muestreo.
1.4 Métodos de recolección de datos.
1.5 Diseño del cuestionario.
1.6 Planificación de la encuesta.
1.7 Razones para el uso del muestreo.
2. Muestreo aleatorio simple.
2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.
2.2 Muestreo aleatorio simple en poblaciones infinitas.
2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de
estimación.
2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
2.2.3 Determinación del tamaño muestral.
2.3 Muestreo aleatorio simple en poblaciones finitas.
2.3.1 Estimación de la media, proporción y total poblacionales.
2.3.2 Determinación del tamaño muestral.
3. Muestreo aleatorio estratificado.
3.1 Selección de una muestra aleatoria estratificada.
3.2 Estimación de la media, proporción y total poblacionales.
3.3 Determinación del tamaño muestral.
3.4 Asignación de la muestra.
3.4.1 Asignación óptima.
3.4.2 Asignación de Neyman.
3.4.3 Asignación proporcional.
3.5 Estratificación después de seleccionar la muestra.
4. Muestreo con información auxiliar.
4.1 Introducción.
4.2 Estimación de razón.
4.2.1 Estimación de la media y total poblacionales.
4.2.2 Determinación del tamaño muestral.
4.3 Estimación de regresión.
4.3.1 Estimación de la media y total poblacionales.
4.3.2 Determinación del tamaño muestral.
4.4 Estimación de diferencia.
4.4.1 Estimación de la media y total poblacionales.
4.4.2 Determinación del tamaño muestral.
5. Muestreo sistemático.
5.1 Selección de una muestra sistemática. Usos. Ventajas.
5.2 Estimación de la media, proporción y total poblacionales.
5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias
y periódicas.
7
5.4 Determinación del tamaño muestral.
6. Muestreo por conglomerados.
6.1 Necesidad y ventajas del muestreo por conglomerados.
6.2 Formación de los conglomerados. Conglomerados y estratos.
6.3 Estimación de la media, proporción y total poblacionales.
6.4 Determinación del tamaño muestral.
7. Estimación del tamaño de la población.
7.1 Muestreo directo.
7.2 Muestreo inverso.
7.3 Muestreo por cuadros.
7.3.1 Estimación de la densidad y tamaño de la población.
7.3.2 Muestreo por cuadros en el espacio temporal.
7.3.3 Cuadros cargados.
8. Indicadores estadísticos regionales.
8.1 Introducción.
8.2 Medidas de desigualdad-concentración regional.
8.2.1 Curva de Lorenz. Índice de Gini.
8.2.2 Coeficiente de Theil. Índice de Theil.
8.2.3 Desigualdad individual y colectiva.
8.3 Medidas de dispersión regional.
8.4 Coeficiente de asociación geográfica de Florence.
9. Medidas de localización espacial.
9.1 Introducción.
9.2 Cocientes de localización y especialización.
9.3 Coeficientes de localización sectorial.
9.4 Coeficientes de especialización regional.
9.5 Coeficientes de diversificación.
10. Contrastes χ 2 de Pearson.
10.1 Contrastes χ 2 de bondad de ajuste.
10.2 Contrastes χ 2 de independencia.
10.3 Contrastes χ 2 de homogeneidad.
11. Inferencia no paramétrica.
11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste.
11.2 Contraste de Kolmogorov-Smirnov para 2 muestras.
11.3 Contraste de Mann-Whitney.
11.4 Test de las rachas.
11.5 Test de los signos.
11.6 Test de Wilcoxon de los signos-rangos.
8
BIBLIOGRAFÍA
SCHEAFFER, R.; MENDENHALL, W.; y OTT, L. (2006). Elementos de muestreo.
International Thomson Editores.
PALACIOS, F. y CALLEJÓN, J. (2004). Técnicas Cuantitativas para el Análisis Regional.
Editorial Universidad de Granada.
MANZANO, V.G.; ROJAS, A.J. y FERNÁNDEZ, J.S. (1996). Manual para Encuestadores. Ed.
Ariel.
MARTÍN-GUZMÁN, P. y MARTÍN PLIEGO, F. J. (1993). Curso básico de estadística
económica. AC. Madrid.
CASAS SÁNCHEZ, J.M. (1996). Inferencia Estadística para Economía y Administración de
Empresas. Ed. Centro de Estudios Ramón Areces, S. A.
LOHR, S.L. (1999). Muestreo: Diseño y Análisis. International Thomson Editores.
SACHS, L. (1978). Estadística Aplicada. Ed. Labor s.a.
Información en la WEB:
En el TABLON DOCENCIA de la página web de la Universidad se facilitará información a
los alumnos sobre:
¾ Profesores que imparten la asignatura, despacho, correo electrónico, horario de
tutorías...
¾ Programa de la asignatura
¾ Bibliografía
¾ Apuntes de clase
¾ Relaciones de ejercicios
¾ Prácticas de ordenador
¾ Sistema de evaluación
¾ Fechas de exámenes
¾ Calificaciones
¾ Revisión de exámenes
¾ Cualquier otra información que los profesores consideren importante.
9
10
1. Elementos del problema de muestreo.
1.1 Definiciones básicas.
1.2 Selección de la muestra.
1.3 Fuentes de error.
1.3.1 Errores de muestreo.
1.3.2 Errores de no muestreo.
1.4 Métodos de recolección de datos.
1.5 Diseño del cuestionario.
1.6 Planificación de la encuesta.
1.7 Razones para el uso del muestreo.
El objetivo fundamental de la estadística es hacer inferencia acerca de una población con base
en la información contenida en una muestra representativa.
La información obtenida de las encuestas por muestreo afecta a casi todos los aspectos de
nuestra vida: IPC, audiencia de televisión, intención de voto,... Un área particular de actividad
comercial que depende de las técnicas de muestreo es el análisis de mercados. Decisiones
sobre qué producto comercializar, cuándo, dónde, cómo anunciarlo son frecuentemente
tomadas sobre la base de la información de encuestas por muestreo.
1.1 Definiciones básicas
En la actualidad, las encuestas y las muestras están presentes en nuestra vida diaria. Muchas
nos dan información valiosa, pero otras están mal concebidas y aplicadas. Una muestra
perfecta sería una versión a escala reducida de la población, que reflejaría cada una de las
características de toda la población. Una buena muestra reproduce las características de interés
que existen en la población de la manera más cercana posible.
Para precisar el concepto de “buena muestra” necesitamos una serie de definiciones previas
que ilustraremos apoyándonos en el siguiente ejemplo: supongamos que en cierta ciudad se
quiere realizar una encuesta telefónica con el objetivo de conocer la proporción de votantes
que apoyarán a un determinado candidato
Un elemento de muestreo es un objeto en el que se toman las mediciones. En nuestro
ejemplo un elemento de muestreo es un votante y la medición que se toma es si apoyará o no
al candidato.
La población objetivo es el conjunto de elementos que deseamos estudiar. La definición debe
contener:
ƒ
una descripción de los elementos que serán incluidos, y
ƒ
una especificación de las mediciones que se van a considerar.
11
Una muestra es un subconjunto de la población.
El muestreo de la población deseada no es siempre posible, y el investigador tendrá que reunir
información adicional a las preguntas de interés. Por ejemplo, en la encuesta sobre un
candidato en una votación, la información disponible para el muestreo puede ser el censo de
residentes en la ciudad, entonces debemos recolectar información acerca de si cada persona
muestreada es un votante censado o no.
La población muestreada es la colección de todos los elementos posibles que podrían
seleccionarse para la muestra.
Las unidades de muestreo son conjuntos (no solapados) de elementos de la población que
cubren la población completa.
Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una lista de los
teléfonos de todos los individuos que pertenecen a la población objetivo. En vez de esto, las
familias sirven como unidades de muestreo y los elementos son los individuos que viven en
una familia.
El marco de muestreo es la lista de las unidades de muestreo.
Por ejemplo, para las encuestas telefónicas, el marco de muestreo puede ser una lista de todos
los números de teléfono residenciales de la ciudad. Casi todos los marcos presentan
inconvenientes: listas no actualizadas, algunos votantes pueden no aparecer en las listas,... Sin
embargo, cabe esperar que la separación entre el marco y la población sea lo bastante pequeño
como para permitir que se hagan inferencias acerca de la población basándose en una muestra
obtenida del marco.
1.2 Selección de la muestra
Si el muestreo se realiza de manera adecuada, con una muestra relativamente pequeña se
puede llevar a cabo inferencias de una población arbitrariamente grande. La cantidad de
información contenida en una muestra se controla por medio del número de datos muestrales y
por el método usado para seleccionar los datos muestrales.
Veamos algunos métodos:
1. Muestreo aleatorio simple. Es la forma más sencilla de realizar un muestreo.
Consiste en seleccionar n unidades muestrales de tal manera que cualquier muestra de
tamaño n tenga la misma probabilidad de ser elegida. Este tipo de muestreo es la base
de otros diseños de muestreo.
2. Muestreo aleatorio estratificado. Supongamos que los habitantes de una ciudad se
pueden dividir en grupos con diferentes opiniones sobre un determinado candidato.
Obviamente nos interesa tener información de cada uno de esos grupos. Entonces se
12
divide a la población en esos grupos o estratos y se selecciona una muestra aleatoria
simple de cada grupo. A la muestra resultante se le llama muestra aleatoria
estratificada.
3. Muestreo por conglomerados. En una muestra por conglomerados, los elementos que
componen una población se reúnen en unidades de muestreo de mayor tamaño,
llamadas conglomerados. Para nuestra encuesta podemos muestrear familias en lugar
de votantes individuales. En este caso las familias forman los conglomerados y los
miembros de las familias son las unidades de muestreo.
4. Muestreo sistemático: Es un tipo de muestreo que muchas veces se utiliza como
sustituto del muestreo aleatorio simple. Consiste en seleccionar un elemento al
comienzo de una lista de la población y luego se selecciona cada un número fijo de
posiciones el resto de elementos.
1.3 Fuentes de error
1.3.1 Errores de muestreo
El error de muestreo es el que surge al considerar una muestra y no examinar toda la
población. El error de muestreo puede ser controlado y medido mediante un diseño cuidadoso
de la muestra.
Nuestro objetivo a lo largo de la asignatura será conocer o investigar alguna característica de
una población que, en principio, vamos a denotar por θ . Por ejemplo, estudiaremos la
audiencia televisiva una determinada noche, la intención de voto de una región,....
Claramente la recogida de información sobre toda la población resultaría cara y lenta. Por ello
es preferible utilizar un subconjunto pequeño de la población, la muestra.
Denotando por θˆ a un estimador de la característica θ , definimos el error de estimación como
error de estimación = θˆ - θ
Dado que el estimador es una variable aleatoria, no podemos asegurar que siempre el
estimador y θ están dentro de una distancia especificada B, pero podemos expresar que eso
ocurre con una determinada probabilidad
P  θˆ − θ ≤ B  = 1 − α


,0 < α <1
donde
 Límite para el Error de Estimación (LEE) con nivel de confianza 1 − α

B = Cota para el error de estimación con nivel de confianza 1-α
 Error de estimación máximo con nivel de confianza 1-α

13
A continuación veremos que forma tiene B bajo distintas hipótesis sobre el estimador:
(
)
1. θˆ es un estimador insesgado de θ y tiene una distribución Normal θˆ → N (θ , σ θˆ ) .
Dado que θˆ − θ → N (0, σ θˆ ), entonces
P  θˆ − θ ≤ B  = P  − B ≤ θˆ − θ ≤ B 


 B
B
= P −
≤ Z ≤  = 1− α
σ θˆ 
 σ θˆ
donde Z =
θ −θ
B
→ N (0,1) . Por tanto,
= z α (podemos obtenerlo en una tabla de
1−
σθ
σ θˆ
2
probabilidades de la N(0,1)) y el límite del error de estimación es B = z
1−
α
σ θˆ . Como
2
se puede observar, el límite del error de estimación dependerá del nivel de confianza y
de la desviación típica del estimador (esto último dependerá de la variabilidad de la
muestra y del tipo de muestreo).
Tomando una confianza del 95% el límite del error de estimación será:
B = z 0,975σ θˆ = 1,96σ θˆ ≅ 2σ θˆ . Entonces
P  θˆ − θ ≤ 2σ θˆ  = 0,95


Es decir, con una confianza del 95%, el límite del error de estimación es dos veces la
desviación típica del estimador. (En muchos textos se denomina error típico a la
desviación típica del estimador)
2. θˆ es un estimador insesgado de θ con desviación típica (error típico) σ θˆ .
Por la desigualdad de Tchebyshev:
()
1
P  θˆ − E θˆ ≤ kσ θˆ  ≥ 1 − 2


k
, k ≥1
Dado que el estimador es insesgado y tomando k = 2 ,
1
P  θˆ − θ < 2σ θˆ  ≥ 1 − 2 = 0, 75


2
Luego, con una confianza mayor del 75%, el límite del error de estimación es dos
veces la desviación típica del estimador.
Resumiendo, el límite del error de estimación es dos veces la desviación típica del estimador
con una confianza del 95% si el estimador tiene distribución Normal y con una confianza
14
mayor del 75% si no tiene esa distribución. Además, si el tamaño muestral es mayor que 30,
los estimadores que usaremos tendrán una distribución aproximadamente Normal, en virtud
del Teorema central del límite.
La expresión P  θˆ − θ ≤ B  = 1 − α tiene una segunda lectura. Dado que


P  θˆ − θ ≤ B  = P  − B ≤ θˆ − θ ≤ B  = P θˆ − B ≤ θ ≤ θˆ + B  = 1 − α


(
el verdadero valor del parámetro se encuentra entre los extremos del intervalo θˆ − B, θˆ + B
)
con una confianza de 1 − α .
1.3.2 Errores de no muestreo
Otro tipo de errores, más difícil de controlar, pueden ocurrir en la encuesta. Estos errores se
llaman errores de no muestreo. En muchas encuestas, el error de muestreo cometido para esa
encuesta puede ser despreciable en comparación con los errores que no son de muestreo.
Los errores de no muestreo más comunes son:
1. Sesgo de selección. Este error ocurre cuando alguna parte de la población objetivo no
está en la población muestreada. Una muestra así obtenida no es representativa de la
población objetivo.
2. Sesgo de medición. El sesgo de medición ocurre cuando los datos observados difieren
del valor verdadero. La obtención de respuestas precisas en las encuestas es
fundamental pero esto a veces no se consigue por diversos motivos:
-
A veces, las personas no dicen la verdad.
-
Las personas no siempre comprenden las preguntas.
-
Un entrevistador puede leer mal las preguntas o anotar las respuestas de manera
equivocada.
-
La formulación y el orden de las preguntas tiene un gran efecto sobre las respuestas
obtenidas.
3. No respuesta. La no respuesta de un individuo seleccionado para formar parte de la
muestra puede causar un sesgo en los datos muestrales similar al sesgo de selección.
Puede ocurrir que las personas que respondan no representen a la población bajo
estudio.
Los errores de no muestreo pueden controlarse con las siguientes acciones:
1. Reentrevistas.
15
2. Recompensas e incentivos.
3. Entrevistadores adiestrados.
4. Verificación de datos.
(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.4 Métodos de recolección de datos
También el método de recolección de datos es fundamental en la reducción de los errores de
no muestreo. Destacamos como métodos más habituales:
(A) Entrevista personal.
(B) Entrevista por teléfono.
(C) Cuestionarios autoaplicados.
(D) Observación directa.
(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.5 Diseño del cuestionario
Uno de los objetivos en cualquier diseño de encuesta es minimizar los errores de no muestreo
que pueden ocurrir. Algunos consejos interesantes para la construcción del cuestionario son
los siguientes:
-
Decidir lo que se quiere descubrir.
-
Verificar las preguntas antes de realizar la encuesta.
-
Elaborar las preguntas de manera sencilla y clara.
-
Prestar atención al orden de las preguntas.
-
Decida si desea utilizar preguntas abiertas o cerradas.
-
Evitar preguntas que induzcan al entrevistado a decir lo que usted quiere escuchar.
-
Utilice preguntas de opción forzosa.
(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.6 Planificación de la encuesta
Teniendo en cuenta todo lo anteriormente expuesto, los siguientes aspectos deben de tenerse
en cuenta en la planificación de una encuesta:
1. Establecer objetivos.
2. Población objetivo.
16
3. El marco.
4. Diseño del muestreo.
5. Método de recolección de datos.
6. Instrumentos de recolección de datos.
7. Selección y preparación de investigadores de campo.
8. Prueba piloto.
9. Organización del trabajo de campo.
10. Organización de la administración de datos.
11. Análisis de los datos.
(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.7 Razones para el uso del muestreo
Entre otras muchas razones, destacamos:
(a) Evitar la destrucción de la población. En algunos casos, una unidad de observación
debe ser destruida para ser observada. En ese caso, un censo destruiría a toda la
población. Por ejemplo el muestreo en el control de calidad.
(b) Rapidez. Los datos se pueden reunir más rápido, de modo que las estimaciones se
pueden publicar de una manera programada. Por ejemplo las elecciones.
(c) Economía y precisión. El muestreo puede proporcionar información fiable con costes
mucho menores que los de un censo. Las estimaciones basadas en las encuestas y sus
respectivas muestras son, con frecuencia, más precisas que las basadas en un censo,
pues los investigadores pueden tener más cuidado al reunir los datos. Un censo
completo necesita, por lo regular, de una gran organización administrativa e implica a
muchas personas en la recolección de los datos. Con tal complejidad administrativa y
la presión por producir las estimaciones a tiempo, se pueden cometer muchos errores
en la elaboración del censo. En una muestra, se puede dedicar más atención a la
calidad de los datos, a entrenar al personal y realizar un seguimiento de quienes no
contestan la encuesta.
17
2. Muestreo aleatorio simple.
2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.
2.2 Muestreo aleatorio simple en poblaciones infinitas.
2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación.
2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
2.2.3 Determinación del tamaño muestral.
2.3 Muestreo aleatorio simple en poblaciones finitas.
2.3.1 Estimación de la media, proporción y total poblacionales.
2.3.2 Determinación del tamaño muestral.
2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.
Si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada, el
procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra así
seleccionada se le llama muestra aleatoria simple.
En el muestreo aleatorio con reemplazamiento el comportamiento de cada observación da
lugar a variables aleatorias independientes e idénticamente distribuidas.
El muestreo aleatorio sin reemplazamiento da lugar a variables aleatorias donde sus
distribuciones marginales (no así las condicionadas) son idénticamente distribuidas pero falla
la hipótesis de independencia.
Si el número de elementos de la población es muy grande (poblaciones infinitas) la anterior
distinción es irrelevante.
En poblaciones finitas, muestrear un mismo elemento dos veces no proporciona más
información. Por ello, en general, en poblaciones finitas se prefiere el muestreo sin
reemplazamiento.
En la práctica, la condición de que cada muestra tenga la misma probabilidad de ser
seleccionada se traduce en que cada elemento tenga la misma probabilidad de pertenecer a la
muestra. Para ello la selección de cada elemento de la muestra se hace sobre la base de un
sorteo completamente aleatorio. Para facilitar la obtención de los resultados de ese sorteo
aleatorio existen lo que se conoce como tablas de números aleatorios y que, junto con otras
tablas, suelen aparecer en un apéndice al final de muchos libros de estadística. Cada vez más,
estas tablas de números aleatorios son sustituidas por la generación de números aleatorios
mediante programas de ordenador (Excel, SPSS,...). Para asociar el valor de esos números
aleatorios con los elementos de la población necesitamos que ésta esté numerada, en caso
contrario deberíamos formar una lista y numerarla. Esto último, en muchos casos, no es tan
sencillo. Una alternativa a la formación de una lista numerada para la selección mediante
números aleatorios de los elementos de la muestra es el método de las rutas aleatorias. Según
18
este método cada número aleatorio o grupo de números aleatorios describe el camino hasta el
elemento de la muestra. Veamos cómo se aplicaría este método con un sencillo ejemplo:
Se ha seleccionado el número aleatorio 11071032, las dos primeras cifras (11) indican el
distrito de la ciudad, las dos siguientes (07) la calle del distrito, las dos siguientes (10) el
número de la calle, la siguiente (3) la planta del edificio y la última (2) la letra B de dicha
planta.
En muchos casos para llevar a cabo este procedimiento se recurre a la guía telefónica,
sobretodo si la entrevista es por teléfono, así el número aleatorio 7836 podría interpretarse
como que se selecciona la página 78 de la guía y dentro de ésta al abonado del teléfono que
aparece en el lugar 36 de dicha página.
Otros tipos de muestreo que se utilizan con cierta frecuencia son:
ƒ
Muestreo causal, usamos nuestro criterio para seleccionar aleatoriamente la muestra.
ƒ
Muestreo por cuotas (o representativo), seleccionamos una muestra que consideramos
representativa de la población, respetando el tamaño relativo de los grupos que la
integran. Por ejemplo si en la población hay un 65% de mujeres y un 35% de hombres,
tomamos una muestra que respete esos tamaños.
Estos muestreos están sujetos al sesgo del investigador y conducen a estimadores cuyas
propiedades no pueden ser evaluadas estadísticamente (incurrimos en errores de no muestreo),
la forma adecuada de seleccionar una muestra aleatoria es mediante el uso de números
aleatorios.
EL NÚMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA TIENE
MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIÓN ALEATORIA.
2.2 Muestreo aleatorio simple en poblaciones infinitas.
Supongamos que la característica en estudio de la población está representada por la variable
Y (con media µ y varianza σ2), una muestra aleatoria simple de tamaño n estará representada
por n variables: Y1,..., Yn, independientes e idénticamente distribuidas (i.i.d.). (Observaciones
en poblaciones infinitas y también en poblaciones finitas si se hacen con reemplazamiento nos
conducen a variables i.i.d.)
2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación.
Como estimador de la media de la población, µ, se utiliza la media muestral, y .
19
y=
1 n
∑ yi
n i =1
Un valor aislado y del estimador revela poco acerca de la media poblacional, deberíamos
evaluar también su bondad.
Este estimador tiene propiedades deseables como ser insesgado y tener mínima varianza
( )
( )
E y =µ
V y =
σ2
n
Como estimador de la varianza de la población, σ 2 , se utiliza la cuasivarianza muestral, S 2 .
S2 =
(
1 n
∑ yi − y
n − 1 i =1
)
2
que también tiene la propiedad de ser insesgado
E (S2 ) = σ 2
de forma que la varianza de la media muestral se estima de forma insesgada por
V ( y) =
S2
n
Cuando las variables Y, Y1, ..., Yn son dicotómicas, sólo toman dos valores (0 y 1), su media µ
representa una proporción y se nota como p y el estimador de la misma, la proporción
muestral, por p
p=
1 n
∑ yi ,
n i =1
yi = 0, 1
Este estimador, como media muestral que es, tiene las mismas propiedades mencionadas
antes.
La varianza de la población es en este caso σ 2 = pq , donde q=1-p. Como antes, el estimador
insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a
S2 =
n
pq
n −1
Si conocemos más características de las variables aleatorias Y, Y1,..., Yn, conoceremos más
propiedades de la media muestral, aparte de las mencionadas. Así,
si Y → N ( µ , σ 2 )
y−µ
σ
n
20
σ 2 conocida
→ N (0,1)
si Y → N ( µ , σ 2 )
σ 2 desconocida
y−µ
→ tn −1 ≈ N (0,1)
S
n
(en la práctica, para n > 30)
si Y → cualquier distribución (por el Teorema Central del Límite) cuando n → ∞
y−µ
σ
≈
n
y−µ
→ N (0,1)
S
n
(en la práctica, para n>30)
un caso particular del anterior es cuando Y → B(1, p) , donde µ = p
p− p
≈
pq
n
p− p
n pq
n −1 n
=
p− p
→ N (0,1)
y= p
(en la práctica, para n>30)
pq
n −1
Todo lo anterior puede resumirse diciendo que la media muestral (de variables numéricas, y ,
o dicotómicas, p ) sigue o se puede aproximar, si el tamaño de la muestra es suficientemente
grande, por una distribución normal. De forma que podemos conocer la probabilidad de que
dicha variable tome determinados valores, por ejemplo (tomando una de las anteriores
expresiones de la media muestral tipificada, siendo válido lo que sigue también para las otras)




y−µ
≤ 1,96  = 0,95
P  −1,96 ≤
σ




n
o en un caso más general




y−µ
P  − Zα ≤
≤ Zα  = 1 − α
σ
2
2




n
α=nivel de significación
1-α=nivel de confianza
Para un nivel de confianza del 95% (el más habitual) se suele redondear el anterior valor
1,96≈2
De las probabilidades anteriores se puede hacer dos lecturas. La primera:
σ
σ 
σ 


P  −2
≤ y−µ ≤2
 = 0,95 ⇒ P  y − µ ≤ 2
 = 0,95
n
n
n


21
En esta última expresión aparecen valores y expresiones fundamentales en las técnicas de
estimación:
1-α=0,95= nivel de confianza del 95%.
y − µ = error de estimación o diferencia entre la estimación que hacemos, y , y el verdadero
valor del parámetro que se quiere estimar, µ.
2
σ
n
= cota o límite para el error de estimación, es el máximo error de estimación que se
puede estar cometiendo, con una confianza del 95%. En la práctica se estima por 2
S
.
n
La segunda lectura:
σ
σ 

Py −2
≤ µ ≤ y+2
 = 0,95
n
n

expresa la confianza que tenemos de que el verdadero valor del parámetro µ se encuentre
σ
σ 

entre los extremos del intervalo  y − 2
,y+2
.
n
n

Todo lo anterior se puede asegurar si el tamaño de la muestra es suficientemente grande,
n>30. Pero qué ocurre si no es así. En ese caso la desigualdad de Tchebychev nos da la
respuesta.
La desigualdad de Tchebychev dice que si X es una variable aleatoria con media E ( X ) = µ y
varianza V ( X ) = σ 2 , entonces
P  X − µ ≤ kσ  ≥ 1 −
1
k2
Aplicando lo anterior, en particular, a la media muestral para k=2 se obtiene
σ 
1

P y−µ ≤ 2
 ≥ 1 − 4 = 0, 75
n

resultado parecido al que obteníamos anteriormente
σ 

P y−µ ≤ 2
 = 0,95
n

salvo que en este caso lo más que podemos asegurar es que la probabilidad de que
y−µ ≤2
22
σ
n
es mayor de 0,75.
2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
Cuando estimamos el valor de un parámetro poblacional con el valor que ha presentado en una
determinada muestra el estimador asociado, hacemos una estimación puntual.
Si dicha estimación puntual se acompaña de un margen de error (límite para el error de
estimación) y de una medida de la certidumbre que se tiene en tal estimación (nivel de
confianza), hablamos de intervalo de confianza. Por ejemplo, utilizando muestras grandes, el
intervalo de confianza para la media poblacional µ con un nivel de confianza del 95% es
S
S 

,y+2
 y−2

n
n

En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de
que el verdadero valor de un parámetro de la población sea un determinado valor, por
ejemplo, se quiere contrastar la hipótesis nula H 0 : µ = µ0 con un nivel de significación del
5%. Lo anterior equivale a comprobar si

µ0 ∈  y − 2

S
S 
,y+2

n
n
en cuyo caso se aceptaría la hipótesis nula, rechazándose en caso contrario.
2.2.3 Determinación del tamaño muestral.
En ocasiones se fija de antemano el máximo error de estimación que estamos dispuestos a
aceptar en una estimación, 2
σ
n
= B . La cantidad de información necesaria para conseguir lo
anterior depende del tamaño de la muestra según la siguiente expresión
4
σ2
n
= B2 ⇒ n =
σ2
B2
4
=
σ2
D
, D=
B2
4
El caso de la proporción es análogo al de la media, teniendo en cuenta que σ 2 = pq
n=
pq
,
D
D=
B2
4
Ejemplo 2.1. (ejercicio 13, relación tema 2) Un hipermercado desea estimar la proporción de
compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron
al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta.
23
b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la
proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una
muestra previa)
c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta, cuántas
compras deberíamos observar para asegurar que la anterior estimación se realiza con un
error inferior al 3%.
d) Este mismo hipermercado desea estimar también el valor medio de las compras
realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el
valor total de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza de
los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error de
estimación asociado.
Solución:
a)
p=
1 n
35
= 0,175
yi =
∑
n i =1
200
n = 200
q = 1 − 0,175 = 0,825
V ( p) =
pq
= 0, 000726
n −1
p ∈ (12,11% , 22,89% )
B = 2 V ( p ) = 0, 0539
b)
B = 0, 03
B2
D=
= 0, 000225
4
n=
pq
= 641, 6 ≈ 642
D
c)
B = 0, 03
D=
B2
= 0, 000225
4
p = q = 0,5
n=
pq
= 1111,1 ≈ 1112
D
d)
n = 35
S 2 = 625
V ( y) =
y=
S 2 625
=
= 17,8571
n
35
1 n
5600
yi =
= 160€
∑
n i =1
35
B = 2 V ( y ) = 8, 45€
„
2.3 Muestreo aleatorio simple en poblaciones finitas.
Suponemos que la población es finita, tiene N elementos, y además que la muestra se
selecciona sin reemplazamiento (en caso contrario estaríamos ante el modelo del muestreo
aleatorio simple en poblaciones infinitas con variables i.i.d.)
24
2.3.1 Estimación de la media, proporción y total poblacionales.
(A) Estimación de la media poblacional.
Para estimar la media poblacional, µ, se utiliza la media muestral
1 n
∑ yi
n i =1
Este estimador es insesgado y su varianza decrece conforme crece el tamaño de la muestra
µ=y=
( )
E y =µ
( )
V y =
σ2  N −n


n  N −1 
En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la
varianza de la población
E (S2 ) =
N
σ2
N −1
 N −1 2 
E
S  =σ2
N


De lo anterior se sigue que la varianza de la media muestral puede ser estimada
insesgadamente por
2
 N −1 2  1  N − n  S  N − n 
V y =
S  
=



 N
 n  N −1  n  N 
( )

S2 
expresión igual a la del caso de poblaciones infinitas,  V ( y ) =
 , salvo el coeficiente
n


 N −n

 que se denomina coeficiente corrector para poblaciones finitas (c.p.f.).
 N 
 N −n
En la práctica el coeficiente c.p.f. suele despreciarse si 
 ≥ 0,95 o lo que es equivalente
 N 
si n ≤
1
N = 5% N . En muchos casos N no está claramente definido o se desconoce, pero si
20
 N −n
N se supone suficientemente grande el c.p.f. se omite, 
 ≅ 1.
 N 
Para calcular el límite para el error de estimación , con un 95% de confianza, se halla
2 V ( y ) . Igual que en el caso de poblaciones infinitas, se habla de un nivel de confianza del
95% cuando trabajamos con el coeficiente 1,96≈2. Pero en algunos casos, según la
desigualdad de Tchevychev, sólo se puede asegurar que este nivel es mayor de un 75%.
25
(B) Estimación del total poblacional.
Para estimar el total poblacional, τ, dado que µ =
τ =Ny=
N
n
n
∑y
i =1
i
τ
N
⇒ τ = N µ utilizaremos el estimador
.
Para hallar su varianza, recordemos las propiedades de la varianza
V (kX ) = k 2V ( X )
V ( X + Y ) = V ( X ) + V (Y )
( X e Y incorreladas)
Varianza estimada de τ
V (τ ) = V ( N y ) = N 2 V ( y ) = N 2
S2 N − n
S2
= N ( N − n)
n N
n
Como en el caso de la media, el límite para el error de estimación con una confianza del 95%
está dado por 2 V (τ ) . Valiendo comentarios análogos a los hechos anteriormente.
En lo sucesivo se dará el valor la varianza del estimador para los distintos tipos de muestreo,
omitiéndose, para no repetirnos más, la referencia al límite para el error de estimación.
Ejemplo 2.2. (ejercicio 1, relación tema 2) Un auditor examina las cuentas abiertas con
diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se
examinan 300. La media muestral de las cuentas fue y = 1.040€ y la varianza muestral
(“cuasivarianza”) es S2=45.000€2. Estime el promedio de la deuda y el total de la deuda por
cobrar para las 1.000 cuentas abiertas con un intervalo de confianza al 95%.
Solución:
V ( y) =
Sn2−1 N − n 45000 1000 − 300
=
= 105
300
1000
n
N
2 V ( y ) = 2 105 = 20, 49€
(1.040 ∓ 20, 49 ) = (1.019,51 , 1.060, 49 )
τ = N y = 1000 ×1040 = 1.040.000€
2 V (τ ) = N 2 V ( y ) = 1000 × 20, 49 = 20.490€ (valor exacto 20.493,9)
(1.040.000 ∓ 20.490 ) = (1.019.510 , 1.060.490 )
„
(C) Estimación de la proporción poblacional.
Para estimar la proporción poblacional p , dado que se trata de una media usaremos la media
muestral que tiene la siguiente notación en este caso
26
1 n
∑ yi ,
n i =1
p=
su varianza estimada, teniendo en cuenta que S 2 =
V ( p) =
yi = 0, 1
n pq
, es igual a
n −1
S2 N − n
pq N − n
=
n N
n −1 N
Para estimar el total poblacional de una variable dicotómica usamos
V (τ ) = V ( N p) = N 2 V ( p) = N ( N − n)
τ =Np
pq
n −1
2 V (τ ) = N 2 V ( p )
Ejemplo 2.3. (ejercicio 2, relación tema 2) Se toma una muestra aleatoria simple de 100
estudiantes de un centro con 900 estudiantes para estimar
•
La proporción que votarán a un determinado representante de centro.
•
La proporción de ellos que tienen algún tipo de trabajo.
(i = 1,...,100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0 cuando
Sean yi , zi
responden NO, yi = 1 cuando responden SI, análogamente para zi ).
100
∑ yi = 70
Según la muestra
i =1
100
∑z
i =1
i
= 25
Usando los datos de la muestra, estime p1 (proporción de estudiantes que votarán a un
determinado representante) p2 (proporción y número de estudiantes con algún tipo de trabajo)
y los límites para los errores de estimación correspondientes.
Solución:
100
p1 =
V ( p1 ) =
∑y
i =1
i
100
100
= 0, 70 (70%)
p1 q1 N − n
= 0, 0018855
n −1 N
2 V ( p1 ) = 0, 0868 (8, 68%)
τ 2 = N p 2 = 900 × 0, 25 = 225
p2 =
∑z
i =1
i
100
V ( p2 ) =
= 0, 25 (25%)
p2 q2 N − n
= 0, 0016835
n −1 N
2 V ( p 2 ) = 0, 0821 (8, 21%)
2 V (τ 2 ) = 900 × 0, 0821 = 73,89
„
2.3.2 Determinación del tamaño muestral.
El número de observaciones necesarias para estimar µ con un límite para el error de
estimación de magnitud B se obtiene resolviendo 2 V ( y ) = B
27
( )
2 V ( y) = B ⇔ V y =
V ( y) =
σ2 N −n
n N −1
=D ⇒ n=
B2
=D
4
Nσ 2
( N − 1) D + σ 2
Para estimar el total poblacional con un límite para el error de estimación B, dado que
2 V (τ ) = N 2 V ( y ) = B , se llega a la misma expresión de n pero con D =
B2
4N 2
En la práctica la varianza poblacional σ 2 es desconocida. Si disponemos de S 2 de un estudio
anterior podemos obtener el valor de n sustituyendo en la anterior expresión σ 2 por S 2 ,
N −1 2 

2
S .
 aunque la estimación insesgada de σ es
N


Si no se dispone de información previa para estimar la varianza podemos usar que en variables
normales el rango de la muestra es aproximadamente cuatro veces su desviación típica
σ≅
R
4
⇔ σ2 ≅
R2
16
La proporción poblacional p es la media µ de una variable dicotómica ( B (1, p ) , E ( X ) = p ,
V ( X ) = pq ), luego el problema de determinar el tamaño muestral se hace de forma análoga
sustituyendo σ 2 por pq, obteniéndose
n=
Npq
( N − 1) D + pq
D=
B2
4
( proporcion)
D=
B2
4N 2
(total )
En la práctica p se desconoce. Una aproximación al mismo se obtiene reemplazándolo por el
valor estimado p obtenido en encuestas preliminares. Si no se cuenta con información
anterior, suponiendo p =
1
se obtiene un tamaño muestral conservador (mayor que el
2
requerido para obtener la cota del error de estimación prefijada).
Ejemplo 2.4. (ejercicio 3, relación tema 2) Encuentre el tamaño de muestra necesario para
estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de
10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero
se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400).
28
Solución:
B2
10.0002
D=
=
= 25
4 N 2 4 ×1.0002
4σ ≅ 800 ⇒ σ ≅ 200 ⇒ σ 2 ≅ 40.000
Nσ 2
n=
= 615, 62 ≈ 616
( N − 1) D + σ 2
„
Si se realizan dos preguntas (o más) a cada elemento de la muestra, se calcularán los tamaños
muestrales que satisfacen los límites para el error de estimación fijados para cada estimación y
finalmente el mayor de los dos será el tamaño de la muestra que satisface ambos límites.
Ejemplo 2.5. (ejercicio 4, relación tema 2) Los alumnos de TAM de una facultad con 3.000
estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que
están a favor de hacer los exámenes en sábado con un límite para el error de estimación del
10%. La información previa disponible indica que el 60% preferían los exámenes en sábado.
También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un
error de estimación del 5%. Determínese el tamaño muestral que se requiere para estimar
ambas proporciones con los límites de error especificados.
Solución:
p1 = proporción de estudiantes que prefieren los exámenes en sábado.
D1 =
n1 =
B12 (0,10) 2
=
= 0, 0025
4
4
Np1q1
3.000 × 0, 60 × 0, 40
=
= 93, 05 ≈ 94
( N − 1) D1 + p1q1 (2.999 × 0, 0025) + (0, 60 × 0, 40)
p2 = proporción de estudiantes que apoyan al equipo decanal.
D2 =
n2 =
B22 (0, 05) 2
=
= 0, 000625
4
4
Np2 q2
3.000 × 0,50 × 0,50
=
= 353, 04 ≈ 354
( N − 1) D2 + p2 q2 (2.999 × 0, 000625) + (0,50 × 0,50)
para cumplir con ambos objetivos habría que tomar n=354 con lo que el límite para el error de
la estimación de p1 disminuiría (con un 95% de confianza) hasta:
2 V ( p1 ) = 2
p1 q1 N − n
0, 60 × 0, 40 3.000 − 354
=2
= 0, 0489 (≅ 4,9%)
n −1 N
353
3.000
o bien la cota del error de estimación del 10% se tiene con un nivel de confianza mucho
mayor
29
Zα
2
V ( p1 ) = 0,10 ⇒ Zα 0, 02445 = 0,10 ⇒ Zα = 4, 09
2
2
buscando en la tabla de la normal (o con ayuda de la hoja de cálculo Excel, ...) la probabilidad
comprendida entre (-4,09 , 4,09) se obtiene 0,99995684, es decir, prácticamente del 100%. „
EJERCICIOS RESUELTOS
1. (Ejercicio 19, relación tema 2) Se selecciona una m.a.s. de 9 compras de clientes de un
centro comercial para estimar el valor medio de las compras por cliente.
VALOR en €
33,5 32
52
43
40
41
45
42,5
39
a) Obtener un intervalo de confianza para el valor medio de las compras.
b) ¿Podemos aceptar que la compra media es de 45€?
c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€?
SOLUCIÓN:
a) µ = y =
S2 =
33,5 + ... + 39
= 40,89 €
9
(
)
1
2
2
( 33,5 − 40,89 ) + ... + ( 39 − 40,89 ) = 35, 67
9 −1
( )
V y =
S2
= 3,963
n
( )
B = 2 V y = 3,98 €
( 40,89 − 3,98 ; 40,89 + 3,98) = ( 36,91; 44,87 )
b) No, porque 45 ∉ ( 36,91; 44,87 )
σ2
S 2 35, 67
c) n = 2 ≅ 2 =
= 35, 67 ≈ 36 compras
B
B
1
4
4
2. (Ejercicio 17, relación tema 2) Se han entrevistado 1.000 vecinos, elegidos aleatoriamente
entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los
nuevos impuestos municipales. 655 manifestaron su opinión desfavorable. Estime la
proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite
para el error de estimación. ¿Se puede afirmar que la mayoría de los habitantes están en
contra?
30
SOLUCIÓN:
655
= 0, 655 ⇒
1.000
p=
V ( p) =
p = 65,5%
pq 0, 655 × (1 − 0, 655)
=
= 0, 0002262012
n −1
999
2 V ( p ) = 0, 0301 ⇒ 3, 01%
(65,5% − 3, 01% , 65,5% + 3, 01%) = (62, 49% , 68,51%)
p ∈ (62, 49% , 68,51%) ⇒
p > 50% ⇒ sí se puede afirmar que la mayoría de los
habitantes están en contra
3. (Ejercicio 18, relación tema 2) El Centro de Estadística desea estimar el salario medio de
los trabajadores de los invernaderos de una región. Se decide clasificarlos en dos estratos,
los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los
contratos fijos está comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los
contratos temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser
el tamaño muestral total y su asignación para que se estime el salario medio de los
contratos fijos con un error inferior a 100€ y el salario medio de los contratos temporales
con un error inferior a 120€?`
SOLUCIÓN:
Ri
2.200-1.200=1000
1.700-500=1.200
n1 =
n2 =
σ 12
D1
σ 22
D2
=
σ 12
=
σ 22
2
1
B
4
2
2
B
4
=
=
Ri
≈ σi
4
250
300
σ i2
62.500
90.000
62.500 62.500
=
= 25
10.000
1002
4
4
90.000 90.000
=
= 25
14.400
1202
4
4
n = n1 + n2 = 50
4. (Ejercicio 14, relación tema 2) Entre todas las oficinas bancarias de una pequeña ciudad se
tienen concedidos 2000 préstamos hipotecarios. Existen razones para pensar que el
préstamo hipotecario de menor cuantía es de algo más de 1200 euros, siendo de casi 11000
31
euros el de mayor cuantía. ¿cuál es el tamaño muestral necesario para estimar estos dos
parámetros:
-
la cuantía media de los prestamos cometiendo un error de estimación menor de 400
euros y
-
la proporción de préstamos pendientes de amortizar más de la mitad de la deuda
cometiendo un error máximo del 5%?
SOLUCIÓN:
N = 2.000
R = 11.000 − 1.200 = 9.800 ⇒ σ ≅
D=
n=
R
= 2450 σ 2 ≅ 6.002.500
4
B 2 4002
=
= 40.000
4
4
Nσ 2
= 139, 65 ≈ 140
( N − 1) D + σ 2
B 2 0.052
=
= 0, 000625
4
4
Npq
n=
= 333, 47 ≈ 334
( N − 1) D + pq
D=
p = q = 0,5
Para conseguir estimar los dos parámetros con los niveles de error especificados
necesitamos un tamaño muestral igual al máximo de 140 y 334. n = 334 .
5. (Ejercicio 15, relación tema 2) Se desea estimar el salario medio de los empleados de una
empresa y la proporción de empleados que apoyan a la actual directiva. La empresa tiene
110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros
mensuales. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota
de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual
directiva el error máximo cometido sea del 2%?
SOLUCIÓN:
N = 110 R = 1.800 − 1.500 = 300 ⇒ σ ≅
D=
R
= 75 σ 2 ≅ 5625
4
B 2 102
=
= 25
4
4
Nσ 2
n=
= 74,1 ≈ 75
( N − 1) D + σ 2
D=
32
B 2 0.022
=
= 0, 0001
4
4
p = q = 0,5
n=
Npq
= 105, 4 ≈ 106
( N − 1) D + pq
6. (Ejercicio 16, relación tema 2) Una empresa de trabajo temporal quiere investigar las
necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una
muestra de 5 de las 25 inscritas en el registro mercantil. El número de bajas en el último
año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los
servicios de la empresa de trabajo temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1
1
7
Si
2
2
15
No
3
9
85
Si
4
0
3
No
5
2
12
No
a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el
límite para el error de estimación.
b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite
para el error de estimación.
SOLUCIÓN:
a) N = 25
n=5
14
y = = 2,8 ⇒ τ = N y = 70
5
S2
12, 7
= 25 × 20
= 1270
V (τ ) = N ( N − n)
n
5
B = 2 V (τ ) = 71, 2741
Nota: este apartado podrá resolverse de otra forma cuando estudiemos el muestreo por
conglomerados. Véase ejercicio 10 de la relación del capítulo 6)
b)
p=
2
= 0, 4 ⇒ τ = N p = 10
5
V (τ ) = N ( N − n)
pq
0, 24
= 25 × 20
= 30
n −1
4
B = 2 V (τ ) = 10,9545
7. (Ejercicio 21, relación tema 2) El consumo medio de combustible de los taxis de una
ciudad es 5.6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado
elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se
33
toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo.
El consumo en litros de combustible por cada 100 Km. se recoge en la siguiente tabla
Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo
1
5.4
6
6.3
11
3.6
16
5.4
2
5.5
7
5.4
12
6.7
17
4.8
3
6.9
8
5
13
5.2
18
4.7
4
3.9
9
4.5
14
5.1
19
5.8
5
4.5
10
4.4
15
5.4
20
6.2
a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo
inferior a 5.6 litros/100 Km.
b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error
menor o igual que un 10%?
SOLUCIÓN:
a) 15 de los 20 taxis no superan el consumo de 5’6 litros/100 Km, por tanto
p=
15
= 0 '75
20
V ( p) =
pq N − n 0 '75 × 0 '25 580
=
= 0 '00954
n −1 N
19
600
2 V ( p) = 0 '1953
( 0 '75 − 0 '1953 , 0 '75 + 0 '1953) = ( 0 '5547 , 0 '9453)
b) B = 0 '10
D=
( 0 '10 )
n=
4
( 55'47% , 94 '53% )
2
= 0 '0025
Npq
600 × 0 '75 × 0 '25
=
= 66 '77 ≈ 67
( N − 1) D + pq ( 599 × 0 '0025 ) + ( 0 '75 × 0 ' 25 )
8. (ejercicio 1, práctica 2) Una muestra aleatoria simple de 6 deudas de clientes de una
farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas
abiertas. Los valores de la muestra para estas seis cuentas son los siguientes:
Dinero adeudado (€)
35,50
32,00
43,00
41,00
44,00
42,50
Estime el total del dinero adeudado y establezca un límite para el error de estimación.
34
SOLUCIÓN:
yi
yi2
1260,25
1024,00
1849,00
1681,00
1936,00
1806,25
35,50
32,00
43,00
41,00
44,00
42,50
n
∑y
i =1
i
n
∑y
= 238,00
i =1
τ =Ny=
2
i
N
n
= 9556,50
n
∑y
i =1
i
=
100
238=3966,6
6
2
S2 =
(
1 n
∑ yi − y
n − 1 i =1
)
2
 n

 ∑ yi 
n
yi2 −  i =1 
∑
1
2382 
n
= i =1
=  9556,50 −
 = 23,1667
5
6 
n −1
2 V (τ ) = 2 N ( N − n)
S2
23,1667
= 2 100(100 − 6)
= 381, 02
n
6
Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica
se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas
calculadoras nos proporcionan los valores de un grupo de funciones estadísticas
∑x
2
∑x
x
σ n = sx
σ n = sx = desviación típica
σ n − 1 = Sx
de forma inmediata.
σ n − 1 = S x = cuasidesviación típica
9. (Ejercicio 16, relación tema 2) En un estudio sociológico, realizado en una pequeña
ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde
habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 5000 hogares,
según la guía de teléfonos más reciente. Una muestra aleatoria simple de 300 hogares fue
seleccionada de la guía. Al terminar la investigación de campo, de los 300 hogares
muestreados, en 51 habita al menos una persona mayor de 65 años. Contraste la hipótesis
de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65
años.
35
SOLUCIÓN: N=5000, n=300
p=
51
pq N − n
= 0,17 q = 1 − p = 0,83 V ( p) =
= 0, 00044359197 2 V ( p) = 0, 0421
300
n −1 N
25% ∉ (17% ∓ 4, 21% ) = (12, 79%, 21, 21% )
luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al
menos una persona mayor de 65 años.
10. (Ejercicio 8, relación tema 2) El gerente de un taller de maquinaria desea estimar el
tiempo medio que necesita un operador para terminar una tarea sencilla. El taller tiene 45
operadores. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Los
resultados obtenidos son los siguientes:
Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3
¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del
taller para terminar dicha tarea es inferior a 6 minutos?
SOLUCIÓN: (con las funciones del modo SD de la calculadora)
N=45, n=5
y=
1 n
∑ yi = 5, 26
n i =1
S2 =
(
1 n
∑ yi − y
n − 1 i =1
)
2
= 2,563
S2 N − n
= 0, 4556
2 V ( y ) = 1,35
INTERV . CONF .: ( 3,91 min ., 6, 61 min .)
n N
Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no
V ( y) =
podemos aceptar esa hipótesis.
11. (Ejercicio 11, relación tema 2) Con objetivos benéficos, una asociación filantrópica ha
solicitado firmas para una petición en 700 hojas. Cada hoja tiene espacio suficiente para
40 firmas pero en muchas de las hojas se ha obtenido un número menor. Contando el
número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los
siguientes resultados:
50
50
∑ Y = 1.450; ∑ Y
i =1
i
i
i =1
2
= 54.496
¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas
recogidas para la petición?
SOLUCIÓN: N=700, n=50
2
y=
36
1 n
1450
yi =
= 29
∑
50
n i =1
 n

 ∑ yi 
n
yi2 −  i =1 
∑
n
S 2 = i =1
= 254
n −1
τ = N y = 20.300
V (τ ) = N ( N − n)
S2
= 2.311.400
n
B = 2 V (τ ) = 3.040, 66
( 20.300 ∓ 3.040, 66 ) = (17.259,34 , 23.340, 66 )
Previsión más optimista: 23.340 ; previsión más pesimista: 17.259
37
3. Muestreo aleatorio estratificado.
3.1
3.2
3.3
3.4
Selección de una muestra aleatoria estratificada.
Estimación de la media, proporción y total poblacionales.
Determinación del tamaño muestral.
Asignación de la muestra.
3.4.1 Asignación óptima.
3.4.2 Asignación de Neyman.
3.4.3 Asignación proporcional.
3.5 Estratificación después de seleccionar la muestra.
3.1 Selección de una muestra aleatoria estratificada.
Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la
población en conjuntos que no presenten intersección, llamados estratos, y la selección
posterior de una muestra aleatoria simple en cada estrato.
Los estratos deben formarse de manera que los elementos de cada estrato sean lo más
homogéneos que se pueda entre sí (más homogéneos que el conjunto de la población) y las
diferencias entre un estrato y otro sean las mayores posibles. Esta forma de construir los
estratos conduce a muestras con poca variabilidad entre las mediciones que producirán
pequeñas varianzas de los estimadores y por tanto menores límites para los errores de
estimación que con otros diseños de la muestra.
Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes:
ƒ
A veces los estratos se corresponden con zonas compactas bien definidas con lo que se
reduce el coste (en tiempo y/o dinero) de la muestra.
ƒ
Además de las estimaciones para toda la población, este muestreo permite hacer
estimaciones de los parámetros poblacionales para los estratos.
Antes de continuar fijemos la notación que va a utilizarse (a la izquierda para la población, a
la derecha para la muestra):
L = número de estratos
N = tamaño de la población
n = tamaño de la muestra
N i = tamaño del estrato
ni = tamaño de la muestra del estrato i
L
L
N = ∑ Ni
n = ∑ ni
µi = media poblacional del estrato i
y i = media muestral del estrato i
i =1
τ i = total poblacional del estrato i
38
i =1
σ i2 = varianza poblacional del estrato i
Si2 = varianza muestral del estrato i
pi = proporción poblacional del estrato i
p i = proporción muestral del estrato i
ci = coste de una observación del estrato i
3.2 Estimación de la media, proporción y total poblacionales.
En cada estrato se ha realizado un muestreo aleatorio simple, sabemos que en cada estrato
L
N i y i es un estimador insesgado del total τ i , parece razonable estimar τ = ∑ τ i por
i =1
L
τ
i =1
N
τ st = ∑ Ni y i y la media poblacional µ =
mediante y st =
1
N
L
∑N
i =1
i
yi
y st ≠ y en general ( y = media muestral de las n observaciones)
NOTA:
τ st ≠ τ en general ( τ = N y = estimador del total según un M.A.S.)
Varianza estimada de y st
1 L 2
1 L 2 Si2 N i − ni
(
)
N
V
y
Ni
=
∑ i i N2 ∑
N 2 i =1
ni N i
i =1
(se obtiene aplicando las propiedades de la varianza mencionadas en el capítulo 2)
V ( y st ) =
Varianza estimada de τ st
Si2 N i − ni
V (τ st ) = N V ( y st ) = ∑ N
ni N i
i =1
L
2
2
i
En el caso de variables dicotómicas los estimadores de la proporción y total poblacionales así
como sus varianzas toman valores similares a los anteriores salvo las diferencias de notación
vistas en el capítulo anterior.
Estimador de la proporción poblacional p
p st =
1
N
L
∑N
i =1
i
pi
Varianza estimada de p st
1 L 2
1 L 2 p i q i N i − ni
(
)
N
V
p
=
∑ i
∑ Ni n − 1 N
i
N 2 i =1
N 2 i =1
i
i
Estimador del total poblacional τ
V ( p st ) =
L
τ st = N p st = ∑ Ni p i
i =1
39
Varianza estimada de τ st
L
V (τ st ) = N 2 V ( p st ) = ∑ N i2
i =1
p i q i N i − ni
ni − 1 N i
Ejemplo 3.1. (Ejercicio 1, práctica 3) Se está interesado en determinar la audiencia de la
publicidad televisiva en una cadena local de un municipio, se decide realizar una encuesta por
muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas
del municipio. Éste está formado por tres barrios con diferentes perfiles socio-culturales que
afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio B y 126 en el
barrio C. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30
hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A, 6 del barrio B,
y 9 del barrio C.
Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados,
con mediciones del tiempo que se ve la televisión en horas por semana, se muestran en la
siguiente tabla:
BARRIO A
26
34
36
32
38
39
29
37
38
35
41
28
41
37
29
BARRIO B
25
20
30
14
41
39
BARRIO C
22
14
17
15
11
21
14
20
24
Estime el tiempo medio que se ve la televisión, en horas por semana, para:
a) Los hogares del barrio A.
b) Los hogares del barrio B.
c) Los hogares del barrio C.
d) Todos los hogares
Para todos los casos fije un límite para el error de estimación.
Solución: en primer lugar se calculan las medias y varianzas muestrales en cada estrato
y1 = 34, 67 horas / semana
y 2 = 28,17 h / s
y 3 = 17,56 h / s S12 = 23, 24 S 22 = 112,57 S32 = 19, 28
y = 28, 23
S 2 = 92, 74
A partir de estos valores calculamos las varianzas de los estimadores de la media en cada
estrato y los límites para los errores de dichas estimaciones
N1 = 210 N 2 = 84 N 3 = 126 N = N1 + N 2 + N 3 = 420
n1 = 15 n2 = 6 n3 = 9 n = n1 + n2 + n3 = 30
40
V ( y1 ) =
S12 N1 − n1
= 1, 44
n1 N1
V ( y2 ) =
2 V ( y1 ) = 2, 40 h / s
S22 N 2 − n2
= 17, 42
n2 N 2
2 V ( y 2 ) = 8,35 h / s
V ( y3 ) =
S32 N 3 − n3
= 1,99
n3 N 3
2 V ( y 3 ) = 2,82 h / s
Para el conjunto de todos los hogares el estimador de la media es
1 3
∑ Ni yi = 28, 23 h / s
N i =1
y la varianza de este estimador la podemos calcular basándonos en las varianzas de los
y st =
estimadores de la media en cada estrato mediante
V ( y st ) =
1
N2
3
∑N
i =1
2
i
V ( y i ) = 1, 24
o, si se prefiere, utilizando
1 3 2 Si2 N i − ni
∑ Ni n N
N 2 i =1
i
i
el error para la estimación de la media para todos los hogares está dado por
V ( y st ) =
2 V ( y st ) = 2, 22 h / s
„
Ejemplo 3.2. (Ejercicio 2, práctica 3) En el caso anterior, también se desea saber qué
proporción de hogares ven un determinado programa, para decidir la conveniencia de insertar
un anuncio en los intermedios del mismo. La respuesta a la pregunta de si ven dicho
programa por los hogares de la muestra anterior se recoge a continuación:
BARRIO A
BARRIO B BARRIO C
SI
SI
NO
SI
SI
NO
SI
SI
SI
NO
SI
SI
SI
SI
SI
SI
NO
NO
NO
NO NO
SI
NO
SI
NO
SI
SI
NO
NO
SI
Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el
programa.
Solución: en primer lugar se calculan las proporciones muestrales en cada estrato
p1 =
7
= 0, 4667
15
p2 =
5
= 0,8333
6
p3 =
6
= 0, 6667
9
La estimación puntual de la proporción de hogares del municipio donde se ve el programa es
1 3
∑ Ni pi = 0, 60
N i =1
la varianza y error de estimación asociados son
p st =
1 3 2 p i q i N i − ni
∑ Ni n − 1 N = 0, 00748
N 2 i =1
i
i
y el intervalo de confianza expresado en porcentajes es
V ( p st ) =
2 V ( p st ) = 0,173
41
( 60% ∓ 17,3% ) = ( 42, 7%, 77,3% )
„
3.3 Determinación del tamaño muestral.
El tamaño muestral para conseguir un límite para el error de estimación de la media, B, viene
L
1
dado por 2 V ( y st ) = B donde V ( y st ) = 2
N
∑N
i =1
2
i
σ i2 Ni − ni
ni N i − 1
.
No podemos despejar el valor de todos los ni de una sola ecuación a menos que conozcamos
la relación entre los ni y n . Hay diversas formas de asignar el tamaño muestral n en los
diferentes estratos ni = nωi (problema de la asignación de la muestra que estudiaremos más
adelante) , sustituyendo lo anterior en V ( y st ) se puede despejar n en función de los ωi
obteniendo el tamaño muestral aproximado que se requiere para estimar µ con un límite para
el error de estimación B (aproximado porque se hacen algunas modificaciones como
N i − 1 ≅ N i , ... para resolver la anterior ecuación).
L
n=
∑
i =1
N i2σ i2
ωi
L
N 2 D + ∑ N iσ i2
i =1
2
B
D=
4
B2
y la misma expresión vale para el total tomando D =
.
4N 2
Al igual que en el M.A.S. para poder usar la anterior ecuación necesitamos conocer las
varianzas poblacionales de los estratos o valores aproximados de ellas, para lo cual se pueden
usar las varianzas muestrales de un estudio previo o conocer la amplitud de variación de las
observaciones dentro de cada estrato.
En el caso de variables dicotómicas se obtiene una expresión similar, teniendo en cuenta que
en este caso particular σ i2 = pi qi
L
n=
∑
i =1
N i2 pi qi
ωi
L
N 2 D + ∑ N i pi qi
i =1
D=
42
B2
B2
(para estimar p) y la misma expresión vale para el total tomando D =
.
4
4N 2
3.4 Asignación de la muestra.
Hay diversas formas de asignar el tamaño muestral n en los distintos estratos.
El objetivo del diseño de una encuesta por muestreo es proporcionar estimadores con varianza
pequeña (por tanto, pequeño error de estimación) al menor coste posible.
El mejor esquema de asignación está influido por:
•
El número total de elementos en cada estrato.
•
La variabilidad de las observaciones en cada estrato.
•
El coste de obtener una observación en cada estrato.
3.4.1 Asignación óptima.
La asignación que minimiza el coste para un límite para el error de estimación fijado se
denomina asignación óptima y está dada por
N jσ j
cj
ωj =
L
∑
i =1
N iσ i
ci
sustituyendo los ω j en la expresión que obteníamos antes para n se tiene el tamaño total de la
muestra según la asignación óptima
L
n=
L
∑ Ni σ i ci
∑
i =1
i =1
Ni σ i
ci
L
N 2 D + ∑ N iσ i2
i =1
En el caso dicotómico las anteriores expresiones toman los valores
p jq j
cj
Nj
ωj =
L
∑N
i =1
L
n=
∑N
i =1
i
L
∑N
pi qi ci
i
pi qi
ci
i =1
i
pi qi
ci
L
N 2 D + ∑ N i pi qi
i =1
En algunas ocasiones interesa encontrar la asignación que minimiza el error de estimación
para un coste fijo de obtención de la muestra, en este caso la asignación óptima también es la
respuesta y la elección de n viene dada por
43
N iσ i
ci
L
n=
C∑
i =1
L
∑Nσ
i
i =1
ci
i
donde C representa el coste total de obtención de la muestra (véase ejemplo 3.3).
Análogamente para el caso dicotómico sustituyendo σ i =
pi qi .
3.4.2 Asignación de Neyman.
Cuando los costes de observación de cada estrato son los mismos, las expresiones de la
asignación óptima se simplifican y transforman en:
Caso numérico
N jσ j
ωj =
L
∑Nσ
i
i =1
i
(∑ N σ )
2
L
n=
i
i =1
i
L
N D + ∑ N iσ i2
2
i =1
Caso dicotómico
ωj =
N j p jq j
L
∑N
i =1
(∑ N
i =1
pi qi
)
2
L
n=
i
i
pi qi
L
N 2 D + ∑ N i pi qi
i =1
A este tipo de asignación se le denomina de Neyman, que como acabamos de decir coincide
con la asignación óptima cuando los costes de observación son iguales en todos los estratos.
Las expresiones de esta asignación son más simples que las de la óptima y se utiliza aún
cuando los costes de observación no son idénticos, a veces, sencillamente porque no se
conocen.
3.4.3 Asignación proporcional.
Si además de los costes coincide el valor de las varianzas en cada uno de los estratos las
expresiones de la asignación óptima se simplifican y reducen a
44
Caso numérico
Nj
ωj =
N
L
n=
∑N σ
i
i =1
ND +
1
N
2
i
L
∑Nσ
i
i =1
2
i
Caso dicotómico
Nj
ωj =
N
L
n=
∑N pq
i
i =1
ND +
1
N
i i
L
∑N pq
i =1
i
i i
La asignación proporcional puede y suele utilizarse cuando las varianzas y costes de
observación no son iguales para cada estrato, por la simplicidad de los cálculos y por las
ventajas que presenta frente a los anteriores tipos de asignaciones:
Cuando se utiliza la asignación proporcional el estimador y st coincide con la media muestral
de toda la muestra, y st = y (análogamente para p st y el total).
Cuando se toma más de una medición en cada unidad muestral para estimar más de un
parámetro poblacional aparecen complicaciones en la asignación y determinación del tamaño
muestral. En la práctica se usa la asignación proporcional cuando se observan varias variables
porque usualmente está cercana al óptimo y si se usa la asignación óptima obtendríamos
distintas asignaciones para cada variable que se mide. Con la asignación proporcional y
tomando como n el máximo de los valores encontrados para cada estimación, estaremos
utilizando estimadores, en muchos casos, con un límite para el error mucho más pequeño que
el establecido.
Aclarémoslo con un ejemplo. En la asignación óptima y en la de Neyman los ωi dependen de
las varianzas y pueden ser distintos de una variable a otra
1ª estimación: n = 100 ω1 = 0,10 ⇒ n1 = 10 ω2 = 0,90 ⇒ n2 = 90
2ª estimación: n = 40 ω1 = 0,50 ⇒ n1 = 20 ω2 = 0,50 ⇒ n2 = 20
45
Aún tomando el mayor de los tamaños muestrales (100) y pasando la encuesta a 10 individuos
del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimación
fijado para la segunda estimación que necesita al menos 20 individuos de cada estrato.
En la asignación proporcional no ocurre lo anterior pues los ω j =
Nj
N
son iguales para todas
las variables al no depender de sus varianzas, así si en dos estimaciones para los niveles de
error requeridos tenemos lo siguiente
1ª estimación: n = 100 ω1 = 0,30 ⇒ n1 = 30 ω2 = 0, 70 ⇒ n2 = 70
2ª estimación: n = 40 ω1 = 0,30 ⇒ n1 = 12 ω2 = 0, 70 ⇒ n2 = 28
tomando como n el máximo de los dos (o de los k si hay k variables que se observan), se
tiene garantizado que se cumple con los límites para el error fijados para todas las
estimaciones.
Ejemplo 3.3 (Ejercicio 1, práctica 3) Continuando con el ejemplo 3.1
a) ¿Qué tipo de asignación se ha utilizado?
Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un
barrio que en otro. Se estima que el coste de una observación del barrio A es de 1€, 9€
para el barrio B y 4€ para el barrio C.
b) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la
semana que se ve la televisión en los hogares del municipio con un error inferior a 1
hora. (Tómese los anteriores datos como una muestra previa para estimar los
parámetros necesarios).
c) Supóngase que se tiene sólo 600€ para gastar en el estudio, determine el tamaño de la
muestra y la asignación que minimizan el error de estimación. (Como en el apartado
anterior, tómese los datos de la tabla como una muestra previa para estimar las
varianzas de los estratos).
Solución:
a) Podemos comprobar que se cumple que
15 210
=
= 0,5
30 420
ni N i
=
n N
∀i
6
84
=
= 0, 2
30 420
9 126
=
= 0,3
30 420
luego la asignación utilizada ha sido la proporcional.
b) Según los datos anteriores estimaremos las varianzas de cada estrato por
2
σ 1 = S12 = 23, 24
46
2
σ 2 = S22 = 112,56
2
σ 3 = S32 = 19, 28
D=
Ni
σi
ci
Niσ i ci
N iσ i
ci
210
84
126
420
4,8208
10,6094
4,3909
1
3
2
1012,368
2673,5688
1106,5068
4792,4436
1012,368
297,0632
276,6267
1586,0579
N iσ i2
4880,4
9455,04
2429,28
16764,72
B2 1
= = 0, 25
4 4
3
n=
∑N σ
i =1
i
Ni σ i
ci
3
∑
ci
i
i =1
3
N 2 D + ∑ N iσ i2
=
4792, 4436 × 1586, 0579
= 124,89
( 4202 × 0, 25) + 16764, 72
i =1
N1σ 1
c
ω1 = 3 1 = 0, 6383
N iσ i
∑
ci
i =1
n1 = nω1 = 79, 71 ≈ 80
ω2 = 0,1873
n2 = nω2 = 23,39 ≈ 24
ω3 = 0,1744
n3 = nω3 = 21, 78 ≈ 22
n = 80 + 24 + 22 = 126
c) En el supuesto de que se disponga sólo de 600€ para realizar el estudio
N iσ i
ci
3
n=
600∑
i =1
3
∑Nσ
i =1
i
i
ci
=
600 × 1586, 0679
= 198,57
4792, 4436
y los tamaños de la muestra en cada estrato están dados por la asignación óptima
n1 = 0, 6383n = 126, 75 ≈ 126
n2 = 0,1873n = 37,19 ≈ 37
n = 126 + 37 + 34 = 197
n3 = 0,1744n = 34, 63 ≈ 34
o bien resolviendo la ecuación
c1n1 + c2 n2 + c3 n3 = 600
donde ni = ωi n
c1ω1n + c2ω2 n + c3ω3 n = 600
n=
600
600
=
= 198,57
c1ω1 + c2ω2 + c3ω3 3, 0216
A partir de n se obtienen los ni = ωi n según la asignación óptima.
„
47
Ejemplo 3.4 (Ejercicio 2, práctica 3) Continuando con el ejemplo 3.2
a) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un
error inferior al 5%. (Supóngase que se realiza la entrevista por teléfono y el coste de
las observaciones es el mismo para todos los casos al no ser necesarios los traslados.
Tómese los anteriores datos como una muestra previa para estimar los parámetros
necesarios)
b) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna
información previa sobre la proporción de hogares donde se ve el programa.
Solución: a)
Ni
pi
qi
N i pi qi
N i pi qi
210
84
126
420
0,4667
0,8333
0,6667
0,5333
0,1667
0,3333
52,2671
11,6685
27,9986
91,9342
104,7669
31,3075
59,3955
195,4699
B 2 0, 052
D=
=
= 0, 000625
4
4
(∑ N
n=
i =1
)
2
3
i
pi qi
3
N 2 D + ∑ N i pi qi
=
195, 46992
= 188,98
( 4202 × 0, 000625) + 91,9342
i =1
n1 = nω1 = n
N1 p1q1
3
∑N
i =1
i
análogamente n2 = 30, 27 ≈ 31
= 188,98
pi qi
104, 7669
= 101, 29 ≈ 102
195, 4699
n3 = 57, 42 ≈ 58
⇒ n = 102 + 31 + 58 = 191
b)
Ni
210
84
126
420
pi
0,5
0,5
0,5
qi
0,5
0,5
0,5
N i pi qi
52,5
21
31,5
105
L
n=
n1 = 204,878
∑N pq
i =1
1
ND +
N
i
i i
L
∑N pq
i =1
i
i i
=
105
( 420 × 0, 000625) +
= 204,878
210
= 102, 439 ≈ 103 análogamente n2 = 40,98 ≈ 41
420
n = 103 + 41 + 62 = 206
48
105
420
n3 = 61, 46 ≈ 62
„
El muestreo estratificado no siempre conduce a un estimador con menor error de
estimación, esto suele ocurrir cuando los estratos no incluyen datos homogéneos.
Esto es debido muchas veces a que predomina el deseo de obtener estimaciones en cada
estrato (por ejemplo, en un estudio regional también se quieren obtener estimaciones a nivel
provincial) frente al objetivo de minimizar los errores de los estimadores. Este problema
queda bien ilustrado con el siguiente ejemplo.
Ejemplo 3.5 (Ejercicio 1, relación tema 3) Un distribuidor de productos de limpieza desea
conocer el consumo por hogar durante un año de un determinado producto en una comarca
formada por cuatro municipios. Para estimar de paso también el consumo en cada municipio
decide usar muestreo estratificado tomando cada municipio como un estrato. Se sabe que el
20% de la población de la comarca vive en el municipio 1, el 30% en el municipio 2, el 25%
en el municipio 3 y el 25% restante en el municipio 4. El distribuidor tiene medios suficientes
para controlar y obtener datos sobre el consumo anual de 20 hogares.
Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste
del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual conduce
a
N1
= 20 × 0, 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 .
N
Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros).
n1 = n
Estrato 1
470
510
500
550
y1 = 507,5 S12 = 1091, 67
Estrato 2
490
500
470
520
550
500
y 2 = 505 S 22 = 750
Estrato 3
540
480
500
470
470
Estrato 4
450
560
460
440
580
y 3 = 492 S32 = 870 y 4 = 498 S 42 = 4420
Estime el consumo anual medio por hogar y fije un límite para el error de estimación.
Solución:
y st =
1
N
N1
= 0, 20
N
4
4
i =1
i =1
∑ Ni yi = ∑
N2
= 0,30
N
N3
= 0, 25
N
N4
= 0, 25
N
Ni
y i = ( 0, 20 × 507,5 ) + ( 0,30 × 505 ) + ( 0, 25 × 492 ) + ( 0, 25 × 498 ) = 500,5€
N
Obsérvese que cuando se utiliza la asignación proporcional y st = y , efectivamente
y=
1 20
10010
yi =
= 500,5€
∑
20
n i =1
49
En la siguiente expresión consideramos los c.p.f. en cada estrato iguales a la unidad
1
V ( y st ) = 2
N
2
4
2
 N i  Si2
Si2 N i − ni
N i2 Si2
=
=
N
∑
∑
∑  =
2
ni N i
ni i =1  N  ni
i =1
i =1 N
4
2
i
1091, 67  



2 750 
2 870 
2 4420 
=  0, 202
 +  0,30
 +  0, 25
 +  0, 25
 = 88, 29
4
6  
5  
5 

 
2 V ( y st ) = 18, 79 €
Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20
hogares, los mismos 20 de la tabla anterior, entonces el estimador de la media es
y=
1 20
∑ yi = 500,5 €
n i =1
que coincide con el estimador del muestreo estratificado por las razones mencionadas
anteriormente, pero la varianza estimada y error de estimación asociados toman los valores
(se omite el c.p.f.):
S n2−1 = 1520, 79
V ( y) =
Sn2−1 N − n 1520, 79
=
= 76, 04
20
n
N
2 V ( y ) = 17, 44 €
Se observa que el error de estimación es menor en el caso del muestreo aleatorio simple, esto
es debido a que el distribuidor no tuvo en cuenta que el consumo varía mucho dentro del
cuarto municipio. Pudo haber obtenido un error menor si hubiera estratificado en base al
tamaño de las familias u hogares, esto es, colocando los hogares pequeños en un estrato, los
medianos en otro, ...
„
3.5 Estratificación después de seleccionar la muestra.
A veces no se sabe a qué estrato pertenece un dato hasta que no se observa (p.e. estratos según
sexo y entrevista telefónica).
Supóngase una muestra aleatoria simple de n personas para una encuesta. La muestra puede
ser dividida en n1 masculinos y n2 femeninos después de que ha sido realizada. Entonces en
lugar de usar y para estimar µ , podemos usar y st siempre que
Ni
sea conocido para todo i.
N
Obsérvese que en esta situación los ni son aleatorios, ya que varían de una muestra a otra
aunque n sea fijo. Luego esto no es una muestra aleatoria estratificada en su pleno sentido,
50
pero si
Ni
es conocido y ni ≥ 20 ∀i , entonces este método de estratificar después de la
N
selección es casi tan exacto como el muestreo aleatorio estratificado con asignación
proporcional. Si
Ni
se desconoce o no se puede tener una buena aproximación de su valor,
N
este método no debe usarse.
Ejemplo 3.6 (Ejercicio 17, relación tema 3) En una ciudad se sabe que el 30% de los hogares
tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en
euros de la factura bimensual) se obtuvieron los siguientes resultados:
Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral
Eléctrica
60
5730
200
No eléctrica
40
2080
90
Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un
límite para el error de estimación.
Solución: Ya que la proporción observada de facturas de hogares con calefacción eléctrica
(0,60=60/100) está muy alejada de la proporción verdadera (0,30), es conveniente la
estratificación después de que se ha seleccionado la muestra aleatoria simple. Además el
procedimiento se justifica pues tanto n1 como n2 superan 20.
y1 =
y st =
1
N
5730
= 95,5€
60
2
2
i =1
i =1
∑ Ni y i = ∑
V ( y st ) =
1
N2
y2 =
2080
= 52€
40
Ni
y i = (0,30 × 95,5) + (0, 70 × 52) = 65, 05€
N
2
∑ Ni2
i =1
2
Si2 Ni − ni
N2 S2 N − n
= ∑ i2 i i i
ni N i
ni N i
i =1 N
omitiendo el coeficiente corrector por poblaciones finitas se tiene
2
V ( y st ) = ∑
i =1
2
2
2
2
 N i  Si2 

N i2 Si2
2 200 
2 90 
0,30
0,
70
=
=
+
∑ 

 
 = 159, 225
60  
40 
N 2 ni i =1  N  ni 
2 V ( y st ) =25,24€
„
A veces este método de estimación se utiliza para ajustar por no respuesta. Por ejemplo, si
muchos de quienes no respondieron a una muestra aleatoria simple son varones, entonces la
proporción de varones en la muestra va a ser pequeña, y se podría conseguir un estimador
ajustado mediante la estratificación después del muestreo.
51
Así, en este ejemplo la baja representación en la muestra de facturas sin calefacción eléctrica y
la alta de facturas con calefacción eléctrica conducen a una sobreestimación del valor medio
de las facturas si se utiliza m.a.s. y no se ajusta la estimación de la media con la estraficación
después de seleccionar la muestra:
y=
5730 + 2080 7810
=
= 78,10€
60 + 40
100
EJERCICIOS RESUELTOS
1. (Ejercicio 10, relación tema 3) De una ciudad con 350 casas, se sabe que 164 de ellas
tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (en
kilovatios-hora) se obtuvieron los siguientes resultados:
Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral
Eléctrica
24
972
202,396
No eléctrica
36
463
96,721
a. Obtenga una estimación del número medio de kilovatios-hora utilizado en la
ciudad. Dé un límite para el error de estimación.
b. Obtenga una estimación del número medio de kilovatios-hora utilizado por las
casas que no tienen calefacción eléctrica. Dé un límite para el error de
estimación.
SOLUCIÓN:
a.
Ni
164
186
350
ni
24
36
Si2
yi
972
463
202,396
96,721
y st =
V ( y st ) =
Ni y i
1
N2
1
N
L
L
∑N y
i
i =1
∑ Ni2
i =1
159.408
86.118
245.526
i
=
0,854
0,806
245.526
= 701,50
350
Si2 N i − ni 268.624, 45
=
= 2,19
ni N i
3502
2 2,19 = 2,96
52
N i − ni
Ni
Si2 N i − ni
N
ni N i
193.699,13
74.925,32
268.624,45
2
i
b.
y 2 = 463
V ( y2 ) =
S 22 N 2 − n2 96, 721 186 − 36
=
= 2,17
n2 N 2
36
186
2 2,17 = 2,94
2. (Ejercicio 11, relación tema 3) Un analista de la opinión pública tiene un presupuesto de
20.000 euros para realizar una encuesta sobre el número medio de coches por hogar. Se
sabe que de los 10.000 hogares de la ciudad, 9.000 tienen teléfono. Las entrevistas por
teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros
por hogar visitado. Suponga que las varianzas en los estratos con y sin teléfono son
iguales. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares
deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico
son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente?
SOLUCIÓN:
L
n=
C∑
i =1
N iσ i
ci
L
∑Nσ
i =1
i
i
Ni
9.000
1.000
10.000
ci
L
=
C∑
i =1
L
N iσ
ci
∑Nσ
i
i =1
ci
10
30
L
=
ci
Cσ ∑
i =1
L
L
Ni
ci
σ ∑ N i ci
i =1
=
Ni
ci
C∑
i =1
L
∑N
i =1
i
ci
=
20.000 × 3.028, 624
= 1784,81
33.937, 726
ωi
Ni
ci
N i ci
2.846,05
182,574
28.460,5 2.846,05/3.028,624=0,9397
5.477,226 182,574/3.028,624=0,0603
3.028,624
33.937,726
1,0000
n1 = nω1 = 1.784,81× 0,9397 = 1677, 2 ≈ 1677
n2 = nω2 = 1.784,81× 0, 0603 = 107,59 ≈ 107
n = n1 + n2 = 1784
O bien
c1n1 + c2 n2 = 20.000
c1ω1n + c2ω2 n = 20.000
9,397n + 1,809n = 11, 206n = 20.000
20.000
= 1.784,8 = n
11, 206
Y a partir de n se obtienen n1 y n2 como antes.
53
3. (Ejercicio 12, relación tema 3) Se desea conocer el número de fines de semana que las
familias de una gran ciudad salen fuera de ella. Se sabe que el 42’5% de las familias tienen
de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un
muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana
que pasan fuera, obteniéndose los siguientes datos:
Número de hijos ni
n
∑ yi
S i2
i =1
0-2
25 239 60’76
3-5
19 174 63’01
Mas de 5
16 78 78’24
Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y
dar el límite de error de estimación. Omitir el corrector por población finita.
SOLUCIÓN:
y1 =
y st =
Si
1
N
239
= 9,56
25
L
L
i =1
i =1
∑ Ni y i = ∑
y2 =
174
= 9,16
19
y3 =
78
= 4,87
16
Ni
y i = ( 0, 425 × 9,56 ) + ( 0,30 × 9,16 ) + ( 0, 275 × 4,87 ) = 8,15
N
N i − ni
1
= 1 ⇒ V ( y st ) = 2
Ni
N
L
∑ Ni2
i =1
Si2 N i − ni
1
= 2
ni N i
N
L
∑ Ni2
i =1
L
L
Si2
N2 S2
= ∑ i2 i = ∑
ni i =1 N ni i =1
2
2
 N i  Si
=
 
 N  ni
60, 77  

2 63, 01  
2 78, 24 
=  0, 4252
 +  0,30
 +  0, 275
 = 1,107
25  
19  
16 

2 1,107 = 2,1
4. (Ejercicio 6, relación tema 3) Una compañía de autobuses está planeando una nueva ruta
para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada
barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1
(totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. Los
resultados se resumen en la tabla adjunta:
Barrio
1
2
3
4
N i 240 190 350 220
ni
25 25 25 25
y i 3,5 3,6 3,9 3,8
S i 0,8 0,9 1,2 0,7
a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del
nuevo servicio.
b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos
pertenecerían al barrio 3. (Suponga iguales los costes de observación)
54
SOLUCIÓN:
a)
L
N = ∑ N i = 1000
y st =
i =1
1
N
L
∑ Ni y i =3, 725
i =1
B = 2 V ( y st ) = 0,1973
b)
n3 = nω3 = 100
N 3σ 3
= 100
4
∑Nσ
i =1
i
V ( y st ) =
1
N2
L
∑ Ni2
i =1
Si2 N i − ni
= 0, 00973
ni N i
µ ∈ ( 3,5277 , 3,9223)
350 × 1, 2
=
(240 × 0,8) + (190 × 0,9) + (350 × 1, 2) + (220 × 0, 7)
i
= 100 × 0, 4482 = 44,82 ≈ 45
5. (Ejercicio 20, relación tema 3) Una empresa especializada en seguros está pensando en
ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Para
ajustar sus tarifas desea estimar el gasto en pequeñas reparaciones de mantenimiento
(objeto del seguro) de dichas empresas. Se clasifican las empresas en función de su
tamaño. El número de empresas de cada tipo, el coste de obtención de esta información en
cada empresa así como los valores mínimos, medios y máximos de un estudio similar
hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados
en euros)
Tipo de
Número de
Costes de
Gastos de reparación
empresa
empresas
observación
Mínimo
Media
Máximo
A
100
16
400
500
600
B
500
9
240
300
360
C
700
4
70
100
130
Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas
empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de
estimación asociado?
SOLUCIÓN:
La asignación que minimiza la cota del error de estimación para un coste fijo es la
asignación óptima.
Usamos que R≈4σ y por tanto estimamos que σ ≈
Ni
ci
100 16
500 9
700 4
600 = 16n1 + 9n2 + 4n3
ci
4
3
2
( ni = ωin )
Ri
σi
R
.
4
N iσ i
ci
ωi
600-400 50
360-240 30
130-70 15
1250 0’1087
5000 0’4348
5250 0’4565
11500
1
600 = 1’7392n + 3’9132n + 1’826n = 7’4784n
55
n = 600/7’4784 = 80’231
n1 = ω1n = 8’72 ≈ 8
n2 = ω2n = 34’88 ≈ 34 n3 = ω3n = 36’63 ≈ 36
C = (16×8) + (9×34) + (4×36) = 578 < 600
pero
C’ = (16×9) + (9×35) + (4×37) = 607 > 600
6. (Ejercicio 13, relación tema 3) En una población compuesta por aproximadamente igual
número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante
en ocio. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de
500 números de teléfono del citado municipio. Después de obtenidos los datos se observa
que sólo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide
llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los
siguientes datos
Ni
HOMBRES
2.500
MUJERES
2.700
ni
100
400
yi
120
250
9.000
16.000
Si2
Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante
muestreo aleatorio estratificado después de seleccionar la muestra.
SOLUCIÓN:
Ni
ni
2.500
2.700
5.200
100
400
500
Si2
yi
120
250
Ni y i
9.000
16.000
y st =
1
V ( y st ) = 2
N
1
N
300.000
675.000
975.000
L
∑N y
i =1
i
i
=
N i − ni
Ni
0,96
0,85185
N i2
Si2 N i − ni
ni N i
540.000.000
248.399.460
788.399.460
975.000
= 187,5
5.200
Si2 N i − ni 788.399.460
N
=
= 29,16
∑
5.2002
ni N i
i =1
L
2
i
2 29,16 = 10,8
7. (Ejercicio 14, relación tema 3) En una población compuesta por aproximadamente igual
número de hombres que de mujeres se desea estimar la proporción de individuos que ven
un determinado programa de televisión. Se lleva a cabo la encuesta por teléfono mediante
56
una muestra aleatoria simple de 300 números de teléfono. Después de obtenidos los datos
se observa que sólo 50 de los encuestados fueron hombres y el resto mujeres. Por ello se
decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los
siguientes datos
HOMBRES
MUJERES
Encuestados
50
250
Ven el programa
12
130
Estime la proporción de la población que ven el programa de televisión y su cota de error,
mediante muestreo aleatorio estratificado después de seleccionar la muestra.
SOLUCIÓN:
12
= 0, 24
50
p1 =
p st =
1
N
L
∑N
i =1
L
i
pi = ∑
i =1
1
N2
L
∑ Ni2
i =1
130
= 0,52 q i = 1 − p i
250
Ni
p i = ( 0,50 × 0, 24 ) + ( 0,50 × 0,52 ) = 0,38 ⇒ p st = 38%
N
Si
V ( p st ) =
p2 =
N i − ni
=1 ⇒
Ni
p i q i N i − ni
1
= 2
ni − 1 N i
N
L
∑ Ni2
i =1
L
L
pi qi
N2 p q
= ∑ i2 i i = ∑
ni − 1 i =1 N ni − 1 i =1
2
 Ni  pi qi
=
 
 N  ni − 1
0, 24 × 0, 76  

2 0,52 × 0, 48 
=  0,502
 +  0,50
 = 0, 0011812146
49
249

 

2 V ( p st ) = 0, 0687 ⇒ 6,87%
8. (Ejercicio 15, relación tema 3) Una corporación desea estimar el número total de horas
perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los
obreros, técnicos y administrativos tienen diferentes tasas de accidentes, la corporación
decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de años
previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas
perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaños de
los estratos. No habiendo diferencia entre los costes de observación de cada grupo,
determine la mejor asignación para una muestra de 40 empleados.
Obreros
Técnicos
Administrativos
Si2
36
25
9
Ni
132
92
27
57
SOLUCIÓN:
Ni
132
σ i ≈ Si
6
Niσ i
792
ωi
792
1.333
= 0,5941
460
= 0,3451
1.333
81
= 0, 0608
27
3
81
1.333
1.333
1
Donde se ha aplicado la asignación de Neyman al ser los costes de observación iguales:
92
5
N jσ j
ωj =
n1 = 40 × 0,5941 = 23,8 ≈ 24
n2 = 40 × 0,3451 = 13,8 ≈ 14
L
∑Nσ
i
i =1
460
i
n3 = 40 × 0, 0608 = 2, 4 ≈ 2
n = 40
9. (Ejercicio 16, relación tema 3) Se dispone de la siguiente información sobre tamaños
poblacionales de los estratos, costes de observación y estimaciones de las proporciones
Tamaño del estrato Coste de observación Proporciones en %
ESTRATO 1
5000
9
90
ESTRATO 2
2000
25
55
ESTRATO 3
3000
16
70
Determine la mejor asignación para una muestra de 200 observaciones.
SOLUCIÓN:
Ni
ci
pi
qi
pi qi
ωi
Ni pi qi
ci
5.000
3
0,90
0,10
0,3
500
500
2.000
5
0,55
0,45
0,4975
199
199
3.000
4
0,70
0,30
0,45826
343,695
1.042,695
Donde se ha aplicado la asignación óptima:
Nj
ωj =
L
∑N
i =1
i
1.042, 695
= 0, 4795
= 0,1909
1.042, 695
343, 695
= 0,3296
1.042, 695
1
p jq j
n1 = 200 × 0, 4795 = 95,9 ≈ 96
cj
n2 = 200 × 0,1909 = 38, 2 ≈ 38
pi qi
ci
n3 = 200 × 0,3296 = 65,9 ≈ 66
n = 200
10. (Ejercicio 19, relación tema 3) La producción de piezas de una factoría se realiza en dos
máquinas. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B.
Se les pasó control de calidad a 200 piezas; 67 producidas por la máquina A y dos de ellas
resultaron defectuosas; las 133 restantes procedían de la máquina B, siendo 6 de ellas
defectuosas. Estimar la proporción de piezas defectuosas de la factoría y dar el límite de
error de estimación. Omita el coeficiente corrector por población finita.
58
SOLUCIÓN:
p=
Estrato
Ni
ni
pi
A
B
0.40 × N
0.60 × N
N
67
133
200
2/67=0.030
6/133=0.045
pi qi
ni − 1
0.000441
0.000326
1
( ( 0.40 × N × 0.030 ) + ( 0.60 × N × 0.045) ) = ( ( 0.40 × 0.030 ) + ( 0.60 × 0.045) ) = 0.039
N
( )
(
( 3.9% )
)
1
0.402 × N 2 × 0.000441) + ( 0.602 × N 2 × 0.000326 ) =
2 (
N
= ( 0.402 × 0.000441) + ( 0.602 × 0.000326 ) = 0.000188
V p =
(
)
B = 2 0.000188 = 0.0274
( 2.74% )
11. (Como ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la
proporción de circuitos integrados de ordenador defectuosos que provienen de dos
diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van
a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación
de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20
provienen de la operación A y 80 de la operación B. De entre los circuitos integrados
muestreados de la operación A, 3 son defectuosos. De entre las piezas muestreadas de la
operación B, 13 son defectuosas. Estime la proporción de los defectuosos en la población,
y fije un límite para el error de estimación.
SOLUCIÓN
p st =
1
N
L
L
i =1
i =1
∑ Ni pi = ∑
1
V ( p st ) = 2
N
= ( 0, 60 )
2
Ni
3  
13 

p i =  0, 60  +  0, 40  = 0,155
N
20  
80 

L
L
p i q i N i − ni
N i2 p i q i
N
=∑ 2
=∑
∑
ni − 1 N i
i =1
i =1 N ni − 1
i =1
L
2
i
(15,5% )
2
 Ni  pi qi
=


 N  ni − 1
0,15 × 0,85
2 0,1625 × 0,8375
+ ( 0, 40 )
= 0, 00267
19
79
2 V ( p st ) = 0,103
(10,3% )
12. (Ejercicio 18, relación tema 3) Para la comercialización de un producto se le clasifica,
atendiendo al calibre, en tres categorías: pequeña, mediana y grande. Un establecimiento
dispone de 300 piezas pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso
total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas
de todas las categorías, resultando
59
Categoría Nº de piezas Peso en gramos
Pequeña 5
12, 14, 12, 15, 12
Mediana 6
16, 22, 24, 20, 20, 18
Grande
4
30, 33, 31, 34
Considerando los anteriores datos como una muestra previa, obtenga el número de
unidades que cada categoría debe aportar a la muestra para que el error en la estimación
del peso total no supere el medio kilo.
SOLUCIÓN:
Ni
Peso en gramos
(con las funciones del modo SD de la calculadora)
12, 14, 12, 15, 12
S1 = 1, 4142
S12 = 2
16, 22, 24, 20, 20, 18 S 2 = 2,8284
S22 = 8
30, 33, 31, 34
S32 = 3,3333
σi
S3 = 1,8257
σ
2
i
Niσ i
N iσ
ωj =
2
i
N jσ j
∑Nσ
i =1
300
500
200
1,4142
2,8284
1,8257
2
8
3,3333
N = 1000
424,26
1414,2
365,14
600
4000
666,66
2203,6
5266,66
n=
1
(∑ N σ )
i =1
i
13, 79 ≈ 14
45,99 ≈ 46
11,87 ≈ 12
n = 72
2
i
L
i
N D + ∑ N iσ
2
i
0,1925
0,6418
0,1657
L
B2
250.000
D=
=
= 0, 0625
2
4N
4.000.000
ni = 71, 66ωi
L
i =1
= 71, 66
2
i
13. (Ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la
proporción de circuitos integrados de ordenador defectuosos que provienen de dos
diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van
a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación
de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20
provienen de la operación A y 80 de la operación B. De entre los circuitos integrados
muestreados de la operación A, 2 son defectuosos. De entre las piezas muestreadas de la
operación B, 16 son defectuosas.
a. Considerando únicamente la muestra aleatoria simple de 100 circuitos
integrados, estime la proporción de los defectuosos en el lote, y establezca un
límite para el error de estimación.
60
b. Estratifique la muestra, después de la selección, en circuitos integrados
provenientes de la operación A y B, estime la proporción de los defectuosos en
la población, y fije un límite para el error de estimación.
c. ¿Qué respuesta encuentra más aceptable? ¿Por qué?
SOLUCIÓN:
a. p =
pq
18
= 0, 001491 2 V ( p ) = 0, 0772
= 0,18 (18%) V ( p ) =
n −1
100
b. p st =
1
N
L
L
i =1
i =1
∑ Ni pi = ∑
1
V ( p st ) = 2
N
Ni
2  
16 

p i =  0, 60  +  0, 40  = 0,14
N
20  
80 

L
L
p i q i N i − ni
N i2 p i q i
N
=∑ 2
=∑
∑
ni − 1 N i
i =1
i =1 N ni − 1
i =1
= ( 0, 60 )
L
2
2
i
( 7, 72% )
(14% )
2
 Ni  pi qi
=


 N  ni − 1
0,10 × 0,90
2 0, 20 × 0,80
+ ( 0, 40 )
= 0, 00203
19
79
2 V ( p st ) = 0, 0901
( 9, 01% )
c. Aunque en el conjunto de la población hay más elementos que proceden de A (60%)
que de B (40%), la muestra global no representa adecuadamente este hecho,
predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el
apartado a. la estimación esté sesgada hacia el valor de B ( p 2 = 0, 20 ) frente al de A
( p1 = 0,10 ). En el apartado b.
este hecho se corrige dando a p1 y p 2 las
ponderaciones 0,60 y 0,40 respectivamente para estimar p.
14. (Ejercicio 4, relación tema 3) Una cadena de restaurantes tiene 100 establecimientos en
Madrid, 70 en Barcelona y 30 en Sevilla. La dirección está considerando añadir un nuevo
producto en el menú. Para contrastar la posible demanda de este producto, lo introdujo en
el menú de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de
Sevilla. Usando los índice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla,
respectivamente, las medias y las desviaciones típicas muestrales del número de pedidos
de este producto recibidos por restaurante en las tres ciudades durante una semana fueron:
y1 = 21, 2
S1 = 12
y2 = 13,3
S 2 = 11
y3 = 26,1
S3 = 9
a. Estimar el número medio de pedidos semanales por restaurante para los
restaurantes de la cadena. Dar un límite del error de estimación.
61
b. Determinar el tamaño muestral y la asignación para repetir el estudio anterior
cometiendo un error inferior a 3 pedidos.
SOLUCIÓN:
a. y st =
V ( y st ) =
1
N
L
∑N y
i
i =1
1
N2
L
∑N
i =1
i
2
i
=
3834
= 19,17 pedidos / semana
200
Si2 N i − ni
= 6, 2965
ni N i
2 V ( y st ) = 5, 02 pedidos / semana
b.
Ni
σi
σ
2
i
Niσ i
N iσ
ωj =
2
i
N jσ j
∑Nσ
i =1
100
70
30
12
11
9
144
121
81
N = 200
1200
770
270
14400
8470
2430
2240
25300
n=
2
i
L
i =1
62
i
N D + ∑ N iσ
2
i
1
(∑ N σ )
i =1
i
0,5357
0,3438
0,1205
L
B2 9
D=
= = 2, 25
4 4
ni = 43,52ωi
L
= 43,52
2
i
23,31 ≈ 24
14,96 ≈ 15
5, 24 ≈ 6
n = 45
4. Muestreo con información auxiliar.
4.1 Introducción.
4.2 Estimación de razón.
4.2.1 Estimación de la media y total poblacionales.
4.2.2 Determinación del tamaño muestral.
4.3 Estimación de regresión.
4.3.1 Estimación de la media y total poblacionales.
4.3.2 Determinación del tamaño muestral.
4.4 Estimación de diferencia.
4.4.1 Estimación de la media y total poblacionales.
4.4.2 Determinación del tamaño muestral.
4.1 Introducción.
Si entre dos variables existe una fuerte relación es posible utilizar la información auxiliar que
de una de las variables se tenga, como puede ser la media o el total poblacional, para estimar
la media o el total de la otra variable. Esta circunstancia es importante cuando se pretende
estimar el total sin conocer el número de elementos de la población y sí el valor total de la
variable que proporciona la información auxiliar
Denotemos por
Y → Variable bajo estudio
X → Variable que proporciona la información auxiliar
Y supongamos que tenemos una muestra constituida por n pares:
(x1 , y1 ),..., ( x n , y n )
A través de los datos muestrales se puede estimar la relación existente entre ambas variables.
Distintos diseños de muestreo pueden utilizarse con la estimación con información auxiliar.
Aquí suponemos que el muestreo que se emplea es el aleatorio simple
Ejemplo 4.1. Ya que existe una fuerte relación entre renta y ahorro, se puede estimar el valor
total de los ahorros de los empleados de una empresa si se conoce el valor total de las rentas
de dichos empleados. Por ejemplo, si se estima que, por termino medio, el 10% de la renta se
dedica al ahorro y si se conoce la renta total, el ahorro total se estima igual a la décima parte
del total de la renta. Observemos que esto se puede llevar a cabo sin necesidad de conocer el
número de empleados de la empresa.
„
Dependiendo de la relación entre las variables X e Y utilizaremos:
•
Estimadores de razón ( y = bx )
63
•
Estimadores de regresión ( y = a + bx )
•
Estimadores de diferencia ( y = a + x )
Cualquiera de estos estimadores sólo se debe utilizar si entre las dos variables existe una
fuerte relación lineal positiva ( rxy >
1
).
2
4.2 Estimación de razón
Dada una población de tamaño N en la que se consideran las variables X e Y , se define la
razón como el cociente:
R=
τy
τx
Es decir, la proporción del total de Y respecto del total de X . Puesto que τ y = Nµ y y
τ x = Nµ x , obtenemos
R=
µY
µX
De estas definiciones se deduce que
τ y = Rτ x
µ y = Rµ x
Por tanto, si se conocen los valores de la media y el total de la variable X , entonces para
estimar la media y el total de Y sólo hay que estimar el valor de R (que notaremos como
R = r ):
τˆy = rτ x
µˆ y = r µ x
Puesto que la razón R es el cociente entre las medias poblacionales, tomando una muestra
aleatoria simple: ( y1 , x1 ),..., ( y n , x n ) , podemos estimar R tomando el cociente entre las
medias muestrales:
•
•
64
ESTIMADOR DE LA RAZÓN:
VARIANZA ESTIMADA DE r :
1 n
yi
y n∑
i =1
r= =
=
x 1 n
∑ xi
n i =1
n
∑y
i =1
n
i
∑x
i =1
i
1 n
1 S2  N − n 
2
2
Vˆ (r ) = 2 r 
S
=
,
∑ ( yi − rxi )
r
n − 1 i =1
µ x n  N 
4.2.1 Estimación de la media y el total poblacionales
Hemos de suponer que entre X e Y existe una alta correlación lineal positiva y que el
modelo lineal, donde X es la variable explicativa e Y la explicada, pasa por el origen,
( y = bx,
en este contexto se nota b = r dado su significado )
ESTIMADOR DE LA MEDIA:
µˆ y = rµ x
•
VARIANZA ESTIMADA DE µ̂ y :
S r2  N − n 
2 ˆ
ˆ
V (µˆ y ) = µ x V (r ) =


n  N 
•
ESTIMADOR DEL TOTAL:
τˆ y = rτ x
•
Observemos que no es necesario conocer el tamaño de la población N.
•
VARIANZA ESTIMADA DE τˆ y :
τ x2 S r2  N − n 
2 ˆ
ˆ
ˆ
V (τ y ) = τ x V (r ) = 2


µx n  N 
Comentarios sobre el uso de estos estimadores:
•
Cuando N es desconocido y si estimamos que n ≤ 5% N (el tamaño poblacional es
más de 20 veces el tamaño de la muestra), es decir que
N −n
≥ 0,95 , entonces
N
N −n
≅ 1 . (Véase ejercicio resuelto 4)
N
•
De la relación µ x =
τx
N
, conociendo dos de esos elementos se puede calcular el
tercero.
•
A la hora de obtener Vˆ (τˆ y ) , si µ x es desconocida y no podemos utilizar la relación
anterior entonces µ x ≅ x . Sin embargo, para estimar µ̂ y necesitamos conocer el
verdadero valor de µ x .
•
Son estimadores sesgados.
•
A la hora de estimar el total, aún conociendo el tamaño de la población, cuando existe
una fuerte correlación entre las variables se comporta mejor el muestreo con
información auxiliar (τˆ y = rτ x ) que el m.a.s (τˆ = Ny ) .
Ejemplo 4.2 (Ejercicio 2, relación tema 4, apartado (a))
Mediante una tasación previa se desea estimar la producción media y la producción total de
los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de
65
3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les
preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron:
Superficie Producción
3,7
12
4,3
14
4,1
11
5
15
5,5
16
3,8
12
8
24
5,1
15
5,7
18
6
20
3
8
7
20
5,4
16
4,4
14
5,5
18
5
15
5,9
18
5,6
17
5
15
7,2
22
Estime la producción media y total mediante los estimadores de razón y m.a.s., calcule sus
respectivos límites para el error de estimación y compárelos.
Solución
66
Y = " producción (toneladas, tm)"
X = "superficie plantada (hectáreas, ha)"
xi
yi
xi2
yi2
xi yi
3,7
4,3
4,1
5
5,5
3,8
8
5,1
5,7
6
3
7
5,4
4,4
5,5
12
14
11
15
16
12
24
15
18
20
8
20
16
14
18
13,69
144
44,4
18,49
196
60,2
16,81
121
45,1
25
225
75
30,25
256
88
14,44
144
45,6
64
576
192
26,01
225
76,5
32,49
324
102,6
36
400
120
9
64
24
49
400
140
29,16
256
86,4
19,36
196
61,6
30,25
324
99
5
5,9
5,6
5
7,2
105,2
TOTALES
15
18
17
15
22
320
25
225
75
34,81
324
106,2
31,36
289
95,2
25
225
75
51,84
484
158,4
581,96
5398
1770,2
Del enunciado y de la tabla anterior obtenemos
n = 20
n
∑ xi = 105, 2
i =1
n
∑ xi2 = 581,96
i =1
1 n
105, 2
xi =
= 5, 26
∑
20
n i =1
y=
1 n
320
∑ yi = 20 = 16
n i =1
(
n
∑ yi = 320
x=
sxy =
τ x = 3.840 ha
N = 750 socios
)(
i =1
sx2 =
s 2y =
(
1 n
∑ xi − x
n i =1
(
1 n
∑ yi − y
n i =1
)
2
)
=
2
=
n
n
∑ yi2 = 5398
∑x y
i =1
i =1
i
i
= 1770, 2
2
1 n 2
581,96
xi − x =
− 5, 262 = 1, 4304
∑
20
n i =1
2
1 n 2
5398
yi − y =
− 162 = 13,9
∑
n i =1
20
)
1 n
1 n
1770, 2
x
−
x
y
−
y
=
xi yi − x y =
− ( 5, 26 × 16 ) = 4,35
∑
∑
i
i
n i =1
n i =1
20
Si queremos calcular las cuasivarianzas, a partir de las varianzas se tiene:
S x2 =
n 2 20
sx = 1, 4304 = 1,5057
n −1
19
S y2 =
n 2 20
s y = 13,9 = 14, 6316
n −1
19
y hallando las raíces cuadradas obtenemos las desviaciones
(s , s )
x
y
y cuasidesviaciones
típicas ( S x , S y ) .
Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se
simplifican notablemente si utilizamos una calculadora científica de uso común. Estas
calculadoras nos proporcionan los valores de un grupo de funciones estadísticas
∑x
2
∑x
x
σ n = sx
σ n = sx = desviación típica
σ n − 1 = S x de forma inmediata.
σ n − 1 = S x = cuasidesviación típica


s
4,35
La relación entre las variables es alta  rxy = xy =
= 0,9756  . Esto junto con la


sx s y 1,196 × 3, 728


información auxiliar que disponemos de la variable X justifica el uso de estimadores de razón.
Por otra parte, dado el contexto, es lógico que la relación pase por el origen (a 0 ha de
superficie le corresponde una producción de 0 tm).
67
20
r=
∑y
i =1
20
i
∑x
i =1
=
320
= 3, 042 tm/ha
105, 2
i
τˆy = rτ x = 3, 042 × 3.840 = 11.680, 6 tm
τ
3840
µ = x=
= 5,12 ha / socio
x N
750
µˆ y = r µ x = 3, 042 × 5,12 = 15,57 tm/socio
2
Sr =
20
1 20
1  20 2 2 20 2
2
2
−
=
+
−
y
rx
y
r
x
r
xi yi
∑ ( i i ) n − 1  ∑
∑
∑
i
i
n − 1 i =1
i =1
i =1
i =1
S2  N − n 
Vˆ ( µˆ y ) = r 
 = 0, 0344
n  N 
⇒

 =0, 706

Bµ = 2 Vˆ ( µˆ y ) = 0,37 tm/socio
2
τ x2 Sr2  N − n 
2 Sr  N − n 
ˆ
ˆ
V (τ y ) = 2
=N

 = 19.326, 75
µ x n  N 
n  N 
⇒
Bτ = 2 Vˆ (τˆy ) = 278, 04 tm
o Bτ = 750 × Bµ = 750 × 0,37 = 277,5 tm (no coinciden los dos procedimientos por los errores
de redondeo en el valor de Bµ ).
A continuación lo estimaremos utilizando muestro aleatorio simple.
320
y=
= 16 tm / socio
20
S 2  N − n  14, 63  750 − 20 
ˆ
V y =

=

 = 0, 712
20  750 
n  N 
( )
Bµ = 2 0, 712 = 1, 69 tm / socio
τˆ = Ny = 750
320
= 12.000 tm
20
2
2 S  N −n
2 14,63  750 − 20 
ˆ
ˆ
V (τ ) = N

 = 750

 = 400.539,47
20  750 
n  N 
Bτ = 2 400.539, 47 = 1.265,76 tm o Bτ = 750 × Bµ
Observemos que el límite del error de estimación es mucho mayor que el cometido utilizando
estimadores de razón.
4.2.2
„
Determinación del tamaño muestral
Tamaño muestral mínimo para que la estimación de la razón, la media y el total no supere una
cota de error de magnitud B
n=
68
Nσ r2
σ r2 + ND
donde para estimar:
•
•
•
la razón:
B 2 µ x2
D=
4
la media:
B2
D=
4
el total:
B2
D=
4N 2
Comentarios:
•
σ r2 se estima utilizando una muestra previa (tamaño n' ): σˆ r2 = S r2 .
•
Si µ x es desconcocido, µˆ x2 = x 2
Ejemplo 4.3 (Ejercicio 2, relación tema 4, apartado (b))
Supongamos que queremos reducir el límite para el error de estimación (LEE) de la media a
0,25 tm/socio y el LEE del total no debe superar las 200 tm ¿a cuántos socios se les debe tasar
su producción antes de realizar una nueva estimación?
Solución
Nσ r2
MEDIA: n =
σ r2 + N
Nσ r2
TOTAL: n =
σ r2 + N
B2
4N 2
2
B
4
=
=
750 × 0, 706
= 42,6 ≅ 43 socios

0, 252 
0, 706 +  750 ×

4 

Nσ r2
750 × 0, 706
=
= 37, 7 ≅ 38 socios
2
B
 2002 
2
σr +
0, 706 + 

4N
 4 × 750 
Necesitamos al menos 43 socios para cumplir con ambos niveles de error.
„
4.3 Estimación de regresión
El uso del estimador de razón es más efectivo cuando la relación entre las variables X e Y es
lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados).
En caso de relación lineal que no pase por el origen de coordenadas es preferible utilizar
estimadores de regresión.
En el modelo lineal simple Y = a + bX , el método de mínimos cuadrados permite estimar a y
b de la siguiente forma:
69
n
sxy S xy
bˆ = 2 = 2 =
sx
Sx
∑ ( y − y )( x − x )
i
i =1
i
n
∑(x − x )
i =1
2
i
ˆ
aˆ = y − bx
donde
4.3.1
S x2 =
1 n
2
( xi − x )
∑
n − 1 i =1
sx2 =
1 n
2
( xi − x ) ;
∑
n i =1
S xy =
1 n
∑ ( xi − x )( yi − y )
n − 1 i =1
sxy =
1 n
1 n
x
−
x
y
−
y
=
(
)(
)
∑ i
∑ xi yi − x y
i
n i =1
n i =1
Estimación de la media y el total poblacionales
ˆ + bˆµ = y + bˆ ( µ − x )
µˆ yL = aˆ + bˆµ x = y − bx
x
x
•
ESTIMADOR DE LA MEDIA:
•
S2  N −n
VARIANZA ESTIMADA DE µ̂ yL : Vˆ (µˆ yL ) = L 

n  N 
siendo S L2 la varianza residual en el modelo lineal simple:
( (
1 n
S =
∑ yi − y + bˆ ( xi − x )
n − 2 i =1
2
L
))
2
2
n  2 sxy
=
 sy − 2
n − 2 
sx

n 2
s y (1 − rxy2 )
 =
2
n
−

•
ESTIMADOR DEL TOTAL:
τˆ yL = Nµˆ yL
•
VARIANZA ESTIMADA DE τˆyL :
Vˆ (τˆ yL ) = N 2Vˆ (µˆ yL )
Comentario. En este caso para estimar el total es necesario conocer el tamaño de la población
N. No se puede estimar como τˆ yL = aˆ + bˆτ x ya que la recta de regresión no pasa por el punto
(τ
x
,τ y ) .
Ejemplo 4.4 (Ejercicio 3, relación tema 4, apartado (a))
Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre las
ventas diarias. Se tiene información de que, por término medio, el gasto en publicidad es de 5
euros. Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en
publicidad y ventas diarios. Los resultados son:
Gastos Ventas
3,7
120
4,3
140
4,1
135
70
5
150
5,5
160
3,8
120
8
160
5,1
150
5,7
125
6
130
0
80
7
150
5,4
150
4,4
120
5,5
140
5
150
5,9
150
6,6
170
Estime el total de ventas diarias y la media utilizando estimadores de regresión. Obtenga el
límite para el error de estimación.
Solución
Denotamos Y = " ventas diaria (euros)";
X = " gastos diarios en publicidad (euros)"
Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos:
n = 18 establecimientos
N = 1.000 establecimientos
µ x = 5€
x = 5, 0556€
y = 138,889€
sx = 1, 6375 ⇒ sx2 = 2, 6814
n 2
s y = 20,314 ⇒ s y2 = 412, 654
S y2 =
s y = 436,928
n −1
sxy = 27, 7284
La relación entre las variables es fuerte: rxy = 0,8336 .
(
µˆ yL = y + bˆ µ x − x
)
s
27, 7284
↓ bˆ = xy2 =
= 10,341
2, 6814
sx
µˆ yL = 138,314€
S L2 =
n −1 2
S y (1 − rxy2 ) = 141, 6
n−2
Bµ = 2 Vˆ ( µˆ yL ) = 5,56
τˆyL = N µˆ yL = 138.314€
S2  N − n 
Vˆ ( µˆ yL ) = L 
 = 7, 73
n  N 
Bτ = N × Bµ = 1.000 × 5,56 = 5.560€
„
4.3.2 Determinación del tamaño muestral
Tamaño muestral mínimo necesario para que al estimar la media y el total poblacionales la
cota de error no supere la magnitud B
71
n=
Nσ L2
σ L2 + ND
donde para estimar:
•
la media: D =
•
el total:
D=
B2
4
B2
4N 2
σ L2 se estima utilizando una muestra previa (tamaño n' ): σˆ L2 = S L2
Ejemplo 4.5 (Ejercicio 3, relación tema 4, apartado (b))
Se quiere repetir el estudio anterior de forma que el error para la estimación del total no supere
los 1.000 euros ¿cuál debe ser el tamaño muestral?
Solución
n=
Nσ L2
σ L2 + N
2
B
4N 2
=
1000 ×141, 6
= 361, 6 ≅ 362 establecimientos.

10002 
141, 6 +  1000

4 × 10002 

„
4.4 Estimación de diferencia
El uso del estimador de diferencia tiene un buen comportamiento (cota de error más baja)
cuando la relación entre las variables es lineal y la pendiente del modelo es uno.
(y = a+ x
ó
y = y + ( x − x) a = y − x = d
)
Comúnmente se emplea en procedimientos de auditoría.
4.4.1 Estimación de la media y el total poblacionales
µ̂ yD = y + (µ x − x ) = µ x + d
•
ESTIMADOR DE LA MEDIA:
•
S2  N −n
VARIANZA ESTIMADA DE µ̂ yD : Vˆ (µˆ yD ) = D 

n  N 
d = y−x
2
2
1 n
1 n
(
(
)
)
(
y
−
x
+
d
=
d i − d ) , donde d i = y i − xi , por tanto S D2 es la
∑
∑
i
i
n − 1 i =1
n − 1 i =1
cuasivarianza de los di .
S D2 =
•
72
ESTIMADOR DEL TOTAL:
τˆ yD = Nµˆ yD
•
VARIANZA ESTIMADA DE τˆYD : Vˆ (τˆ yD ) = N 2Vˆ (µˆ yD )
Ejemplo 4.6 (Ejercicio 4, relación tema 4, apartado (a))
Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se
tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar una
muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose:
X=Ingresos Y=Gastos
470
405
650
585
710
650
300
240
475
410
505
435
610
550
380
320
540
480
520
460
Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo
aleatorio simple, estimadores de razón, regresión y diferencia. Obtenga el LEE en cada caso.
(Nota: en el enunciado de la relación de problemas sólo se pide mediante el estimador de
diferencia)
Solución
Y = "gasto diario (euros)"
Denotamos 
"
 X = "ingresos diarios (euros)
Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos:
N = 200 establecimientos
n = 10 establecimientos
 x = 516€
y = 453,5€

 sx = 115, 797
sx2 = 13.409
⇒

 s = 115, 738
s y2 = 13.395,3
⇒
 y
 S 2 = 14883, 7
 y
 sxy = 13.396,5
La relación entre las variables es muy fuerte: rxy = 0,99958
µ x = 500€
rxy2 = 0,99916 .
MUESTREO ALEATORIO SIMPLE
S y2 = 14883, 7
µˆ = y = 453,5€
2
y
τˆ = Ny = 90.700€
ˆ µˆ ) = S  N − n  = 1.413,94
V(


n N 
ˆ µˆ ) = 75,20€
Bµ = 2 V(
Bτ = 200 × Bµ =15.040,97€
73
ESTIMADORES DE RAZÓN
r=
y
= 0,879
x
2
Sr =
τ x = 200µ x = 100.000
τˆy = rτ x = 87.900€
µˆ y = r µ x = 439,5€
n
1 n
1  n 2 2 n 2
2
y
rx
y
r
x
r
xi yi
−
=
+
−
2
(
)
∑ i i n − 1  ∑
∑
∑
i
i
n − 1 i =1
i =1
i =1
i =1
S2  N − n 
Vˆ ( µˆ y ) = r 
 = 21, 63
n  N 
⇒

 = 227, 717

Bµ = 9,3€
Bτ = N × Bµ =1.860€
ESTIMADORES DE REGRESIÓN
(
µˆ yL = y + bˆ µ x − x
)
s
13.396,5
↓ bˆ = xy2 =
= 0,99907
13.409
sx
µˆ yL = 437,515€
τˆyL = N µˆ yL = 87.503€
n −1 2
S y (1 − rxy2 ) = 14, 05
n−2
S2  N − n 
Vˆ ( µˆ yL ) = L 
⇒
 = 1,33
n  N 
S L2 =
Bµ = 2,3104€
Bτ = NBµ = 462, 09€
ESTIMADORES DE DIFERENCIA
µˆ yD = µ x + d
µˆ yD
↓ d = −62,5
= 437,5€
τˆyD = N µˆ yD = 87.500€
(con la calculadora hallamos σ n −1 sobre las diferencias di y lo elevamos al cuadrado)
(
1 n
S =
∑ di − d
n − 1 i =1
2
D
S2  N − n 
Vˆ ( µˆ yD ) = D 
 = 1,1875
n  N 
)
2
= 12,5
Bµ = 2 Vˆ ( µˆ yD ) = 2,179
Bτ = NBµ = 435,8899
4.4.2 Determinación del tamaño muestral
Tamaño muestral mínimo necesario para que la estimación no supere un cota de error B al
estimar la media y el total poblacionales
n=
74
Nσ D2
σ D2 + ND
„
donde para estimar:
•
•
B2
la media: D =
4
el total:
B2
D=
4N 2
σ D2 se estima utilizando una muestra previa (tamaño n' ): σˆ D2 = S D2
Ejemplo 4.7 (Ejercicio 4, relación tema 4, apartado (b))
Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un
error como máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral?
Solución
Nσ D2
200 × 12,5
n=
=
= 20 establecimientos
2
B
3002
2
σD + N
12,5 +
4N 2
4 × 200
„
EJERCICIOS RESUELTOS
1. (ejercicio 9, relación tema 4) En una población de 500 hogares, para la que es conocido
que el gasto total general durante un año es de 15.000.000 €, se quiere estimar el gasto
total en alimentación durante un año, para lo que se obtiene una muestra aleatoria simple
de 4 hogares que proporciona los siguientes valores anuales en €:
Gasto en alimentación 12.500 15.000 10.000 17.500
Gasto general
24.000 31.000 20.000 36.000
Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?,
justifíquese.
Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo
de confianza.
SOLUCIÓN (trabajaremos en cientos de euros)
xi
yi
xi yi
xi2
yi2
240 125 57.600 15.625 30.000
310 150 96.100 22.500 46.500
200 100 40.000 10.000 20.000
360 175 129.600 30.625 63.000
1110 550 323.300 78.750 159.500
75
n
N = 500 n = 4 r =
∑y
i =1
n
i
∑x
i =1
=
550
= 0, 4955 τ y = rτ x = 0, 4955 × 150.000 = 74.325 cientos de €
1110
i
τ y = 7.432.500 €
2
n
1 n
1  n 2 2 n 2
 62, 2
2
S =
y
r
x
r
xi yi  =
+
−
= 20, 73
( yi − rxi ) =
∑
∑
∑
∑
i
i

3
n − 1 i =1
n − 1  i =1
i =1
i =1

2
r
Sr2
= 1.285, 4667
2 V (τ y ) = 2.267,568
V (τ y ) = N ( N − n)
n
τ y ∈ ( 72.057, 432 ; 76.592,568 ) en cientos de €
Para expresarlo en € hay que multiplicarlo por cien.
2. (Ejercicio 17, relación tema 4) Un trabajador social quiere estimar la ratio
personas/habitación en un determinado barrio. El trabajador social selecciona una muestra
aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el número de personas en
cada vivienda e y el número de habitaciones por vivienda. A partir de los datos
siguientes:
x = 9,1;
25
∑x
y = 2, 6;
i =1
2
i
= 2240;
25
∑y
i =1
2
i
= 169;
25
∑x y
i =1
i
i
= 522
Estime la razón personas/habitación en el barrio y establezca el límite para el error de
estimación con una confianza del 95%.
SOLUCIÓN (los papeles de las variables x e y deben permutarse en las expresiones
del formulario)
n
N = 275 n = 25 r =
∑x
i =1
n
∑y
i =1
2
S r2 =
i
=
2
x
= 3,5 pers./ hab. µ y2 ≅ y = 2, 62 = 6, 76
y
i
n
1 n
1  n 2 2 n 2

xi + r ∑ yi − 2r ∑ xi yi  = 27,34375
( xi − ryi ) =
∑
∑

n − 1 i =1
n − 1  i =1
i =1
i =1

1 ( N − n) S r2
V (r ) = 2
= 0,1471
µy N
n
2 V (r ) = 0, 767
3. (Ejercicio 12, relación tema 4) Se desea estimar el agua utilizada en la presente campaña
por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10
parcelas cuyo tamaño y metros cúbicos utilizados en riego aparecen en la siguiente tabla
76
m3
600
1800
750
900
1100
1400
950
700
1000
720
Hectáreas
50
150
60
70
100
120
80
60
90
60
Estime la media de m3 /hectárea que utiliza la comunidad de regantes y la cota del error de
dicha estimación.
SOLUCIÓN:
y = consumo de m3 litros de agua,
X
x = tamaño de la parcela en hectáreas
x2
Y
50
150
60
70
100
120
80
60
90
60
840
600
1800
750
900
1100
1400
950
700
1000
720
9920
2500
22500
3600
4900
10000
14400
6400
3600
8100
3600
79600
y2
360000
3240000
562500
810000
1210000
1960000
902500
490000
1000000
518400
11053400
xy
30000
270000
45000
63000
110000
168000
76000
42000
90000
43200
937200
n
r=
∑y
i =1
n
i
∑x
i =1
=
9920
= 11'81 m3 / hectarea
840
i
n
1 n
1  n 2 2 n 2

2
y
+
r
x
−
r
xi yi  =
2
( yi − rxi ) =
∑
∑
∑
∑
i
i

n − 1 i =1
n − 1  i =1
i =1
i =1

1
= (11053400 + 11102297 '56 − 22136664 ) = 2114 '84
9
S r2 =
840
= 84
10
1 N − n Sr2
1 240 2114 '84
V (r ) = 2
= 2
= 0 '02877
µ x N n 84 250 10
µx = x =
2 V (r ) = 0 '3392
4. (Ejercicio 1, relación del tema 4) Se desea estimar el consumo mensual de una ciudad. Se
sabe que los ingresos en dicha ciudad, vía declaración de la renta, ascienden a 1.502.530
euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados
de renta y consumo se recogen en esta tabla.
Renta Consumo
1.702,44
1.204
1.339,56
1.000
981,06
800
2.537,04
1.800
1.519,85
1.200
3.080,19
2.600
77
1.502,53
1.080
1.702,87
1.240
1.402,36
1.000
1.803,04
1.400
2.053,46
1.484
3.005,06
2.000
Estime el consumo total mensual para todos los hogares de la ciudad mediante el
estimador de razón. Obtenga el límite para el error de estimación.
SOLUCIÓN:
Denotemos por
Y = " consumo mensual"
X = "ingresos mensuales"
De la información muestral obtenemos
n = 12
12
∑y
i =1
i
= 16.808 euros
i
= 22.629,46 euros
12
∑x
i =1
y como información auxiliar sabemos que τ x = 1.502.530 euros.
s xy
Podemos comprobar que el coeficiente de correlación lineal es alto ( rxy =
sx s y
= 0,9677 ).
Esto junto con la información auxiliar nos permite utilizar muestreo con información
auxiliar, en concreto utilizaremos estimadores de razón.
12
r =
∑
yi
∑
xi
i =1
12
i =1
= 0, 7427
τˆ y = r τ x = 1 .1 1 6 .0 0 2 , 0 7 €
τ2 S  N −n
Vˆ (τˆY ) = x2 r 
µ x n  N 
2
↓ No conocemos N , pero en la ciudad hay muchos hogares, observando
12
∑ x < ( 5% τ )
i =1
N −n
≅1
N
↓ estimamos que n < ( 5% N ) ⇒
↓ µ x = x = 1.885, 79€
2
↓ Sr =
12
1 12
1  12 2 2 12 2
2
y
rx
y
r
x
r
xi yi
−
=
+
−
2
∑ ( i i ) n − 1  ∑
∑
∑
i
i
n − 1 i =1
i =1
i =1
i =1
Vˆ (τˆY ) = 871.825.002, 67
78
⇒

 = 16.479, 7

B = 2 Vˆ (τˆY ) = 59.053,37€
i
x
5 (Ejercicio 10, relación tema 4) Las diferencias entre ingresos y gastos, en 5 de las 250
oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros)
570
721
650
650
569
Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime
el total de ingresos y el límite para el error de estimación.
SOLUCIÓN:
N=250, n=5, µ x = 12764 , X=gastos, Y=ingresos
(con las funciones del modo SD de la calculadora) :
µ yD = µ x + d = 13396 €
V (τ yD ) = N 2
d = 632
S D2 = 4095,5
τ yD = N µ yD = 3349000 €
N − n S D2
S2
= N ( N − n ) D = 50169875 € 2
N n
n
2 V (τ yD ) = 14166,14 €
6. (Ejercicio 6, relación del tema 4) Una cadena de electrodomésticos está interesada en
estimar el total de ganancias por las ventas de televisores al final de un periodo de tres
meses. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese
mismo periodo de tres meses correspondiente al año anterior, ese total es de 128.200 €.
Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena
resultando los datos de la siguiente tabla:
Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual
1
550
610
2
720
780
3
1500
1600
4
1020
1030
5
620
600
Usando un estimador de razón, estime el total de ganancias con un intervalo de confianza.
SOLUCIÓN:
N=123, n=5, τ x = 128200 € , X=del año anterior, Y=del año actual
(con las funciones del modo SD de la calculadora) :
x = 882
5
∑ xi = 4410
i =1
y = 924
5
∑y
i =1
i
= 4620
xi yi
335500
561600
2400000
1050600
372000
5
∑ xi2 = 4495700
i =1
5
∑y
i =1
2
i
= 4961400
5
∑x y
i =1
i
i
= 4719700
79
n
r=
∑y
i
i =1
n
∑x
2
y
= 1, 047619
x
τ y = rτ x = 134304, 76 €
i
i =1
Sr =
=
5
1 5
1  5 2 2 5 2
2
y
r
x
r
xi yi
+
−
2
( yi − rxi ) =
∑
∑
∑
∑
i
i
n − 1 i =1
n − 1  i =1
i =1
i =1
V (τ y ) = N ( N − n )
Sr2
= 4761314, 071
n

 = 1640, 25

2 V (τ y ) = 4364, 09
τ y ∈ (129940, 67 , 138668,85 )
7. (Como ejercicio 7, relación del tema 4) Una agencia de publicidad está interesada en el
efecto de una nueva campaña de promoción regional sobre las ventas totales de un
producto en particular. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452
tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales
son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a
la nueva campaña.
Tienda Ventas antes de Ventas
la campaña
actuales
1
208
239
2
400
428
3
440
472
4
259
276
5
351
363
Usando los anteriores datos para estimar los parámetros necesarios, determine el tamaño
de la muestra para estimar τˆY con un límite para el error de estimación de 2.000€,
cuando se utiliza el estimador de razón.
SOLUCIÓN:
N=452, n’=5, X=ventas antes, Y=ventas actuales
(con las funciones del modo SD de la calculadora) :
x = 331, 6
5
∑ xi = 1658
i =1
y = 355, 6
5
∑y
i =1
i
= 1778
xi yi
49712
171200
207680
71484
127413
5
∑ xi2 = 587146
i =1
5
∑y
i =1
2
i
= 671034
5
∑x y
5
r=
∑ yi
i =1
5
∑x
i =1
80
i
=
y
= 1, 072376
x
i =1
i
i
= 627489
2
Sr =
D=
5
1 5
1  5 2 2 5 2
2
y
rx
y
r
x
r
xi yi
−
=
+
−
2
∑ ( i i ) n '− 1  ∑
∑
∑
i
i
n '− 1 i =1
i =1
i =1
i =1

 = 109, 4775

2
B2
= 4,8947 σ r = Sr2 = 109, 4775
2
4N
n=
Nσ r2
= 21,3 ≈ 22
ND + σ r2
81
5. Muestreo sistemático.
5.1 Selección de una muestra sistemática. Usos. Ventajas.
5.2 Estimación de la media, proporción y total poblacionales.
5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias
y periódicas.
5.4 Determinación del tamaño muestral.
5.1 Selección de una muestra sistemática. Usos. Ventajas.
En el muestreo aleatorio simple, la selección de los elementos se efectúa con total
aleatoriedad, todas las muestras posibles son igualmente probables y, para ello, se enumeran
los N elementos de la población y después se seleccionan al azar los n elementos que han de
formar la muestra. Esto, en general, complica el proceso de selección de la muestra.
En el muestreo sistemático los elementos de la población se enumeran, o se ordenan. Una
muestra sistemática de “1 en k” es la que se extrae de la siguiente forma:
1. Se selecciona aleatoriamente un elemento (llamado punto de inicio) de los primeros k
elementos de la población.
2. Después se seleccionan cada k -ésimo elemento hasta conseguir una muestra de
tamaño n .
En general, k se toma como el número entero menor o igual que el cociente
k≤
N
:
n
N
n
Nos podemos encontrar con las siguientes situaciones:
1. k =
N
entero. Entonces se obtienen exactamente n observaciones.
n
Por ejemplo si N = 100 y n = 5 , entonces k = 20 y aún tomando la ultima
observación del primer intervalo (20º), obtenemos 5 observaciones: 20º, 40º,…, 100º.
2.
N
no es entero. Veámoslo con un ejemplo.
n
Por ejemplo si N = 103 y n = 5 , entonces
N
= 20,6 y tomamos k = 20 . Según el
n
punto inicial nos podemos encontrar con estas situaciones:
a. Si elegimos, por ejemplo, el 2º como punto inicial, obtendríamos:
2º, 22º, 42º, 62º, 82º, ...
82
Al dividir la población en 5 intervalos de 20 elementos, sobran 3. Si no hay
problema de coste podríamos elegir también el 102º y la muestra sería de
tamaño 6.
b. Si se elige, por ejemplo, la observación 18º como la inicial obtendríamos una
muestra de tamaño 5:
18º, 38º, 58º, 78º, 98º
3. N es desconocido. En este caso, la decisión sobre el valor de k se tomará de forma
que se asegure el número mínimo deseado de elementos de la muestra. N se estima
por defecto, así k será menor de lo necesario y, por tanto, el tamaño muestral será
mayor o igual de lo requerido.
Ventajas del muestreo sistemático frente al aleatorio simple:
•
En la práctica el muestreo sistemático es más fácil de llevar a cabo y está expuesto a
menos errores del encuestador. (En el m.a.s. se nos juntaría el trabajo si dos números
aleatorios fueran consecutivos o muy próximos).
Por ejemplo, sería difícil escoger una m.a.s. de 50 personas entre las que pasan por la
esquina de una calle, porque no se conoce el tamaño poblacional N hasta que no pasen
todas las personas; entonces seleccionaríamos n elementos al azar menores o iguales a N.
Pero sí sería fácil, por ejemplo, coger 1 de cada 20 personas que pasen hasta completar
la muestra ( n = 50 )
•
Frecuentemente con igual tamaño de muestra el muestreo sistemático proporciona
más información que el muestreo aleatorio simple. Esto se debe a que la muestra
sistemática se extiende uniformemente a lo largo de toda la población, mientras que en
el muestreo aleatorio simple puede ocurrir que un gran número de observaciones se
concentre en una zona y descuide otras.
Por ejemplo, supongamos que en una fábrica los primeros 500 tubos de escape se
fabrican correctamente y los últimos 500 son defectuosos por un problema en la
maquinaria. Una muestra aleatoria simple podría seleccionar un gran número o incluso
todos del mismo grupo, dando una mala estimación de la proporción de defectuosos. El
muestreo sistemático, en cambio, selecciona el mismo número de tubos de ambos
grupos, dando una estimación mejor. En este caso, donde en cierta medida hay un
orden en la población, el muestreo sistemático es mejor que el m.a.s.
83
Usos: Este tipo de muestreo es muy utilizado: en los planes de muestreo para el control de
calidad dentro del proceso de fabricación, los auditores cuando se enfrentan a largas listas de
apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en
movimiento.
5.2 Estimación de la media, proporción y el total poblacionales
1 n
∑ yi+( j −1) k
n j =1
•
ESTIMADOR DE LA MEDIA POBLACIONAL:
µˆ = ysy =
•
VARIANZA ESTIMADA DE y sy :
S2  N −n
Vˆ ( y sy ) =


n  N 
Comentarios.
-
Si se desconoce el tamaño poblacional por su gran magnitud, entonces
-
Cuando N no es múltiplo exacto de n , el estimador es sesgado.
N −n
≅ 1.
N
Como se puede observar la varianza estimada del estimador de la media es igual que en el
muestreo aleatorio simple (véase 5.3 Comparación con el muestreo aleatorio simple). Esto no
implica que las varianzas reales sean iguales:
V (y) =
σ2 N −n
n N −1
y
V ( y sy ) =
σ2
n
[1 + (n − 1)ρ ]
donde ρ = coeficiente de correlación entre los elementos de una muestra sistemática.
El tamaño poblacional se desconoce en muchas situaciones prácticas, en las que se sugiere el
uso del muestreo sistemático. Cuando N es conocida, podemos estimar el total poblacional.
•
ESTIMADOR DEL TOTAL POBLACIONAL:
τˆ = Ny sy
•
VARIANZA ESTIMADA DE τˆ :
S2  N −n
Vˆ (τˆ ) = N 2Vˆ ( y sy ) = N 2


n  N 
Ejemplo 5.1 (Ejercicio 3, relación tema 5)
Los funcionarios de un museo están interesados en el número total de personas que visitaron
el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades estuvo
en exhibición. Puesto que el control de visitantes en el museo cada día es muy costoso, los
84
funcionarios decidieron obtener estos datos cada diez días. La información de esta muestra
sistemática de 1 en 10 se resume en esta tabla
Día
3
13
23
Nº personas que visitan el museo
160
350
225
173 290
18
18
i =1
i =1
∑ y i = 4.868;
2
∑ y i = 1.321.450
Use estos datos para estimar el número total de personas que visitaron el museo durante el
periodo especificado. Establezca un límite para el error de estimación.
Solución
τˆ = Ny sy = 180
4.868
= 48.680 visitantes
18
2
2 S  N−n
ˆ
ˆ
V (τ ) = N


n  N 
↓ N = 180
2

4868 ) 
(
1.321.450 −



n
 = 289, 79
↓ S2 = 
n −1
ˆ
V (τˆ ) = 469.461,18
Bτ = 1.370,34
Como en el muestreo aleatorio simple, las propiedades del estimador de la proporción son
análogas a las propiedades de la media muestral:
•
ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: pˆ sy =
•
VARIANZA ESTIMADA DE p̂ sy :
1 n
∑ yi+( j −1)k
n j =1
Vˆ ( pˆ sy ) =
, yi = 0, 1
pˆ sy qˆ sy  N − n 


n −1  N 
Notemos, de nuevo, que las varianzas estimadas son iguales a las del muestreo aleatorio
simple. Esto no quiere decir que las varianzas reales lo sean.
Ejemplo 5.2 (Ejercicio 2 (a), relación tema 5)
La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el
permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un
conductor de cada siete. Use los datos de la tabla adjunta para estimar la proporción de
85
conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga
que 2.800 autos pasan por el puesto de verificación durante el periodo de muestreo.
Automóvil
1
8
15
Respuesta
1
1
0
2794
1
400
∑ y i = 324
i =1
Solución
pˆ sy = y sy =
Vˆ ( pˆ sy ) =
324
= 0,81
400
pˆ sy qˆ sy  N − n  0,81(1 − 0,81)  2.800 − 400 

=

 = 0,000330612 ⇒ B = 0,0364
400 − 1  2.800 
n −1  N 
Si la estratificación de la población fuese ventajosa, el muestreo sistemático puede utilizarse
dentro de cada estrato en lugar del m.a. simple, aplicándose las fórmulas del m.a. estratificado
análogamente a como se han utilizado las del m.a. simple para aproximar el comportamiento
del muestreo sistemático.
5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y
periódicas
Veamos bajo qué condiciones la varianza estimada de los estimadores en el muestreo
sistemático se puede suponer igual a la del m.a. simple.
Según las expresiones
V (y) =
σ2 N −n
n N −1
éstas serán similares cuando
σ
V (y ) =
[1 + (n − 1)ρ ]
n
2
y
sy
N −n
≅ 1 y ρ ≅ 0 , pero en otros casos no.
N −1
Distinguimos los siguientes casos:
A. Población ordenada (ρ ≤ 0 )
Una población es ordenada cuando los elementos que la constituyen están ordenados
de acuerdo con los valores, crecientes o decrecientes, de una determinada
característica. En este caso es preferible el uso del muestreo sistemático, ya que la
muestra se extiende uniformemente a lo largo de la población:
86
V ( y sy ) ≤ V ( y )
Por ejemplo, en una lista de cuentas por cobrar que estén ordenadas de mayor a menor
cantidad, las estimaciones de una muestra sistemática tendrían en general una varianza
menor que las de una muestra aleatoria simple (es posible que ésta última contenga
solo cantidades grandes o cantidades pequeñas).
Al utilizar las varianzas estimadas de los estimadores del m.a.s. en el m. sistemático
conseguimos una estimación conservadora del error (mayor que el error real que
cometemos en el m. sistemático).
B. Población aleatoria (ρ ≅ 0 )
Se dice que una población es aleatoria cuando sus elementos están ordenados al azar.
En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo
sistemático ya que
V ( y sy ) ≅ V ( y ) .
Por ejemplo, en una lista de estudiantes por orden alfabético, la estimación de sus
calificaciones sería similar con ambos muestreos ya que las calificaciones no dependen
del apellido del estudiante.
C. Población periódica (ρ ≥ 0 )
Una población es periódica cuando los valores de la variable objeto de estudio tienen
una variación cíclica. En este caso es preferible el muestreo aleatorio simple dado que
V ( y sy ) > V ( y ) .
Por ejemplo:
a. Supongamos que tenemos una lista en la que los nombres de mujeres y
hombres se alternan. Una muestra sistemática con k par proporcionaría solo
una lista de mujeres o de hombres.
b. Ventas diarias de un supermercado con k = 7
Para evitar este problema, el investigador puede cambiar varias veces el punto de
inicio aleatorio. Esto tiene el efecto de mezclar los elementos de la población y
comportarse como una población aleatoria, en cuyo caso el uso de las expresiones del
m.a.s. en el m. sistemático estaría justificado.
87
5.4 Determinación del tamaño muestral
El tamaño muestral requerido para estimar la media poblacional con un límite B para el error
de estimación se obtiene despejando el tamaño muestral de la ecuación:
2 V ( ysy ) = B
Dado que el valor real de la varianza del estimador no es conocido, usaremos las expresiones
del muestreo aleatorio simple. Lo anterior conduce a obtener muestras más grandes de las
necesarias para poblaciones ordenadas y muestras más pequeñas para poblaciones periódicas
(si no se mezclaran los elementos cambiando el punto de inicio). En poblaciones aleatorias no
tendremos problemas.
Tamaño muestral requerido para estimar µ y τ con un límite B para el error de estimación
n=
 B2
 4 para estimar la media

con D = 
 B2

para estimar el total
 4N 2
Nσ 2
( N − 1) D + σ 2
Tamaño muestral requerido para estimar p y τ con un límite B para el error de estimación
n=

B2
para estimar p

4

con D = 
 2
 B para estimar el total
 4N 2
Npq
(N − 1)D + pq
Ejemplo 5.3 (Ejercicio 2 (b), relación tema 5)
En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000 automóviles por
el puesto de verificación. Determine el tamaño de muestra y k para estimar p con un error
inferior al 2%.
Solución
p = 0,81
n=
q = 1 − p = 0,19
5.000 × 0,81× (1 − 0,81)
Npq
=
= 1.176,97 ≅ 1.177 automóviles
2
B

0, 022 
( N − 1)
+ pq  (5.000 − 1)
 + ( 0,81× (1 − 0,81) )
4
4 

k≤
88
N
= 4, 25
n
Si tomáramos k=5 ⇒ n =
5000
5000
= 1000 . Tomando k=4 ⇒ n =
= 1250 ≥ 1177 .
5
4
EJERCICIOS RESUELTOS
1. (Ejercicio 7, relación tema 5) La gerencia de una compañía privada con 2.000 empleados
está interesada en estimar la proporción de empleados que favorecen una nueva política de
inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del
edificio al final de un día de trabajo (las respuestas a favor se han representado como 1)
Empleado Respuesta
muestreado
3
1
13
0
23
1
1993
1
200
∑y
i =1
i
= 110
Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando
la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué
tipo de muestra sistemática deberá obtenerse? (indique n y k).
SOLUCIÓN
110
0, 052
N = 2.000 p =
= 0,55 q = 1 − p = 0, 45 D =
= 0, 000625
200
4
Npq
N
n=
= 330, 7 ≈ 331
k ≤ = 6, 04 ⇒ k = 6
( N − 1) D + pq
n
2. (Ejercicio 8, relación tema 5) Un auditor se enfrenta a una larga lista de 1.000 cuentas por
cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21.000
€. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a
1.000.000 € con una confianza del 95%. Para ello decide tomar una muestra sistemática de
1 en k . Determine el valor de k.
SOLUCIÓN
21.0002
1.000.0002
=
=
= 250.000
27.562.500
D
42
4 × 1.0002
Nσ 2
N
n=
= 99,39 ≈ 100 k = = 10
2
( N − 1) D + σ
n
N = 1.000 R = 21.000 σ 2 ≅
89
3. (Ejercicio 5 (a), relación tema 5) La tabla anexa muestra el número de nacimientos y la
tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años
seleccionados sistemáticamente.
Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad
1955 2.073.719
1.973.576
4.047.295
26,0
1960 2.179.708
2.078.142
4.257.850
23,7
1965 1.927.054
1.833.304
3.760.358
19,4
1970 1.915.378
1.816.008
3.731.386
18,4
1975 1.613.135
1.531.063
3.144.198
14,6
1980 1.852.616
1.759.642
3.612.258
15,9
Estime el número medio de varones nacidos por año para el periodo 1955-1980, y
establezca un límite para el error de estimación.
SOLUCIÓN
1 n
1
µˆ = ysy = ∑ yi = 11.561.610 = 1.926.935
n i =1
6
S2  N −n
Vˆ ( y sy ) =


n  N 
↓ N = 26 años
↓ S 2 = 37.913.412.871,20
Vˆ ( y sy ) = 4.860.693.957,85
B = 139.437,35
4. (Como ejercicio 1, relación tema 5) La sección de control de calidad de una empresa usa el
muestreo sistemático para estimar la cantidad media de llenado en latas de 33cl que salen
de una línea de producción. Los datos de la tabla adjunta representan una muestra
sistemática 1 en 300 de una producción diaria de 1800 latas.
Cantidad de llenado en cl
33 32,5 33,5 33 32 31
Determine el tamaño de la muestra y k para estimar el contenido medio de las latas con un
error de estimación inferior a 0,42 cl, considerando la muestra anterior como una muestra
previa para estimar los parámetros necesarios.
SOLUCIÓN:
N=1800, n’=6,
(con las funciones del modo SD de la calculadora) : S n2' −1 = 0,8
D=
90
B2
= 0, 0441
4
n=
Nσ 2
= 17,97 ≈ 18
( N − 1) D + σ 2
k=
σ 2 = Sn2'−1
1800
= 100
18
5. (Ejercicio 9, relación tema 5) Los funcionarios de cierta sociedad profesional desean
determinar la proporción de miembros que apoyan varias enmiendas propuestas en las
prácticas de arbitraje. Los funcionarios tomaron una muestra sistemática de 1 en 10, a
partir de una lista en orden alfabético de los 650 miembros registrados, obteniendo que 47
estaban a favor de los cambios propuestos. Se quiere repetir el estudio anterior con un
error de estimación inferior al 5%. Considerando la muestra anterior como una muestra
previa para estimar los parámetros necesarios, ¿qué tipo de muestra sistemática deberá
obtenerse? (indique n y k).
SOLUCIÓN:
N=650, n’=65, p =
B = 0, 05
n=
47
= 0, 7231
65
q = 1 − 0, 7231 = 0, 2769
B2
D=
= 0, 000625
4
Npq
= 214,8 ≈ 215
( N − 1) D + pq
k≤
650
= 3, 02
215
k =3
91
6. Muestreo por conglomerados.
6.1
6.2
6.3
6.4
Necesidad y ventajas del muestreo por conglomerados.
Formación de los conglomerados. Conglomerados y estratos.
Estimación de la media, proporción y total poblacionales.
Determinación del tamaño muestral.
6.1 Necesidad y ventajas del muestreo por conglomerados.
Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo
es una colección (o conglomerado) de elementos.
El muestreo por conglomerados es útil para obtener información en las siguientes situaciones:
ƒ
Es complicado disponer de una lista de los elementos de la población, mientras que es
fácil lograr un marco que liste los conglomerados. (Alumnos que asisten a clase =
elemento, aulas = conglomerados)
ƒ
El coste de obtención de las observaciones es menor debido al agrupamiento de los
elementos.
6.2 Formación de los conglomerados. Conglomerados y estratos.
Lo primero que debemos hacer es especificar los conglomerados apropiados. Si los elementos
dentro de un conglomerado presentan características similares, entonces tomar muchas
observaciones dentro de un conglomerado sería un trabajo no productivo. Sin embargo, si los
elementos de un conglomerado son diferentes entre sí, una muestra con pocos conglomerados
recogería gran cantidad de información sobre un parámetro poblacional.
Nótese que los estratos deben ser tan homogéneos como sea posible, pero un estrato debe
diferir tanto como se pueda de otro con respecto a la característica que está siendo medida.
Los conglomerados, por otro lado, deben ser tan heterogéneos dentro de ellos como sea
posible y un conglomerado debe ser muy similar a otro para que el muestreo por
conglomerados esté indicado.
Una vez especificados los conglomerados, se selecciona una muestra aleatoria simple de
conglomerados.
6.3 Estimación de la media, proporción y total poblacionales.
Vamos a utilizar la siguiente notación:
N = conglomerados en la población.
n = conglomerados en la muestra.
92
mi = elementos en el conglomerado i
yi = suma de las observaciones en el conglomerado i
N
M = ∑ mi = elementos en la población (con frecuencia es desconocido)
i =1
n
m = ∑ mi = elementos en la muestra
i =1
1 N
∑ mi = tamaño medio de los conglomerados de la población (con frecuencia es
N i =1
desconocido).
1 n
m = ∑ mi = tamaño medio de los conglomerados de la muestra (se
n i =1
M=
utililza para estimar M .
(A) Estimación de la media.
El estimador de la media poblacional µ es la media y ,
n
1 n
µ = y = ∑ yi =
m i =1
∑y
i =1
n
i
∑m
i =1
i
La media y tiene la forma de un estimador de razón, por lo que la varianza estimada de y
toma la forma de la varianza de un estimador de razón.
V ( y) =
1 N − n Sc2
2
N n
M
donde Sc2 =
(
1 n
∑ yi − ymi
n − 1 i =1
)
2
( M puede ser estimado por m , si se desconoce)
La varianza estimada es sesgada y sería un buen estimador de V ( y ) si n es grande ( n ≥ 20 ).
El
sesgo
desaparece
cuando
los
tamaños
de
los
conglomerados
son
iguales
( m1 = m2 = ... = mN )
Notas:
• La expresión de V ( y ) =
1 N − n Sc2
no se suele simplificar pues como ocurre en el
2
N n
M
ejercicio 4, relación del tema 6, a veces N no se conoce y en otras ocasiones como en
este último ejemplo porque M es desconocido y M debe ser estimada por m .
93
• Si la variable que estamos estudiando es dicotómica, hablaremos de la proporción
poblacional p y de la proporción muestral p . En este caso al número total de elementos
en el conglomerado i que poseen la característica de interés se nota como ai en lugar de
yi como es habitual en variables numéricas. Así tendremos que
n
p= y=
∑a
i =1
n
i
∑m
i =1
i
Salvo esta diferencia en la notación, todo lo anteriormente expuesto para variables
numéricas es válido para variables dicotómicas.
(B) Estimación del total.
De la relación entre la media y el total poblacional µ =
τ
M
se sigue que τ = M µ , siendo el
estimador del total poblacional τ
τ =My
y la varianza estimada del mismo
V (τ ) = M 2 V ( y ) = N ( N − n)
Sc2
n
(sea cual sea el valor de M no afecta a la varianza ni al error del estimador, aunque sí al valor
del estimador del total)
(C) Estimación del total cuando se desconoce el tamaño de la población.
Frecuentemente el número de elementos en la población no es conocido en problemas donde
se aplica el muestreo por conglomerados. En ese caso no podemos utilizar el estimador del
total τ = M y , debemos construir un estimador del total que no dependa de M . La cantidad
yt =
1 n
∑ yi , es el promedio de los totales de los conglomerados de la muestra y por tanto un
n i =1
estimador insesgado del promedio de los N totales de los conglomerados de la población. Por
el mismo razonamiento empleado en el muestreo aleatorio simple, N y t es un estimador
insesgado de la suma de los totales de todos los conglomerados, o equivalentemente del total
poblacional τ .
94
En resumen
τ t = N yt
St2
V (τ t ) = N V ( y t ) = N ( N − n)
n
2
1 n
N − n St2
, St2 =
donde V ( y t ) =
∑ yi − y t
n − 1 i =1
N n
(
)
2
Si existe una gran variación entre los tamaños de los conglomerados y además los tamaños
están altamente correlacionados con los totales de los conglomerados, la varianza de N y t es
generalmente mayor que la varianza de M y . Esto es debido a que el estimador N y t no usa la
información proporcionada por los tamaños de los conglomerados y por ello puede ser menos
preciso.
Cuando los tamaños de los conglomerados son iguales los dos estimadores del total coinciden,
además el estimador de la media, y , es un estimador insesgado de la media poblacional, µ , y
también es insesgado el estimador de su varianza, V ( y ) (lo mismo se extiende al total).
Ejemplo 6.1 (como ejercicio 13, relación tema 6, pero con menos datos) En una urbanización
ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de
televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas de viviendas.
Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría
interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla:
Manzana Nº hogares en la manzana Nº hogares interesados
1
8
2
2
7
2
3
9
3
4
6
3
5
5
3
a) Estime la proporción de hogares interesados en contratar el sistema de televisión
digital. Calcule el límite para el error de estimación.
b) Con un intervalo de confianza estime el número de hogares interesados en
contratar dicho sistema.
c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es
1500.
95
SOLUCIÓN
Aunque en un caso de variables dicotómicas como éste se suele usar en los textos la
notación ai en lugar de yi , utilizaremos esta última para unificar la notación a emplear en el
muestreo por conglomerados
mi
yi
mi2
yi2
mi yi
8
7
9
6
5
35
2
2
3
3
3
13
64
49
81
36
25
255
4
4
9
9
9
35
16
14
27
18
15
90
n
p= y=
a)
∑y
i =1
n
∑(
i =1
yi − ymi
)
2
n
13
= 0,3714
35
n
n
i =1
i =1
= ∑ yi2 − 2 y ∑ yi mi + y
∑ mi2 = 255
i =1
i =1
(
p = 37,14%
i
n
∑ yi2 = 35
Sc2 =
=
∑m
i =1
n
i
1 n
∑ yi − ymi
n − 1 i =1
)
2
=
2
n
∑m
i =1
n
∑ym
i
i =1
i
2
i
= 3,3222
= 90
3,3222
= 0,8306
4
Ya que M es desconocido, M debe ser estimada por m
m=
1 n
35
mi =
= 7 hogares / manzana
∑
n i =1
5
V ( y) =
1 N − n Sc2
= 0, 003305
2
N n
M
yt =
b)
1 n
13
yi = = 2, 6
∑
n i =1
5
∑ (y − y )
n
S =
2
t
i =1
i
t
n −1
2
2 V ( y ) = 0,115
τ t = N y t = 520
2
1 n

y
yi 
−
∑
∑

n  i =1 
= i =1
= 0,3
n −1
n
11,5%
2
i
V (τ t ) =
N ( N − n) St2
= 2.340
n
( 423, 25 , 616, 75 )
2 V (τ t ) = 96, 75
c)
τ = M y = 557,14
96
M=
1500
= 7,5
200
V ( y) =
1 N − n Sc2
= 0, 0028795
2
N n
M
V (τ ) = M 2 V ( y ) = 6478,8
2 V (τ ) = 160,98
( 396,16 , 718,12 )
Como puede observarse, el límite para el error de estimación es más pequeño en b) que en c),
debido a que los tamaños de los conglomerados no están altamente correlacionados con los
totales de los conglomerados en este ejemplo ( rmy2 = 0, 08 ). En otras palabras, los tamaños de
los conglomerados proporcionan poca información referente a los totales de los
conglomerados.
6.4 Determinación del tamaño muestral.
Supongamos que los conglomerados ya están formados y vamos a seleccionar el número de
conglomerados n para conseguir un determinado límite para el error de estimación B
n=
donde σ c2 se estima mediante Sc2 =
B2 M
D=
4
Nσ c2
ND + σ c2
(
1 n
∑ yi − ymi
n − 1 i =1
2
para la estimación de la media y D =
)
2
de una muestra previa, siendo
B2
para la estimación del total.
4N 2
Habitualmente el tamaño promedio de los conglomerados de la población M no se conoce y
tiene que estimarse por el tamaño medio m de los conglomerados de una muestra previa.
Cuando se utiliza N y t para estimar el total, el número de conglomerados en la muestra para
obtener un determinado límite para el error de estimación B viene dado por
n=
D=
Nσ t2
ND + σ t2
1 n
B2
2
2
S
=
y
σ
se
estima
mediante
∑ yi − y t
t
t
n − 1 i =1
4N 2
(
2
)
2
de una estimación del rango de los valores de yi como σ t =
de una muestra previa (o a partir
R2
).
16
Ejemplo 6.2 Suponiendo que los datos del ejemplo 6.1 representan una muestra previa, cómo
debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un
límite para el error de estimación del 1%.
97
SOLUCIÓN
2
B2 M
0, 012 × 7 2
=
= 0, 001225
D=
4
4
1 n
35
M ≅ m = ∑ mi =
=7
n i =1
5
S = 0,8306
2
c
n=
Nσ c2
= 154, 4 ≈ 155
ND + σ c2
EJERCICIOS RESUELTOS
1. (Ejercicio 6, relación tema 6) Con motivo del cuarto centenario del Quijote, el Ministerio
de Cultura desea estimar el número de libros comprados cada mes en una localidad. Se
selecciona una localidad con 6.200 hogares agrupados en 700 manzanas de viviendas. Se
tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se
entrevistaron a todas las familias, obteniéndose los siguientes resultados:
manzana libros comprados cada mes por familia
1
1 2 1 0 3 2 1 0 1 2
2
1 0 2 2 0 0 1 3
3
2 1 1 1 1 0 2 1 2 2 2
4
1 1 0 2 1 0 3
Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva
muestra si se quiere estimar los libros comprados cada mes con un error de estimación
inferior a 140 unidades.
SOLUCIÓN
mi
yi
10
8
11
7
36
13
9
15
8
45
mi2 yi2 mi yi
100 169 130
64 81
72
121 225 165
49 64
56
334 539 423
n
M = 6.200 N = 700
y=
∑y
i =1
n
∑m
i =1
σ c2 ≅ Sc2 =
(
1 n
∑ yi − ymi
n − 1 i =1
)
n=
98
2
=
i
= 1, 25 D =
B2
= 0, 01
4N 2
i
n
n
2
1  n 2

2
y
y
m
y
mi yi  = 1,125
+
−
2
∑
∑
∑
i
i

n − 1  i =1
i =1
i =1

Nσ c2
= 96,92 ≈ 97
ND + σ c2
2. (Ejercicio 2, relación tema 6 pero con menos datos) Una industria está considerando la
revisión de su política de jubilación y quiere estimar la proporción de empleados que
apoyan la nueva política. La industria consta de 57 plantas. Se selecciona una muestra
aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas
a través de un cuestionario. Los resultados se presentan en esta tabla:
Planta Nº empleados Nº empleados que apoyan la nueva política
1
51
42
2
62
53
3
49
40
4
73
45
5
101
63
a. Estime la proporción de empleados en la industria que apoyan la nueva política de
jubilación y establezca un límite para el error de estimación.
b. La industria modificó su política de jubilación después de obtener los resultados de la
encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política
modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 5% para el
error de estimación? Use los datos anteriores para aproximar los resultados de la nueva
encuesta.
SOLUCIÓN:
a) N = 57
n=5
mi
yi
51
62
49
73
101
336
42
53
40
45
63
243
mi2
2601
3844
2401
5329
10201
24376
yi2
1764
2809
1600
2025
3969
12167
mi yi
2142
3286
1960
3285
6363
17036
n
p=
∑y
i =1
n
∑m
i =1
Sc2 =
(
1 n
∑ yi − pmi
n − 1 i =1
)
2
=
i
=
243
= 0, 7232 ⇒ p = 72,32%
336
i
n
2 n
1  n 2

y
p
y
m
p
mi2  = 68, 7
−
+
2
∑
∑
∑
i
i i

n − 1  i =1
i =1
i =1

2
 336 
M ≈m =
 = 4515,84
 5 
1 N − n Sc2
= 0, 00278
V ( p) = 2
N n
M
b)
2
2
2 V ( p) = 0,1054 ⇒ 10,54%
2
B2 M
0, 052 × 4515,84
=
= 2,8224
D=
4
4
σ ≈S
2
c
2
c
Nσ c2
= 17, 06 ≈ 18
n=
ND + σ c2
99
3. (Ejercicio 7, relación tema 6) Un sociólogo quiere estimar el ingreso medio por persona en
cierta ciudad pequeña donde no existe una lista disponible de adultos residentes. Por esta
razón para el diseño de la encuesta utiliza muestreo por conglomerados. Se divide la
ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser
considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El
investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25
conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan
aleatoriamente 25 conglomerados y se realizan las entrevistas, obteniéndose estos datos:
Conglomerado (i) Nº de residentes (mi)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
8
12
4
5
6
6
7
5
8
3
2
6
5
10
9
3
6
5
5
4
6
8
7
3
8
151 residentes
Ingreso total por
conglomerado en € (yi)
96000
121000
42000
65000
52000
40000
75000
65000
45000
50000
85000
43000
54000
49000
53000
50000
32000
22000
45000
37000
51000
30000
39000
47000
41000
1329000 €
a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de
estimación.
b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de
estimación, suponiendo que M es desconocido.
c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de todos los
residentes de la ciudad mediante un intervalo de confianza.
100
NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 6 ∀i ,
supongamos conocido M = 6 × 415 = 2.490 ) y estime el total por los dos métodos
(
)
estudiados τ = M y τ t = N y t . Observe como coinciden las dos estimaciones así como
la varianza del estimador y el límite para el error de estimación.
d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la muestra en
una encuesta futura para estimar el ingreso promedio por persona con un límite para el
error de estimación de 500€.
SOLUCIÓN:
a) (este ejemplo no se puede resolver con una calculadora de 10 dígitos de forma exacta
por la dificultad de trabajar con cantidades muy grandes)
n
µ=y=
∑y
i =1
n
∑m
i =1
∑ ( y − ym ) = ∑ y
n
2
i
i =1
n
∑y
i =1
∑m
2
i
i =1
i =1
2
i
=
1.329.000
= 8.801,32 € / residente
151
i
n
− 2 y ∑ yi mi + y
i =1
2
n
∑m
i =1
2
i
= 96.0002 + ... = 82.039.000.000
2
i
n
i
n
i
= 82 + ... = 1.047
n
∑ y m = ( 96.000 × 8) + ... = 8.403.000
i =1
i
Sc2 =
i
(
1 n
∑ yi − ymi
n − 1 i =1
)
2
=
15.227.502.247
= 634.501.213, 40
24
Ya que M es desconocido, M debe ser estimada por m
m=
1 n
151
mi =
= 6, 04 residente / bloque
∑
n i =1
25
V ( y) =
1 N − n Sc2
= 653.785,19
2
N n
M
2 V ( y ) = 1.617,14€
b)
yt =
1 n
1.329.000
yi =
= 53160 € / bloque
∑
n i =1
25
τ t = N y t = 22.061.400 €
101
∑ (y − y )
n
i =1
i
2
t
2
1 n
1

= ∑ y −  ∑ yi  = 82.039.000.000 − (1.329.000) 2 = 11.389.360.000
25
n  i =1 
i =1
n
2
i
(y − y )
N ( N − n) ∑
n
V (τ t ) =
i
i =1
2
t
n −1
n
2 V (τ t ) = 3.505.584, 04 €
= 3.072.279.860.000
c)
N = 415
n = 25
M=
2500
= 6, 0241
415
Sc2 = 634.501.213, 40
V ( y) =
τ = M y = 22.003.311, 26€
1 N − n Sc2
= 657.240,9482
2
N n
M
V (τ ) = M 2 V ( y ) = 4.107.755.926.250
2 V (τ ) = 4.053.519,92
(17.949.791,34€ , 26.056.831,18€ )
Como puede observarse el límite para el error de estimación es más pequeño en b) que en
c) debido a que los tamaños de los conglomerados no están altamente correlacionados con
los totales de los conglomerados en este ejemplo ( rmy2 = 0, 0919 ). En otras palabras, los
tamaños de los conglomerados proporcionan poca información referente a los totales de
los conglomerados.
d)
2
S = 634.501.213, 40
2
c
B2 M
5002 × 6, 042
=
= 2.280.100
D=
4
4
Nσ c2
= 166,58 ≈ 167
n=
ND + σ c2
4. (Ejercicio 10, relación tema 6) Una empresa de trabajo temporal quiere investigar las
necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una
muestra de 10 de las 85 inscritas en el registro mercantil. El número de bajas en el último
año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los
servicios de la empresa de trabajo temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1
1
7
Si
2
2
15
No
3
9
85
Si
4
0
3
No
5
2
12
No
6
0
8
No
7
1
21
Si
8
0
4
No
9
4
35
No
10
6
92
Si
102
(a) Estime el número de bajas en el último año en las empresas del pueblo. Dé el límite
del error de estimación.
(b) Estime la proporción de empresas que usarían los servicios ofertados. Dé el límite del
error de estimación.
SOLUCIÓN:
a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde
no se conoce el número total de empleados para toda la población, por tanto para estimar
el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales
las empresas.
yi
(y − y )
1
2
9
0
2
0
1
0
4
6
25
2.25
0.25
42.25
6.25
0.25
6.25
2.25
6.25
2.25
12.25
80.5
i
2
t
25
τ t = 85 × 2.5 = 212.5 bajas
= 2.5 bajas / empresa
10
80.5
 85 − 10  8.94
St2 =
= 8.94 ⇒ V ( y t ) = 
= 0.7892157 ⇒ V (τ t ) = 852 V ( y t ) = 5702.08

9
85
10


yt =
Bτ = 2 5702.08 = 151.024 bajas
b)
p=
V ( p) =
4
= 0.40 (40%)
10
85 − 10 0.4 × 0.6
= 0.02353
85
10 − 1
B = 2 0.02353 = 0.3068 (30.68%)
5. (Como ejercicio 3, relación tema 6) Se diseña una encuesta económica para estimar la
cantidad media gastada en servicios por hogar de una ciudad formada por 3.600 hogares.
Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60. Los
entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados;
los gastos totales se muestran en esta tabla:
Barrio Nº hogares Cantidad total gastada en servicios (€)
1
55
2210
2
60
2390
3
63
2430
103
Estime la cantidad media de gastos en servicios por hogar en la ciudad y el límite para el
error de estimación.
SOLUCIÓN:
mi yi
121550
143400
153090
n
∑m y
i =1
N = 60
n=3
n
i =1
i
= 418040
i
n
3600
= 60
60
M=
∑y
i
n
∑y
= 7030
i =1
∑ mi = 178
i =1
n
∑m
i =1
2
i
= 10594
= 16501100
2
i
n
y=µ=
∑y
i =1
n
∑m
i =1
2
Sc =
(
1 n
∑ yi − ymi
n − 1 i =1
)
2
=
i
= 39, 49 €
i
n
n
2
1  n 2
2
+
−
y
y
m
y
mi yi
2
∑ i
∑
∑
i
n − 1  i =1
i =1
i =1

 = 2612,04

1 N − n Sc2
= 0, 23
2 V ( y ) = 0, 96 €
2
N n
M
6. (Como ejercicio 4, relación del tema 6) En un proceso de control del volumen envasado
V ( y) =
por una fábrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora, cada uno
de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las
observaciones se presentan en la tabla adjunta:
Paquete nº Volumen envasado en cl
1
33,5 32,5 31 34
2
32,5 32
33 32,5
3
30,5 33
33 33,5
Estime el volumen medio de los envases y la cota del error de estimación.
SOLUCIÓN:
N=40, n=3,
mi
4
4
4
yi
131
130
130
mi yi
524
520
520
3
∑m y
i
i =1
(con las funciones del modo SD de la calculadora) :
M =m=4
3
∑m
i =1
104
i
= 12
3
∑m
i =1
2
i
= 48
i
= 1564
5
5
∑ yi = 391
y t = 130,33
∑y
i =1
2
i
i =1
= 50961
5
y=µ=
∑y
i =1
5
2
=
∑m
i =1
Sc =
i
yt
= 32,5833 cl
m
i
(
1 3
∑ yi − ymi
n − 1 i =1
)
2
=
3
3
2
1  3 2
2
+
−
y
y
m
y
mi yi
2
∑ i ∑
∑
i
n − 1  i =1
i =1
i =1
1 N − n Sc2
= 0, 006423
V ( y) = 2
N n
M

 = 0,3333

2 V ( y ) = 0,1603 cl
7. (Como ejercicio 1, relación del tema 6) Un fabricante de sierras quiere estimar el coste
medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El
fabricante no puede obtener un coste de reparación para cada sierra, pero puede obtener la
cantidad total gastada en reparación y el número de sierras que tiene cada industria.
Entonces decide usar muestreo por conglomerados, con cada industria como un
conglomerado. El fabricante selecciona una muestra aleatoria simple de 5 de 100
industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y
el número de sierras son:
Industria Nº sierras Costo total de reparación
para el mes pasado (€)
1
3
50
2
7
110
3
11
230
4
9
140
5
2
60
Estime el coste medio de reparación por sierra para el mes pasado y el límite para el error
de estimación.
SOLUCIÓN: N=100, n=5,
mi yi
150
770
2530
1260
120
n
∑m y
i =1
i
i
= 4830
(con las funciones del modo SD de la calculadora) :
M = m = 6, 4
n
∑ mi = 32
i =1
n
∑m
i =1
2
i
= 264
105
n
n
∑ yi = 590
y t = 118
∑y
i =1
2
i
i =1
= 90700
5
y=µ=
∑y
i =1
5
2
=
∑m
i =1
Sc =
i
yt
= 18, 4375 €
m
i
(
1 n
∑ yi − ymi
n − 1 i =1
)
2
=
n
n
2
1  n 2
2
y
y
m
y
mi yi
+
−
2
∑ i ∑
∑
i
n − 1  i =1
i =1
i =1
1 N − n Sc2
= 2, 7116
V ( y) = 2
N n
M

 = 584,57

2 V ( y ) = 3, 2934 €
8. (Como ejercicio 5, relación del tema 6) Un periódico quiere estimar la proporción de
votantes que apoyan a cierto candidato A, en una elección estatal. Ya que la selección y
entrevista de una muestra aleatoria simple de votantes registrados es muy costosa, se
utiliza muestreo por conglomerados, con distritos como conglomerados. Se selecciona una
muestra aleatoria de 5 distritos de un total de 495 que tiene el estado. El periódico quiere
hacer la estimación el día de la elección, pero antes de que se haya hecho la cuenta final de
los votos. Es por eso que los reporteros son enviados a los lugares de votación de cada
distrito en la muestra, para obtener la información pertinente directamente de los votantes.
Los resultados se muestran en esta tabla:
Nº votantes Nº votantes A
1290
680
1170
631
840
475
1620
935
1381
472
Estime la proporción de votantes que apoyan al candidato A y el límite para el error de
estimación.
SOLUCIÓN:
N=495, n=5,
mi yi
877200
738270
399000
1514700
651832
n
∑m y
i =1
106
i
i
= 4181002
(con las funciones del modo SD de la calculadora) :
n
∑ mi = 6301
M = m = 1260, 2
i =1
n
∑y
y t = 638, 6
i =1
i
= 3193
n
∑m
i =1
n
∑y
i =1
= 8270161
2
i
2
i
= 2183195
5
p=µ=
∑y
i =1
5
∑m
i =1
2
Sc =
i
=
yt
= 0,506745
m
i
(
1 n
∑ yi − ymi
n − 1 i =1
V ( p) =
( 50, 67% )
)
2
=
n
n
2
1  n 2
2
y
y
m
y
mi yi
+
−
2
∑ i ∑
∑
i
n − 1  i =1
i =1
i =1
1 N − n Sc2
= 0, 00216573
2
N n
M
2 V ( y ) = 0, 0930748

 = 17372,505

( 9,31% )
107
7. Estimación del tamaño de la población.
7.1 Muestreo directo.
7.2 Muestreo inverso.
7.3 Muestreo por cuadros.
7.3.1 Estimación de la densidad y tamaño de la población.
7.3.2 Muestreo por cuadros en el espacio temporal.
7.3.3 Cuadros cargados.
7.1 Estimación del tamaño de la población usando muestreo directo
En el muestreo directo se realizan los siguientes pasos:
1. Se selecciona una muestra aleatoria de tamaño t , se marcan y se devuelven a la
población.
2. Posteriormente se selecciona una muestra aleatoria de tamaño n (tamaño fijado de
antemano) de la misma población y se observa cuántos de ellos están marcados
( s =número de elementos marcados en esta 2ª muestra)
Sea p = proporción de elementos marcados en la población, p =
t
t
, N=
, pero p es
N
p
desconocido. Entonces estimamos p mediante la proporción muestral:
pˆ =
s
= proporción de elementos marcados en la 2ª muestra
n
Por tanto,
•
ESTIMADOR DE N :
t
t
nt
=
Nˆ = =
pˆ s / n s
•
VARIANZA ESTIMADA DE N̂ :
t 2 n( n − s )
Vˆ Nˆ =
s3
 n, t = constantes 


 s = aleatoria

( )
Comentarios
ƒ
s = número de elementos marcados en la 2ª muestra, ha de ser mayor que 0 para que
las fórmulas estén bien definidas. Si en la segunda muestra no aparece ningún
elemento marcado, se aumenta el tamaño muestral.
ƒ
N̂ no es un estimador insesgado de N :
[ ]
(N − t)
E Nˆ = N + N
≠N
nt
Cuanto mayor sean n y t menor será el sesgo N
108
(N − t)
.
nt
ƒ
N̂ tiende a sobreestimar el valor real de N .
Ejemplo 7.1 (Ejercicio 1, relación tema 7)
Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un
periodo de varios días se atrapan 100 truchas, se marcan y se devuelven al arroyo. Obsérvese
que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado que ya hubiera
sido marcado se devolvía inmediatamente. Varias semanas después se atrapó una muestra de
120 peces y se observó el número de peces marcados. Supongamos que este número fue de 27
en la segunda muestra. Estime el tamaño total de la población de truchas y dé un límite de
error de estimación.
Solución
nt 120 ×100
= 444, 4
Nˆ = =
s
27
t 2 n(n − s ) 1002 × 120(120 − 27)
ˆ
ˆ
=
= 5.669,87
V N =
s3
273
( )
( )
B = 2 Vˆ Nˆ = 150, 60
7.2 Estimación del tamaño de la población usando muestreo inverso
La diferencia con el muestreo directo es que aquí el tamaño de la segunda muestra no está
fijado (es aleatorio), lo que se fija es s = número de elementos marcados en la segunda
muestra.
Los pasos para realizar este método son:
1. Se selecciona una muestra inicial de t elementos, se marcan y se devuelven a la
población.
2. Se selecciona una segunda muestra aleatoria hasta que se obtienen s elementos
marcados (sea n el tamaño final de dicha muestra).
•
ESTIMADOR DE N :
t
t
nt
=
Nˆ = =
pˆ s / n s
•
VARIANZA ESTIMADA DE N̂ :
t 2 n( n − s )
Vˆ Nˆ = 2
s ( s + 1)
 t , s = constantes 


 n = aleatoria 
( )
Comentario. N̂ es un estimador insesgado de N , por ello, si se pueden aplicar ambos tipos
de muestreo se prefiere el inverso.
109
Ejemplo 7.2 (Ejercicio 5, relación tema 7)
Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área
geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una
muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y
liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta
que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas para obtener las 15 marcadas.
Estime el tamaño total de la población de tortugas y establezca un límite de error de
estimación.
Solución
nt 160 ×100
= 1.066, 67
Nˆ = =
15
s
t 2 n(n − s ) 1002 ×160(160 − 15)
ˆ
ˆ
V N = 2
=
= 64.444, 44
152 (15 + 1)
s ( s + 1)
( )
( )
B = 2 Vˆ Nˆ = 507, 72
7.3.1 Estimación de la densidad y del tamaño de la población usando muestreo por
cuadros
Con este método se estudia el tamaño de la población contenida en un área delimitada A
conocida. Los pasos a seguir son:
1. Dividir a la población en N cuadros de igual área a . Sea
mi = número de elementos en el cuadro i -ésimo
2. Tomar una muestra de n cuadros entre los N existentes. Se observa el número total
de elementos que contiene la muestra:
n
m = ∑ mi
i =1
3. Calcular la densidad de elementos en la muestra (densidad muestral):
λ̂ =
nº elementos en la muestra m
=
área de la muestra
na
4. La densidad poblacional es
λ=
nº elementos en la población M M
=
=
área de la población
Na A
entonces M = Aλ . Por tanto:
•
110
ESTIMADOR DE LA DENSIDAD:
λ̂ =
m
na
•
VARIANZA ESTIMADA DE λ̂ :
m
1
Vˆ (λˆ ) = 2 2 = λˆ
na
a n
•
ESTIMADOR DEL TAMAÑO POBLACIONAL:
m
Mˆ = Aλ̂ = A
na
•
VARIANZA ESTIMADA DE M̂ :
A2 m
Vˆ ( Mˆ ) = A 2Vˆ (λˆ ) = 2 2
a n
Ejemplo 7.3 (Ejercicio 3, práctica 7)
La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en
torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con este dato se puede
conocer la cuantía de medios materiales y humanos (policía, protección civil, personal
sanitario, etc.) necesaria para atender futuras concentraciones. Para estimar el número de
aficionados se toma una fotografía aérea de la zona ocupada por éstos, tras lo cual se traza
sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada
uno. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por
último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados,
obteniéndose los resultados de la tabla:
Nº del cuadro
Número de aficionados
en el cuadro
Nº del cuadro
Número de aficionados
en el cuadro
1
193
11
160
2
216
12
220
3
250
13
163
4
163
14
306
5
209
15
319
6
195
16
289
7
232
17
205
8
174
18
210
9
215
19
209
10
198
20
198
a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo
de confianza.
b) Estime el número total de aficionados concentrados en la plaza de Neptuno y
obtenga su intervalo de confianza.
111
Solución:
a) a = 10 × 10 = 100
λˆ =
m
4324
=
= 2,162
na 20 ×100
λˆ 2,162
Vˆ (λˆ ) =
=
= 0, 001081 ⇒ B = 2 0, 001081 = 0, 066
na 2000
λ = 2,162 aficionados m 2
(2, 096 , 2, 228)
b) A = 300 × 100 = 30.000 m 2
Mˆ = Aλˆ = 30.000 × 2,162 = 64.860 aficionados
B = ABλ = 30.000 × 0, 066 = 1.980
(62.880 , 66.840)
7.3.2 Muestreo en el espacio temporal
En determinadas ocasiones podemos tomar los cuadros como intervalos temporales. Veámoslo
con un ejemplo.
Ejemplo 7.4 (Ejercicio 7, relación tema 7)
Se desea estimar el número total de personas que diariamente solicitan información en una
oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos de
5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la
oficina. Estime el total de personas que visitan la oficina diariamente y calcule la cota del
error de estimación.
Solución
A = 8 horas= 480 minutos
λ=
n =12 intervalos
114
= 1,9 personas / minuto
5 × 12
a = 5 minutos
m =114 personas
m
Mˆ = A
= 912 personas
na
A2 m
Vˆ ( Mˆ ) = 2 2 = 7.296 ⇒ B = 170,8
an
7.3.3 Cuadros cargados
En este tipo de muestreo también se divide a la población en cuadros, pero el método se utiliza
cuando después de hecha la división son muchos los cuadros que no contienen elementos y
otros contienen pocos, es decir, la densidad de elementos por unidad de superficie es muy
pequeña.
Este tipo de muestreo se basa en la identificación de la presencia o ausencia de elementos en
cada uno de los cuadros de la muestra. Un cuadro se dice cargado cuando contiene al menos
un elemento objeto de estudio.
112
Los pasos a seguir son:
1. Se divide a la población en N cuadros de igual área a .
2. Se toma una muestra de n cuadros entre los N existentes. Se observa el número total
de cuadros no cargados de la muestra, a este número de cuadros sin presencia de
elementos se le designa por y . Es importante tener en cuenta que y no puede ser cero
ni n ( 0 < y < n ). Si una vez observada la muestra y = 0 ó y = n , ampliaremos el
tamaño muestral
3. La densidad poblacional se estima como
1
 y
λˆ = − ln  
a n
y su varianza como
1 n− y
Vˆ (λˆ ) = 2
a ny
Dado que M = Aλ obtenemos
•
ESTIMADOR DEL TAMAÑO POBLACIONAL:
A  y
Mˆ = Aλˆ = − ln 
a n
•
VARIANZA ESTIMADA DE M̂ :
A2 n − y
Vˆ ( Mˆ ) = 2
a ny
Ejemplo 7.5 (Ejercicio 4, práctica 7)
Se desea estimar el número total de autobuses que, entre las 6 y las 24 horas del domingo,
circulan por un determinado punto kilométrico de una carretera. La observación se realiza
mediante 40 intervalos, de 10 minutos cada uno, repartidos a lo largo del periodo en estudio.
En 18 ocasiones, de las cuarenta que se estableció el control, no circuló por el punto en
cuestión ningún autobús. Estimar el número total de autobuses que circularon entre las 6 y las
24 horas. Dar un límite de error de estimación.
Solución
A = 24-6=18 horas=1.080 minutos
y =18 intervalos sin autobuses
n = 40 intervalos
a =10 minutos
A  y
1.080  18 
ln   = 86, 24
Mˆ = − ln   = −
10
a n
 40 
A2 n − y 1.0802 40 − 18
Vˆ ( M ) = 2
=
= 356, 4 ⇒ B = 37,8
102 40 ⋅18
a ny
113
EJERCICIOS RESUELTOS
1. (Ejercicio 6, relación tema 7) En una plantación de pinos de 200 acres, se va a estimar la
densidad de árboles que presentan hongos parásitos. Se toma una muestra de 10 cuadros
de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 árboles
infectados por cuadro.
a) Estime la densidad de árboles infectados y establezca un límite de error de
estimación.
b) Estime el total de árboles infectados en los 200 acres de la plantación y
establezca un límite de error de estimación.
SOLUCIÓN:
m 2,8 × 10
=
= 5, 6 arb. infectados / acre ;
a) λˆ =
na 10 × 0,5
1
1
Vˆ (λˆ ) = λˆ
= 5, 6
= 1,12 ⇒ B = 2,1
na
10 × 0,5
b) Mˆ = Aλˆ = 200 × 5, 6 = 1.120;
B = ABλ = 200 × 2,1 = 423,32
2. (Como ejercicio 12, relación tema 7) Se desea estimar el número de vehículos de un
modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real.
Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de
duración cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes
resultados:
Control
Número de vehículos de ese
modelo que usan el
aparcamiento
1
0
2
1
3
2
4
0
5
3
Estime el número total de vehículos del modelo en estudio que utilizaron el aparcamiento.
Dé el límite del error de estimación.
SOLUCIÓN:
A = 720 h a = 1 h n = 5 contr. m = 0 + 1 + 2 + 0 + 3 = 6 veh. m =
M = λ A = 1.2 × 720 = 864 veh.
114
6
m
= 1.2 λ = = 1.2 veh./ h
5
a
( )
V M =
A2 λ
= 124416
an
B = 2 124416 = 705.45 veh.
3. (Como ejercicio 9, relación tema 7) El hermano de un alumno de T.A.M. está pensando en
abrir una farmacia de 24 horas. Para saber si los ingresos compensarían los gastos de esta
inversión deciden observar un establecimiento similar. Este asiduo alumno de T.A.M.
conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de
clientes las 24 horas del día por lo que decide observar la afluencia de clientes en distintos
periodos de igual duración, obteniendo los datos de la siguiente tabla
clientes
10:00-10:30
15
14:00-14:30
13
18:00-18:30
18
22:00-22:30
8
02:00-02:30
2
06:00-06:30
4
Estime el número de clientes diarios de la farmacia observada y el correspondiente límite
para el error de estimación.
SOLUCIÓN:
A = 24h a = 0.5h N = 48 n = 6 m = 60 m = 10
M = λA =
( )
m
A 2 λ A2 m
A = 480 clientes V M =
= 2 = 3840
a
an
an
( )
2 V M = 123,94 clientes
4. (Como ejercicio 13, relación tema 7) El ayuntamiento de Barcelona está interesado en
conocer el número de aficionados que acudieron al aeropuerto para vitorear al equipo
campeón. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por
40 metros de ancho, en 100 cuadros de igual tamaño y seleccionaron 20, observando que
el número de personas era 1.100.
Estime el número total de asistentes y el límite para el error de estimación.
SOLUCIÓN:
A = 4000 a = 40 N = 100 n = 20 m = 1100 m = 55
M = λA =
m
A = 5500
a
( )
V M =
A 2 λ A2 m
= 2 = 27500
an
an
( )
2 V M = 331, 66
5. (Ejercicio 8, relación tema 7) Un alumno de A.T.C. desea estimar el número de alumnos
que una determinada mañana han ido a la Facultad. Para ello se basa en que dicho día una
conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la
115
Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide
contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue
necesario contar hasta 382 alumnos.
Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la
Facultad.
SOLUCIÓN: muestreo inverso
t = 500 n = 382 s = 100
N=
t
p
( )
=
V N =
nt
= 1910 alumnos
s
t 2 n( n − s )
= 26664,35643
s 2 ( s + 1)
(1910 ∓ 326,58 )
116
( )
2 V N = 326,58 alumnos
8. Indicadores estadísticos regionales.
8.1 Introducción.
8.2 Medidas de desigualdad-concentración regional.
8.2.1 Curva de Lorenz. Índice de Gini.
8.2.2 Coeficiente de Theil. Índice de Theil.
8.2.3 Desigualdad individual y colectiva.
8.3 Medidas de dispersión regional.
8.4 Coeficiente de asociación geográfica de Florence.
8.1 Introducción
Consideremos una población dividida en N subpoblaciones (regiones o estratos). Los
objetivos de este capítulo son:
o estudiar medidas de desigualdad o concentración que indiquen si la magnitud total de
una
variable
económica
se
encuentra
repartida
equitativamente
entre
las
subpoblaciones o, por el contrario, existen desequilibrios en su reparto.
o estudiar la asociación que pudiera existir entre dos variables económicas a causa de su
distribución entre las distintas subpoblaciones (Coeficiente de asociación geográfica de
Florence).
8.2 Medidas de desigualdad-concentración regional
En esta sección se estudian medidas de desigualdad o concentración que indican si la
magnitud total se encuentra repartida equitativamente entre las subpoblaciones o, por el
contrario, existen desequilibrios en su reparto.
Son medidas que, a partir de la distribución de frecuencias de la variable económica bajo
estudio, realizan una representación gráfica mediante una curva poligonal (Curva de Lorenz),
o bien, sintetizan en un solo valor la desigualdad existente en el reparto de la variable (Índice
de Gini, coeficiente de Theil, índice deTheil, desigualdad individual y colectiva).
8.2.1 Curva de Lorenz. Índice de Gini.
(Ambas medidas ya se estudiaron en Técnicas Cuantitativas 1)
Recordaremos lo más importante y lo ilustraremos con un ejemplo.
N i son las frecuencias absolutas acumuladas.
pi =
Ni
es la frecuencia relativa acumulada. ( N =número total de datos)
N
ui =son los totales acumulados.
117
qi =son los totales acumulados relativos.
La comparación entre los valores pi y qi nos informa sobre la concentración en el reparto.
Estos valores se representan mediante la curva de Lorenz. Si el reparto fuese equitativo,
coincidirían para todos los i.
•
En caso de equidistribución ( pi = qi
∀i ), la curva de Lorenz coincide con la bisectriz
del primer cuadrante.
•
En
caso
de
concentración
máxima
(todos
los
individuos
reciben
nada,
qi = 0, i = 1,..., k − 1 , salvo uno que recibe todo, qk = 1 ), la curva de Lorenz coincide
prácticamente con los catetos del triángulo determinado por los puntos (0,0), (1,0) y
(1,1).
•
Para cuantificar la posición de la curva de Lorenz se define el índice de Gini como
k −1
IG =
∑ ( pi − qi )
i =1
k −1
∑p
i =1
k −1
= 1−
i
∑q
i =1
k −1
i
∑p
i =1
i
•
0 ≤ I G ≤ 1 . Si hay equidistribución I G = 0 . Si hay concentración máxima I G = 1 .
•
Este índice es invariante frente a cambios de escala pero no frente a cambios de origen.
•
No permite un análisis desagregado como los índices que estudiamos a continuación.
Ejemplo 8.0
Supongamos un país con 7 regiones. Tenemos datos sobre el valor añadido bruto (VAB) de
cada una de ellas (en u.m.):
VAB
Regiones
(u.m.)
R1
2460,5
R2
619,0
R3
613,2
R4
1150,0
R5
1865,0
R6
437,1
R7
661,9
Calcule el índice de Gini y represente la curva de Lorenz.
118
VAB
437,1
613,2
619,0
661,9
1150,0
1865,0
2460,5
7806,7
qj
ui
437,1
1050,3
1669,3
2331,2
3481,2
5346,2
7806,7
nj
0,0560
0,1345
0,2138
0,2986
0,4459
0,6848
1,0000
2,8337
pj
Ni
1
1
1
1
1
1
1
7
1
2
3
4
5
6
7
0,1429
0,2857
0,4286
0,5714
0,7143
0,8571
1,0000
4,0000
k −1
IG = 1 −
∑q
i =1
k −1
i
∑p
i =1
= 1−
1,8337
= 0,3888
3
i
1
0,9
0,8
0,7
q
0,6
0,5
0,4
0,3
0,2
0,1
0
0
0,1429 0,2857 0,4286 0,5714 0,7143 0,8571 1,0000
p
8.2.2 Coeficiente de Theil. Índice de Theil.
N
El coeficiente de Theil se basa en la entropía o medida del desorden, H N ( x) = −∑ xi ln xi ,
j =1
para cuantificar el parecido o la diferencia entre sí de los datos a analizar.
Supongamos una población divida en N regiones o estratos distintos. Cada una de las
regiones aporta un valor de una variable económica X, X ≥ 0
Regiones
Xi
xi
1
X1
x1
N
XN
xN
N
∑X
j =1
i
1
119
Donde xi = proporciones de la variable respecto del total=
Xi
N
∑X
i =1
i
N
El coeficiente de Theil es, por definición,
T = ln N + ∑ xi ln xi
i =1
Nota
Si algún xi = 0 , por definición tomamos xi ln xi = 0 .
Ejemplo 8.1
Supongamos un país con 7 regiones. Tenemos datos sobre el valor añadido bruto (VAB) de
cada una de ellas (en u.m.):
Xi
Regiones VAB (u.m.)
R1
2460,5
R2
619,0
R3
613,2
R4
1150,0
R5
1865,0
R6
437,1
R7
661,9
7806,7
xi
xi ln xi
0,315
0,079
0,079
0,147
0,239
0,056
0,085
1
-0,364
-0,201
-0,200
-0,282
-0,342
-0,161
-0,210
-1,760
el coeficiente de Theil es: T = ln 7 − 1, 760 = 0,1859 .
Propiedades
N
1. Si existe equidistribución entonces −∑ xi ln xi = ln N y T = 0
i =1
N
2. Si existe concentración máxima entonces −∑ xi ln xi = 0 y T = ln N
j =1
3. 0 ≤ T ≤ ln N
(En el ejemplo 8.1, T es más cercano a 0 que a ln7=1,946, por tanto, está más cerca de
la equidistribución que de la concentración máxima).
4. El coeficiente de Theil permite un análisis desagregado. Sea X = variable observada
en las N regiones y x1 ,..., xN = valores porcentuales (proporciones) en cada región.
Supongamos que X se agrupa en k grupos: G1 ,..., Gk , con N1 ,..., N k regiones en cada
uno de ellos:
k
∑N
g =1
Entonces
120
g
= N , xg =
∑x,
i∈Gg
i
g = 1,..., k
y Tg = ln N g + ∑
i∈Gg
xi  xi 
ln   .
xg  xg 
k
 x
T = ln N + ∑ xg ln  g
N
g =1
 g
 k
 + ∑ xg Tg
 g =1
donde
o
k
 x
ln N + ∑ xg ln  g
N
g =1
 g

 representa la desigualdad entre grupos. Mide la disparidad

entre grupos teniendo en cuenta el tamaño de cada grupo N g en relación al peso
del grupo xg en la variable económica observada.
k
o
∑x T
g =1
g g
representa la desigualdad dentro de los grupos. Es la media de los
coeficientes de Theil de cada grupo ponderados por los pesos de cada grupo.
Ejemplo 8.2
Realicemos un análisis desagregado con los datos del ejemplo 8.1. Supongamos que
dividimos las regiones en dos grupos:
Regiones
grupo 1
R2
R3
R6
R7
xi
x( g =1)
Regiones
grupo 2
R1
R4
R5
0,079
0,079
0,056
0,085
= ∑ xi =0, 299
i∈G1
xi
x( g = 2)
0,315
0,147
0,239
= ∑ xi =0, 701
i∈G2
Estudiamos la desigualdad dentro de cada uno de los grupos mediante el correspondiente
coeficiente de Theil:
Tg = ln N g + ∑
i∈Gg
donde
xi  xi 
ln  
xg  xg 
xi
es el valor porcentual dentro del grupo.
xg
121
xi
Regiones
grupo 1
R2
R3
R6
R7
xi
x( g =1)
0,079
0,079
0,056
0,085
x( g =1) = 0,299
0,264
0,264
0,187
0,284
xi  xi 
ln  
xg  xg 
-0,352
-0,352
-0,314
-0,358
1
-1,375
T1 = ln 4 − 1,375 = 0, 0113
xi
Regiones
grupo 2
R1
R4
R5
xi
x( g = 2)
0,315
0,147
0,239
x( g = 2) = 0,701
0,449
0,210
0,341
xi  xi 
ln  
xg  xg 
-0,359
-0,328
-0,367
1
-1,054
T2 = ln 3 − 1, 054 = 0, 0446
o Desigualdad entre grupos:
2
 x 
 0, 299 
 0, 701 
ln N + ∑ xg ln  g  = ln 7 + 0, 299 ln 
 + 0, 701ln 
=


 4 
 3 
g =1
 Ng 
= 1,9459 − 0, 7755 − 1, 0192 = 0,1512
o Desigualdad dentro de los grupos:
2
∑x T
g =1
g g
= 0, 299 ( 0, 0113) + 0, 701( 0, 0446 ) = 0, 0346
de esta forma:
T = 0,1512 + 0, 0346 = 0,1858
En términos relativos:
T
0,1512 0, 0346
=
+
= 0,8138 + 0,1862 = 1
0,1858 0,1858 0,1858
De la desigualdad existente en las siete regiones, el 81,38% es debido a la desigualdad entre
grupos. Si tuviésemos que tomar medidas económicas para disminuir, aún más, la
desigualdad, actuaríamos en esa dirección, tratando de limar las diferencias entre los dos
grupos (esta es una de las ventajas del análisis desagregado, permite determinar el origen de
las diferencias existentes entre las regiones).
122
Índice de Theil
N
IT = ITHEIL
T
=
=
ln N
ln N + ∑ xi ln xi
i =1
ln N
N
= 1+
∑ x ln x
i
i =1
i
ln N
Es evidente que 0 ≤ ITHEIL ≤ 1 , y este hecho facilita comparaciones. El 0 indica
equidistribución y el 1 concentración máxima.
Ejemplo 8.3
ITHEIL =
0,186
= 0, 0956
ln 7
Reparto cercano a la equidistribución.
8.2.3 Desigualdad individual y desigualdad colectiva
El objetivo en esta sección es medir la diferencia de un individuo (una región) con respecto al
colectivo.
Para una variable X , que solo toma valores positivos, se define la desigualdad individual de
la región i-ésima respecto al colectivo como:
di =
x − Xi
x
=
− 1, i = 1,..., N
Xi
Xi
Es una medida adimensional. Indica la proporción en que el colectivo supera a la región iésima
X i < x ⇔ la región i-ésima posee una desigualdad individual positiva
X i > x ⇔ la región i-ésima posee una desigualdad individual negativa
X i = x ⇔ la región i-ésima posee una desigualdad individual cero
Ejemplo 8.4
Regiones
R1
R2
R3
R4
R5
R6
R7
Xi
VAB (u.m.)
2460,5
619
613,2
1150
1865
437,1
661,9
7806,7
di
-0,547
0,802
0,819
-0,030
-0,402
1,551
0,685
2,878
123
x=
7806, 7
= 1115, 243
7
Si se agregan las desigualdades individuales, ponderadas cada una de ellas por la frecuencia
relativa de X i , se obtiene la desigualdad colectiva:
N
D = ∑ di fi
i =1
D aumenta cuando en la población existen mayores desequilibrios. Sin embargo, no existe
una cota superior para D ya que su máximo depende del tamaño de la población.
Ejemplo 8.5
Con los datos del ejemplo 8.4:
7
D = ∑ di fi =
i =1
1 7
2,878
di =
= 0, 411
∑
7 i =1
7
(Realmente, por si sola no dice nada, pero la podemos comparar con el reparto de otra
variable).
Esta medida permite un análisis desagregado. Denotemos por:
N → Número de elementos en la población (regiones)
x → Media de todos los elementos de la población.
k → Número de subpoblaciones o grupos.
N g → Número de elementos en el grupo g , g = 1,..., k
xg → Media del grupo g
Dg =
dg =
∑
xg − X i
i∈Gg
x − xg
xg
Xi
fi → Desigualdad colectiva en el grupo g
→ Desigualdad individual del grupo g en relación a todos los grupos (toda la
población).
D , entonces, se puede calcular como suma de la desigualdad existente entre los grupos
considerados más una media ponderada de las distintas desigualdades colectivas dentro de
cada grupo o subpoblación:
D=
124
1
N
k
∑d
g =1
g
Ng +
x
N
k
∑D
g =1
g
Ng
xg
1
N
o
x
N
o
k
∑d
g =1
g
N g → Representa la desigualdad entre las subpoblaciones o grupos.
k
∑D
g =1
g
Ng
xg
→ Representa la desigualdad dentro de las subpoblaciones o grupos.
Tiene en cuenta el tamaño de cada grupo en relación a la media del grupo.
Ejemplo 8.6
Regiones
grupo 1
R2
R3
R6
R7
x1 =
i∈G1
x1 − xi
1 x −x 1
fi = ∑ 1 i = 0,106 = 0, 0265
xi
4 i∈G1 xi
4
x − x1 1115, 243 − 582,8
=
= 0,9136
582,8
x1
Regiones
grupo 2
R1
R4
R5
x2 =
VAB (u.m.)
2460,5
1150
1865
5475,5
x2 − xi
xi
-0,258
0,587
-0,021
0,308
5475,5
= 1825,167
3
D2 = ∑
i∈G2
d2 =
-0,058
-0,050
0,333
-0,120
0,106
2331, 2
= 582,8
4
D1 = ∑
d1 =
VAB (u.m.)
619
613,2
437,1
661,9
2331,2
x1 − xi
xi
x2 − xi
1
x −x 1
f i = ∑ 2 i = 0,308 = 0,1027
xi
3 i∈G2 xi
3
x − x2 1115, 243 − 1825,167
=
= −0,389
1825,167
x2
Resumiendo:
x=
7806, 7
= 1115, 243
7
125
Grupos
1
2
Ng
xg
4
3
582,8
1825,167
Dg
dg
0,0265
0,1027
0,9136
-0,389
Dg
Ng
xg
dg Ng
0,000182
0,000169
0,000351
3,6544
-1,167
2,4874
1
  1115, 243

0, 000351 = 0,355 + 0, 056 = 0, 411
D =  2, 4874  + 
7
7
 

0,355 0, 056
+
= 0,8637 + 0,1363 = 1
0, 411 0, 411
En términos relativos,
La desigualdad es debida a la diferencia entre subpoblaciones o grupos.
8.3 Medidas de dispersión regional
En general, se puede utilizar cualquier medida de dispersión para estudiar las disparidades
entre distintas regiones (estudian hasta qué punto la situación de las regiones puede ser
considerada homogénea).
Las más utilizadas son:
o Varianza: V ( X ) =
1
N
N
∑( X
i =1
i
− x)
2
o Varianza normalizada: VN ( X ) =
V (X )
2
= ( coef. de variacion de Pearson )
2
x
Estas medidas tienen el inconveniente de que a estructuras distintas (espaciadas o
polarizadas), les pueden corresponder una misma dispersión.
8.4 Coeficiente de asociación geográfica de Florence
Con este coeficiente se cuantifica la relación que pueda existir entre dos variables X e Y ,
cuando se dispone de un valor de cada una de ellas en cada una de las N regiones
consideradas para el estudio.
Supuestos conocidos para cada una de las regiones el par ( X i , Yi ) , entonces la participación
de cada valor de la variable sobre el total es:
xi =
Xi
e yi =
N
∑X
i =1
i
Yi
N
∑Y
i =1
i
 0 ≤ xi , yi ≤ 1 
 N

N
 ∑ xi = ∑ yi = 1


i =1
 i =1

El coeficiente de asociación geográfica de Florence es: F = 1 −
126
1 N
∑ xi − yi
2 i =1
Sus propiedades son:
1. 0 ≤ F ≤ 1
2. En situación de igualdad, xi = yi , i = 1,..., N ⇒ F = 1 .
3. En situación de desigualdad máxima ⇒ F = 0.
4. A medida que aumenta la asociación entre las variables, el coeficiente también
aumenta.
Ejemplo 8.7 (Ejercicio 1, Relación Tema 8) Sabemos que en un año el PIB a precios de
mercado de los siguientes países fue:
PIB (u.m.) Superficie (1000 km 2 )
Alemania
826,4
248,7
Bélgica
104,5
30,5
Dinamarca
76,4
43,1
España
216,2
504,8
Francia
674,8
544,0
Grecia
42,8
132,0
Holanda
165,3
41,2
Inglaterra
595,0
244,1
Irlanda
24,1
68,9
Italia
473,0
301,3
Luxemburgo
4,7
2,6
Portugal
27,3
92,1
Total
3230,5
2253,3
Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión
superficial de cada país.
PIB (u.m.)
2
Superficie (1000 km )
xi
yi
xi − yi
Alemania
826,4
248,7
0,2558
0,1104
0,1454
Bélgica
104,5
30,5
0,0323
0,0135
0,0188
76,4
43,1
0,0236
0,0191
0,0045
España
216,2
504,8
0,0669
0,2240
0,1571
Francia
674,8
544
0,2089
0,2414
0,0325
Grecia
42,8
132
0,0132
0,0586
0,0453
165,3
41,2
0,0512
0,0183
0,0329
Inglaterra
595
244,1
0,1842
0,1083
0,0759
Irlanda
24,1
68,9
0,0075
0,0306
0,0231
Italia
473
301,3
0,1464
0,1337
0,0127
Luxemburgo
4,7
2,6
0,0015
0,0012
0,0003
27,3
92,1
3230,5
2253,3
0,0085
1
0,0409
1
0,0324
0,5810
Dinamarca
Holanda
Portugal
Total
F = 1−
1 12
1

xi − yi = 1 −  0,5810  = 0, 7095
∑
2 i =1
2

127
EJERCICIOS RESUELTOS
1. (ejercicio 3, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros
en las 4 regiones de un determinado país fue
REGIONES PIB
R1
80
R2
15
R3
100
R4
50
Obtenga el índice de concentración de Theil e interprete su valor.
Solución:
xi =
Xi
región
Xi
N
∑X
i =1
R1
R2
R3
R4
suma
80
15
100
50
245
ln xi
i
0,3265
0,0612
0,4082
0,2041
1,0000
N
T = ln N + ∑ xi ln xi = 0,1597
-1,1192
-2,7932
-0,8961
-1,5892
IT = ITHEIL =
i =1
xi ln xi
-0,3655
-0,1710
-0,3658
-0,3243
-1,2266
T
= 0,1152
ln N
2. (ejercicio 4, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros
en las 4 regiones de un determinado país fue
REGIONES PIB
80
R1
15
R2
R3
100
R4
50
Obtenga la desigualdad colectiva e interprete su valor.
Solución:
x = 61,25
Región
R1
R2
R3
R4
suma
N
N
i =1
i =1
D = ∑ di fi = ∑ di
128
di =
Xi
80
15
100
50
245
x
−1
Xi
-0,2344
3,0833
-0,3875
0,2250
2,6865
1 1 N
2, 6865
= ∑ di =
= 0, 6716
4 4 i =1
4
3. (ejercicio 5, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros
en las 4 regiones de un determinado país y el número de oficinas bancarias fue
REGIONES PIB OFICINAS
80
350
R1
15
70
R2
R3
100
450
R4
50
250
Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB
e interprete su valor.
Solución:
región
Xi
xi =
Yi
Xi
∑X
i =1
R1
R2
R3
R4
suma
F = 1−
80
15
100
50
245
350
70
450
250
1120
yi =
N
i
0,3265
0,0612
0,4082
0,2041
1,0000
Yi
N
∑Y
i =1
i
0,3125
0,0625
0,4018
0,2232
1,0000
xi − yi
0,01403
0,00128
0,00638
0,01913
0,0408
1 N
∑ xi − yi = 0,97959
2 i =1
129
9. Medidas de localización espacial.
9.1
9.2
9.3
9.4
9.5
Introducción.
Cocientes de localización y especialización.
Coeficientes de localización sectorial.
Coeficientes de especialización regional.
Coeficientes de diversificación.
9.1 Introducción
Las medidas de localización espacial son indicadores que miden la actividad de distintos
sectores económicos en un conjunto de regiones en referencia a una variable económica.
Consideremos un conjunto de L sectores repartidos en N regiones. Dispondremos de una
tabla de doble entrada con las regiones por filas y los sectores por columnas:
Región/Sector
S1
S2
SL
Yi i
R1
Y11
Y12
Y1L
Y1i
R2
Y21
Y22
Y2 L
Y2 i
RN
YN 1
YN 2
YNL
YN i
Yi j
Yi1
Yi 2
Yi L
Y
siendo
Yij → valor de la variable en la región i del sector j, i = 1,..., N ;
j = 1,..., L
L
Yi i = ∑ Yij → suma de los valores de todos los sectores en la región i
j =1
N
Yi j = ∑ Yij → suma de los valores de todas las regiones en el sector j
i =1
N
L
N
L
i =1
j =1
i =1 j =1
Y = ∑ Yi i = ∑ Yi j = ∑∑ Yij → suma de los valores de todas las regiones y todos los
sectores.
Ejemplo 9.1 (lo usaremos a lo largo de todo el tema)
Sea Y = VAB al coste de los factores (u.m.)
130
Región/Sect Agricultura
R1
282
R2
31
R3
117,9
R4
145,8
Total (Sect)
576,7
Industria
723,6
294,6
1.526,9
390,5
2.935,6
Servicios
1.454,9
287,6
2.497,6
42,7
4.282,8
Total (Reg)
2.460,5
613,2
4.142,4
579
7.795,1
9.2 Cocientes de localización y especialización
Yij
Yi j
→ participación de la región i en el sector j (cocientes de los valores de la columna j
sobre su total)
Yi i
→ participación de la región i en la población (cocientes de los valores de la columna
Y
marginal sobre su total)
Yij
Yi i
→ participación del sector j en la región i (cocientes de los valores de la fila i sobre su
total)
Yi j
Y
→ participación del sector j en la población (cocientes de los valores de la fila marginal
sobre su total)
Se define el cociente de localización regional del sector j en la región i (cociente de
especialización de la región i en el sector j) como:
Lij =
Yij / Yi i
Yi j / Y
100 =
Yij / Yi j
Yi i / Y
100
Interpretación de la primera igualdad: Es la relación que existe entre la participación del
sector j en la región i y la participación del sector j en el total. (Localización del sector j).
Interpretación de la segunda igualdad: Es la relación que existe entre la participación de la
región i en el sector j y la participación de la región i en el total. (Especialización de la
región i)
Si Lij < 100 :
o existe una menor actividad del sector j en la región i que en toda la población ó
o existe una menor participación de la región i en el sector j que en toda la población
131
Si Lij > 100 :
o existe una mayor actividad del sector j en la región i que en toda la población ó
o existe una mayor participación de la región i en el sector j que en toda la población
Ejemplo 9.2
Con los datos del ejemplo 9.1.
L13 =
Y13 / Yi3
1.454,9 / 4.282,8
100 =
100 = 107, 64
2.460,5 / 7.795,1
Y1i / Y
El sector servicios está más localizado en la R1 que en toda la población ó la región R1 está
más especializada en servicios que en el conjunto de todas las actividades.
Los cocientes de localización (o especialización) para estos datos son:
Región/Sect Agricultura Industria
R1
154,916
78,091
R2
68,333
127,572
R3
38,471
97,878
R4
340,370
179,088
Por columnas se interpreta los cocientes de localización
Servicios
107,623
85,365
109,740
13,423
de los respectivos sectores: la
actividad agrícola está más asentada en la R4, la industrial en la R4 y los servicios en la R3.
Por filas se interpreta los cocientes de especialización de cada región: La R1 está más
especializada en agricultura, la R2 en industria, la R3 en servicios y la R4 en agricultura.
NOTA: Obsérvese los datos originales en el enunciado del ejemplo 9.1 compárese con los
anteriores comentarios y se entenderá que se refieren a la localización (o especialización) en
términos relativos.
9.3 Coeficientes de localización sectorial
Para cada sector se puede definir una medida que permite conocer su localización en el
conjunto de las regiones consideradas. Se trata de conocer si un sector concreto se distribuye
por igual en todas las regiones, si sólo se encuentra localizado en una región o si ocurre alguna
situación intermedia, siempre en relación al patrón global o medio (véase ejercicio resuelto 1).
El coeficiente de localización del sector j-ésimo se define como:
CL j =
Propiedades
1. 0 ≤ CL j ≤ 1
132
1 N Yij Yi i
∑ − ,
2 i =1 Yi j Y
j = 1,..., L
2. CL j = 0 si la participación de la región i en el sector j es igual a la participación de la
región i en el total, y eso ocurre en todas las regiones. Es decir, no existe concentración
regional de la actividad j. El sector está presente en cada una de las regiones igual que
todos los sectores en conjunto (véase ejercicio resuelto 1).
3. CL j = 1 si las diferencias entre los cocientes
Yij
Yi j
y
Yi i
son altamente significativas, la
Y
presencia del sector j en cada una de las regiones es completamente distinta de la
presencia de todos los sectores en conjunto (véase ejemplo 9.4).
Este coeficiente caracteriza al sector i dentro del marco regional, pero no implica una nota
definitoria en ninguna región en especial.
Ejemplo 9.3
Calcule los coeficientes de localización sectorial para los siguientes datos (los mismos de los
ejemplos anteriores)
Agricultura Industria
R1
282
723,6
R2
31
294,6
R3
117,9
1526,9
R4
145,8
390,5
Total (Sect)
576,7
2935,6
Agricultura
Yi1 Yi i
Yi1
−
Yi1 Y
Yi1
0,489
0,054
0,204
0,253
1
0,173
0,025
0,327
0,179
0,704
Servicios
1454,9
287,6
2497,6
42,7
4282,8
Industria
Yi 2 Yi i
Yi 2
−
Yi 2 Y
Yi 2
0,246
0,100
0,520
0,133
1
0,069
0,022
0,011
0,059
0,161
Total (Reg)
2460,5
613,2
4142,4
579
7795,1
Yi i
Y
0,316
0,079
0,531
0,074
1
Servicios
Yi 3 Yi i
Yi 3
−
Yi 3 Y
Yi3
0,340
0,067
0,583
0,010
1
0,024
0,012
0,052
0,064
0,152
1
CLAg = 0, 704 = 0,352
2
1
CLInd = 0,161 = 0, 0805
2
1
CLServ = 0,152 = 0, 076
2
Existe una cierta concentración, aunque no muy alta en la agricultura. La concentración es
débil en servicios e industria.
133
Ejemplo 9.4
Calcule los coeficientes de localización sectorial para los siguientes datos
S1
S2
R1
0
1
R2
0
1
R3
1000
0
S1
S2
Yi i
Yi i / Y
R1
0
1
1
0,001
R2
0
1
1
0,001
R3
1000
0
1000
0.998
Yi j
1000
2
Y=1002
Yij / Yi j
S1
S2
R1
0
0,5
R2
0
0,5
R3
1
0
S1
S2
R1
0,001
0,499
R2
0,001
0,499
R3
0,002
0,998
Yij
Yi j
−
Yi i
Y
CL1 = 0, 002
CL2 = 0,998
9.4 Coeficientes de especialización regional
Para cada región se puede definir una medida que permita conocer su nivel de especialización
en algún sector. Se trata de conocer si una región concreta está especializada en alguna
actividad, en todas las actividades por igual o bien se da una situación intermedia, siempre en
relación al patrón global o medio (véase ejercicio resuelto 1).
Se define el coeficiente de especialización de la región i como:
134
CEi =
1 L Yij Yi j
∑ − , i = 1,..., N
2 j =1 Yi i Y
Propiedades
1. 0 ≤ CEi ≤ 1
2. CEi = 0 si en la región i está presente cada sector en la misma proporción que en el
conjunto de la población.
3. CEi = 1 cuando existe un alto grado de especialización de la región i. Situación
análoga a la de CL j = 1 pero referida a regiones en lugar de a sectores.
Ejemplo 9.5
Región/Sect Agricultura
R1
282
R2
31
R3
117,9
R4
145,8
Total (Sect)
576,7
Agricultura
Yi j
Y
Y1 j
Y1i
Y1 j
−
Y1i
Yi j
Y
Y2 j
Y2 i
Y2 j
Y2 i
−
Yi j
Y
Y3 j
Y3i
Y3 j
Y3i
−
Yi j
Y
Y4 j
Y4 i
Y4 j
Y4 i
−
Yi j
Y
Industria
723,6
294,6
1526,9
390,5
2935,6
Industria
Servicios
1454,9
287,6
2497,6
42,7
4282,8
Servicios
Total (Reg)
2460,5
613,2
4142,4
579
7795,1
0,074
0,377
0,549
1
0,115
0,294
0,591
1
0,041
0,083
0,042
0,165
0,051
0,480
0,469
1
0,023
0,104
0,080
0,208
0,028
0,369
0,603
1
0,046
0,008
0,054
0,107
0,252
0,674
0,074
1
0,178
0,298
0,476
0,951
R1
R2
R3
R4
135
1
1
CER1 = 0,165 = 0, 0825; CER2 = 0, 208 = 0,104;
2
2
1
1
CER3 = 0,107 = 0, 0535; CER4 = 0,951 = 0, 4755
2
2
La región más especializada es la R4.
9.5 Coeficientes de diversificación
Este coeficiente mide el grado de diversificación de las actividades de una región. El grado de
diversificación máximo se alcanza cuando una magnitud económica considerada se distribuye
uniformemente entre los distintos sectores.
Si una región tiene un bajo coeficiente de diversificación es porque su producción se
concentra mucho en un determinado sector y por tanto dicha producción está poco
diversificada. La diversificación de una región será mínima cuando una sola actividad esté
presente en ella.
Para la región i-ésima, la varianza correspondiente a los valores Yi1 , Yi 2 ,..., YiL de la variable en
los L sectores
1 L 
1 L
S = ∑ Yij2 −  ∑ Yij 
L j =1
 L j =1 
2
2
i
podría considerarse una medida de tal diversificación.
Si existe diversificación máxima, es decir, todos los sectores tienen el mismo valor
(Y
ij
j = 1,..., L ) entonces
= cte,
2
L
 L 
1 L
1 L 
S = 0 ⇒ ∑ Yij2 = 2  ∑ Yij  ⇒ L ∑ Yij2 =  ∑ Yij 
L j =1
L  j =1 
j =1
 j =1 
2
2
i
Teniendo en cuenta esto, el coeficiente de diversificación de la región i se define como:
2
 L 
 ∑ Yij 
Yi i2
j =1


= L
CDi =
,
L
2
2
L∑ Yij
L ∑ Yij
j =1
y verifica
i = 1,..., N
j =1
1
1
≤ CDi ≤ 1 , alcanzando
si la diversificación es mínima y 1 si la diversificación
L
L
es máxima.
Para normalizar este coeficiente entre cero y uno, se define
CDi* =
136
L 
1
 CDi −  .
L −1 
L
Ejemplo 9.6
2
 3

 ∑ Yij 
2.460,52
j =1
CDR1 =  3  =
= 0, 742
2
2
2
3
282
723,
6
1.454,9
+
+
2
(
)
3∑ Y1 j
j =1
CDR 2 = 0, 735; CDR 3 = 0, 666; CDR 4 = 0, 636
CDR*1 = 0, 61; CDR* 2 = 0, 6025; CDR* 3 = 0, 499; CDR* 4 = 0, 454
La menos diversificada es la región R4.
EJERCICIOS RESUELTOS.
1. (ejercicio 4, relación tema 9) En un país, dividido administrativamente en tres regiones, el
sector industrial está constituido fundamentalmente por los siguientes subsectores:
Siderurgia, Construcción, Químicas y Alimentación. El número de trabajadores ocupados
en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles):
Regiones
Siderurgia
I
II
III
15
10
6
Construcción 165 110 66
Químicas
30
20
12
Alimentación 195 130 78
Calcule las diversas medidas de localización espacial e interprételas, justificando y
apoyando los comentarios en los datos del enunciado.
Solución:
(Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de
las tablas.)
datos
REGION
R1
R2
R3
S1
15
10
6
SECTOR
S2
S3
165
30
110
20
66
12
S4
195
130
78
137
Participación de las regiones en cada sector y en la población total
REGION
R1
R2
R3
S1
0,4839
0,3226
0,1935
SECTOR
S2
S3
0,4839
0,4839
0,3226
0,3226
0,1935
0,1935
S4
población
0,4839
0,4839
0,3226
0,3226
0,1935
0,1935
Participación de los sectores en cada región y en la población total
REGION
R1
R2
R3
población
SECTOR
S2
S3
0,4074
0,0741
0,4074
0,0741
0,4074
0,0741
0,4074
0,0741
S1
0,0370
0,0370
0,0370
0,0370
S4
0,4815
0,4815
0,4815
0,4815
Cocientes de localización y especialización
Lij
SECTOR
REGION
R1
R2
R3
S1
100,00
100,00
100,00
S2
100,00
100,00
100,00
S3
100,00
100,00
100,00
S4
100,00
100,00
100,00
Coeficientes de localización sectorial
SECTOR
S2
S3
S1
CL j
0
0
S4
0
0
Coeficientes de especialización regional
CEi
REGION
R1
R2
R3
0
0
0
Coeficientes de diversificación de cada región
CDi
CDi*
REGION
R1
R2
R3
0,6178
0,6178
0,6178
0,49
0,49
0,49
2. (ejercicio 3, relación tema 9) Se dispone de la siguiente información sobre número de
ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades:
Energía Alimentos Industrial textil
Andalucía
10.000
65.000
20.000
Castilla La Mancha
3.000
18.000
14.000
Castilla León
19.000
30.000
8.000
Cataluña
15.000
60.000
90.000
a) Obtenga los coeficientes de localización de las distintas actividades.
138
b) Calcule los coeficientes de especialización para cada comunidad.
Solución:
Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de
las tablas.
datos
REGION
R1
R2
R3
R4
Y.j
S1
10000
3000
19000
15000
47000
SECTOR
S2
S3
Yi.
65000
20000 95000
18000
14000 35000
30000
8000 57000
60000
90000 165000
173000
132000 352000
Calculamos la participación de las regiones en cada sector
población
Yij
Yi j
y la participación en toda la
Yi i
en la siguiente tabla
Y
participación
región
SECTOR
REGION
S1
S2
S3
población
R1
0,2128
0,3757
0,1515
0,2699
R2
0,0638
0,1040
0,1061
0,0994
R3
0,4043
0,1734
0,0606
0,1619
R4
0,3191
0,3468
0,6818
0,4688
suma
1
1
1
1
Calculamos la participación de los sectores en cada región
población
Yi j
Y
Yij
Yi i
y la participación en toda la
en la siguiente tabla
participación
sector
SECTOR
REGION
S1
S2
S3
suma
R1
0,1053
0,6842
0,2105
R2
0,0857
0,5143
0,4000
R3
0,3333
0,5263
0,1404
R4
0,0909
0,3636
0,5455
población
0,1335
0,4915
0,3750
1
1
1
1
1
A partir de la tabla de participación de las regiones calculamos las diferencias en valor
Y Y
absoluto ij − i i en la siguiente tabla. La suma de cada columna dividida por dos nos da
Yi j Y
el coeficiente de localización sectorial CL j =
REGION
R1
R2
R3
R4
CLj
1 N Yij Yi i
∑ − ,
2 i =1 Yi j Y
Coeficientes de localización sectorial
SECTOR
S1
S2
S3
0,0571
0,1058
0,0356
0,0046
0,2423
0,0115
0,1496
0,1219
0,2423
0,1219
j = 1,..., L
0,1184
0,0066
0,1013
0,2131
0,2197
139
A partir de la tabla de participación de los sectores calculamos las diferencias en valor
Y Y
absoluto ij − i j en la siguiente tabla. La suma de cada fila dividida por dos nos da el
Yi i Y
coeficiente de especialización regional CEi =
1 L Yij Yi j
∑ − , i = 1,..., N
2 j =1 Yi i Y
Coeficientes de especialización regional
SECTOR
REGION
S1
S2
S3
R1
0,0283
0,1927
0,1645
R2
0,0478
0,0228
0,025
R3
0,1998
0,0348
0,2346
R4
0,0426
0,1278
0,1705
CEi
0,192733
0,047808
0,234649
0,170455
3. (ejercicio 5, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003
en millones de euros para las actividades que aparecen en la tabla en las dos regiones en
que se divide un país es:
Región/Sector Agricultura Industria Servicios
Región Norte
15
225
195
Región Sur
6
90
78
Calcule los coeficientes de localización sectorial. Interprete los resultados
Solución:
REG./SEC.
R1
R2
Yi j
S1
15
6
S2
225
90
S3
195
78
21
315
273
Yi i
435
174
609
Yij
Yi j
S1
S2
S3
0,7143 0,7143 0,7143
0,2857 0,2857 0,2857
1
1
1
R1
R2
suma
Yij
Yi j
−
Yi i
Y
R1
R2
CL j =
Yi i
Y
1 N Yij Yi i
∑ −
2 i =1 Yi j Y
S1
S2
0,7143
0,2857
1
S3
0
0
0
0
0
0
0
0
0
La participación de cada una de las regiones en el sector j, ( ∀j , CL j = 0 ) es igual a la
participación de cada región en el conjunto de sectores. Cada sector se localiza en igual
medida que todos ellos en conjunto.
140
4. (ejercicio 6, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003
en millones de euros para las actividades que aparecen en la tabla en las dos regiones en
que se divide un país es:
Región/Sector Agricultura Industria Servicios
Región Norte
60
225
150
Región Sur
24
90
60
Calcule los coeficientes de especialización regional. Interprete los resultados
Solución:
REG./SEC.
R1
R2
Yi j
S1
60
24
S2
225
90
S3
150
60
84
315
210
Yi i
435
174
609
Yij
Yi i
S1
S2
S3
0,1379 0,5172 0,3448
0,1379 0,5172 0,3448
R1
R2
suma
1
1
Yi j
Y
Yij
Yi i
−
0,1379 0,5172 0,3448
Yi j
Y
R1
R2
1
CEi =
S1
S2
0
0
S3
0
0
1 L Yij Yi j
∑ −
2 j =1 Yi i Y
0
0
0
0
La presencia de cada sector en la región i, ( ∀i , CEi = 0 ) es igual a la presencia de cada
sector en el conjunto del país (todas las regiones). Cada región se especializa en la misma
medida que el conjunto del país.
5. (ejercicio 7, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003
en millones de euros para las actividades que aparecen en la tabla en las dos regiones en
que se divide un país es:
Región/Sector Agricultura Industria Servicios
Región Norte
90
300
195
Región Sur
36
120
78
Calcule los coeficientes de diversificación normalizados. Interprete los resultados
Solución:
REG./SEC.
R1
R2
S1
90
36
S2
300
120
S3
195
78
Yi i2
Yi i
585
234
342225
54756
141
Yij2
R1
R2
L
S1
S2
S3
∑Y
j =1
8100
1296
90000
14400
2
ij
CDi =
Yi i2
L
L∑ Y
j =1
38025 136125
6084 21780
2
ij
CDi* =
0,838016529
0,838016529
L 
1
 CDi − 
L −1 
L
0,75702479
0,75702479
6. (ejercicio 8, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003
en millones de euros para las actividades que aparecen en la tabla en las dos regiones en
que se divide un país es:
Región/Sector Agricultura Industria Servicios
Región Norte
90
0
0
Región Sur
30
30
30
Calcule los coeficientes de diversificación normalizados. Interprete los resultados
Solución:
REG./SEC.
R1
R2
2
ij
Y
R1
R2
S1
90
30
S2
0
30
0
30
90
90
L
S1
S2
S3
∑Y
j =1
8100
900
0
900
0
900
Yi i2
Yi i
S3
2
ij
8100
2700
CDi =
8100
8100
Yi i2
L
L∑ Y
j =1
2
ij
CDi* =
0,333333333
1
L 
1
 CDi − 
L −1 
L
0
1
En la región norte (R1) el grado de diversificación es mínimo, CDi* = 0 , esto ocurre
cuando una sola actividad, (S1=agricultura), está presente en ella.
En la región sur (R2) el grado de diversificación es máximo, CDi* = 1 , esto ocurre cuando
la actividad de la región se distribuye uniformemente entre los distintos sectores,
(S1=S2=S3=30).
142
10. Contrastes
χ2
de Pearson.
10.1 Contrastes χ de bondad de ajuste.
10.2 Contrastes χ 2 de independencia.
10.3 Contrastes χ 2 de homogeneidad.
2
10.1 Contraste χ 2 de bondad de ajuste.
Este contraste se emplea para decidir si un conjunto de datos proviene de una distribución de
probabilidad dada.
Sea una muestra aleatoria de tamaño n procedente de una variable aleatoria (población) X
dividida en k clases exhaustivas y mutuamente excluyentes: S1, S2, ..., Sk
El contraste a realizar es: H0: X sigue una distribución de probabilidad conocida.
ni=nº de observaciones en la clase i-ésima.
Ei=npi=nº esperado de observaciones en la clase i-ésima bajo H0.
Definimos el estadístico:
k
χ =∑
2
i =1
( ni − Ei )
2
Ei
Para hallar el valor del anterior estadístico es aconsejable disponer los cálculos en una tabla
como sigue:
ni
pi = P [ x ∈ Si ] bajo H 0
Ei = npi
( ni − Ei )
2
( ni − Ei )
2
Ei
S1
n1
p1
np1
( n1 − E1 )
2
( n1 − E1 )
2
E1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Sk
nk
pk
npk
( nk − Ek )
n
1
n
2
( nk − Ek )
2
Ek
χ2
Se puede demostrar que bajo H0, χ 2 → χ k2−1
(NOTA: Habrá que restar un grado de libertad por cada parámetro de la población estimado.
Véase ejemplo 10.3).
Si existe una concordancia perfecta entre las frecuencias que se observan y las que se
esperaban, el estadístico tendrá un valor cero, y no se puede rechazar H0, tampoco se rechaza
143
si las diferencias son pequeñas. Por otro lado, si el estadístico toma un valor grande es que hay
discrepancia entre unas y otras frecuencias y habrá que rechazar H0.
Fijado un nivel de significación α , rechazamos H0 si χ 2 > χ k2−1,1−α
Acepto H0
Rechazo H0
1−α
α
χ k2−1,1−α
Ejemplo 10.1 (ejercicio 1, relación tema 10)
▼
El gerente de una planta industrial pretende determinar si el número de empleados que asisten
al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los
cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas
completas de trabajo, se observaron los siguientes números de empleados que asistieron al
consultorio:
Lunes Martes Miércoles Jueves Viernes
49
35
32
39
45
¿Existe alguna razón para creer que el número de empleados que asisten al consultorio
médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la
semana?, ( α = 0.05 ).
Solución
ni
L
M
X
J
V
144
49
35
32
39
45
200
1
(distribución discreta uniforme)
5
H1: las frecuencias no son todas iguales.
H0: p1 = p2 = p3 = p4 = p5 =
pi
bajo H 0
1/5
1/5
1/5
1/5
1/5
1
Ei = npi
( ni − Ei )
40
40
40
40
40
200
81
25
64
1
25
2
( ni − Ei )
2
Ei
2,025
0,625
1,6
0,025
0,625
χ 2 = 4,9
χ k2−1,1−α = χ 4,2 0'95 = 9, 49 (4,9<9,49) no existe razón para creer que el número de empleados que
acude al consultorio no se encuentra distribuido de forma uniforme a lo largo de la semana. ▄
Condición de validez del test.
Si los valores Ei son pequeños, χ 2 puede hacerse grande sin razón. Este contraste es
apropiado siempre que Ei > 5 ∀i . Si esto no ocurre tendríamos que combinar clases vecinas,
pero por cada par de clases que se combinen hay que reducir en 1 los grados de libertad de la
distribución del estadístico.
Ejemplo 10.2 (ejercicio 2, relación tema 10)
▼
En un cajero automático se ha observado una baja utilización del mismo. Con el fin de
confirmar este hecho, se ha controlado el número de llegadas diarias al mismo, obteniéndose
los siguientes resultados:
Nº llegadas al cajero Nº de días
0
21
1
18
2
7
3
3
4 ó más
1
En base a esta información, ¿existe alguna razón para creer que el número de llegadas diarias
es una variable de Poisson con parámetro 0,9? ( α = 0, 05 )
Solución
X=nº de llegadas al cajero/día. H0: X → P (0,9)
En las tablas de la Poisson se buscan las probabilidades
pi = P [ X = i ] i = 0,...,3
ni
X =0
X =1
X =2
X =3
X ≥4
pi
21
18
7
3
1
50
p4 = P [ X ≥ 4]
bajo H 0
0,4066
0,3659
0,1647
0,0494
0,0134
1
Ei = npi
20,33
18,3
8,24
2,47<5
0,67<5
≅ 50
Se agrupan la segunda, tercera y cuarta clase
145
pi
ni
X =0
X =1
X ≥2
bajo H 0
Ei = npi
( ni − Ei )
0,4489
0,09
0,1444
21
18
11
0,4066
0,3659
0,2275
20,33
18,3
11,38
50
1
≅ 50
2
( ni − Ei )
2
Ei
0,02208
0,004918
0,012689
χ 2 = 0, 0397
χ 32−1, 0'95 = 5,99 , luego acepto H0.
No podemos rechazar que los datos provengan de una distribución de Poisson de parámetro
0,9. Esta conclusión nos permite afirmar que el cajero es muy poco utilizado ya que el nº
medio de llegadas esperadas por día es menor de 1.
▄
Hasta ahora se ha contrastado la hipótesis de que los datos están generados por una
distribución completamente conocida. Sin embargo, a veces sucede que queremos contrastar
la hipótesis de que los datos están generados por alguna distribución (p.e. Binomial, Poisson o
Normal), sin suponer que los parámetros de dicha distribución son conocidos. En tales
circunstancias, los datos de que disponemos pueden utilizarse para estimar los parámetros
desconocidos, pero en el contraste los grados de libertad de la chi-cuadrado se reducirán en
una unidad por cada parámetro de la distribución que tenga que ser estimado.
Ejemplo 10.3 (ejercicio 8, relación tema 10)
▼
Una muestra sobre el nº de personas que diariamente requieren información de un producto
financiero ofrece el siguiente resultado:
3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1
¿Se puede aceptar que el nº de personas que requieren la mencionada información se
distribuye según una ley de Poisson?
Solución
X= personas que requieren diariamente información
X=
73
= 2, 7 personas / día = λ
27
ni
X
X
X
X
X
X
146
=0
=1
=2
=3
=4
≥5
pi
bajo H 0
H0: X → P (2, 7)
Ei = npi
2
4
5
8
5
3
0,0672
0,1815
0,2450
0,2205
0,1488
0,1370
1,8144<5
4,9005<5
6,615
5,9535
4.0176<5
3,699<5
27
1
27
ni
X ≤1
X =2
X =3
X ≥4
pi
bajo H 0
Ei = npi
( ni − Ei )
2
Ei
6
5
8
8
0,2487
0,2450
0,2205
0,2858
6,7149
6,615
5,9535
7,7166
0,0761
0,3943
0,7035
0,0104
27
1
27
χ 2 = 1,1843
χ 42−1−1, 0'95 = χ 2,2 0'95 = 5,99 , (1,18<5,99) luego acepto H0.
▄
10.2 Contraste χ 2 de independencia.
Con este contraste se desea estudiar si dos características (variables aleatorias) X e Y son
independientes. Para ello, las frecuencias absolutas de las parejas de datos muestrales se
recogen en una tabla de doble entrada denominada tabla de contingencia
X\Y
B1
B2
.
Bc
ni•
A1
n11
n12
.
n1c
n1•
A2
n21
n22
.
n2c
n2•
.
.
.
.
.
Ar
nr1
nr 2
.
nrc
nr •
n• j
n•1
n•2 .
n• c
n
.
nij = nº de elementos de la muestra que pertenecen a la categoría Ai de X y B j de Y.
c
ni• = ∑ nij = nº de elementos que pertenecen a la categoría Ai de X.
j =1
r
n• j = ∑ nij = nº de elementos que pertenecen a la categoría B j de Y.
i =1
n = nº de elementos en la muestra.
El contraste a realizar es:
H0 : X e Y son independientes.
H1 : X e Y no son independientes.
Ejemplo 10.4 (ejercicio 9, relación tema 10)
▼
La siguiente tabla presenta el nº de reclamaciones recibidas en una oficina de información al
consumidor, clasificadas por tipo de producto reclamado (A, B, C) y por la edad del
reclamante
147
≤ 30
8
12
22
42
A
B
C
> 30
28
44
53
125
36
56
75
167
El contraste a realizar es:
H0 : Tipo de producto y edad son independientes (no están asociados).
H1 : No son independientes (están asociados).
Si H0 fuera cierto: Eij = nº esperado de observaciones en la fila i, columna j =
ni• n• j
n
Razonemos con el ejemplo: En la columna 2 (>30) hay un total de n•2 = 125 observaciones,
bajo la hipótesis de independencia esas 125 observaciones se tienen que distribuir por filas
proporcionalmente al total de cada fila
A
36/167=0,215 (21,5%)
B
56/167=0,335 (33,5%)
C
75/167=0,449 (44,9%)
Luego esperaríamos para los mayores de 30 años
A
125× 0,215=125
36
n
= n•2 1• =26,95
167
n
B
125× 0,335=125
56
n
= n•2 2• =41,92
167
n
C
125 × 0,449=125
n
75
= n•2 3• =56,14
n
167
▄
El estadístico para estos contrastes se define como:
r
c
χ =∑∑
2
i =1 j =1
que tiene una distribución χ 2 → χ (2r −1)( c −1)
(n
ij
− Eij )
2
Eij
bajo H 0 .
Claramente, la hipótesis de independencia será rechazada cuando las diferencias entre lo
observado y lo esperado sean grandes y por tanto el estadístico χ 2 tome valores grandes de
acuerdo a la distribución que sigue. Se rechaza H0 con un nivel de significación α si
χ 2 > χ (2r −1)( c −1);1−α
Solución (ejemplo 10.4)
En la siguiente tabla se ha colocado entre paréntesis Eij
148
▼
nij ( Eij )
≤ 30
A
B
C
(n
ij
> 30
8 (9,05)
12 (14,08)
22 (18,86)
42
− Eij )
28 (26,95) 36
44 (41,92) 56
53 (56,14) 75
125
167
2
Eij
A
B
C
≤ 30
> 30
0,1218
0,3073
0,5228
0,0409
0,1032
0,1756
1,27
χ2 =
(8 − 9, 05)
9, 05
2
+ ... +
( 53 − 56,14 )
2
56,14
= 1, 27
χ (32 −1)(2−1);1−0,05 = χ 2;2 0,95 = 5,99
1,27<5,99 , luego acepto H0, no hay evidencia empírica para rechazar la hipótesis de
independencia.
▄
Condición de validez del test:
Al igual que en el anterior test de la chi-cuadrado, el contraste es válido siempre que los
valores esperados sean mayores que 5, Eij =
ni• n• j
n
> 5 ∀i, ∀j
Si esto no ocurre, agruparemos dos o más clases consecutivas, bien sean de las variables X o
de Y. Al agrupar las clases disminuye los grados de libertad. En todo caso los grados de
libertad tienen que ser mayores que 1.
Ejemplo 10.5 (ejercicio 10, relación tema 10)
▼
Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los
resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la
antigüedad? ( (α = 0, 05)
Sueldo\Antigüedad
<5 años
5-10
10-20
>20 años
0-500
500-1000
1000-2000
2000-3000
>3000
n• j
17
16
4
9
6
52
5
8
11
8
3
35
10
9
5
8
4
36
6
7
2
6
6
27
ni•
38
40
22
31
19
150
149
Solución
Eij =
ni• n• j
n
0-500
500-1000
1000-2000
2000-3000
>3000
<5 años
5-10
10-20
>20 años
13,17
13,87
7,627
10,75
6,587
8,867
9,333
5,133
7,233
4,433
9,12
9,6
5,28
7,44
4,56
6,84
7,2
3,96
5,58
3,42
Agrupamos las dos últimas filas y las dos últimas columnas.
nij
(E )
<5 años
5-10
>10 años
17 (13,17)
16 (13,87)
4 (7,627)
15 (17,33)
5 (8,867)
8 (9,333)
11 (5,133)
11 (11,87)
16 (15,96)
16 (16,8)
7 (9,24)
24 (21)
ij
0-500
500-1000
1000-2000
>2000
(17 − 13,17 )
χ =
2
2
13,17
( 24 − 21)
+ ... +
21
2
= 13,10
χ (42 −1)(3−1);1−0,05 = χ 6;2 0,95 = 12,59
Luego existen razones para pensar que sueldos y años de antigüedad no son independientes. ▄
10.3 Contrastes χ 2 de homogeneidad.
En muchas ocasiones nos encontramos ante tablas de datos con la misma apariencia formal
que una tabla de contingencia pero en las que la situación es diferente.
Supongamos que se toman c muestras aleatorias independientes de tamaños n1 , n2 , ..., nc ,
respectivamente, de poblaciones B1 , ..., Bc diferentes. Después cada una de las muestras se
clasifica de acuerdo a una característica A con r categorías.
Los datos se expresan en una tabla como la que sigue:
CATEGORIAS
POBLACIONES
B1
B2
.
Bc
A1
n11
n12
.
n1c
n1•
A2
n21
n22
.
n2c
n2•
.
.
.
.
.
nr1
nr 2
.
nrc
nr •
n1
n2
.
nc
n
.
Ar
La tabla ahora no expresa el resultado de observaciones clasificadas según 2 variables, sino
muestras independientes de c poblaciones.
150
El objetivo es construir un test para contrastar la homogeneidad de las c poblaciones, es decir,
si todas están igualmente distribuidas respecto a las categorías de A, o lo que es lo mismo, si
las c muestras proceden de la misma población.
H0 : Las c poblaciones son homogéneas (se distribuyen igual)
El estadístico muestral es:
r
c
χ =∑∑
2
(n
i =1 j =1
que tiene una distribución χ 2 → χ (2r −1)( c −1)
ij
− Eij )
2
Eij
bajo H 0 .
Se rechaza H0 con un nivel de significación α si χ 2 > χ (2r −1)( c −1);1−α
Ejemplo 10.6 (ejercicio 11, relación tema 10)
▼
A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y
sus calificaciones fueron registradas como baja, media o alta, obteniéndose:
Universidad A
Universidad B
140
BAJA
105
135
MEDIA
140
225
255
ALTA
Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la
misma (con α = 0, 01 )
Solución
nij
(E )
ij
BAJA
MEDIA
ALTA
Universidad A
Universidad B
105 (122,5)
140 (137,5)
255 (240)
500
140 (122,5)
135 (137,5)
225 (240)
500
(105 − 122,5 )
χ =
2
122,5
2
( 225 − 240 )
+ ... +
245
275
480
1000
2
240
= 6,966
χ (32 −1)(2−1);1−0,01 = χ 2;2 0,99 = 9, 21
Luego la distribución de notas es la misma en las dos universidades.
(NOTA: Sin embargo al 5% se rechazaría la hipótesis nula de que la distribución de las notas
es la misma en las dos universidades, χ (32 −1)(2−1);1−0,05 = χ 2;2 0,95 = 5,99 )
▄
151
Al igual que en los anteriores contrastes de la chi-cuadrado, este test es válido si
Eij =
ni• n• j
n
> 5 ∀i, ∀j , en caso contrario se agrupan dos o más clases de la variable A pero
nunca dos o más muestras B j .
EJERCICIOS RESUELTOS
1. (ejercicio 3, relación tema 10) La siguiente tabla proporciona el número de erratas por página
cometidas por una secretaria de una cierta empresa:
Nº erratas por página Nº páginas
0
832
1
203
2
383
3
525
4
532
5
408
6
273
7
139
8
45
9
27
10
10
11 ó más
11
Contrastar a nivel α = 0.05 si el número de erratas por página sigue una distribución de
Poisson con parámetro 3.
Solución
CLASES
0
1
2
3
4
5
6
7
8
9
10
11 ó más
152
( ni − Ei )
2
pi
Ei = npi
832
203
383
525
532
408
273
139
45
27
10
11
0,04979
0,14936
0,22404
0,22404
0,16803
0,10082
0,05041
0,0216
0,0081
0,0027
0,00081
0,00029
168,6786
506,0358
759,0536
759,0536
569,2902
341,5741
170,7871
73,19446
27,44792
9,149307
2,744792
0,990438
439995,3
91830,67
141416,3
54781,11
1390,561
4412,395
10447,48
4330,369
308,0754
318,6472
52,63804
100,1913
3388
1
3388
χ2 =
ni
( ni − Ei )
2
Ei
2608,4834
181,470719
186,306125
72,1702726
2,44262314
12,9178248
61,1725646
59,1625291
11,2239988
34,8274703
19,1774227
101,15866
3350,51361
( x = 2,99 , lo he calculado para confirmar que la hipótesis nula es lógica)
Tenemos que agrupar clases pues las frecuencias esperadas de las dos últimas clases son
menores que 5.
CLASES
0
1
2
3
4
5
6
7
8
9 ó más
( ni − Ei )
2
pi
Ei = npi
832
203
383
525
532
408
273
139
45
48
0,04979
0,14936
0,22404
0,22404
0,16803
0,10082
0,05041
0,0216
0,0081
0,0038
168,6786
506,0358
759,0536
759,0536
569,2902
341,5741
170,7871
73,19446
27,44792
12,88454
439995,3
91830,67
141416,3
54781,11
1390,561
4412,395
10447,48
4330,369
308,0754
1233,096
3388
1
3388
χ2 =
ni
( ni − Ei )
2
Ei
2608,4834
181,470719
186,306125
72,1702726
2,44262314
12,9178248
61,1725646
59,1625291
11,2239988
95,703534
3291,05359
2
χ 9;0,95
= 16,92 . 3291,05359>16,92 luego se rechaza la hipótesis de que el número de erratas
por página sigue una distribución de Poisson de media 3.
2. (ejercicio 12, relación tema 10) Se observan durante 100 horas el número de llamadas
recibidas durante una hora en una empresa de seguros del hogar. Los resultados se recogen en
la siguiente tabla
Número de llamadas / hora
Número de horas
6
0
13
1
20
2
22
3
16
4
23
5 o más
Contraste la hipótesis de que el número de llamadas recibidas en una hora sigue una
distribución de Poissson con media 3,4. ( α = 0,1 )
Solución
Contraste chi-2 de Pearson de bondad de ajuste
CLASES
0
1
2
3
4
5 o más
Ei = npi
( ni − Ei )
2
( ni − Ei )
2
ni
pi
6
13
20
22
16
23
0,0334
3,34
7,0756
2,11844311
0,1135
11,35
2,7225
0,23986784
0,1929
19,29
0,5041
0,02613271
0,2186
21,86
0,0196
0,00089661
0,1858
18,58
6,6564
0,35825619
0,2558
25,58
6,6564
0,26021892
100
1
100
χ
2
Ei
= 3,00381539
153
Como la frecuencia esperada es menor que 5 en la primera clase, se agrupa ésta con la clase
contigua, obteniéndose
CLASES
1 o menos
2
3
4
5 o más
( ni − Ei )
2
ni
pi
19
20
22
16
23
0,1469
14,69
18,5761
1,2645405
0,1929
19,29
0,5041
0,02613271
0,2186
21,86
0,0196
0,00089661
0,1858
18,58
6,6564
0,35825619
0,2558
25,58
6,6564
0,26021892
100
Buscamos en las tablas χ
( ni − Ei )
Ei = npi
2
2
k −1,1−α
1
=χ
2
4, 0'90
χ
100
2
Ei
= 1,91004494
= 7, 78 . Como 1,91<7,78 aceptamos la hipótesis nula
de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con
media 3,4.
3. (ejercicio 13, relación tema 10) El colectivo de trabajadores de la banca de un país quiere
conocer si existe dependencia entre el nivel de salarios que reciben y la antigüedad en la
empresa. Para ello seleccionan una muestra aleatoria de 500 trabajadores, le formulan el
correspondiente cuestionario y obtienen la siguiente información:
Antigüedad Menos de 5 Entre 5 y 10 Entre 10 y 15
Más de 15
Salarios
años
años
años
años
34
14
Bajos (<1.000€)
16
36
82
20
34
Medios (1.000€, 1.500€)
64
84
16
50
50
Altos (>1.500€)
Contrastar la independencia de los salarios con la antigüedad al nivel de significación del
10%.
Solución
Notamos las distintas modalidades de forma genérica para simplificar el aspecto de las tablas.
X\Y
B1
A1
A2
A3
n.j
B2
36
64
50
150
B3
B4
16
34
50
100
14
20
16
50
ni.
34
82
84
200
100
200
200
500
En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de
independencia según la conocida expresión Eij =
X\Y
A1
A2
A3
154
B1
ni• n• j
n
B2
30
60
60
B3
20
40
40
B4
10
20
20
40
80
80
Con las frecuencias observadas nij de la primera tabla y las frecuencias esperadas Eij de la
(n
anterior tabla se calcula
ij
− Eij )
2
Eij
X\Y
A1
A2
A3
para cada elemento de la tabla, obteniéndose:
B1
B2
B3
B4
1,2
0,8
1,6
0,9
0,267
0,9
0
0,05
1,667
2,5
0,8
0,2
La suma de todos los elementos de esta última tabla nos da el valor del estadístico chir
c
cuadrado, χ = ∑ ∑
2
i =1 j =1
(n
ij
− Eij )
Eij
2
= 10,8833 , que hay que compararlo con el valor
2
2
2
χ (2r −1)( c −1);1−α = χ 2*3
; 0,90 = 10, 6 . Como χ > χ ( r −1)( c −1);1−α , se rechazaría la hipótesis nula de
independencia entre los salarios y la antigüedad en la empresa.
4. (ejercicio 14, relación tema 10) Una empresa exportadora de naranjas piensa en cambiar su
tipo de embalaje para el envío de sus cítricos al exterior, pero no sabe si utilizar cajas de
cartón, madera o plástico. Para decidirse y utilizando información de otras empresas
exportadoras, selecciona aleatoriamente las fichas informativas de 142 cajas de cartón, 123
cajas de madera y 128 de plástico. En las fichas informativas de cada caja consta el número de
kilogramos que llegaron en mal estado a su destino en las distintas épocas del año,
resumiéndose la información de la siguiente forma
Tipos de embalaje
Cartón
Madera
Plástico
6
8
12
Primavera
65
52
27
Verano
57
63
103
Otoño
Contrastar, al nivel de significación del 5%, si los tres tipos de embalajes se comportan de la
misma forma en la conservación de su contenido.
Solución
Notamos las distintas modalidades de forma genérica para simplificar el aspecto de las tablas.
X\Y
A1
A2
A3
n.j
B1
12
27
103
142
B2
B3
8
52
63
123
ni.
6
65
57
128
26
144
223
393
En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de
n n
independencia según la conocida expresión Eij = i• • j
n
155
X\Y
B1
9,394
52,03
80,58
A1
A2
A3
B2
8,1374
45,069
69,794
B3
8,4682
46,901
72,631
Con las frecuencias observadas nij de la primera tabla y las frecuencias esperadas Eij de la
(n
anterior tabla se calcula
ij
− Eij )
2
Eij
para cada elemento de la tabla, obteniéndose:
X\Y
B1
B2
B3
0,723 0,0023 0,7194
12,04 1,066 6,9846
6,241 0,6613 3,364
A1
A2
A3
La suma de todos los elementos de esta última tabla nos da el valor del estadístico chir
c
cuadrado, χ = ∑ ∑
2
(n
ij
− Eij )
Eij
i =1 j =1
2
= 31,8 ,
que
hay
que
compararlo
con
el
valor
2
2
2
χ (2r −1)( c −1);1−α = χ 2*2
; 0,95 = 9, 49 . Como χ > χ ( r −1)( c −1);1−α , se rechazaría la hipótesis nula de un
comportamiento homogéneo (igual) de los tres tipos de embalajes en la conservación de
cítricos.
5. (ejercicio 15, relación tema 10) En una empresa constructora se ha observado el número de
accidentes que ocurren durante 130 días, obteniéndose la siguiente distribución de
frecuencias:
Número de accidentes por día
0
1
2
3
≥4
Número de días
69
42
15
4
0
130
Contraste la hipótesis de que el número de accidentes por día sigue una distribución de
Poisson, utilizando un nivel de significación del 1%.
Solución
x = 0, 646 , nos quedamos con un solo decimal para estimar λ = 0, 6 y buscar las
probabilidades pi bajo la hipótesis nula en las tablas de la distribución de Poisson.
CLASES
0
1
2
3
4 ó más
156
( ni − Ei )
2
( ni − Ei )
2
pi
Ei = npi
69
42
15
4
0
0,5488
0,3293
0,0988
0,0198
0,0034
71,3455
42,8073
12,8422
2,5684
0,4365
5,5014
0,6517
4,6561
2,0494
0,1906
0,0771
0,0152
0,3626
0,7979
0,4365
130
1
130
χ2 =
1,6894
ni
Ei
Tenemos que agrupar clases pues las frecuencias esperadas de las dos últimas clases son
menores que 5.
CLASES
0
1
2 ó más
χ
2
1;0,99
( ni − Ei )
2
( ni − Ei )
2
pi
Ei = npi
69
42
19
0,5488
0,3293
0,1219
71,3455
42,8073
15,8472
5,5014
0,6517
9,9403
0,0771
0,0152
0,6273
130
1
130
χ2 =
0,7196
ni
Ei
= 6, 63 . 0,72<6,63 luego aceptamos la hipótesis de que el número de accidentes por día
sigue una distribución de Poisson. (Obsérvese que se ha restado un grado de libertad más por
el parámetro λ de la distribución de Poisson estimado)
6. (ejercicio 16, relación tema 10) La siguiente tabla recoge la edad y el número de ausencias
laborales durante un año de los empleados de un ayuntamiento:
Ausencias
0-5
5-10 Más de 10
Edad
30
20
9
16-25
31
10
22
25-40
25
20
40-55
9
35
14
55-65
15
Contraste la independencia entre la edad y el número de ausencias con un nivel de
significación del 1%.
Solución
Edad \ Ausencias
16-25
25-40
40-55
55-65
0-5
20
10
9
15
5-10
9
22
20
14
Más de 10
30
31
25
35
n• j
54
65
121
Eij =
ni• n• j
n
16-25
25-40
40-55
55-65
(n
ij
− Eij )
Eij
16-25
25-40
40-55
55-65
0-5
5-10
Más de 10
13,275
14,175
12,150
14,400
15,979
17,063
14,625
17,333
29,746
31,763
27,225
32,267
0-5
5-10
Más de 10
3,407
1,230
0,817
0,025
3,048
1,429
1,975
0,641
0,002
0,018
0,182
0,232
ni•
59
63
54
64
240
2
157
r
c
χ =∑∑
2
(n
ij
i =1 j =1
− Eij )
2
Eij
χ (2r −1)( c −1);1−α = χ 22×3 ; 0,99 = 16,81
= 13, 006
Como ( χ 2 = 13, 006) < ( χ (2r −1)( c −1);1−α = 16,81) , se acepta la hipótesis nula de que la edad y el
número de ausencias son independientes con un nivel de significación del 1%.
Sin embargo ( χ 2 = 13, 006) > ( χ 6;2 0,95 = 12,59) , se rechazaría la hipótesis nula de que el
número de ausencias es independiente de la edad con un nivel de significación del 5%.
(Nota: utilizar este ejemplo para comentar la importancia e interpretación del nivel de
significación)
7. (Ejercicio 17, relación tema 10) Se ha preguntado a 1000 conductores sobre su preferencia en
relación a tres tipos de vehículos, obteniéndose
Sexo/Vehículo monovolumen deportivo todo terreno
hombres
250
275
225
mujeres
80
75
95
a) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer?
b) En general, sin distinguir entre hombre y mujeres, ¿existe un mismo grado de
preferencia entre los conductores por cada tipo de vehículo?
Solución:
a)
Tabla de contingencia SEXO * VEHICULO
VEHICULO
SEXO
HOMBRE
Recuento
MUJER
Frecuencia
esperada
Recuento
MONOVOLUMEN
250
DEPORTIVO
275
247,5
262,5
240,0
750,0
80
75
95
250
82,5
87,5
80,0
250,0
330
350
320
1000
330,0
350,0
320,0
1000,0
Frecuencia
esperada
Recuento
Total
Frecuencia
esperada
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
Total
TODO
TERRENO
225
Valor
6,232(a)
gl
2
750
Sig. asintótica
(bilateral)
,044
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 80,00.
nij
hombres
mujeres
n• j
158
monovolumen deportivo todo terreno
ni•
250
80
275
75
225
95
750
250
330
350
320 1000
Eij =
ni• n• j
monovolumen deportivo
n
hombres
mujeres
(n
ij
− Eij )
247,5
82,5
monovolumen deportivo
hombres
mujeres
r
262,5
87,5
240
80
2
Eij
0,025
0,076
c
χ =∑∑
2
todo terreno
(n
ij
i =1 j =1
− Eij )
todo terreno
0,595
1,786
0,938
2,813
2
Eij
= 6,233 (la diferencia con SPSS es debida a redondeos)
χ (32 −1)(2−1);1−0,05 = χ 2;2 0,95 = 5,99
χ (32 −1)(2−1);1−0,01 = χ 2;2 0,99 = 9, 21
Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se
acepta es misma hipótesis nula con un nivel de significación del 1%. Según la salida del SPSS
la hipótesis nula se acepta para cualquier nivel de significación menor del 4,4% y se rechaza
para niveles de significación mayores al 4,4%.
b)
VEHICULO
MONOVOLUMEN
N observado
330
N esperado
333,3
Residual
-3,3
350
333,3
16,7
320
333,3
-13,3
DEPORTIVO
TODO TERRENO
Total
1000
Estadísticos de contraste
Chi-cuadrado(a)
VEHICULO
1,400
gl
2
Sig. asintót.
,497
a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es
333,3.
ni
monovolumen
deportivo
Todo terreno
330 0,33333 333,3333
350 0,33333 333,3333
320 0,33333 333,3333
1000
χ
2
k −1,1−α
=χ
2
2, 0'90
Ei = npi
pi
1
1000
( ni − Ei )
2
11,11111
277,7778
177,7778
χ2 =
( ni − Ei )
2
Ei
0,03333333
0,83333333
0,53333333
1,4
= 4, 60 Incluso con un nivel de significación del 10% se acepta la hipótesis
nula de igual preferencia por cada tipo de vehículo. Según la salida del SPSS la hipótesis nula
se acepta para cualquier nivel de significación menor del 49,7%.
8. (Ejercicio 18, relación tema 10) Se sabe que en un centro de Enseñanza Primaria, el 62% de
los estudiantes de último curso dejan de estudiar, el 37% pasan a formación profesional y el
159
1% pasan a enseñanza secundaria. Se toma una muestra de 80 de estos estudiantes que
finalizaron el año pasado. De ellos, 54 dejaron de estudiar, 17 se pasaron a formación
profesional y nueve pasaron a enseñanza secundaria. ¿Concuerdan los datos muestrales con
los estadísticos de años anteriores? ( α = 0, 05 )
Solución:
ni
CLASES
LO DEJAN
FP
ESO
Ei = npi
pi
54
17
9
80
0,62
0,37
0,01
1
49,6
29,6
0,8
80
Tenemos que agrupar clases pues la frecuencia esperada de la última clase es menor que 5.
CLASES
LO DEJAN
FP-ESO
χ
2
1;0,95
ni
Ei = npi
pi
( ni − Ei )
2
54
26
0,62
0,38
49,6
30,4
19,36
19,36
80
1
80
χ2 =
( ni − Ei )
2
Ei
0,39032258
0,63684211
1,02716469
= 3,84 . 1,027<3,84 luego se acepta la hipótesis de que los porcentajes de alumnos que
lo dejan y siguen estudiando son el 62% y 38% respectivamente.
9. (Ejercicio 23, relación tema 10) La siguiente tabla muestra, para muestras independientes de
hombres y mujeres, cuántos de ellos ven la televisión menos de dos horas, de dos a cuatro y
más de cuatro horas.
Horas de televisión por día
Menos de 2 horas De 2 a 4 horas Más de 4 horas
Hombre
18
10
2
Mujer
17
13
8
Contrastar a nivel de significación del 5% si el número de horas que ven la televisión se
distribuye de igual forma en hombres que en mujeres.
Solución:
X\Y
Menos de 2 horas
De 2 a 4 horas
Más de 4 horas
ni i
Hombre
Mujer
ni j
18
17
10
13
2
8
30
38
35
23
10
n=68
En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de
independencia según la conocida expresión Eij =
ni• n• j
n
Menos de 2 horas
De 2 a 4 horas
Más de 4 horas
X\Y
Hombre
4,4118
15,4412
10,1471
Mujer
19,5588
12,8529
5,5882
Juntamos las clases de 2 a 4 horas y más de 4 horas para que todas las frecuencias esperadas
sean mayores que 5.
160
Frecuencias observadas
Menos de 2 horas
Más de 2 horas
ni i
Hombre
Mujer
ni j
18
17
12
21
30
38
35
33
Frecuencias esperadas
Menos de 2 horas
Hombre
Mujer
15,4412
19,5588
n=68
Más de 2 horas
14,5588
18,4412
Con las frecuencias observadas nij y las frecuencias esperadas Eij de las anteriores tablas se
(n
calcula
ij
− Eij )
2
para cada elemento de la tabla, obteniéndose:
Eij
(n
− Eij )
ij
2
Menos de 2 horas
Eij
Hombre
Mujer
0,424034
0,334763
Más de 2 horas
0,449733
0,355052
La suma de todos los elementos de esta última tabla nos da el valor del estadístico chir
c
cuadrado, χ = ∑ ∑
2
i =1 j =1
(n
ij
− Eij )
Eij
2
= 1,563581681 , que hay que compararlo con el valor
χ (2r −1)( c −1);1−α = χ12×1; 0,95 = χ1;2 0,95 = 3,84 . Como χ 2 < χ (2r −1)( c −1);1−α , se acepta la hipótesis nula de
que se distribuye de igual forma en hombres que en mujeres el número de horas que ven la
televisión.
161
11. Inferencia no paramétrica.
11.1
11.2
11.3
11.4
11.5
11.6
Contraste de Kolmogorov-Smirnov de bondad de ajuste.
Contraste de Kolmogorov-Smirnov para 2 muestras.
Contraste de Mann-Whitney.
Test de las rachas.
Test de los signos.
Test de Wilcoxon de los signos-rangos.
Los métodos estadísticos de inferencia que no requieren el conocimiento de la distribución de
la variable, es decir, los métodos que son válidos cualquiera que sea la distribución que sigue
la población, se conocen con el nombre de no paramétricos. Evidentemente, si no se conoce la
distribución tampoco se pueden realizar inferencias sobre los parámetros, las hipótesis se
refieren a la posible forma de la distribución, la aleatoriedad de la muestra, ...
Para la realización de tests no paramétricos se utilizan estadísticos cuya distribución se puede
obtener para cualquiera que sea la distribución de la población que se desea estudiar.
11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste.
Es un test no paramétrico mediante el cual se contrasta la hipótesis nula de que los datos
observados en una muestra proceden de una población con una distribución de probabilidad,
F(x), dada de antemano (se corresponde con el test de ajuste de la χ 2 )
H 0 : X → F ( x) (conocida )
•
El test K-S presupone que las distribuciones sean continuas; puede emplearse también,
sin embargo, con distribuciones discretas.
•
El test K-S es conveniente usarlo con muestras pequeñas (detecta mejor las
desviaciones de la distribución normal). El test χ 2 se comporta mejor con muestras
grandes, e incluso, en muestras pequeñas no es posible aplicar el test χ 2 pues no se
verifican las condiciones de validez ( Ei > 5 ).
Suponemos que tenemos una muestra de tamaño n.
1. Se ordenan los valores de la muestra de menor a mayor.
2. Se calcula la función de distribución real bajo H 0 : F0 ( x) = P [ X ≤ x ]
3. Se calcula la función de distribución empírica o muestral.
Fn ( x ) =
162
nº observaciones ≤ x
n
4. Se calcula el estadístico experimental
Dexp = max F0 ( x ) − Fn ( x )
5. Fijado el nivel de significación α y conocido el nº de elementos en la muestra se
obtiene un valor crítico en la tabla A.14 que denotaremos Dα . Se rechaza H 0 si
Dexp > Dα .
Nota: Los valores críticos aproximados para tamaños grandes de la muestra son muy
conservativos cuando para ajustar una distribución normal haya que estimar la media y la
varianza a partir de los valores muestrales.
Ejemplo 11.1. (ejercicio 7, relación tema 11)
▼
Con un nivel de significación del 5%, contraste la hipótesis de que los siguientes valores
muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribución normal de
media 14 y varianza 2,25.
Solución
H 0 : F ( x) = N ( µ = 14; σ 2 = 2, 25)
H1 : F ( x) ≠ N ( µ = 14; σ 2 = 2, 25)
Muestra
ordenada
12
ni
Ni
F0 ( x) = P [ X ≤ x ]
Fn ( x)
F0 ( x) − Fn ( x)
2
2
0,0912
2/10=0,2
0,1088
13
1
3
0,2525
3/10=0,3
0,0475
14
3
6
0,5
0,6
0,1
15
2
8
0,7475
0,8
0.0525
17
1
9
0,977
0,9
0,077
18
1
10
0,9962
1
0,0038
n = 10

12 − 14 
F0 (12) = P [ X ≤ 12] = P  Z ≤
 = P  Z ≤ −1,3 = 0, 0912
2,
25



13 − 14 
F0 (13) = P [ X ≤ 13] = P  Z ≤
 = P  Z ≤ −0, 6  = 0, 2525
2,
25


...
163

18 − 14 
F0 (18) = P [ X ≤ 18] = P  Z ≤
 = P  Z ≤ 2, 6  = 0,9962
2, 25 

Para n=10 y α = 0, 05 el valor crítico Dα para el test de bondad de ajuste de K-S es
Dα =0,409.
(D
exp
= 0,1088 ) < ( Dα = 0, 409 ) luego no existen motivos para rechazar la
hipótesis nula.
▄
1
0,9
0,8
0,7
0,6
0,5
0,5-0,3=0,2
0,4
0,3
0,2
0,1
0
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Nota: Este gráfico ilustra cómo calcula SPSS las diferencias entre las funciones de
distribución muestral y bajo H 0 . Aunque en la práctica sólo se calcula F0 ( xi ) − Fn ( xi ) , en
distribuciones continuas habría que hallar también las diferencias F0 ( xi +1 ) − Fn ( xi ) para
encontrar la máxima diferencia entre ambas funciones de distribución.
Prueba de Kolmogorov-Smirnov para una muestra
ejercicio11_7
10
N
Media
Desviación típica
Diferencias más extremas
Absoluta
,200
Positiva
,1088
Negativa
-,200
1,5
Z de Kolmogorov-Smirnov
,632
Sig. asintót. (bilateral)
,819
a La distribución de contraste es la Normal.
b Especificado por el usuario
164
14
Parámetros normales(a,b)
23
Ejemplo 11.2 (ejercicio 8, relación tema 11)
▼
Con nivel de significación 5% contraste la hipótesis de que los siguientes valores muestrales
X
ni
0,45
2
0,55
3
1
0,6
2
0,75
1
0,8
4
0,85
2
0,88
1
5
n = 20
proceden de la distribución de probabilidad dada por
0

F0 =  x 2

1
x≤0


0 ≤ x ≤ 1
x ≥ 1 
Solución
X
ni
Ni
Fn ( x)
F0 ( x)
Fn ( x) − F0 ( x)
0,45
0,55
0,6
0,75
0,8
0,85
0,88
1
2
3
1
2
1
4
2
5
2
5
6
8
9
13
15
20
2/20
5/20
6/20
8/20
9/20
13/20
15/20
1
0, 45 = 0, 2025
0,3025
0,36
0,5625
0,64
0,7225
0,7744
1
0.1025
0.0525
0,06
0,1625
0,19
0,0725
0,0244
0
n = 20
Para n=20 y α = 0, 05 Dα =0,294.
(D
exp
2
= 0,19 ) < ( Dα = 0, 294 ) luego acepto la hipótesis
nula.
▄
11.2 Contraste de Kolmogorov-Smirnov para 2 muestras.
Este contraste trata de ver si 2 muestras aleatorias independientes provienen de la misma
población o no.
Este test de homogeneidad de K-S es el test más potente para comparar dos muestras
independientes desde el punto de vista de si proceden de una misma población. Detecta todo
tipo de diferencias en las distribuciones, en particular diferencias en la tendencia central
(media, mediana), en la dispersión, en la asimetría y en el exceso, esto es, diferencias en las
funciones de distribución.
El contraste se basa en el estudio de las diferencias entre las funciones de distribución
empíricas o muestrales de cada muestra.
165
Dadas dos muestras aleatorias e independientes, de tamaños n y m, cuyas funciones de
distribución muestrales se designan por Fn1 ( x) y Fm2 ( x) , respectivamente, se pueden plantear
los siguientes contrastes:
Contraste bilateral:
 H 0 : Fn ( x) = Fm ( x) 


 H1 : Fn ( x) ≠ Fm ( x) 
Contrastes unilaterales:
 H 0 : Fn ( x) = Fm ( x) 

 (1)
 H1 : Fn ( x) < Fm ( x) 
ó
 H 0 : Fn ( x) = Fm ( x) 

 (2)
 H1 : Fn ( x) > Fm ( x) 
Pasos:
1. Se entremezclan y se ordenan los valores de las dos muestras de menor a mayor.
2. Se calcula cada una de las dos funciones empíricas (o funciones de distribución
muestrales).
3. Se calcula la diferencia entre las dos funciones de distribución muestrales.
Si Fn1 ( x) < Fm2 ( x) , ∀x , se plantea el test unilateral (1)
Si Fn1 ( x) > Fm2 ( x) , ∀x , se plantea el test unilateral (2)
Si las diferencias unas veces son positivas y otras negativas, se plantea el test bilateral.
En cualquier caso el estadístico experimental es:
Dexp = max Fn1 ( x) − Fm2 ( x)
4. Fijado el nivel de significación α y conocido el nº de elementos en cada muestra, se
obtiene el valor crítico Dα , distinguiendo si n = m o n ≠ m y si el test es unilateral o
bilateral. Se rechaza H 0 si Dexp > Dα . (Tablas A.18 y A.19)
Ejemplo 11.3 (ejercicio 9, relación tema 11)
▼
Con nivel de significación de 5%, contraste la hipótesis de que los siguientes valores
muestrales proceden de una misma población.
Muestra 1
Muestra 2
2
2
4
4
2
5
3
3
5
5
6
4
7
7
8
6
9
5
3
3
Solución
En primer lugar se ordenan de menor a mayor todas las observaciones muestrales. Se
construyen las dos funciones de distribución empíricas. Las diferencias unas veces son
positivas y otras negativas lo que invita a hacer un test bilateral.
166
Dexp
Muestras
ordenadas
2
3
4
5
6
7
8
9
= 2 /10 = 0, 2
F101 ( x)
F102 ( x)
F101 ( x) − F102 ( x)
F101 ( x) − F102 ( x)
2/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10
1/10
3/10
5/10
8/10
9/10
10/10
10/10
10/10
1/10
1/10
0
-2/10
-2/10
-2/10
-1/10
0
1/10
1/10
0
2/10
2/10
2/10
1/10
0
α = 0, 05 , n=m=10, Dα =
6
= 0, 6 ,
10
Dexp < Dα , acepto la hipótesis nula de que las dos
muestras se han obtenido de la misma población.
▄
Ejemplo 11.4 (ejercicio 2, relación tema 11)
▼
Dos grupos de empleados de una empresa son sometidos a sendos programas de
entrenamiento, siendo evaluada posteriormente, mediante un test que valora en una escala de 0
a 100, la mejora que se produce en el rendimiento de cada trabajador. Los resultados
obtenidos son
Grupo 1 50 83 45 63 72 56 65 47
66 35 14 57 90 25 15 74
Grupo 2 95 92 85 86 72 75 93 67
56 85 93 98 85 62 54 56
Comparar, utilizando el test de Kolmogorov-Smirnov, si los dos métodos producen la misma
distribución de probabilidades sobre las puntuaciones resultantes. ( α = 0.05 )
Solución
Puntuación
F161 ( x)
F162 ( x)
F161 ( x) − F162 ( x) = F161 ( x) − F162 ( x)
14
15
25
35
45
47
50
54
56
57
62
63
65
66
1/16
2/16
3/16
4/16
5/16
6/16
7/16
7/16
8/16
9/16
9/16
10/16
11/16
12/16
0
0
0
0
0
0
0
1/16
3/16
3/16
4/16
4/16
4/16
4/16
1/16
2/16
3/16
4/16
5/16
6/16
7/16
6/16
5/16
6/16
5/16
6/16
7/16
8/16
167
67
72
74
75
83
85
86
90
92
93
95
98
5/16
6/16
6/16
7/16
7/16
10/16
11/16
11/16
12/16
14/16
15/16
16/16
12/16
13/16
14/16
14/16
15/16
15/16
15/16
1
1
1
1
1
7/16
7/16
8/16
7/16
8/16
5/16
4/16
5/16
4/16
2/16
1/16
0
F161 ( x) > F162 ( x) lo que sugiere un contraste unilateral. α = 0, 05 , n=m=16 Dα =
6
.
16
Dexp > Dα (no provienen de la misma población) los dos métodos no son iguales. El grupo 2
arroja puntuaciones mayores, o lo que es lo mismo F161 ( x) > F162 ( x) .
▄
11.3 Contraste de Mann-Whitney.
La prueba de Mann-Whitney también permite contrastar si dos muestras independientes, han
sido obtenidas de la misma población. Pero este contraste no necesita conocer la
cuantificación de los elementos de las muestras, solo es necesario disponer de un orden entre
dichos elementos.
El test de rangos U de Mann y Whitney es la contrapartida no paramétrica del test t para la
comparación de las medias de dos distribuciones continuas (test paramétrico). Para muestras
pequeñas el contraste de K-S es más eficiente.
Tomamos dos muestras independientes de tamaños n y m donde suponemos que n ≤ m .
Se presupone que las distribuciones de las muestras que se han de comparar presentan la
misma forma.
El test U de Mann y Whitney examina la hipótesis alternativa. “La probabilidad de que una
observación obtenida al azar de la primera población supere a una observación aleatoria de la
segunda población es distinta de
1
”
2
El test es sensible frente a diferencias de medianas, algo menos sensible frente a las
diferencias de asimetría, e insensible frente a las diferencias de varianzas.
168
Se pueden plantear los siguientes contrastes:
Contraste bilateral:
 H 0 : Fn ( x) = Fm ( x) 


 H1 : Fn ( x) ≠ Fm ( x) 
Contrastes unilaterales:
 H 0 : Fn ( x) = Fm ( x) 

 (1)
H
:
F
(
x
)
<
F
(
x
)
m
 1 n

 H 0 : Fn ( x) = Fm ( x) 

 (2)
H
:
F
(
x
)
>
F
(
x
)
m
 1 n

ó
Estos últimos cuando se observe que los valores de una muestra son en general mayores o
menores que los de la otra. (Véase ejemplo 11.6)
Pasos:
1. Mezclar los datos de ambas muestras en un solo conjunto y ordenar de menor a mayor.
2. El valor del estadístico U ( U 0 ) se obtiene mediante:
Ui =
nº de veces que una observación de la muestra i precede a una observación de
la muestra j, si coinciden dos valores tomamos 0.5, ( i = 1, 2 ,
j = 1, 2 ,
i ≠ j ).
O bien,
Ui =
nº de veces que una observación de la muestra j es precedida por una
observación de la muestra , si coinciden dos valores tomamos 0.5, ( i = 1, 2 ,
j = 1, 2 ,
i ≠ j ).
Ejemplo
1º muestra
9 11 15
n=3
2º muestra
6
m=4
Muestras ordenadas
8 11 13
6 8 9 11 11 13 15
Procedente de:
2º 2º 1º 1º
2º
2º 1º
U1 = 0 + 0 + 1,5 + 2 = 3,5
U 2 = 2 + 2,5 + 4 = 8,5
Ejemplo
1º muestra
3
4
2
2º muestra
6
7
8
Muestras ordenadas
Procedente de:
2
n=3
9
m=4
3
4
6
7
1º 1º
1º
2º 2º
8
9
2º
2º
169
U1 = 3 + 3 + 3 + 3 = 12
U2 = 0 + 0 + 0 = 0
Como podemos observar, si 2 muestras proceden de la misma población, los datos
tienden a entremezclarse. En caso contrario, los U i toman valores extremos.
Otra forma de calcular los U i (aconsejable para muestras grandes) es así:
Ordenar los datos de forma creciente y asociar a cada uno su rango o lugar dentro del
conjunto (si hay repeticiones de valores, se asigna el rango medio)
Ejemplo
Muestras ordenadas
Procedente de:
6 8 9 11 11 13 15
2º 2º 1º 1º
rangos
2º
2º 1º
1 2 3 4,5 4,5 6 7
Sean R1 y R2 la suma de los rangos de la 1º y 2º muestra, entonces:
n(n + 1)
− R1
2
m(m + 1)
U 2 = nm +
− R2
2
U1 = nm +
(ó
U 2 = nm − U1 )
R1 = 3 + 4,5 + 7 = 14,5 ⇒ U1 = ( 3 × 4 ) +
3× 4
− 14,5 = 3,5
2
R2 = 1 + 2 + 4,5 + 6 = 13,5 ⇒ U 2 = ( 3 × 4 ) +
4×5
− 13,5 = 8,5
2
El estadístico es:
U 0 = min (U1 , U 2 )
Nota: también lo podíamos haber definido con el máximo.
3. Como hemos visto, si los datos no proceden de la misma población, los U i toman
valores extremos y por tanto U 0 tomará un valor pequeño. Luego rechazamos la
hipótesis nula cuando U 0 tome valores pequeños, pero ¿cómo de pequeños?
Distinguimos casos:
a)
n ≤ 20 y m ≤ 40
Se rechazará la hipótesis nula cuando el valor U0 sea igual o menor que el valor crítico
Uα de las tablas 3.18 o 3.19 (nivel de significación α = 5% ). SPSS usa niveles de
significación exactos, Dineen y Blakesley (1973).
b)
En otro caso distinto al apartado a) se tendrá en cuenta que para tamaños
muestrales suficientemente grandes ( m + n > 60 , según algunos autores) se cumple la
excelente aproximación.
170
 nm nm(n + m + 1) 
U → N 
,

12
 2

Calculo p = P [U ≤ U 0 / H 0 ]
Para α fijo, rechazo H 0 si p ≤
α
2
(bilateral ) o
p ≤ α (unilateral ) .
Mann y Whitney consideran aceptable esta aproximación siempre que los tamaños
muestrales no sean muy pequeños ( m ≥ 8, n ≥ 8 ). Nosotros utilizaremos las tablas 3.18
o 3.19 para los valores de m y n que aparecen en dichas tablas y esta aproximación
normal cuando no aparezcan.
En el caso de empates entre valores de ambas muestras el valor corregido de U (al asignar
rangos medios) tiene una distribución distinta (Sachs, Estadística Aplicada, pag. 255).
Ejemplo 11.5 (ejercicio 4, relación tema 11)
▼
Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma
empresa, se obtuvo en sendas muestras de 5 y 4 meses, la cantidad de unidades producidas de
un artículo concreto, el resultado se muestra a continuación:
Taller 1 78
64 75 45 82
Taller 2 110
70 53 51
Utilizando el contraste de Mann-Whitney, comprobar si la productividad en los dos talleres es
la misma (α = 0.05) .
Solución
n=4 (taller 2) ≤ 20, m=5 (taller 1) ≤ 40
Muestras
ordenadas
45
51
53
64
70
75
78
82
110
rango
Procede de:
1º
2º
2º
1º
2º
1º
1º
1º
2º
4×5
RT 2 (taller 2) = 2 + 3 + 5 + 9 = 19 ⇒ U T 2 = ( 4 × 5 ) +
− 19 = 11 ⇒ U T 1 = ( 4 × 5 ) − U T 2 = 9
2
U 0 = min (11, 9 ) = 9
1
2
3
4
5
6
7
8
9
171
n = 4, m = 5, U α = 1 (tabla 3.19) (U 0 = 9) > (U α = 1) ⇒
los dos talleres producen lo
mismo.
▄
Ejemplo 11.6 (ejercicio 5, relación tema 11)
▼
Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un
equipo de expertos somete a observación el comportamiento en el trabajo de 12 trabajadores
seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar
los incentivos se realiza de nuevo la observación sobre otros 12 trabajadores también
seleccionados al azar. El resultado de ambas fue
No incentivos 67 78 69 67 56 57 78 79 56 43 45 65
Incentivos
78 98 67 87 79 65 76 87 57 76 77 78
Realice el contraste utilizando la prueba de Mann-Whitney (α = 0.05) .
Solución
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Muestras
ordenadas
43
45
56
56
57
57
65
65
67
67
67
69
76
76
77
78
78
78
78
79
79
87
87
98
Incentivos
No
No
No
No
No
Si
No
Si
No
No
Si
No
Si
Si
Si
No
No
Si
Si
No
Si
Si
Si
si
m = n = 12
rango
1
2
3,5
3,5
5,5
5,5
7,5
7,5
10
10
10
12
13,5
13,5
15
17,5
17,5
17,5
17,5
20,5
20,5
22,5
22,5
24
RNO = 1 + 2 + 3,5 + 3,5 + 5,5 + 7,5 + 10 + 10 + 12 + 17,5 + 17,5 + 20,5 = 110,5
U NO = (12 × 12 ) +
172
12 ×13
− 110,5 = 111,5 ⇒ U SI = 144 − 111,5 = 32,5
2
U 0 = min (111,5; 32,5) = 32,5
En primer lugar vamos a contrastar la hipótesis nula de que los incentivos no tienen efecto
sobre la producción frente a la alternativa de que sí lo tienen, es decir
 H 0 : Fn ( x) = Fm ( x) 


 H1 : Fn ( x) ≠ Fm ( x) 
Para ello realizaremos un test bilateral ( α = 0.05 , tabla 3.19)
U α = 37 ;
(U 0 = 32,5) < (U α = 37) ⇒ rechazo la hipótesis nula, por tanto, los incentivos
tienen efectos sobre la producción –sin especificar en qué sentido.
En este caso que nos ocupa parece más plausible contrastar
 H 0 : Fn ( x) = Fm ( x) 


 H1 : Fn ( x) > Fm ( x) 
Dado que suponemos que los incentivos van a tener un efecto positivo sobre la producción, es
decir, los valores de la muestra con incentivos deberían ser mayores que los de la muestra sin
incentivos y por tanto la función de distribución de la muestra con incentivos ( Fm ( x) ) menor
que la función de distribución de la muestra sin incentivos ( Fn ( x) ) (Recuérdese lo que ocurría
en el ejemplo 11.4 ). Para ello realizaremos un test unilateral ( α = 0.05 , tabla 3.18)
U α = 42 ;
(U 0 = 32,5) < (U α = 42) ⇒ rechazo la hipótesis nula, por tanto, los incentivos
tienen efectos positivos sobre la producción.
Dado que un test bilateral con α = 0.05 equivale a un test unilateral con α = 0.025 y en ese
caso se había rechazado la hipótesis nula, con mayor razón se rechaza en este último test
unilateral con α = 0.05 > 0.025 .
▄
Ejemplo 11.6b (ejercicio 5, relación tema 11)
▼
Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un
equipo de expertos somete a observación el comportamiento en el trabajo de 25 trabajadores
seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar
los incentivos se realiza de nuevo la observación sobre otros 25 trabajadores también
seleccionados al azar. El resultado de ambas fue
No incentivos
Incentivos
72 83 74 71 60 60 82 84 61 48 50 70 71
67 78 69 67 56 57 78 79 56 43 45 65
84 99 73 94 85 70 80 93 63 80 84 85 88
78 98 67 87 79 65 76 87 57 76 77 78
173
Realice el contraste utilizando la prueba de Mann-Whitney (α = 0.05) .
Solución
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
174
Muestras
ordenadas
43
45
48
50
56
56
57
57
60
60
61
63
65
65
67
67
67
69
70
70
71
71
72
73
74
76
76
77
78
78
78
78
79
79
80
80
82
83
84
84
84
85
85
87
87
88
93
incentivos
NO
NO
NO
NO
NO
NO
NO
SI
NO
NO
NO
SI
NO
SI
NO
NO
SI
NO
NO
SI
NO
NO
NO
SI
NO
SI
SI
SI
NO
NO
SI
SI
NO
SI
SI
SI
NO
NO
NO
SI
SI
SI
SI
SI
SI
SI
SI
rango
1
2
3
4
5.5
5.5
7.5
7.5
9.5
9.5
11
12
13.5
13.5
16
16
16
18
19.5
19.5
21.5
21.5
23
24
25
26.5
26.5
28
30.5
30.5
30.5
30.5
33.5
33.5
35.5
35.5
37
38
40
40
40
42.5
42.5
44.5
44.5
46
47
48
49
50
94
98
99
SI
SI
SI
n = m = 25
48
49
50
RNO = 442 RSI = 833
U NO = ( 25 × 25 ) +
25 × 26
− 442 = 508 ⇒ U SI = ( 25 × 25 ) − 508 = 117
2
U 0 = min (508;117) = 117
 25 × 25 25 × 25 × 51 
U → N 
,
 = N ( 312,5; 51,54 )
12
 2

117 − 312,5 

p = P [U ≤ 117 / H 0 ] = P  Z ≤
= P [ Z ≤ −3, 79] = 0, 00007
51,54 

Basándonos en los comentarios del ejemplo anterior, procede realizar un contraste unilateral
 H 0 : Fn ( x) = Fm ( x) 


 H1 : Fn ( x) > Fm ( x) 
( p = 0, 00007 ) ≤ (α = 0, 05)
⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen
efectos positivos sobre la producción.
α = 0, 05
117
312,5
0.00007
También se hubiera rechazado la hipótesis nula con un contraste bilateral.
 H 0 : Fn ( x) = Fm ( x) 


 H1 : Fn ( x) ≠ Fm ( x) 
( p = 0, 00007 ) ≤ 
α

= 0, 025  ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen
2

efectos sobre la producción.
175
α =0,025
2
α
117
2
312,5
0.00007
▄
11.4 Test de las rachas.
El test de las rachas es un test no paramétrico que sirve para verificar la independencia o
aleatoriedad del orden de los valores muestrales.
Una racha es una sucesión de símbolos idénticos, a los que preceden o siguen otros símbolos.
Así, por ejemplo, la serie de resultados CCC+CC++ obtenida al tirar n=8 veces una moneda,
constituye R=4 rachas. No sólo en el caso de datos alternativos sino también tratándose de
valores medidos puede hablarse de rachas: las medidas pueden agruparse en rachas de valores
menores y rachas de valores mayores o iguales que la mediana.
Para un valor dado de n, un R pequeño es indicio de que las observaciones iguales aparecen en
forma aglomerada , mientras que un valor grande de R denota que las observaciones se
suceden de una forma regular. La hipótesis nula H 0 dice que el orden de los valores es casual,
esto es, que se trata de una muestra aleatoria, mientras que la hipótesis alternativa H A dice que
la muestra no es aleatoria; o sea, que los valores muestrales no son independientes entre sí. En
el caso unilateral a la H 0 se le contrapone la hipótesis H A1 : “efecto de aglomeración”, o bien
la H A 2 : “los valores se suceden de una forma regular”
Los valores críticos rinferior = ru y rsuperior = ro correspondientes a n1 y n2 ≤ 20 (donde n1 y n2
representan el número de veces que aparecen los dos elementos alternativos respectivamente,
n1 + n2 = n ) pueden obtenerse de la tabla 4.40.
Para n1 o n2 > 20 el estadístico R se distribuye aproximadamente como una normal de media y
varianza
µ=
2n1n2
+1
n1 + n2
( R = µ + zσ , donde z es normal tipificada).
176
σ2 =
2n1n2 (2n1n2 − n1 − n2 )
( n1 + n2 ) ( n1 + n2 − 1)
2
En el test bilateral se mantiene H 0 si ru < R < ro (para n1 y n2 ≤ 20 ) o − zα < z < zα (para
2
2
n1 o n2 > 20 ) y se rechaza en caso contrario. (Nota: utilizar ru y ro con límites inferiores y
superiores del
α
2
)
En el test unilateral H 0 se rechaza frente a H A1 tan pronto como R ≤ ru ( n1 y n2 ≤ 20 ) o
z ≤ − zα ( n1 o n2 > 20 ). Se rechaza frente a H A 2 si
ro ≤ R ( n1 y n2 ≤ 20 ) o zα ≤ z
( n1 o n2 > 20 ). (Nota: utilizar ru y ro con límites inferiores y superiores del α %)
También puede utilizarse el test de rachas para verificar si dos muestras independientes de
tamaño similar proceden o no de una misma población (las n1 + n2 = n observaciones se
ordenan en sentido creciente, indicando con dos símbolos a qué muestra pertenecen, si se
obtiene un valor pequeño de R, se rechaza la hipótesis nula de igualdad de poblaciones).
Ejemplo 11.7 (Ejercicio 14 , relación tema 11)
▼
Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21,
18, 21, 22 ( α = 0,10 ).
Solución
Me=19. Atendiendo a que sean mayores o iguales (M) o menores (m) que la mediana puede
escribirse mmmMMMMMmMM. Esta serie, con n1 = 4(m) , n2 = 7( M ) y R = 4 es compatible
al 10% con la hipótesis de aleatoriedad pues
( ru = 3) < ( R = 4 ) < ( ro = 9 )
(NOTA: Si hubiéramos considerado 19=m, entonces mmmmMmmMmMM , n1 = 7(m) ,
n2 = 4( M ) y R = 6 . Concluyendo de igual modo la compatibilidad con la hipótesis de
aleatoriedad.
( ru = 3) < ( R = 6 ) < ( ro = 9 )
Con α = 0, 05 ,
( ru = 2 ) < ( R = 4 o 6 )
( ro = no hay límite su p erior ) ,
se aceptaría la
hipótesis de aleatoriedad. )
▄
Ejemplo 11.8 (Ejercicio 15, relación tema 11)
▼
Supóngase dos muestras aleatorias independientes de tamaños n1 = 20, n2 = 20 que han
proporcionado el siguiente número de rachas R = 15 . Contraste la hipótesis nula de igualdad de
las poblaciones de procedencia. ( α = 0, 05 )
177
Solución
Este contraste equivale a la verificación de la no aglomeración de las observaciones
(únicamente un reducido número de rachas nos induciría a rechazar la hipótesis nula de
igualdad de poblaciones).
Es decir, un test de H A1 frente a H 0 , al nivel del 5%, unilateral, con ayuda de los extremos
críticos inferiores del 5% de la tabla 4.40. ru = 15 y como para ( R = 15) ≤ (ru = 15) se rechaza
la hipótesis nula a favor de H A1 , se acepta la hipótesis de aglomeración, lo que en este
contexto implica que las muestras proceden de poblaciones distintas.
Como los tamaños de las muestras se encuentran en el límite n1 = 20, n2 = 20 , vamos a
resolver el problema mediante la aproximación normal
µ=
2n1n2
+ 1 = 21
n1 + n2
σ2 =
z=
2n1n2 (2n1n2 − n1 − n2 )
( n1 + n2 ) ( n1 + n2 − 1)
2
R−µ
σ
=
= 9, 7436 σ = 3,1215
15 − 21
= −1,92215
3,1215
( z = −1,92215) ≤ (− z0,05 = −1, 645) ⇒ llegándose al mismo resultado, se rechazaría la
hipótesis de que las poblaciones son iguales.
▄
11.5 Test de los signos.
Es un test no paramétrico dedicado a contrastar si dos muestras dependientes (apareadas,
paralelas o ligadas) proceden de una misma distribución. Resulta especialmente útil cuando la
medición cuantitativa no es posible.
Este es un test no paramétrico rápido que sirve para contrastar las mismas hipótesis que el test
de Wilcoxon que veremos a continuación.
El nombre de este test se debe a que únicamente se consideran los signos de las diferencias
entre observaciones. Se presupone que la variable aleatoria es continua. Al contrario que en el
test de la t o en el de Wilcoxon, aquí no es necesario que todos los pares procedan de una
misma población. Pueden pertenecer a poblaciones distintas en lo que se refiere, por ejemplo, a
edad o sexo, etc. Lo esencial es que los resultados de cada par sean independientes entre sí.
La hipótesis nula del test de los signos es:
La media de las diferencias entre los pares ligados es igual a cero; se espera que
aproximadamente la mitad de las diferencias tendrán el signo + y la otra mitad el signo − . Es
178
decir, con el test de los signos se contrasta la hipótesis de que la mediana de la distribución de
las diferencias tiene el valor cero (la diferencia entre las dos medianas es cero, dicho de otra
forma, elegida una pareja al azar la probabilidad de que el primer elemento supere al segundo
es igual que la probabilidad de que el segundo supere al primero).
La tabla 4.4 contiene los extremos de confianza, se rechazará la hipótesis nula cuando haya
demasiadas (o demasiado pocas) diferencias del mismo signo, esto es, cuando se rebasen (por
exceso o por defecto) los valores indicados en la tabla 4.4.
Las diferencias nulas no se consideran; esto puede traer consigo una disminución del tamaño
muestral. La probabilidad de obtener un número determinado de signos más o menos se deduce
de la distribución binomial con p = q =
con p = q =
1
. A partir de la tabla de probabilidades binomiales
2
1
se han determinado los valores de la tabla 4.4.
2
En la tabla 4.5 aparece sólo el extremo izquierdo (EI) de la región de aceptación de la hipótesis
nula. El extremo derecho (ED) puede obtenerse mediante la fórmula ED = n − EI + 1 .
Cuando no se disponga de tablas o cuando estas resulten insuficientes, y si las muestras de
diferencias no son demasiado pequeñas ( n ≥ 30 ) -algunos autores consideran bueno a partir de
( n ≥ 25 ) -
la frecuencia observada del signo menos abundante se aproxima mediante una
normal de media y varianza
µ = np =
n
2
σ 2 = npq =
Ejemplo 11.9 (Ejercicio 16, relación tema 11)
n
4
▼
Supóngase que analizamos 15 pares de valores mediante el test de los signos, caso bilateral, al
nivel del 5%. Obtenemos 2 diferencias nulas y 13 no nulas, de ellas 11 positivas y 2 negativas.
¿Proceden las dos muestras ligadas de la misma población?
Solución
De la tabla 4.4 obtenemos para n=13 los extremos 3 y 10. Los valores encontrados en nuestro
caso caen fuera de los límites por lo que se rechaza la hipótesis nula y se acepta que ambas
muestras proceden de poblaciones distintas.
▄
11.6 Test de Wilcoxon de los signos-rangos.
Los test óptimos para la comparación de dos muestras dependientes (ligadas o paralelas) son:
el test de la t de Student, si la distribución de las diferencias es normal, y el test de Wilcoxon
179
para diferencias entre pares, que utiliza signos y rangos, cuando las diferencias no siguen una
distribución normal. Este último test puede aplicarse también cuando los datos vengan dados
en forma de rangos. En comparación con el test de la t, el test de Wilcoxon requiere muchos
menos cálculos y es casi igual de potente en el caso de diferencias normalmente distribuidas.
Si el test lleva a rechazar H 0 significaría que las dos muestras proceden de poblaciones con
distribuciones distintas.
Prescindiendo de los pares cuyos dos valores sean iguales, para los n pares de valores restantes
se formarán las diferencias entre las dos muestras paralelas
di = xi1 − xi 2
A continuación se ordenan los valores absolutos d i de menor a mayor, asignándoles rangos:
el menor de todos ellos tendrá el rango 1, y el mayor tendrá rango n. Caso de que se repitieran
valores, se asignarían a cada uno de ellos el rango medio (como se hizo con los empates en el
test de Mann-Whitney).
Junto a cada número de rango se anota si la diferencia correspondiente tiene signo positivo o
negativo. Se forma la suma de los números de rango positivos ( R+ ) y la de los rangos
negativos ( R− ), que se comprueban con la fórmula
R+ + R− =
n(n + 1)
2
(
)
Como estadístico se empleará la menor de las dos sumas de rangos R = min( R+ , R− ) . Se
rechazará la hipótesis nula cuando el valor obtenido R se menor o igual que el valor crítico
indicado en la tabla 4.2.
Para n > 25 la distribución de estadístico R bajo la hipótesis nula es aproximadamente una
normal de media y varianza:
µ=
n(n + 1)
4
σ2 =
n(n + 1)(2n + 1)
24
Ejemplo 11.10 (ejercicio 17, relación tema 11)
▼
Un bioquímico quiere comparar dos métodos de determinación de la concentración de
testosterona en la orina. Sean A y B dichos métodos. Para la comparación, bilateral y al nivel
del 5%, dispone de 9 muestras de orina. No se sabe si la distribución de los valores es normal.
Los valores vienen dados en miligramos contenidos en la orina de 24 horas.
Muestra nº
180
1
2
3
4
5
6
7
8
9
A (mg/muestra)
0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47
B (mg/muestra)
0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51
Solución
Muestra nº
1
2
3
4
5
6
7
8
9
A (mg/muestra)
0,47
1,02
0,33
0,70
0,94
0,85
0,39
0,52
0,47
B (mg/muestra)
0,41
1,00
0,46
0,61
0,84
0,87
0,36
0,52
0,51
A − B= di
0,06
0,02
-0,13
0,09
0,10
-0,02
0,03
0
-0,04
5
1,5
8
6
7
1,5
3
(+) 6
(+) 7
Rango de los d i
R+ = 22,5
(+) 5 (+) 1,5
R− = 13,5
(-) 8
comprobación
4
(+) 3
(-) 1,5
(-) 4
22,5+13,5=36=8(8+1)/2
n=8, pues hay una pareja donde la diferencia es cero. Buscando en la tabla 4.2 se tiene que
R = 13,5 > 3 , por tanto no puede rechazarse la hipótesis nula.
▄
EJERCICIOS RESUELTOS
1. (ejercicio 1, relación tema 11) A continuación se proporcionan los valores ordenados de
una muestra aleatoria del número de respuestas correctas para un determinado test: 852,
875, 910, 933, 957, 963, 981, 998, 1007, 1010, 1015, 1018, 1023, 1035, 1048, 1063.
En años anteriores el número de respuestas correctas estaba representado, de forma
adecuada, por una N(985, 50). Con base en esta muestra, ¿existe razón para creer que ha
ocurrido un cambio en la distribución de respuestas correctas? ( α = 0.05 )
SOLUCIÓN:
muestra
ordenada
852
875
910
933
957
963
981
998
1007
1010
1015
1018
1023
1035
1048
1063
ni
Ni
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
z
-2,66
-2,20
-1,50
-1,04
-0,56
-0,44
-0,08
0,26
0,44
0,50
0,60
0,66
0,76
1,00
1,26
1,56
Fo(x)
0,0039
0,0139
0,0668
0,1492
0,2877
0,3300
0,4681
0,6026
0,6700
0,6915
0,7257
0,7454
0,7764
0,8413
0,8962
0,9406
Fn(x)
0,0625
0,1250
0,1875
0,2500
0,3125
0,3750
0,4375
0,5000
0,5625
0,6250
0,6875
0,7500
0,8125
0,8750
0,9375
1,0000
|Fo(x)-Fn(x)|
0,0586
0,1111
0,1207
0,1008
0,0248
0,0450
0,0306
0,1026
0,1075
0,0665
0,0382
0,0046
0,0361
0,0337
0,0413
0,0594
181
(D
exp
= 0,1207 ) < ( Dα = 0,327 ) luego no existen motivos para rechazar la hipótesis nula.
2. (ejercicio 3, relación tema 11) Contrastar a un nivel α = 0.1 si los datos siguientes proceden
de una distribución Normal con media 10.84 y desviación típica 3.5:
10.5 8 15 12.1 4.1 12.1 8 10.5 16 12.1
SOLUCIÓN:
muestra
ordenada
4,1
8
10,5
12,1
15
16
ni
Ni
1
2
2
3
1
1
1
3
5
8
9
10
z
-1,93
-0,81
-0,10
0,36
1,19
1,47
Fo(x)
0,0271
0,2086
0,4613
0,6406
0,8827
0,9298
Fn(x) |Fo(x)-Fn(x)|
0,1000
0,0729
0,3000
0,0914
0,5000
0,0387
0,8000
0,1594
0,9000
0,0173
1,0000
0,0702
α = 0,1 n = 10 ⇒ Dα = 0,369 . ( Dexp = 0,1594 ) < ( Dα = 0,369 ) luego no existen
motivos para rechazar la hipótesis nula.
3. (ejercicio 10, relación tema 11) La duración en minutos de las 100 llamadas telefónicas
recibidas durante un día en una empresa de seguros de automóviles se recoge en la
siguiente tabla
Duración en minutos
Número de llamadas
xi
ni
menos de 10
10-20
20-30
30-40
40-50
50-60
15
17
26
18
13
11
Contraste, con un nivel de significación del 5%, la hipótesis de que la duración de las
llamadas recibidas sigue una distribución Normal con media 30 minutos y desviación típica
10 minutos. Utilice los contrastes de bondad de ajuste χ 2 y de Kolmogorov-Smirnov.
SOLUCIÓN:
Para hallar las siguientes probabilidades, bajo la hipótesis nula, tipificamos la variable
X → N (30, 10) transformándola en una variable Z → N (0, 1)
 x − 30 10 − 30 
P [ x ≤ 10] = P 
≤
= F0 (−2) = 0, 0228
10 
 10
10 − 30 x − 30 20 − 30 
P [10 < x ≤ 20] = P 
<
≤
= P [ −2 < z ≤ −1] = F0 (−1) − F0 (−2) = 0,1587 − 0, 0228 = 0,1359
10
10 
 10
 20 − 30
P [ 20 < x ≤ 30] = P 
<
 10
 30 − 30
P [30 < x ≤ 40] = P 
<
 10
182
x − 30 30 − 30 
≤
= F0 (0) − F0 (−1) = 0,5 − 0,1587 = 0,3413
10
10 
x − 30 40 − 30 
≤
= F0 (1) − F0 (0) = 0,8413 − 0,5 = 0,3413
10
10 
 40 − 30 x − 30 50 − 30 
P [ 40 < x ≤ 50] = P 
<
≤
= F0 (2) − F0 (1) = 0,9772 − 0,8413 = 0,1359
10
10 
 10
 x − 30 50 − 30 
P [ x > 50] = P 
>
= 1 − F0 (2) = 1 − 0,9772 = 0, 0228
10 
 10
CLASES
menos de 10
10-20
20-30
30-40
40-50
más de 50
ni
Ei = npi
pi
( ni − Ei )
2
15
17
26
18
13
11
0,0228
0,1359
0,3413
0,3413
0,1359
0,0228
2,28
13,59
34,13
34,13
13,59
2,28
161,8
11,6
66,1
260,2
0,35
76,04
100
1
100
χ2 =
( ni − Ei )
2
Ei
70,96
0,85
1,94
7,62
0,026
33,35
114,7
Como las frecuencias esperadas son menores que 5 en la primera y última clase, se
agrupan éstas con las clases contiguas, obteniéndose
CLASES
Menos de 20
20-30
30-40
Más de 40
ni
Ei = npi
pi
( ni − Ei )
2
32
26
18
24
0,1587
0,3413
0,3413
0,1587
15,87
34,13
34,13
15,87
260,2
66,1
260,2
66,1
100
1
100
χ2 =
( ni − Ei )
2
Ei
16,4
1,94
7,62
4,17
30,13
Buscamos en las tablas χ k2−1,1−α = χ 3,2 0'95 = 7,81 . Como 30,13>7,81 rechazamos la hipótesis
nula de que la duración de las llamadas sigue una distribución Normal con media 30 y
desviación típica 10.
Contraste de Kolmogorov-Smirnov para bondad de ajuste
muestra ordenada
0-10
10-20
20-30
30-40
40-50
50-60
ni
x
10
20
30
40
50
60
15
17
26
18
13
11
Ni
z
F0 ( x)
15
32
58
76
89
100
-2,00
-1,00
0,00
1,00
2,00
3,00
0,0228
0,1587
0,5000
0,8413
0,9772
0,9987
Fn ( x) | F0 ( x) − Fn ( x) |
0,15
0,32
0,58
0,76
0,89
1
0,1272
0,1613
0,0800
0,0813
0,0872
0,0013
Dexp = max F0 ( x ) − Fn ( x ) = 0,1613
1,3581
= 0,1358
100
Al igual que con el anterior procedimiento de contraste se rechaza H 0 dado que Dexp > DT
Buscando en las tablas, para un contraste bilateral, DT =
4. (ejercicio 11, relación tema 11) Las inversiones realizadas (en miles de €) por un grupo de
6 empresas en el mes pasado se recogen en la siguiente tabla:
183
Empresa
E1
E2
E3
E4
E5
E6
Inversión
318
322
345
300
338
311
¿Puede considerarse que siguen una distribución normal de media 320.000 de € y
desviación típica 10.000 €? ( α = 0, 05 )
SOLUCION:
muestra
ordenada
300
311
318
322
338
345
ni
z=
Ni
1
1
1
1
1
1
1
2
3
4
5
6
x−µ
σ
F0 ( x)
Fn ( x)
0,0228
0,1841
0,4207
0,5793
0,9641
0,9938
0,1667
0,3333
0,5
0,6667
0,8333
1
-2,0000
-0,9000
-0,2000
0,2000
1,8000
2,5000
| F0 ( x) − Fn ( x) |
0,1439
0,1493
0,0793
0,0874
0,1307
0,0062
Dexp = max F0 ( x ) − Fn ( x ) = 0,1493
DT (0,05)bilateral = 0,519
Dexp < DT por tanto se acepta la hipótesis de que las inversiones de las empresas siguen
una ley normal con la media y desviación típica indicadas.
5. (ejercicio 12, relación tema 11) Se observa durante 15 días los litros de cerveza de una
determinada marca que se han vendido en un supermercado, obteniéndose las siguientes
cantidades:
150
140
150
130 160
160
150
140
170 140
130
160
150
140 170
Contraste la hipótesis de que el número de litros vendidos se distribuye según una ley
normal de media 150 litros y desviación típica 10 litros. ( α = 0,1 ). Utilice el contraste de
bondad de ajuste de Kolmogorov-Smirnov.
SOLUCIÓN:
Muestra
ordenada
130
140
150
160
170
ni
Ni
2
4
4
3
2
2
6
10
13
15
z=
x−µ
σ
-2,00
-1,00
0,00
1,00
2,00
F0 ( x)
0,0228
0,1587
0,5000
0,8413
0,9772
 x − 150 130 − 150 
P [ x ≤ 130] = P 
≤
= F0 (−2) = 0, 0228
10 
 10
 x − 150 140 − 150 
P [ x ≤ 140] = P 
≤
= F0 (−1) = 0,1587
10 
 10
184
Fn ( x)
0,1333
0,4000
0,6667
0,8667
1,0000
| F0 ( x) − Fn ( x) |
0,1106
0,2413
0,1667
0,0253
0,0228
 x − 150 150 − 150 
P [ x ≤ 150] = P 
≤
= F0 (0) = 0,5
10 
 10
 x − 150 160 − 150 
P [ x ≤ 160] = P 
≤
= F0 (1) = 0,8413
10 
 10
 x − 150 170 − 150 
P [ x ≤ 170] = P 
≤
= F0 (2) = 0,9772
10 
 10
Dexp = max F0 ( x ) − Fn ( x ) = 0, 2413
Dado que Dexp < DT
DT (0,10)bilateral = 0,304
se acepta la hipótesis de que el número de litros vendidos se
distribuye según una ley normal de media 150 litros y desviación típica 10 litros.
6. (ejercicio 13, relación tema 11) Se ha observado la temperatura durante los días de una
semana en la recepción de un hotel, obteniéndose
23,3º
17,6º
16,4º
20,9º
23,8º
23,3º
24,0º
Contraste con un nivel de significación del 5% la hipótesis de que la muestra procede de
una población normal con media 20º y desviación típica 2º.
SOLUCION:
muestra ordenada
16,4
17,6
20,9
23,3
23,8
24
ni
1
1
1
2
1
1
Ni
1
2
3
5
6
7
z
-1,8000
-1,2000
0,4500
1,6500
1,9000
2,0000
Fo(x)
0,0359
0,1151
0,6736
0,9505
0,9713
0,9772
Fn(x) |Fo(x)-Fn(x)|
0,1429
0,1069
0,2857
0,1706
0,4286
0,2451
0,7143
0,2362
0,8571
0,1141
1
0,0228
 16.4 − 20 
P [ x ≤ 16.4] = P  z ≤
 = P [ z ≤ −1.8] = 0.0359
2

...
24 − 20 

P [ x ≤ 24] = P  z ≤
= P [ z ≤ 2] = 0.9772
2 

Dexp = 0, 2451 n = 7 DT (0,05) bilateral = 0, 483 Dexp < DT , por tanto se acepta la hipótesis
nula de que la muestra procede de una población normal.
7. (ejercicio 22, relación tema 11) Para comparar la productividad de dos talleres de artesanía
pertenecientes a una misma empresa, se obtuvo en sendas muestras de 4 y 5 meses, la
185
cantidad de unidades producidas de un artículo concreto, el resultado se muestra a
continuación:
Taller 1
70
60 70 40
Taller 2
110 70 50 50 70
Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos
talleres es la misma. (α = 0.05) .
SOLUCIÓN:
muestras
ordenadas
F41 ( x)
40 ¼=0,25
0
50 ¼=0,25 2/5=0,4
60 2/4=0,5 2/5=0,4
70
1 4/5=0,8
110
1
1
Dexp = max F41 ( x) − F52 ( x) =
F41 ( x) − F52 ( x)
F41 ( x) − F52 ( x)
F52 ( x)
1
= 0, 25
4
0,2500
0,2500
-0,1500
0,1000
0,2000
0,0000
0,1500
0,1000
0,2000
0,0000
4
= 0,8
5
DT (0,05)bilateral =
Se acepta que la productividad de los dos talleres de artesanía es la misma dado que
Dexp < DT
8. (ejercicio 23, relación tema 11) Se desea contrastar si determinados incentivos a la
productividad son efectivos. Para ello un equipo de expertos somete a observación el
comportamiento en el trabajo de 5 trabajadores seleccionados al azar asignando a cada uno
de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la
observación sobre otros 5 trabajadores también seleccionados al azar. El resultado de
ambas fue
No incentivos 70 80
Incentivos
70 70 60
80 100 70 90 80
Realice un contraste de Kolmogorov-Smirnov. ( α = 0.05 )
SOLUCIÓN:
muestras
ordenadas
F51 ( x)
F51 ( x) − F52 ( x)
F52 ( x)
60 1/5=0,2
0
70 4/5=0,8 1/5=0,2
80
1 3/5=0,6
90
1 4/5=0,8
100
1
1
Dexp = max F51 ( x) − F52 ( x) =
186
3
= 0, 6
5
F51 ( x) − F52 ( x)
1/5=0,2
3/5=0,6
2/5=0,4
1/5=0,2
0,0
DT (0,05)unilateral =
3
= 0, 6
5
1/5=0,2
3/5=0,6
2/5=0,4
1/5=0,2
0,0
Se acepta que los incentivos a la productividad no son efectivos dado que si
Dexp ≤ DT unilateral no se rechaza la hipótesis nula de que las dos poblaciones (con incentivos
y sin incentivos) tienen el mismo comportamiento.
9. (ejercicio 24, relación tema 11) Se realiza una encuesta entre 7 familias de un barrio para
conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de
determinados programas de televisión “pago por visión”. Pasados tres meses se encuestan
otras 7 familias. Los resultados aparecen en la siguiente tabla. Contraste la hipótesis de
que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente
(utilice el contraste de Kolmogorov-Smirnov, α = 0, 05 ).
Primera encuesta
30
20
0
50
40
30
30
Tres meses después
20
20
10
60
0
30
20
SOLUCIÓN:
muestras
ordenadas
0
10
20
30
40
50
60
F71 ( x) − F72 ( x)
F71 ( x)
F72 ( x)
1/7=0,1429
1/7=0,1429
2/7=0,2857
5/7=0,7143
6/7=0,8571
1
1
1/7=0,1429
2/7=0,2857
5/7=0,7143
6/7=0,8571
6/7=0,8571
6/7=0,8571
1
Dexp = max F71 ( x) − F72 ( x) =
3
=0,4286
7
0,0000
-1/7=-0,1429
-3/7=-0,4286
-1/7=-0,1429
0,0000
1/7=0,1429
0,0000
DT (0,05)bilateral =
F71 ( x) − F72 ( x)
0,0000
1/7=0,1429
3/7=0,4286
1/7=0,1429
0,0000
1/7=0,1429
0,0000
5
= 0, 7143
7
Se acepta la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha
cambiado dado que Dexp < DT bilateral
187
188
EJERCICIOS
189
2. Muestreo Aleatorio Simple
1. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga
que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas
fue y = 1.040€ y la varianza muestral (“cuasivarianza”) es S2=45.000€2. Estime el
promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con
un intervalo de confianza al 95%.
Solución: µ ∈ (1.040 ∓ 20, 49 ) = (1.019,51 , 1.060, 49 )
τ ∈ (1.040.000 ∓ 20.490 ) = (1.019.510 , 1.060.490 )
2. Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes
para estimar
•
La proporción que votarán a un determinado representante de centro.
•
La proporción de ellos que tienen algún tipo de trabajo.
Sean yi , zi
(i = 1,...,100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0
cuando responden NO, yi = 1 cuando responden SI, análogamente para zi ).
Según la muestra
100
100
∑ yi = 70
∑z
i =1
i =1
i
= 25
Usando los datos de la muestra, estime p1 (proporción de estudiantes que votarán a un
determinado representante) p2 (proporción y número de estudiantes con algún tipo de
trabajo) y los límites para los errores de estimación correspondientes.
100
Solución p1 =
∑y
i =1
i
100
100
= 0, 70 (70%)
p2 =
∑z
i =1
i
100
= 0, 25 (25%)
2 V ( p1 ) = 0, 0868 (8, 68%)
2 V ( p 2 ) = 0, 0821 (8, 21%)
τ 2 = N p 2 = 900 × 0, 25 = 225
2 V (τ 2 ) = 900 × 0, 0821 = 73,89
3. Encuentre el tamaño de muestra necesario para estimar el valor total de 1.000 cuentas por
cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con
datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las
cuentas caen dentro del intervalo (600, 1.400).
Solución: n = 615, 62 ≈ 616
4. Los alumnos de TAM de una facultad con 3.000 estudiantes desean realizar una encuesta
para determinar la proporción de estudiantes que están a favor de hacer exámenes en
190
sábado con un límite para error de estimación del 10%. La información previa disponible
indica que el 60% preferían los exámenes en sábado. También se quiere estimar la
proporción de estudiantes que apoyan al equipo decanal con un error máximo de
estimación del 5%. Determinar el tamaño muestral que se requiere para estimar ambas
proporciones con los límites de error especificados.
Solución: n = 353,04 ≅ 354
5. Un dentista está interesado en la efectividad de una nueva pasta dental. Un grupo de 1.000
niños de escuela participó en el estudio. Los registros de un estudio anterior mostraron que
había un promedio de 2,2 caries cada seis meses para el grupo. Después de un año de
iniciado el estudio, el dentista muestreó 10 niños para determinar cuánto habían
progresado con la nueva pasta dental. Usando los datos de la siguiente tabla:
Número de caries
en seis meses
1
0
2
4
3
2
4
3
5
2
6
0
7
3
8
4
9
1
10
1
¿Se puede decir que la incidencia media de las caries ha disminuido?
Niño
Solución: 2,2 ∈ (1,06, 2,94) ⇒ No
6. Un psicólogo desea estimar el tiempo de reacción medio para un estímulo en 200
pacientes de un hospital especializado en trastornos nerviosos. Una muestra aleatoria
simple de 20 pacientes fue seleccionada, y fueron medidos sus tiempos de reacción, con
los resultados siguientes: y = 2,1 segundos y S = 0,4 segundos. Estime la media poblacional
y establezca un límite para el error de estimación.
Solución: µˆ = 2,1; B = 0,1697
7. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas
telefónicas para estimar la proporción de hogares donde habita por lo menos una persona
mayor de 65 años de edad. La ciudad tiene 621 hogares, según la guía de teléfonos más
reciente. Una muestra aleatoria simple de 60 hogares fue seleccionada de la guía. Al
terminar la investigación de campo, de los 60 hogares muestreados, en 11 habita al menos
una persona mayor de 65 años. Estime la proporción poblacional y establezca un límite
para el error de estimación.
191
Solución: pˆ = 0,1833; B = 0,0958
8. El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un
operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron
aleatoriamente 5 operadores y se les tomó el tiempo. Los resultados obtenidos son los
siguientes:
Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3
¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del
taller para terminar dicha tarea es inferior a 6 minutos?
Solución: INTERV . CONF .: ( 3,91 min ., 6, 61 min .) Valores mayores e igual a 6 minutos
pertenecen al intervalo de confianza, por tanto no podemos aceptar esa hipótesis.
9. Un investigador está interesado en estimar el número total de árboles mayores de un cierto
tamaño específico en una plantación de 1.500 acres. Esta información se utiliza para
estimar el volumen total de madera en la plantación. Una muestra aleatoria simple de 100
parcelas de 1 acre fue seleccionada, y cada parcela fue examinada en relación con el
número de árboles de tamaño grande. La media muestral para las 100 parcelas de 1 acre
fue y = 25,2 árboles, con una varianza muestral de S 2 = 136 . Estime el número total de
árboles de tamaño grande en la plantación. Establezca un límite para el error de
estimación.
Solución: τˆ = 37.800; B = 3.379,9408
10. Usando los datos del ejercicio anterior, determine el tamaño de muestra requerido para
estimar el número total de árboles grandes en la plantación, con un límite para el error de
estimación de 1.500 árboles.
Solución: n = 399,413 ≅ 400
11. Con objetivos benéficos, una asociación filantrópica ha solicitado firmas para una petición
en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las
hojas se ha obtenido un número menor. Contando el número de firmas por hoja en una
muestra aleatoria de 50 hojas se han observado los siguientes resultados:
50
50
∑ Y = 1.450; ∑ Y
i =1
i
i =1
i
2
= 54.496
¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de
firmas recogidas para la petición?
Solución:
( 20.300 ∓ 3.040, 66 ) = (17.259,34 , 23.340, 66 )
Previsión más optimista: 23.340 ; previsión más pesimista: 17.259
192
12. Una muestra aleatoria de 30 familias fue extraída de una zona de cierta ciudad que
contiene 14.848 familias. El número de personas por familia en la muestra obtenida fue el
siguiente:
5 6 3 3 2 3 3 3 4 4 3 2 7 4 3
5 4 4 3 3 4 3 3 1 2 4 3 4 2 4
Estimar el número total de personas en la zona, construyendo un intervalo de confianza al
95%.
Solución: (44.842,09, 58.104,04 )
13. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su
“Tarjeta de Compras”. Durante una semana observaron al azar 200 compras de las cuales
35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta.
b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la
proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una
muestra previa)
c) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas
con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total
de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza de los datos
625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación
asociado.
Solución: a) p ∈ (12,11% , 22,89% ) . b) n =
c) y =
pq
= 641, 6 ≈ 642 .
D
1 n
5600
yi =
= 160€ B = 2 V ( y ) = 8, 45€
∑
35
n i =1
14. Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000
préstamos hipotecarios. Existen razones para pensar que el préstamo hipotecario de menor
cuantía es de algo más de 1200 euros, siendo de casi 11000 euros el de mayor cuantía.
¿cuál es el tamaño muestral necesario para estimar estos dos parámetros:
-
la cuantía media de los prestamos cometiendo un error de estimación menor de 400
euros y
-
la proporción de préstamos pendientes de amortizar más de la mitad de la deuda
cometiendo un error máximo del 5%?
Solución: n = 139, 65 ≈ 140
n = 333, 47 ≈ 334
193
15. Se desea estimar el salario medio entre los empleados de una empresa y la proporción de
empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que
el salario está comprendido entre los 1500 y 1800 euros mensuales. ¿Cuál debe ser el
tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y
al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido
sea del 2%?
Solución: n = 74,1 ≈ 75
n = 105, 4 ≈ 106
16. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las
empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en
el registro mercantil. El número de bajas en el último año, el número de empleados y la
respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo
temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1
1
7
Si
2
2
15
No
3
9
85
Si
4
0
3
No
5
2
12
No
a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule
el límite para el error de estimación.
b) Estime el número de empresas que usarían los servicios ofertados. Calcule el
límite para el error de estimación.
Solución: a) τ = N y = 70 B = 2 V (τ ) = 71, 2741
b) τ = N p = 10 B = 2 V (τ ) = 10,9545
17. Se han entrevistado 1.000 vecinos, elegidos aleatoriamente de entre los más de cien mil
habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales.
655 manifestaron su opinión desfavorable. Estime la proporción de vecinos que están en
contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Se
puede afirmar que la mayoría de los habitantes están en contra?
Solución: p ∈ (62, 49% , 68,51%) ⇒ p > 50% ⇒ si se puede afirmar ...
18. El Centro de Estadística desea estimar el salario medio de los trabajadores de los
invernaderos de una región. Se decide clasificarlos en dos estratos, los que poseen contrato
fijo y los que tienen un contrato temporal. El salario de los contratos fijos está
comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos
temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser el tamaño
muestral total y su asignación para que se estime el salario medio de los contratos fijos con
194
un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior
a 120€?
Solución: n1 = 25 n2 = 25 n = n1 + n2 = 50
19. Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el
valor medio de las compras por cliente.
VALOR en €
33,5 32
52
43
40
41
45
42,5
39
a) Obtener un intervalo de confianza para el valor medio de las compras.
b) ¿Podemos aceptar que la compra media es de 45€?
c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€?
Solución: a) ( 40,89 − 3,98 ; 40,89 + 3,98 ) = ( 36,91; 44,87 )
b) No porque 45 ∉ ( 36,91; 44,87 )
c) n = 35, 67 ≈ 36 compras
20. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas
telefónicas para estimar la proporción de hogares donde habita por lo menos una persona
mayor de 65 años de edad. La ciudad tiene 5000 hogares, según la guía de teléfonos más
reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Al
terminar la investigación de campo, de los 300 hogares muestreados, en 51 habita al
menos una persona mayor de 65 años. Contraste la hipótesis de que en el 25% de los
hogares de esa ciudad habita al menos una persona mayor de 65 años.
Solución: 25% ∉ (17% ∓ 4, 21% ) = (12, 79%, 21, 21% ) luego se rechaza la hipótesis de
que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65
años.
21. El consumo medio de combustible de los taxis de una ciudad es 5,6 litros cada 100 Km.
Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un
dispositivo para disminuirlo. Pasado cierto tiempo se toma una muestra aleatoria de 20
taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de
combustible por cada 100 Km se recoge en la siguiente tabla
Taxi nºConsumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo
1
5,4
6
6,3
11
3,6
16
5,4
2
5,5
7
5,4
12
6,7
17
4,8
3
6,9
8
5
13
5,2
18
4,7
4
3,9
9
4,5
14
5,1
19
5,8
5
4,5
10
4,4
15
5,4
20
6,2
a) Estímese mediante un intervalo de confianza la proporción de taxis con un
consumo inferior a 5,6 litros/100 Km.
b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error
menor o igual que un 10%?
195
Solución: (a) ( 55' 47%, 94 '53% ) (b) n = 66, 77 ≅ 67
3. Muestreo Aleatorio Estratificado
1. Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un
año de un determinado producto en una comarca formada por cuatro municipios. Para
estimar de paso también el consumo en cada municipio decide usar muestreo estratificado
tomando cada municipio como un estrato. Se sabe que el 20% de la población de la
comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el
25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y
obtener datos sobre el consumo anual de 20 hogares.
Dado que no tiene información previa respecto a las varianzas de los estratos y porque el
coste del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual
conduce a
N1
= 20 × 0, 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 .
N
Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros).
n1 = n
Estrato 1
Estrato 2
Estrato 3
Estrato 4
470
510
500
550
490
500
470
520
550
500
y 2 = 505 S 22 = 750
540
480
500
470
470
450
560
460
440
580
y1 = 507,5 S12 = 1091, 67
y 3 = 492 S32 = 870 y 4 = 498 S 42 = 4420
Estime el consumo anual medio por hogar y fije un límite para el error de estimación.
4
Solución:
y st = ∑
i =1
Ni
y i = 500,5€
N
2 V ( y st ) = 18, 79 €
2. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al
por menor. Sin embargo, identificar las facturas individuales sin consultar un archivo es
complicado. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio
de las facturas de la empresa (Nota para estimar el total necesitaríamos conocer N). Una
muestra aleatoria simple presentó 70 facturas al por mayor y 30 al por menor. Los datos
196
son separados en facturas al por mayor y al por menor después del muestreo, con los
siguientes resultados en €:
Por mayor
Por menor
Valor total facturas=36400€
Valor total facturas=8400€
n1 = 70
y1 = 520€ S1 = 210€
n2 = 30
y 2 = 280€ S 2 = 90€
Estime el valor medio de las facturas de la empresa, y fije un límite para el error de
estimación.
Solución:
yst = 376€; B = 28,14€
3. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de
ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella
sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la
operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria
de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la
operación B. De entre los circuitos integrados muestreados de la operación A, 2 son
defectuosos. De entre las piezas muestreadas de la operación B, 16 son defectuosas.
a) Considerando únicamente la muestra aleatoria simple de 100 circuitos
integrados, estime la proporción de los defectuosos en el lote, y establezca un
límite para el error de estimación.
b) Estratifique la muestra, después de la selección, en circuitos integrados
provenientes de la operación A y B, estime la proporción de los defectuosos en
la población, y fije un límite para el error de estimación.
c) ¿Qué respuesta encuentra más aceptable? ¿Por qué?
Solución:
a. p =
18
= 0,18 (18%)
100
b. p st =
1
N
L
L
i =1
i =1
∑ Ni pi = ∑
2 V ( p) = 0, 0772
( 7, 72% )
Ni
2  
16 

p i =  0, 60  +  0, 40  = 0,14
N
20  
80 

2 V ( p st ) = 0, 0901
(14% )
( 9, 01% )
c) Aunque en el conjunto de la población hay más elementos que proceden de A (60%)
que de B (40%), la muestra global no representa adecuadamente este hecho,
predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el
apartado a. la estimación esté sesgada hacia el valor de B ( p 2 = 0, 20 ) frente al de A
197
( p1 = 0,10 ). En el apartado b.
este hecho se corrige dando a p1 y p 2 las
ponderaciones 0,60 y 0,40 respectivamente para estimar p.
4. Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30
en Sevilla. La dirección está considerando añadir un nuevo producto en el menú. Para
contrastar la posible demanda de este producto, lo introdujo en el menú de muestras
aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los índice
1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las
desviaciones típicas muestrales del número de pedidos de este producto recibidos por
restaurante en las tres ciudades durante una semana fueron:
y1 = 21, 2
S1 = 12
y2 = 13,3
S 2 = 11
y3 = 26,1
S3 = 9
a) Estimar el número medio de pedidos semanales por restaurante para los
restaurantes de la cadena. Dar un límite del error de estimación.
b) Determinar el tamaño muestral y la asignación para repetir el estudio anterior
cometiendo un error inferior a 3 pedidos.
Solución:
a. y st =
L
1
N
∑N y
i =1
i
i
=
3834
= 19,17 pedidos / semana
200
2 V ( y st ) = 5, 02 pedidos / semana
(∑ N σ )
2
L
b. D =
2
B
9
= = 2, 25
4 4
n=
i =1
i
i
L
N D + ∑ N iσ
2
i =1
n1 = 23,31 ≈ 24 n2 = 14,96 ≈ 15
= 43,52
2
i
n3 = 5, 24 ≈ 6 n = 45
5. De las 1.395 universidades de Estados Unidos, 364 imparten estudios universitarios de
dos años y 1.031 estudios universitarios de cuatro años. Se recogieron de manera
independiente, una muestra aleatoria simple de 40 universidades con estudios de dos años
y otra de 60 con estudios de 4 años. Las medias muestrales y las desviaciones típicas del
número de estudiantes matriculados el pasado año en asignaturas de estadística aparecen a
continuación.
Carreras de 2 años Carreras de 4 años
198
Media
154,3
411,8
Desviación típica
87,3
219,9
a) Estimar el número total de estudiantes matriculados en asignaturas de estadísticas. Dar
un límite de error de estimación.
b) En el estudio del ejercicio anterior, se investigó también en qué proporción de las
universidades la asignatura de estadística para economistas era impartida por
miembros del departamento de economía. En la muestra se halló que en 7 de las
universidades con carreras de dos años y en 13 de las que tienen carreras de cuatro
años sucedía esto. Estimar la proporción de universidades en las que esta asignatura es
impartida por profesores del departamento de economía. Dar un límite de error de
estimación.
Solución:
(a) τˆst = 480.731; B = 57.594,84 (b) pˆ st = 0,2058; B = 0,0826
6. Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro
barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los
miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5
(totalmente a favor) su opinión sobre el servicio propuesto. Los resultados se resumen en
la tabla adjunta:
Barrio
1
2
3
4
N i 240 190 350 220
ni
25 25 25 25
y i 3,5 3,6 3,9 3,8
S i 0,8 0,9 1,2 0,7
a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán
del nuevo servicio.
b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos
pertenecerían al barrio 3. (Suponga iguales los costes de observación)
Solución:
(a) yst = 3, 725; B = 0,1973; (3,5277 ; 3,9223) (b) n3 = 44,82 ≈ 45
7. Una universidad tiene 152 profesores ayudantes, 127 profesores asociados y 208
profesores titulares. Una reportera del periódico de los estudiantes quiere averiguar si los
profesores están realmente en sus despachos durante las horas de tutorías. Decide
investigar muestras de 40 profesores ayudantes, 40 asociados y 50 titulares. Algunos
estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus
horas de tutorías. Se halló que 31 de los profesores ayudantes, 29 de los asociados y 34 de
los titulares se encontraban realmente en sus despachos. Hallar un intervalo de confianza
para la proporción de profesores que permanecen en sus despachos durante las horas de
tutorías.
Solución:
pˆ st = 0,7214; B = 0,0685
199
8. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compañía. La
población se divide en cuatro estratos que contienen 500, 400, 300 y 200 facturas,
respectivamente. Basándose en una experiencia previa, se estima que las desviaciones
típicas en estos estratos son de 15, 20, 30 y 40 euros, respectivamente. Determinar el
tamaño muestral y la asignación para estimar el valor medio de las facturas por cobrar
cometiendo un error de como mucho 5 euros.
Solución:
n1 = 18,59; n2 = 19,83; n3 = 22,31; n4 = 19,83; n = 80,55
9. Un ayuntamiento está interesado en ampliar las instalaciones de un centro de atención
diurna para niños. Se va a realizar una encuesta para estimar la proporción de familias con
niños que utilizarán las instalaciones ampliadas. Las familias están dividas en aquellas que
en la actualidad usan las instalaciones y las que aún no la usan. Aproximadamente el 90%
de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas
instalaciones. Los costos por efectuar la observación de un cliente actual es de 4€ y de 8€
para uno que no lo es. Registros existentes nos dan que existen 97 familias que en la
actualidad utilizan las instalaciones y 145 que no lo hacen.
a) Encuentre el tamaño muestral aproximado y la asignación necesaria para estimar la
proporción poblacional con un límite de 0,05 para el error de estimación.
b) Suponga que el costo total de muestreo se fija en 400 € . Elija el tamaño de la
muestra y la asignación que minimiza la varianza del estimador para este costo fijo.
Solución: (a) n1 = 47; n2 = 83; n = 130 (b) n1 = 22;
n2 = 39; n = 61
10. De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefacción eléctrica. Al
realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los
siguientes resultados:
Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral
Eléctrica
24
972
202,396
No eléctrica
36
463
96,721
a) Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad.
Dé un límite para el error de estimación.
b) Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas
que no tienen calefacción eléctrica. Dé un límite para el error de estimación.
Solución:
a. y st = 701,50
2 2,19 = 2,96
b. y 2 = 463
2 2,17 = 2,94
11. Un analista de la opinión pública tiene un presupuesto de 20.000 euros para realizar una
encuesta sobre el número medio de coches por hogar. Se sabe que de los 10.000 hogares
de la ciudad, 9.000 tienen teléfono. Las entrevistas por teléfono cuestan 10 euros por
hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga
200
que las varianzas en los estratos con y sin teléfono son iguales. Con el objetivo de
minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en
cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por
teléfono y los hogares sin teléfono son entrevistados personalmente?
n1 = 1677, 2 ≈ 1677 n2 = 107,59 ≈ 107 n = n1 + n2 = 1784
12. Se desea conocer el número de fines de semana que las familias de una gran ciudad salen
Solución:
fuera de ella. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos, el 30% tienen de
3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un muestreo según el número de
hijos y se preguntó a las familias sobre los fines de semana que pasan fuera, obteniéndose
los siguientes datos:
Número de hijos ni
n
∑ yi
S i2
i =1
0-2
25 239 60’76
3-5
19 174 63’01
Mas de 5
16 78 78’24
Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y
dar el límite de error de estimación. Omitir el corrector por población finita. Solución:
y st = 8,15
2 1,107 = 2,1
13. En una población compuesta por aproximadamente igual número de hombres que de
mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la
encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono
del citado municipio. Después de obtenidos los datos se observa que sólo 100 de los
encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una
estratificación después de seleccionar la muestra obteniéndose los siguientes datos
Ni
HOMBRES
2.500
MUJERES
2.700
ni
100
400
yi
120
250
9.000
16.000
Si2
Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante
muestreo aleatorio estratificado después de seleccionar la muestra.
Solución:
y st = 187,5
2 29,16 = 10,8
14. En una población compuesta por aproximadamente igual número de hombres que de
mujeres se desea estimar la proporción de individuos que ven un determinado programa
de televisión. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria
simple de 300 números de teléfono. Después de obtenidos los datos se observa que sólo
201
50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo
una estratificación después de seleccionar la muestra obteniéndose los siguientes datos
HOMBRES
MUJERES
Encuestados
50
250
Ven el programa
12
130
Estime la proporción de la población que ven el programa de televisión y su cota de error,
mediante muestreo aleatorio estratificado después de seleccionar la muestra.
Solución:
p st = 0,38 ⇒ p st = 38%
2 V ( p st ) = 0, 0687 ⇒ 6,87%
15. Una corporación desea estimar el número total de horas perdidas debido a accidentes de
sus empleados, en un determinado mes. Ya que los obreros, técnicos y administrativos
tienen diferentes tasas de accidentes, la corporación decide usar muestreo estratificado,
formando con cada grupo un estrato. Datos de años previos sugieren las cuasivarianzas
mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres
grupos, y de datos actuales se obtienen los tamaños de los estratos. No habiendo
diferencia entre los costes de observación de cada grupo, determine la mejor asignación
para una muestra de 40 empleados.
Obreros
Técnicos
Administrativos
Si2
36
25
9
Ni
132
92
27
Solución:
n1 = 40 × 0,5941 = 23,8 ≈ 24 n2 = 40 × 0,3451 = 13,8 ≈ 14 n3 = 40 × 0, 0608 = 2, 4 ≈ 2
16. Se dispone de la siguiente información sobre tamaños poblacionales de los estratos, costes
de observación y estimaciones de las proporciones
Tamaño del estrato Coste de observación Proporciones en %
ESTRATO 1
5000
9
90
ESTRATO 2
2000
25
55
ESTRATO 3
3000
16
70
Determine la mejor asignación para una muestra de 200 observaciones.
Solución:
n1 = 200 × 0, 4795 = 95,9 ≈ 96 n2 = 200 × 0,1909 = 38, 2 ≈ 38 n3 = 200 × 0,3296 = 65,9 ≈ 66
17. En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar
una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se
obtuvieron los siguientes resultados:
Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral
Eléctrica
60
5730
200
No eléctrica
40
2080
90
202
Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un
límite para el error de estimación.
Solución:
y st =
1
N
2
2
Ni
∑N y =∑ N
i =1
i
i
y i = 65, 05€
i =1
2 V ( y st ) = 25,24€
18. Para la comercialización de un producto se le clasifica, atendiendo al calibre, en tres
categorías: pequeña, mediana y grande. Un establecimiento dispone de 300 piezas
pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto
almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las
categorías, resultando
Categoría Nº de piezas Peso en gramos
Pequeña 5
12, 14, 12, 15, 12
Mediana 6
16, 22, 24, 20, 20, 18
Grande
4
30, 33, 31, 34
Considerando los anteriores datos como una muestra previa, obtenga el número de
unidades que cada categoría debe aportar a la muestra para que el error en la estimación
del peso total no supere el medio kilo.
Solución:
(∑ N σ )
2
L
D=
B2
250.000
=
= 0, 0625
2
4N
4.000.000
n=
i =1
i
L
i
N D + ∑ N iσ
2
i =1
= 71, 66
2
i
n1 = 13, 79 ≈ 14 n2 = 45,99 ≈ 46 n3 = 11,87 ≈ 12 n = 72
19. La producción de piezas de una factoría se realiza en dos máquinas. El 40% de las piezas
las produce la máquina A y el 60% restante la máquina B. Se les pasó control de calidad a
200 piezas; 67 producidas por la máquina A y dos de ellas resultaron defectuosas; las 133
restantes procedían de la máquina B, siendo 6 de ellas defectuosas. Estime la proporción
de piezas defectuosas de la factoría y dé el límite del error de estimación. Omita el
coeficiente corrector por población finita.
Solución:
pˆ = 3,9%;
B = 2,74%
20. Una empresa especializada en seguros está pensando en ofrecer sus servicios a las
empresas de los polígonos industriales de una ciudad. Para ajustar sus tarifas desea
estimar el gasto de dichas empresas en pequeñas reparaciones de mantenimiento (objeto
del seguro). Se clasifican las empresas en función de su tamaño. El número de empresas
de cada tipo, el coste de obtención de esta información en cada empresa así como los
valores mínimos, medios y máximos de un estudio similar hecho hace dos años se
expresan en la siguiente tabla (los costes y gastos están expresados en euros)
203
Tipo de
Número de
Costes de
Gastos de reparación
empresa
empresas
observación Mínimo
Media
Máximo
A
100
16
400
500
600
B
500
9
240
300
360
C
700
4
70
100
130
Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas
empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de
estimación asociado?
Solución: n1 = 8; n 2 = 34; n3 = 36; n = 78 (8 x6 + 34 x9 + 36 x 4 = 578€)
21. En un centro escolar se quiere realizar una encuesta para conocer la proporción de padres
que estarían dispuestos a participar en actividades. Se quiere estimar la proporción de
padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se
decide estratificar según la edad de los alumnos. A partir de la información proporcionada
por la siguiente tabla, obtener el número óptimo de padres que, de cada estrato, hay que
encuestar para que la proporción de participación de los padres con hijos de edades entre 6
y 8 años sea estimada con un error menor o igual al 10%. (Suponemos que cada padre
tiene un solo hijo en el centro)
Años
Alumnos
matriculados
150
130
120
100
Porcentaje de participación en años
anteriores
40%
30%
25%
20%
Coste de encuestar a un
elemento
4
9
16
25
4-6
6-8
8-12
12-14
Sol. n = 200,3; n1 = 94,84 ≅ 95; n 2 = 51,27 ≅ 52; n3 = 33,53 ≅ 34; n 4 = 20,65 ≅ 21 ⇒ n = 202
22. El coste de transportar mercancías en avión depende del peso. Un determinado embarque
de una fábrica consistía en las máquinas producidas por la citada fábrica a lo largo de las
dos últimas semanas. Se decide estratificar basándose en las semanas, con el fin de
observar si existe variación semanal en la cantidad producida. Las muestras aleatorias
simples de los pesos (en kilos) de las máquinas transportadas en el embarque, para las dos
semanas, mostraron las siguientes mediciones:
Semana A Semana B
204
58,3
59,2
60,4
60,1
59,3
59,6
58,7
59,2
59,1
58,8
59,6
60,5
a. Estimar el peso total del embarque de maquinaria, sabiendo que el número total de
máquinas producidas ha sido de 162 en la semana A y de 170 en la semana B.
b. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria.
c. Determinar el tamaño de la muestra y su asignación, en el caso de que se quiera
estimar el peso total del embarque, con un límite para el error de estimación de 50
kg. Las dispersiones en los pesos se suponen diferentes de una semana a otra.
Considere las muestras anteriores como muestras previas para estimar los
parámetros necesarios.
Solución: (a) τˆ = 19.722,13
(b) (19.593'71, 19.850'56)
(c) n = 65,67; n1 = 34,37 ≅ 35; n 2 = 31,30 ≅ 32 ⇒ n = 67
23. Una cadena de almacenes está interesada en estimar la proporción de cuentas no cobradas.
La cadena está formada por 4 almacenes, siendo el coste de muestreo igual para todos. Se
usa muestreo aleatorio estratificado, con cada tienda como un estrato.
Estrato I Estrato II Estrato III Estrato IV
Nº cuentas por cobrar
N 1 = 65
N 2 = 42
N 3 = 93
N 4 = 25
Tamaño muestra
n1 = 14
n2 = 9
n3 = 21
n4 = 6
2
8
1
Nº cuentas no cobradas 4
a. Estime la proporción de cuentas no cobradas para la cadena y fije un límite para el
error de estimación.
b. Utilice los datos anteriores para determinar la asignación y el tamaño de la muestra
necesarios para estimar la proporción de cuentas no cobradas, con un límite del
error de estimación del 5%.
Solución: (a) pˆ = 0,30; B = 0,1173
(b) n = 132,30; n1 = 38,35 ≅ 39; n 2 = 22,80 ≅ 23; n3 = 58,98 ≅ 59; n 4 = 12,17 ≅ 13 ⇒ n = 134
24. Una escuela desea estimar la calificación media que puede obtener en el examen final de
matemáticas en este curso. Los estudiantes de la escuela se agrupan en tres estratos según
el tipo de aprendizaje, clasificado como N=Normal, A=Avanzado, L=Lento. En el
presente curso, la distribución de los alumnos según el tipo de aprendizaje es 50 normal,
30 avanzado y 20 lento, la calificación media de los estudiantes según el tipo de
aprendizaje fue en el primer examen parcial: 75 para el normal, 89 para el avanzado y 70
para el lento, con unas cuasivarianzas de 80, 30 y 40 respectivamente.
Para actualizar esta información, se tomó una muestra aleatoria de estudiantes, se les hizo
el examen final de matemáticas y se obtuvieron las siguientes calificaciones (entre
paréntesis, el tipo de aprendizaje de cada estudiante):
205
70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A)
91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L)
Se pide:
a. Estime la calificación media en el examen final de matemáticas. De una medida del
error de estimación.
b. ¿Qué ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados
de ambos métodos de estimación, así como determine la ganancia en precisión.
c. Se desea mejorar la estimación de la nota media del examen final en matemáticas,
teniendo en cuenta más información. Usando estos resultados como muestra
previa, qué tamaños muestrales en cada estrato son necesarios para un error
máximo admisible de 2 puntos, utilizando asignación proporcional.
d. Estime, con un intervalo de confianza, el número de estudiantes con aprendizaje
normal que han superado los 80 puntos. Si se pudiera planificar de nuevo la
muestra, ¿qué tamaño de muestra sería necesario para que esta misma estimación
tuviera un error máximo admisible de 10 estudiantes?
Solución: (a) µˆ = 78,59; B = 3, 21
(b) µˆ = 77,53; B = 4,25
(c) n = 36,31; n1 = 18,15 ≅ 19; n 2 = 10,89 ≅ 11; n3 = 7,26 ≅ 8 ⇒ n = 38
(d) (11,87, 43,69); n = 16,8 ≅ 17
25. Se desea estimar el salario medio de los empleados de una empresa. Se decide
clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato
temporal. Los primeros son 143 y su salario varía entre 1500 y 2500 euros mensuales. Los
contratos temporales son 320 y su salario está comprendido entre 700 y 1800 euros
mensuales. ¿Cuál debe ser el tamaño de la muestra y su asignación para que al estimar el
salario medio mensual el error de estimación sea inferior a 100 euros?
Solución: Neyman n = 26,91
206
n1 = 7, 77 ≅ 8
n2 = 19,14 ≅ 20 ⇒ n = 28
4. Estimación de Razón, Regresión y Diferencia
1. Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha
ciudad, vía declaración de la renta, ascienden a 1.502.530 euros mensuales. Se realiza una
encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen
en esta tabla.
Renta Consumo
1.702,44
1.204
1.339,56
1.000
981,06
800
2.537,04
1.800
1.519,85
1.200
3.080,19
2.600
1.502,53
1.080
1.702,87
1.240
1.402,36
1.000
1.803,04
1.400
2.053,46
1.484
3.005,06
2.000
Estime el consumo total mensual para todos los hogares de la ciudad mediante el
estimador de razón. De el LEE.
Solución:
τˆy = 1.116.002, 07€; B = 59.053,37€
2. Mediante una tasación previa se desea estimar la producción media y la producción total
de los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada
es de 3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los
que se les preguntó por la superficie plantada y se les tasó su producción. Los resultados
fueron:
Superficie Producción
3,7
12
4,3
14
4,1
11
5
15
5,5
16
3,8
12
8
24
5,1
15
5,7
18
6
20
3
8
7
20
5,4
16
4,4
14
207
5,5
18
5
15
5,9
18
5,6
17
5
15
7,2
22
a) Estimar la producción media y total mediante los estimadores de razón y m.a.s. Dar
sus respectivos LEE y compararlos.
b) Supongamos que queremos reducir el LEE de la media a 0,25 toneladas y el LEE del
total no debe superar las 200 toneladas ¿a cuántos socios se les debe tasar su
producción antes de realizar una nueva estimación?
Solución:
(a) razón : µˆ y = 15,57 tm; Bµ = 0,37 tm; τˆy = 11.680, 61 tm; Bτ = 278,14 tm
m.a.s.: µˆ = y = 16 tm; Bµ = 1, 69 tm; τˆ = 12.000 tm; Bτ = 1.265, 76 tm
(b) 43 socios para estimar la media, 38 socios para estimar el total, se toma el máximo
n=43.
3. Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre la
media y el total de ventas diarias. Se tiene información de que, por término medio, el
gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se
les toma dato de su gasto en publicidad diaria y sus ventas diarias. Los resultados son:
Gastos Ventas
3,7
120
4,3
140
4,1
135
5
150
5,5
160
3,8
120
8
160
5,1
150
5,7
125
6
130
0
80
7
150
5,4
150
4,4
120
5,5
140
5
150
5,9
150
6,6
170
a) Estimar la media y el total de ventas diarias utilizando estimadores de
regresión. Dar LEE.
208
b) Se quiere repetir el estudio anterior de forma que la estimación del total no
supere los 1.000 euros ¿cuál debe ser el tamaño muestral?
Solución: (a) µˆ yL = 138,31€; B µ = 5,56€; τˆ yL = 138.314,38€; Bτ = 5.559,76€
(b) n = 361,67 ≅ 362 establecimientos
4. Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario.
Se tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar
una muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose:
Ingresos Gastos
470
405
650
585
710
650
300
240
475
410
505
435
610
550
380
320
540
480
520
460
a) Estime el gasto medio y el gasto total diario para los 200 establecimientos
utilizando muestreo aleatorio simple, estimadores de razón, regresión y
diferencia. Obtenga el LEE en cada caso.
b) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y
cometiendo un error máximo de 300 euros al estimar el total ¿cuál debe ser el
tamaño muestral?
Solución: (a)
Muestreo aleatorio simple
µˆ = y = 453,5€
τˆ = Ny = 90.700€
ˆ µˆ ) = 75,20€
Bµ = 2 V(
Bτ = 200 × Bµ =15.040,97€
Estimadores de razón
r=
y
= 0,879
x
Bµ = 9,3€
τˆy = rτ x = 87.900€
µˆ y = r µ x = 439,5€
Bτ = 1.860,46€
Estimadores de regresión
µˆ yL = 437,515€
Bµ = 2,3104€
τˆyL = N µˆ yL = 87.503€
Bτ = NBµ = 462, 09€
Estimadores de diferencia
µˆ yD = 437,5€
τˆyD = N µˆ yD = 87.500€
209
Bµ = 2 Vˆ ( µˆ yD ) = 2,179
Bτ = NBµ = 435,8899
(b) 20 establecimientos
5. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en
alimentos sobre el ingreso por año, para las familias de una pequeña comunidad. Una
muestra aleatoria de 14 familias fue seleccionada de entre 150. Los datos de la muestra se
presentan en la siguiente tabla:
Familia Ingreso Total Gasto en alimentos
1
25100
3800
2
32200
5100
3
29600
4200
4
35000
6200
5
34400
5800
6
26500
4100
7
28700
3900
8
28200
3600
9
34600
3800
10
32700
4100
11
31500
4500
12
30600
5100
13
27700
4200
14
28500
4000
Estime la razón poblacional, y establezca un límite para el error de estimación.
Solución: r = 0,1467; B = 0,0102
6. Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las
ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de
ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses
correspondiente al año anterior, ese total es de 128.200 €. Una muestra aleatoria simple de
5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la
siguiente tabla:
Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual
1
550
610
2
720
780
3
1500
1600
4
1020
1030
5
620
600
a) Usando un estimador de razón, estime el total de ganancias con un intervalo de
confianza.
b)
Utilizando un estimador de regresión y un estimador de diferencia, estime las
ganancias medias y establezca un límite para el error de estimación.
Solución: a) τ y ∈ (129940, 67 , 138668,85 )
210
b) µˆYL = 1.094,53; B = 40, 46 ; µˆYD = 1.084, 28; B = 41, 28 .
7. Una agencia de publicidad está interesada en el efecto de una nueva campaña de
promoción regional sobre las ventas totales de un producto en particular. Una muestra
aleatoria simple de 20 tiendas es seleccionada de 452 tiendas regionales en las cuales se
vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo
actual de tres meses y para el periodo de tres meses previo a la nueva campaña.
Tienda Ventas antes de Ventas Tienda Ventas antes de Ventas
la campaña
actuales
la campaña
Actuales
1
208
239
11
599
626
2
400
428
12
510
538
3
440
472
13
828
888
4
259
276
14
473
510
5
351
363
15
924
998
6
880
942
16
110
171
7
273
294
17
829
889
8
487
514
18
257
265
9
183
195
19
388
419
10
863
897
20
244
257
a. Use los siguientes datos para estimar el total de ventas para el periodo actual y
establezca un límite para el error de estimación. Supóngase que las ventas totales
en el periodo previo a la campaña de promoción fueran de 216.256 €. Use los tres
métodos de estimación con información auxiliar.
b. Determinar el tamaño requerido de muestra para estimar τˆY con un límite para el
error de estimación igual a 2.000€.
Solución: (a) τˆY = 231.611,86; B = 3.073,83 ; τˆYL = 231.581,66; B = 2.950,85 ;
τˆYD = 231.511,00; B = 3.849,01
(b) Razón: n = 44,56 ≅ 45 ; Regresión: n = 41,38 ≅ 42 ; Diferencia: n = 66,16 ≅ 67
8. El ingreso nacional para 1981 será estimado con base en una muestra de 10 sectores
industriales que declaran sus ingresos de 1981 antes que las 35 restantes. (Existen 45
sectores industriales que se utilizan para determinar el ingreso nacional total). Se dispone
de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2.174,2
(en miles de millones). Los datos se presentan en la tabla adjunta:
Industria
Producto de fábricas textiles
Productos químicos y relacionados
Madera aserrada y leña
Equipo eléctrico y electrónico
Vehículos y equipo
Transporte y almacenaje
Banca
1980
13,6
37,7
15,2
48,4
19,6
33,5
44,4
1981
14,5
42,7
15,1
53,6
25,4
35,9
48,5
211
Bienes Raíces
198,3
Servicios de Salud
99,2
Servicios de Educación
15,4
(a) Encuentre el estimador de razón del ingreso total de
221,2
114,0
17,0
1981, y establezca un límite
para el error de estimación.
(b) Encuentre el estimador de regresión del ingreso total de 1981, y establezca un
límite para el error de estimación.
(c) Encuentre el estimador de diferencia del ingreso total de 1981, y establezca un
límite para el error de estimación.
(d) ¿Cuál de los tres métodos es el más apropiado en este caso?¿Por qué?
Solución: (a) τˆY = 2.433,30; B = 45,95 (b) τˆYL = 2.432,91; B = 48,64
(c) τˆY = 2.455,90; B = 180,07
9. En una población de 500 hogares, para la que es conocido que el gasto total general
durante un año es de 15.000.000 €, se quiere estimar el gasto total en alimentación durante
un año, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona
los siguientes valores anuales en €:
Gasto en alimentación 12.500 15.000 10.000 17.500
Gasto general
24.000 31.000 20.000 36.000
Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?,
justifíquese. Estime con un estimador de razón el total de gasto en alimentación mediante
un intervalo de confianza.
Solución: τ y ∈ ( 7.205.693€ ; 7.659.172€ )
10. Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una
agencia de seguros, en el presente mes, han sido (en euros)
570
721
650
650
569
Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros,
estime el total de ingresos y el límite para el error de estimación.
Solución: τ yD = N µ yD = 3349000 €
V (τ yD ) = N 2
N − n S D2
S2
= N ( N − n ) D = 50169875 € 2
N n
n
2 V (τ yD ) = 14166,14 €
11. Se desea conocer las ventas medias (en euros / habitante) en este año de un determinado
producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con
200 habitantes. Se sabe que las ventas medias en ese municipio el año pasado fueron de
170 euros / habitante. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra
de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio
(expresado en euros), este año (Y) y el año pasado (X):
212
Pueblo A Pueblo B
xi yi xi yi
204 210 137 150
143 160 189 200
82 75 119 125
256 280
a. Sin hacer distinción entre pueblos, estime las ventas medias para este año
utilizando un estimador de razón. Dé un límite para el error de estimación.
b. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado pero si el
pueblo?
c. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado ni se hace
distinción entre pueblos?
d. Compare los estimadores que se obtienen en cada caso justificadamente.
Solución: (a) µˆ = 180,53; B = 5,69 (b) µˆ = 171,91; B = 53,81 (c) µˆ = 171,43; B = 49,53
(d) La mejor estimación es en la que se usa el estimador de razón, por la fuerte relación
entre las variables. El muestreo estratificado se comporta mal porque los estratos no son
homogéneos.
12. Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego
constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamaño y litros
utilizados en riego aparecen en la siguiente tabla
Litros
600
1800
750
900
1100
1400
950
700
1000
720
Hectáreas
50
150
60
70
100
120
80
60
90
60
Estime la media de litros/hectárea que utiliza la comunidad de regantes y la cota del error
de dicha estimación.
Solución: r = 11'81 litros / hectarea
2 V (r ) = 0 '3392
13. Se está investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos.
Los investigadores piensan que hay razones para creer que el comportamiento es diferente
dependiendo de la zona de crianza. Por este motivo, deciden formar estratos observándose
el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de
un mes de tratamiento (Y). Se obtuvieron los siguientes resultados:
N1 = 80;
N 2 = 60;
N 3 = 40; n1 = 10; n 2 = 8; n3 = 6
Zona A Zona B Zona C
X
Y
X
Y
X
Y
3,2 4,1 3,1 3,9 2,8 3,8
3,0 4,0 3,0 4,0 2,9 3,7
213
2,9 4,1 3,1 3,8 2,9 3,8
2,8 3,9 3,2 4,0 3,0 3,6
3,1 3,7 3,0 3,8 3,1 3,8
3,2 4,1 3,2 4,1 3,0 3,7
2,9 4,2 2,9 3,7
2,8 4,0 3,0 3,8
3,1 3,9
2,8 3,8
a. Estimar el peso medio estratificado de los conejos al principio y al final del
tratamiento. Dar una estimación del error.
b. Si se le permite un error de estimación de 0,01 para estimar el peso medio
estratificado al final del tratamiento, ¿cuáles deben ser los nuevos tamaños
muestrales? Usar asignación proporcional.
c. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de
3,2 kilogramos, estimar el peso medio de los conejos al final del tratamiento
utilizando un estimador de razón. Dar el límite de error de estimación.
d. Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo
aleatorio simple. Comentar los resultados.
Solución: (a) µˆ x = 3,0008; B = 0,0516; µˆ y = 3,8944; B = 0,0523
(b) n = 144,4; n1 = 64,2 ≅ 65; n 2 = 48,15 ≅ 49; n3 = 32,1 ≅ 33 ⇒ n = 147
(c) µˆ y = 4,1467; B = 0,0793
(d) µˆ = 3,8875; B = 0,0617
14. En una escuela de 560 alumnos, se desea estimar la calificación media que puede
obtenerse en el examen final de matemáticas en el curso 00/01. Se toma como información
auxiliar la calificación de los mismos alumnos en el examen final de matemáticas del
curso 99/00 con una nota media de 75. A partir de una muestra aleatoria de estudiantes
para los cuales se observó la nota del examen final en el curso 00/01 y la calificación de
dicho alumno en la prueba correspondiente al curso 99/00. Los resultados fueron los
siguientes:
214
Nota curso
99/00
Nota curso
00/01
80
87
78
65
98
86
45
47
61
67
83
94
79
67
56
67
Estimar la calificación media del curso 00/01 utilizando como información auxiliar la
calificación obtenida en el curso 99/00 mediante un estimador de razón. Dar una
estimación del error de muestreo.
Solución: µˆ y = 75; B = 7,45
15. Un director de recursos forestales está interesado en estimar el número de abetos muertos
por una plaga en una zona de 300 hectáreas. Usando una fotografía aérea, el director
divide la zona en 200 parcelas de hectárea y media. Se toma una muestra aleatoria de 10
parcelas. El número total de abetos muertos, obtenidos según la cantidad en fotografía es
4200.
Parcela
1
2
3
4
5
6
7
8
Cantidad en fotografía 12 30 24 24 18 30 12 6
Cantidad en terreno
9
10
36 42
18 42 24 36 24 36 14 10 48 54
a. Estime la razón poblacional y obtenga su intervalo de confianza.
b. Estime el número total de abetos muertos en el área de 300 hectáreas y fije un
límite para el error de estimación.
c. ¿Cuál ha de ser el tamaño de la muestra necesario para estimar el total de abetos
muertos, con un límite de error de estimación de 200 abetos?
Solución: (a) r = 1,3077; (1'2057, 1'4097) (b) τˆ y = 5.492,31; B = 428,44 ) (c) n = 38,9 ≅ 39
16. De una población de 40 hogares, para la que es conocido que el gasto total general durante
un periodo de un año, en general, es de 12.000.000 um., se obtiene una muestra aleatoria
simple de tamaño 4 que proporciona los siguientes valores anuales (en um):
Gasto en alimentación 125000 150000 100000 175000
a. Estimar el gasto total en alimentación para los 40 hogares mediante un intervalo de
confianza.
b. Supongamos que de esos 4 hogares tenemos también los valores anuales de su
gasto general (en um):
Gasto General 250000 300000 200000 350000
Antes de calcular otro estimador, ¿obtendríamos mejores resultados si
utilizamos esta información auxiliar?¿Por qué?
215
c. Estimar mediante un estimador de razón el total de gasto en alimentación,
utilizando la información auxiliar del apartado b.
d. Corroborar la respuesta del apartado b indicando qué estimador es mejor, el del
apartado a o el del apartado c.
Solución: (a) (4.275.255, 6.724.744) (b) ρ = 1 (c) τˆ y = 6.000.000 (d) B = 0 (límite del error de
estimación del apartado (c)
17. Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio.
El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del
barrio. Sea x el número de personas en cada vivienda e y el número de habitaciones por
vivienda. A partir de los datos siguientes:
x = 9,1
y = 2,6
25
∑ xi2 = 2240
i =1
25
∑ yi2 = 169
i =1
25
xi yi = 522
∑
i =1
estime la razón personas/habitación en el barrio y establezca el límite para el error de
estimación con una confianza del 95%.
Solución: r = 3,5
B = 0,767
18. En una universidad se realizó una prueba de conocimientos matemáticos antes del ingreso
a 486 estudiantes. Se consideraron dichas calificaciones como una variable auxiliar de la
variable “calificación final en cálculo”. Teniendo en cuenta que 291 eran chicos y las
calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas,
a partir de los datos de la tabla siguiente, se pide:
CHICOS
CHICAS
Examen previo Examen de cálculo Examen previo Examen de cálculo
39
65
57
92
43
78
47
89
21
52
28
73
64
82
75
98
34
56
52
75
a. Sin tener en cuenta el sexo, estima la calificación media en el examen final de
cálculo utilizando un estimador de razón. De una medida del error de estimación.
b. ¿Qué ocurre si no se tiene en cuenta la información auxiliar pero si el sexo?
c. ¿Qué ocurre si no se tiene en cuenta la información auxiliar ni el sexo?
d. Compare los estimadores que se obtienen en cada caso justificadamente.
216
Solución: (a) µˆ y = 80,97; B = 10,54 (b) µˆ = 73,76; B = 9,5 (c) µˆ = 76; B = 9,46
5. Muestreo Sistemático
1. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar
la cantidad media de llenado en latas de 12 onzas que sale de una línea de producción. Los
datos de la tabla adjunta representan una muestra sistemática 1 en 50 de la producción de
un día.
Cantidad de llenado (en onzas)
12,00 11,97 12,01 12,03 12,01 11,80
11,91 11,98 12,03 11,98 12,00 11,83
11,87 12,01 11,98 11,87 11,90 11,88
12,05 11,87 11,91 11,93 11,94 11,89
11,72 11,93 11,95 11,97 11,93 12,05
11,85 11,98 11,87 12,05 12,02 12,04
a. Estime µ , y establezca un límite para el error de estimación. Suponga que N=1.800.
b. Determinar el tamaño de muestra requerido para estimar µ dentro de 0,01 unidades.
Solución: (a) µˆ sy = 11,94; B = 0,0259 (b) n = 217,1 ≅ 218
2. La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan
el permiso de conducir. Se instala un puesto de control en una carretera nacional y se
detiene un conductor de cada siete.
a. Use los datos de la tabla adjunta para estimar la proporción de conductores que portan
su licencia. Establezca un límite para el error de estimación. Suponga que 2.800 autos
pasan por el puesto de verificación durante el periodo de muestreo.
Automóvil
1
8
15
Respuesta
1
1
0
2794
1
400
∑ y i = 324
i =1
b. En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000
automóviles por el puesto de verificación. Determine el tamaño de muestra y k para
estimar p con un error inferior al 2%.
217
Solución: (a) pˆ sy = 0,8100; B = 0,0364 (b) n = 1.176,97 ≅ 1177 k = 4
3. Los funcionarios de un museo están interesados en el número total de personas que visitan
el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades está
en exhibición. Puesto que el control de visitantes en el museo cada día es muy costosa, los
funcionarios deciden obtener estos datos cada décimo día. La información de esta muestra
sistemática de 1 en 10 se resume en esta tabla
Día
3
13
23
Nº personas que visitan el museo
160
350
225
173 290
18
18
i =1
i =1
∑ y i = 4.868;
2
∑ y i = 1.321.450
Use estos datos para estimar el número total de personas que visitan el museo durante el
periodo específico. Establezca un límite para el error de estimación.
Solución: τˆ sy = 48680; B = 1.370,34
4. Los funcionarios de cierta sociedad profesional desean determinar la proporción de
miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los
funcionarios toman una muestra sistemática de 1 en 10, a partir de una lista en orden
alfabético de los 650 miembros registrados. Sea y i = 1 si la i-ésima persona muestreada
favorece los cambios propuestos e y i = 0 si se opone a los cambios. Use los siguientes
datos de la muestra para estimar la proporción de miembros en favor de los cambios
propuestos. Establezca un límite para el error de estimación.
65
∑ y i = 48
i =1
Solución: pˆ sy = 0,7385; B = 0,1042
5. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000
individuos para Estados Unidos durante seis años seleccionados sistemáticamente.
(a) Estime el número medio de varones nacidos por año para el periodo 1955-1980, y
establezca un límite para el error de estimación.
(b) Estime la tasa media anual de natalidad para el periodo 1955-1980, y establezca un
límite para el error de estimación.
(c) ¿Cree usted que el muestreo sistemático es mejor que el muestreo aleatorio simple
para los problemas de los apartados (a) y (b)?¿Por qué?
218
Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad
1955 2.073.719
1.973.576
4.047.295
26,0
1960 2.179.708
2.078.142
4.257.850
23,7
1965 1.927.054
1.833.304
3.760.358
19,4
1970 1.915.378
1.816.008
3.731.386
18,4
1975 1.613.135
1.531.063
3.144.198
14,6
1980 1.852.616
1.759.642
3.612.258
15,9
Solución: (a) µˆ sy = 1.926.935; B = 139.437,35 ; (b) µˆ sy = 19,67; B = 3,17 ;
(c) Si. Observando la tendencia de las muestras se puede decir que las poblaciones en
estudio están “ordenadas” de forma decreciente.
6. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000
personas) en Estados Unidos para una muestra sistemática de los años de 1900-1980.
Estime la tasa media anual de divorcios para tal periodo y establezca un límite para el
error de estimación. ¿Es en este caso el muestreo sistemático mejor o peor que el muestreo
aleatorio simple?¿Por qué?
Solución: µˆ sy
Año Tasa Año Tasa
1900 0,7 1945 3,5
1905 0,8 1950 2,6
1910 0,9 1955 2,3
1915 1,0 1960 2,2
1920 1,6 1965 2,5
1925 1,5 1970 3,5
1930 1,6 1975 4,8
1935 1,7 1980 5,2
1940 2,0
= 2,26; B = 0,57 . Mejor, se observa, en general, una tendencia creciente en
los datos de la muestra, aunque se rompa ese orden parcial en los años 1945-1955.
7. La gerencia de una compañía privada con 2.000 empleados está interesada en estimar la
proporción de empleados que favorecen una nueva política de inversión. Una muestra
sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día
de trabajo (las respuestas a favor se han representado como 1)
Empleado Respuesta
muestreado
3
1
13
0
23
1
1993
1
200
∑y
i =1
i
= 110
219
Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando
la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué
tipo de muestra sistemática deberá obtenerse? (indique n y k).
Solución: n = 330, 7 ≈ 331
k = 6, 04 ⇒ k = 6
8. Un auditor se enfrenta a una larga lista de 1.000 cuentas por cobrar de una empresa. El
valor de cada una de estas cuentas no suele superar los 21.000 €. El auditor quiere estimar
el valor total de las deudas por cobrar con un error inferior a 1.000.000 € con una
confianza del 95%. Para ello decide tomar una muestra sistemática de 1 en k . Determine
el valor de k.
Solución:
k = 10
9. Los funcionarios de cierta sociedad profesional desean determinar la proporción de
miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los
funcionarios tomaron una muestra sistemática de 1 en 10, a partir de una lista en orden
alfabético de los 650 miembros registrados, obteniendo que 47 estaban a favor de los
cambios propuestos. Se quiere repetir el estudio anterior con un error de estimación
inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los
parámetros necesarios, ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k).
Solución: n =
Npq
= 214,8 ≈ 215
( N − 1) D + pq
k≤
625
= 3, 02
215
k =3
6. Muestreo por Conglomerados.
(Se recomienda realizar con el ordenador los ejercicios 1, 2, 3, 5 y 7 dado el elevado número
de datos y resolver a mano, verificando la solución con el ordenador, una versión con menos
datos)
1. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las
sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de
reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el
número de sierras que tiene cada industria. Entonces decide usar muestreo por
conglomerados, con cada industria como un conglomerado. El fabricante selecciona una
muestra aleatoria simple de 20 de 96 industrias a las que da servicio. Los datos sobre coste
total de reparaciones por industria y el número de sierras son:
220
Industria Nº sierras Costo total de reparación
para el mes pasado (€)
1
3
50
2
7
110
3
11
230
4
9
140
5
2
60
6
12
280
7
14
240
8
3
45
9
5
60
10
9
230
11
8
140
12
6
130
13
3
70
14
2
50
15
1
10
16
4
60
17
12
280
18
6
150
19
5
110
20
8
120
a. Estime el costo medio de reparación por sierra para el mes pasado, y establezca un
límite para el error de estimación.
b. Estime la cantidad total gastada por las 96 industrias en la reparación de sierras.
Establezca un límite para el error de estimación.
c. Después de verificar sus registros de ventas, el fabricante se percata de que ha vendido
un total de 710 sierras a esas industrias. Usando esta información adicional, estime la
cantidad total gastada en reparación de sierras por estas industrias, y establezca un
límite para el error de estimación.
Solución: (a) µˆ = 19,73; B = 1,78 (b) τˆ = 12.312; B = 3.175,07
(c) τˆ = 14.008,85; B = 1.110,78
2. Una industria está considerando la revisión de su política de jubilación y quiere estimar la
proporción de empleados que apoyan la nueva política. La industria consiste en 87 plantas
separadas localizadas en todo Estados Unidos. Ya que los resultados deber ser obtenidos
rápidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con
cada planta como un conglomerado. Se selecciona una muestra aleatoria simple de 15
plantas y se obtienen las opiniones de los empleados en estas plantas a través de un
cuestionario. Los resultados se presentan en esta tabla:
Planta Nº empleados Nº empleados que apoyan la nueva política
1
51
42
2
62
53
221
3
49
40
4
73
45
5
101
63
6
48
31
7
65
38
8
49
30
9
73
54
10
61
45
11
58
51
12
52
29
13
65
46
14
49
37
15
55
42
a) Estime la proporción de empleados en la industria que apoyan la nueva política de
jubilación y establezca un límite para el error de estimación.
b) La industria modificó su política de jubilación después de obtener los resultados de
la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la
política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del
2% para el error de estimación? Use los datos anteriores para aproximar los
resultados de la nueva encuesta.
Solución: (a) pˆ = 70,91%; B = 4,81% ) (b) n = 47,6 ≅ 48
3. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios
para los hogares en una ciudad. Ya que no se encuentra disponible una lista de hogares, se
usa muestreo por conglomerados, con barrios formando los conglomerados. Se selecciona
una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los entrevistadores
obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales
se muestran en esta tabla:
Barrio Nº hogares Cantidad total gastada en servicios (€)
1
55
2210
2
60
2390
3
63
2430
4
58
2380
5
71
2760
6
78
3110
7
69
2780
8
58
2370
9
52
1990
10
71
2810
11
73
2930
12
64
2470
13
69
2830
14
58
2370
15
63
2390
16
75
2870
222
17
78
3210
18
51
2430
19
67
2730
20
70
2880
a. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un
límite para el error de estimación.
b. En la encuesta anterior se desconoce el número de hogares en la ciudad. Estime la
cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un
límite para el error de estimación.
c. La encuesta económica se va a llevar a cabo en una ciudad vecina de estructura
similar. El objetivo es estimar la cantidad total gastada en servicios por los hogares de
la ciudad, con un límite de 5.000€ para el error de estimación. Use los datos anteriores
para encontrar el número aproximado de conglomerados que se necesitan para obtener
ese límite.
Solución: (a) µˆ = 40,17; B = 0,64 (b) τˆ = 157.020; B = 6.927,88 (c) n = 29,4 ≅ 30
4. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas
en una fábrica. El cereal está en paquetes que contienen 12 cajas cada uno. El inspector
selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes
muestreados, con los resultados (en onzas) que se muestran:
Paquete
Onzas de llenado
1
16,1 15,9 16,1 16,2 15,9 15,8 16,1 16,2 16,0 15,9 15,8 16,0
2
15,9 16,2 15,8 16,0 16,3 16,1 15,8 15,9 16,0 16,1 16,1 15,9
3
16,2 16,0 15,7 16,3 15,8 16,0 15,9 16,0 16,1 16,0 15,9 16,1
4
15,9 16,1 16,2 16,1 16,1 16,3 15,9 16,1 15,9 15,9 16,0 16,0
5
16,0 15,8 16,3 15,7 16,1 15,9 16,0 16,1 15,8 16,0 16,1 15,9
Estime el peso medio de llenado para las cajas empaquetadas por esta fábrica, y establezca
un límite para el error de estimación. Suponga que el número total de cajas empaquetadas
por la fábrica es lo suficientemente grande para que no se tome en cuenta la corrección por
población finita.
Solución: µˆ = 16,0050; B = 0,0215
5. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A en
una elección estatal. La selección y entrevista de una muestra aleatoria simple de votantes
registrados es muy costosa por lo que se utiliza muestreo por conglomerados. Se
selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que
tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de
que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados
a los lugares de votación de cada distrito en la muestra, para obtener la información
pertinente directamente de los votantes. Los resultados se muestran en esta tabla:
223
Nº votantes Nº votantes A Nº votantes Nº votantes A Nº votantes Nº votantes A
1290
680
1893
1143
843
321
1170
631
1942
1187
1066
487
840
475
971
542
1171
596
1620
935
1143
973
1213
782
1381
472
2041
1541
1741
980
1492
820
2530
1679
983
693
1785
933
1567
982
1865
1033
2010
1171
1493
863
1888
987
974
542
1271
742
1947
872
832
457
1873
1010
2021
1093
1247
983
2142
1092
2001
1461
1896
1462
2380
1242
1493
1301
1943
873
1693
973
1783
1167
798
372
1661
652
1461
932
1020
621
1555
523
1237
481
1141
642
1492
831
1843
999
1820
975
1957
932
a. Estime la proporción de votantes que apoyan al candidato A, y establezca un límite
para el error de estimación.
b. El periódico quiere realizar una encuesta similar durante la siguiente elección. ¿Cómo
de grande debe ser la muestra para estimar la proporción de votantes a favor de un
candidato similar con un límite del 5% para el error de estimación?
Solución:
pˆ = 0,5701;
B = 0,0307
(b) n = 20,1 ≅ 21
6. Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el
número de libros comprados cada mes en una localidad. Se selecciona una localidad con
6.200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la
cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias,
obteniéndose los siguientes resultados:
manzana libros comprados cada mes por familia
1
1 2 1 0 3 2 1 0 1 2
2
1 0 2 2 0 0 1 3
3
2 1 1 1 1 0 2 1 2 2 2
4
1 1 0 2 1 0 3
Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva
muestra si se quiere estimar los libros comprados cada mes con un error de estimación
inferior a 140 unidades.
Solución: n = 96,92 ≈ 97
7. Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde
no existe una lista disponible de adultos residentes. Por esta razón para el diseño de la
224
encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares
y el sociólogo decide que cada bloque rectangular va a ser considerado como un
conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene
tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a
cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se
realizan las entrevistas, obteniéndose estos datos:
Conglomerado (i) Nº de residentes (mi)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
8
12
4
5
6
6
7
5
8
3
2
6
5
10
9
3
6
5
5
4
6
8
7
3
8
151 residentes
Ingreso total por
conglomerado en € (yi)
96000
121000
42000
65000
52000
40000
75000
65000
45000
50000
85000
43000
54000
49000
53000
50000
32000
22000
45000
37000
51000
30000
39000
47000
41000
1329000 €
a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error
de estimación.
b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de
estimación, suponiendo que M es desconocido.
c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de
todos los residentes de la ciudad mediante un intervalo de confianza.
NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 6 ∀i ,
supongamos conocido M = 6 × 415 = 2.490 ) y estime el total por los dos métodos
225
(
)
estudiados τ = M y τ t = N y t . Observe como coinciden las dos estimaciones así como
la varianza del estimador y el límite para el error de estimación.
d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la
muestra en una encuesta futura para estimar el ingreso promedio por persona con un
límite para el error de estimación de 500€.
Solución: a) µ = 8.801,32 € / residente
B = 1.617,14€
b) τ t = 22.061.400 €
B = 3.505.584, 04 €
c) (17.949.791,34€ , 26.056.831,18€ )
d) n = 166,58 ≈ 167
8. Un empresario quiere estimar el número de tubos de dentífrico usados por mes en una
comunidad de 4000 hogares divididos en 400 bloques. Se selecciona una muestra aleatoria
simple de 4 bloques que proporciona los siguientes resultados:
Bloque
tubos gastados por hogar
1
1 2 1 3 3 2 1 4
2
1 3 2 2 3 1 4 1 1
3
2 1 1 1 3 2 2
4
1 1 3 2 1 5 1 3
Estime de distintas formas el número total de tubos gastados, obtenga el límite para el
error de estimación en cada caso y comente los resultados.
Solución:
Muestreo por conglomerados τˆ = 8000; B = 562,85 Muestreo aleatorio simple
τˆ = 6400; B = 1077,78
9. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 5 de
los 40 paquetes que tiene la fábrica, cada uno de los cuales contiene 4 envases, y se mide
el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta:
Paquete nº Volumen envasado en cm3
1
33
32,5 31,7 34,2
2
32
32,6 33,8 32,5
3
30,9 33,1 33
33,4
4
34,1 33,1 32,5 33,2
5
32
32,1 32,6 33,6
Estime el volumen medio por envase y dar la cota de error de estimación.
Solución: µˆ = 32,80; B = 0,22
10. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las
empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas
en el registro mercantil. El número de bajas en el último año, el número de empleados y la
respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo
temporal fueron los siguientes:
226
Empresa
1
2
3
4
5
6
7
8
9
10
a. Estime el número de
Bajas Empleados Respuesta
1
7
Si
2
15
No
9
85
Si
0
3
No
2
12
No
0
8
No
1
21
Si
0
4
No
4
35
No
6
92
Si
bajas en el último año en las empresas del pueblo. Dé el
límite del error de estimación.
b. Estime la proporción de empresas que usarían los servicios ofertados. Dé el
límite del error de estimación.
Solución: (a) τˆ = 212,5; B = 151,02 (b) pˆ = 40%; B = 30,68%
11. Cierto tipo de tableros posee 12 microcircuitos cada uno. De un pedido de 50 tableros se
seleccionan 10 de ellos para su estudio. El número de microcircuitos defectuosos por
tablero fue
2 0 1 3 2 0 0 1 3 4
Estime la proporción de microcircuitos defectuosos en la población y establezca una cota
para el error de estimación.
Solución:
pˆ = 0,1333;
B = 0,0674
12. En una pequeña ciudad se quiere estimar el número total de horas diarias que sus
residentes dedican a ver el programa ``Gran Hermano'', emitido las 24 horas del día por un
canal Digital. Dicha ciudad está dividida en 200 manzanas de viviendas. Se extrae una
muestra aleatoria simple de 10 manzanas, y se interroga a cada familia acerca de si están
conectados a Vía Digital y cuántas horas ven el programa. Los datos de la encuesta se
encuentran en la siguiente tabla:
Manzana Nº hogares con
canal Digital
Nº total horas que
ven programa
1
8
13
2
7
13
3
9
14
4
6
13
5
5
0
6
9
10
7
6
6
227
8
8
14
9
9
16
10
6
4
a. Estimar el número total de horas que se ve el programa ``Gran Hermano'' a través
de Canal Digital.
b. Obtener un intervalo de confianza para el número total de horas.
c. Determinar cuántas manzanas se deberían muestrear para estimar el total
poblacional, con un límite para el error de estimación de magnitud 20. Considere la
muestra anterior como una muestra previa para estimar los parámetros necesarios.
Solución: (a) τˆ = 2060 ; (b) (1415,30, 2704,70) (c) n = 196,4 ≅ 197
13. En una urbanización se quiere estimar la proporción de hogares interesados en contratar el
sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas
de viviendas. Se extrae una muestra aleatoria simple de 10 manzanas y se interroga a cada
familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la
encuesta se encuentran en la tabla:
Manzana Nº hogares en la Nº hogares
manzana
interesados
1
8
3
2
7
3
3
9
4
4
6
3
5
5
2
6
9
4
7
6
3
8
8
3
9
9
4
10
6
2
a. Estimar la proporción de hogares interesados en contratar la televisión digital.
b. Obtenga un intervalo de confianza para la citada proporción.
c. Determinar cuántas manzanas se deberían muestrear para estimar la proporción
poblacional con un límite para el error de estimación del 1%. Considere la muestra
anterior como una muestra previa para estimar los parámetros necesarios.
Solución: (a) pˆ = 0,4247 (b) (0'3947, 0'4547) (c) n = 64,28 ≅ 65
14. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen
ordenador. Se consideran 1000 conglomerados de 5 familias cada uno, y se elige una
228
muestra aleatoria de 10 conglomerados, en los que el número de familias con ordenador
es:
2 1 5 3 0 1 4 3 5 0
Estimar la proporción de familias que poseen ordenador y la varianza del estimador usado
para estimar dicha proporción.
Solución:
pˆ = 0,48; Vˆ ( pˆ ) = 0,0143
15. Se desea conocer la proporción de empleados de una empresa que no están dispuestos a
trasladarse a una nueva planta de producción. Realizada una encuesta a los empleados de 5
factorías elegidas al azar entre las 50 que tiene la empresa, los resultados han sido:
Factoría Nº empleados Dispuestos
1
250
225
2
190
175
3
210
190
4
400
350
5
150
120
Estimar la proporción de empleados que no están dispuestos a trasladarse a la nueva
factoría. Obtenga una estimación de la varianza del estimador empleado.
Solución:
pˆ = 0,1167; Vˆ ( pˆ ) = 0,0002
16. Un gran embarque de mariscos congelados es empaquetado en cajas, conteniendo cada
una 24 paquetes de 5 kilos. Hay 100 cajas en el embarque. Un inspector del gobierno
determina el peso total de mariscos dañados para cada una de las 5 cajas muestreadas. Los
datos son:
9
6
3
10 2
a. Estime el peso total de mariscos dañados en el embarque y establezca un límite
para el error de estimación.
b. Determine el tamaño de la muestra necesario para estimar el peso total de mariscos
dañados en el embarque, con un límite de error de 275.
Solución: (a) τˆ = 600; B = 308, 22 (b) n = 6, 20 ≅ 7
229
7. Estimación del Tamaño de la Población.
1. Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un
periodo de varios días, sea atrapan 100 truchas, se marcan y se devuelven al arroyo.
Obsérvese que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado
en esos días, que ya había sido marcado, se devolvía inmediatamente. Varias semanas
después se atrapó una muestra de 120 peces y se observó el número de peces marcados.
Supongamos que este número fue de 27 en la segunda muestra. Estime el tamaño total de
la población de truchas y dé un límite de error de estimación.
Solución: Nˆ = 444,4; B = 150,60
2. Ciertos biólogos de poblaciones salvajes desean estimar el tamaño total de la población de
codorniz común en una sección del sur de Florida. Se usa una serie de 50 trampas. En la
primera muestra se atrapan 320 codornices. Después de ser capturadas, cada ave es
retirada de la trampa y marcada con una banda de metal en su pata izquierda. Luego se
sueltan todas las aves. Varios meses después se obtiene una segunda muestra de 515
codornices. Suponga que 91 de estos pájaros están marcados. Estimar el tamaño total de la
población de codornices y dar un límite de error de estimación.
Solución: Nˆ = 1810,99; B = 344,51
3. Expertos en pesca están interesados en estimar el número de salmones de una reserva. Se
atrapa una muestra aleatoria de 2876 salmones. Cada uno es marcado y soltado. Un mes
después se atrapa una segunda muestra de 2562. Supongamos que 678 tienen marcas en la
segunda muestra. Estime el tamaño de la población total y establezca un límite del error de
estimación.
Solución: Nˆ = 10.867,72; B = 715,82
4. Los regentes de una ciudad están preocupados por las molestias que causan las palomas
alrededor del ayuntamiento. A fin de cuantificar el problema contratan un equipo de
investigadores para que estime el número de palomas que ocupan el edificio. Con varias
trampas se captura una muestra de 60 palomas, se marcan y se sueltan. Un mes después se
repite el proceso, usando 60 palomas, de las que 18 están marcadas. Estimar el tamaño
total de la población de palomas y dar un límite de error de estimación.
Solución: Nˆ = 200; B = 78,88
5. Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área
geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una
230
muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y
liberadas. Toma una segunda muestra un mes después y decide continuar muestreando
hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas antes de obtener las 15
marcadas. Estime el tamaño total de la población de tortugas y establezca un límite de
error de estimación.
Solución: Nˆ = 1.066,67; B = 507,72
6. En una plantación de pinos de 200 acres, se va a estimar la densidad de árboles que
presentan hongos parásitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las
diez parcelas muestreadas tuvieron una media de 2,8 árboles infectados por cuadro.
a) Estime la densidad de árboles infectados y establezca un límite de error de
estimación.
b) Estime el total de árboles infectados en los 200 acres de la plantación y
establezca un límite de error de estimación.
Solución: (a) λˆ = 5,6; B = 2,1 (b) Mˆ = 1.120; B = 423,32
7. Se desea estimar el número total de personas que diariamente solicitan información en una
oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos
de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta
la oficina. Estimar el total de personas que visitan la oficina diariamente y dar la cota de
error de estimación.
Solución: Mˆ = 912; B = 170,8
8. Un alumno de A.T.C. desea estimar el número de alumnos que una determinada mañana
han ido a la Facultad. Para ello se basa en que dicho día una conocida marca comercial ha
repartido a primeras horas de la mañana en la entrada de la Facultad 500 carpetas. En un
intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan
hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382
alumnos.
Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la
Facultad.
Solución: muestreo inverso (1910 ∓ 326,58 )
9. El hermano de un alumno de T.A.M. está pensando en abrir una farmacia de 24 horas.
Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un
establecimiento similar para estimar los ingresos diarios. Este asiduo alumno de T.A.M.
conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de
231
clientes las 24 horas del día por lo que decide observar de forma sistemática media hora
cada 3 horas, obteniendo los datos de la siguiente tabla
clientes
35
10:00-10:30
20
13:00-13:30
19
16:00-16:30
30
19:00-19:30
25
22:00-22:30
9
01:00-01:30
12
04:00-04:30
18
07:00-07:30
Sabiendo que el gasto medio por cliente es de 20∈, estime los ingresos diarios de la
farmacia observada y el correspondiente límite para el error de estimación utilizando
diferentes métodos.
Solución:
Muestreo por cuadros Ingresos = 20.160; B = 3.110,76 ; Muestreo aleatorio
simple Ingresos = 20.160; B = 5.402,22
10. Se desea estimar el número total de palomas en la glorieta de una ciudad. Se capturan 80
palomas, se marcan y se devuelven a la población. Se realiza una segunda muestra hasta
encontrar 30 palomas marcadas, se han tenido que capturar para ello 300 aves. Estimar el
tamaño total y el límite de error de estimación.
Solución: Nˆ = 800; B = 272,62
11. Se desea estimar el número total de pingüinos en una determinada zona. Se obtiene una
muestra de tamaño 60, se marcan y se devuelven a la población. Al día siguiente se elige
otra muestra de tamaño 400 y en ella se encuentran 12 marcados. Estimar el número total
de pingüinos y dar la cota de error de estimación.
Solución: Nˆ = 2.000; B = 1.137,25
12. Se desea estimar el número de vehículos de un modelo determinado que el mes próximo
utilizarán el aparcamiento de Puerta Real. Durante las 720 horas del mes se van a
establecer 5 controles aleatorios de 1 hora de duración cada uno. Transcurrido el mes, se
ha observado en los 5 controles los siguientes resultados:
Control
Número de vehículos de ese
modelo que usan el aparcamiento
1
1
2
1
3
2
4
1
5
3
Estimar el número total de vehículos del modelo en estudio que utilizaron el aparcamiento.
232
Solución: Mˆ = 1152; B = 814,59
13. El ayuntamiento de Madrid está interesado en conocer el número de aficionados que
acudieron al aeropuerto a vitorear al equipo campeón de la Champion League. Para ello,
dividieron la sala de espera, de dimensiones 100 metros de largo por 35 metros de ancho,
en 100 cuadros de igual tamaño y seleccionaron 40, observando que el número de
personas era 2100.
a. Estime la densidad de asistentes por metro cuadrado mediante un intervalo de
confianza del 95%.
b. Estime el número total de asistentes, y fije un límite para el error de
estimación.
Solución: (a) (1,4, 1,6) (b) Mˆ = 5.250; B = 229,13 ≅ 229
14. Se toman periódicamente muestras del aire en un área industrial de la ciudad. La densidad
de cierto tipo de partículas dañinas es el parámetro de interés para el sector industrial. A
partir de 15 muestras de 1 cm 3 , se obtuvo un promedio de 210 partículas/ cm 3 . Estimar la
densidad de las partículas dañinas en dicha zona, así como dar una estimación del error de
dicha estimación.
Solución: λˆ = 210 part / cm 3 ; B = 7,48
15. Se desea conocer cuántas personas asistieron a la inauguración del pabellón de Portugal en
la Expo de Lisboa. Se sabe que el pabellón tiene forma cuadrada de 35 metros de lado y se
traza una malla que divide el área total en 100 cuadros de igual tamaño. Se selecciona una
muestra aleatoria de 40 cuadros, observando que el número de personas es de 750.
a. Estime la densidad de asistentes por metro cuadrado y obtenga su intervalo de
confianza.
b. Estime el número total de asistentes a la inauguración y fije un límite para el error
de estimación.
Solución: (a) λˆ = 1,5306; (1'4188, 1'6424) (b) Mˆ = 1875; B = 136,9
16. Un equipo de ecólogos quiere medir la efectividad de un fármaco para controlar el
crecimiento de la población de palomas. Se quiere conocer el tamaño de la población de
este año para compararlo con el del año pasado. Se atrapa una muestra inicial de 600
palomas y se les da el fármaco, a la vez que se aprovecha para marcarlas en una pata. En
fechas posteriores se atrapa otra muestra de 100 palomas de las cuales 48 tienen marca.
a. Estime el tamaño de la población con un intervalo del 95% de confianza.
233
b. Para reducir el límite de error de estimación a la mitad, ¿en qué proporción deben
ser mayores las cantidades 100 y 48 observadas en la segunda muestra?, ¿se
deberían observar el doble de las cantidades anteriores, es decir, 200 y 96?, ¿el
triple?, ¿el cuádruplo?,...
Solución: (a) ( 989 '79, 1510 ' 21) (b) el cuádruplo
8. Indicadores estadísticos regionales.
1. Sabemos que, en 1995, el PIB a precios de mercado de los siguientes países fue:
PIB (u.m.) Superficie (1000 km 2 )
Alemania
826,4
248,7
Bélgica
104,5
30,5
Dinamarca
76,4
43,1
España
216,2
504,8
Francia
674,8
544,0
Grecia
42,8
132,0
Holanda
165,3
41,2
Inglaterra
595,0
244,1
Irlanda
24,1
68,9
Italia
473,0
301,3
Luxemburgo
4,7
2,6
Portugal
27,3
92,1
Total
3230,5
2253,3
Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión
superficial de cada país.
Solución: F = 0, 7095
2. Se realizó un estudio sobre la economía de las provincias mediterraneas españolas, cuyos
V.A.B. al coste de los factores en millones de pesetas en 1991 fueron:
V.A.B.
Cataluña
2.876.920,7
Gerona
257.026,0
Barcelona 2.318.025,7
Tarragona
301.869,0
Baleares
358.450,3
Comunidad Valenciana
1.724.809,4
Castellón
205.160,3
Valencia 1.016.354,3
Alicante
503.294,8
Murcia
362.475,0
234
Andalucía
Almería
Granada
Málaga
Cádiz
Total V.A.B.
1.056.503,0
140.396,8
206.487,2
346.748,7
362.870,3
6.379.158,4
Determinar:
a. El índice de concentración de Theil de la producción de esta zona.
b. ¿Qué parte de la desigualdad existente es responsabilidad de las diferencias
existentes entre las provincias de cada grupo?
Solución: (a) IT = 0,1604 (b) 68%
3. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un
determinado país fue
REGIONES PIB
80
R1
15
R2
100
R3
50
R4
Obtenga el índice de concentración de Theil e interprete su valor.
Solución:
N
T = ln N + ∑ x j ln x j = 0,1597
j =1
IT = ITHEIL =
T
= 0,1152
ln N
4. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un
determinado país fue
REGIONES PIB
80
R1
15
R2
100
R3
50
R4
Obtenga la desigualdad colectiva e interprete su valor.
Solución:
N
N
i =1
i =1
D = ∑ di fi = ∑ di
1 1 N
2, 6865
= ∑ di =
= 0, 6716
4 4 i =1
4
5. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un
determinado país y el número de oficinas bancarias fue
REGIONES PIB OFICINAS
350
80
R1
70
15
R2
450
100
R3
250
50
R4
Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al
PIB e interprete su valor.
235
Solución:
F = 1−
1 N
∑ x j − y j = 0,97959
2 j =1
9. Medidas de localización espacial.
1. En un país, dividido administrativamente en cuatro regiones, el sector industrial está
constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción,
Químicas, Papeleras y Alimentación. El número de trabajadores ocupados en 1995 en los
diferentes subsectores y regiones era:
I
Siderurgia
5
Construcción 10
Químicas
0
Papeleras
4
Alimentación 2
Total
21
Regiones
II III
3 1
8 7
1 5
7 10
3 12
22 35
IV Total
0
9
12 37
3
9
3
24
4
21
22 100
Determinar:
a. Los cocientes de localización para cada industria en cada región.
b. Los coeficientes de localización sectorial para cada industria.
c. Los coeficientes de especialización para cada región.
d. Los coeficientes de diversificación regional.
Solución: (a)
Lij
I
II
III
IV
Siderurgia
Construcción
Químicas
Papeleras
Alimentación
2,65
1,29
0
0,79
0,45
1,52
0,98
0,51
1,33
0,65
0,32
0,54
1,59
1,19
1,63
0
1,47
1,52
0,57
0,87
(b)
CLi
Siderurgia
0,46
Construcción 0,16
Químicas
0,32
Papeleras
0,14
Alimentación 0,22
236
(c)
CE j
I
II
III
IV
0,25
0,12
0,23
0,22
(d)
CD j
I
0,61
II 0,73
III 0,77
IV 0,54
2. Se dispone de la siguiente información sobre número de ocupados para algunas
Comunidades Autónomas clasificados según ciertas actividades:
Energía Alimentos Industrial textil
Andalucía
10.000
65.000
20.000
Castilla La Mancha
3.000
18.000
14.000
Castilla León
19.000
30.000
8.000
Cataluña
15.000
60.000
90.000
a) Obtenga los coeficientes de localización de las distintas actividades.
b) Calcule los coeficientes de especialización para cada comunidad.
Solución:
a)
Coeficientes de localización sectorial
SECTOR
REGION S1
S2
S3
R1
0,0571 0,1058 0,1184
R2
0,0356 0,0046 0,0066
R3
0,2423 0,0115 0,1013
R4
0,1496 0,1219 0,2131
CL j
0,2423
0,1219
0,2197
b)
Coeficientes de especialización
regional
SECTOR
CEi
REGION S1
S2
S3
R1
0,0283 0,1927 0,1645 0,192733
R2
0,0478 0,0228
0,025 0,047808
R3
0,1998 0,0348 0,2346 0,234649
R4
0,0426 0,1278 0,1705 0,170455
3. La distribución de algunas especies animales en 4 areas geográficas es la siguiente
237
Area/Especie Buitre Nutria Lince
I
15
8
60
II
12
9
40
III
16
7
10
IV
13
4
18
Obtener el coeficiente de diversificación de estas especies en las distintas zonas.
Solución: CDI = 0,59; CDII = 0, 68; CDIII = 0,9; CDIV = 0,8
4. En un país, dividido administrativamente en tres regiones, el sector industrial está
constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción,
Químicas y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes
subsectores y regiones era (expresado en centenas de miles):
Regiones
I
II III
Siderurgia
15 10 6
Construcción 165 110 66
Químicas
30 20 12
Alimentación 195 130 78
Calcule las diversas medidas de localización espacial e interprételas, justificando y
apoyando los comentarios en los datos del enunciado.
Solución:
(Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de
las tablas.)
datos
REGION
R1
R2
R3
S1
15
10
6
SECTOR
S2
S3
165
30
110
20
66
12
S4
195
130
78
Participación de las regiones en cada sector y en la población total
SECTOR
REGION
R1
R2
R3
S1
0,4839
0,3226
0,1935
S2
0,4839
0,3226
0,1935
S3
0,4839
0,3226
0,1935
S4
población
0,4839
0,4839
0,3226
0,3226
0,1935
0,1935
Participación de los sectores en cada región y en la población total
REGION
R1
R2
R3
población
238
S1
0,0370
0,0370
0,0370
0,0370
SECTOR
S2
S3
0,4074
0,0741
0,4074
0,0741
0,4074
0,0741
0,4074
0,0741
S4
0,4815
0,4815
0,4815
0,4815
Cocientes de localización y especialización
Lij
SECTOR
REGION
R1
R2
R3
S1
100,00
100,00
100,00
S2
100,00
100,00
100,00
S3
100,00
100,00
100,00
S4
100,00
100,00
100,00
Coeficientes de localización sectorial
SECTOR
S2
S3
S1
CL j
0
0
S4
0
0
Coeficientes de especialización regional
CEi
REGION
R1
R2
R3
0
0
0
Coeficientes de diversificación de cada región
CDi
CDi*
REGION
R1
R2
R3
0,6178
0,6178
0,6178
0,49
0,49
0,49
5. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un país es:
Region/Sector Agricultura Industria Servicios
Región Norte
15
225
195
Región Sur
6
90
78
Calcule los coeficientes de localización sectorial. Interprete los resultados
Solución: La participación de cada una de las regiones en el sector j, ( ∀j , CL j = 0 ) es
igual a la participación de cada región en el conjunto de sectores. Cada sector se localiza
en igual medida que todos ellos en conjunto.
6. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un país es:
Region/Sector Agricultura Industria Servicios
Región Norte
60
225
150
Región Sur
24
90
60
Calcule los coeficientes de especialización regional. Interprete los resultados
Solución: La presencia de cada sector en la región i, ( ∀i , CEi = 0 ) es igual a la presencia
de cada sector en el conjunto del pais (todas las regiones). Cada región se especializa en la
misma medida que el conjunto del pais.
239
7. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un país es:
Region/Sector Agricultura Industria Servicios
Región Norte
90
300
195
Región Sur
36
120
78
Calcule los coeficientes de diversificación normalizados. Interprete los resultados
Solución:
Yij2
L
S1
S2
S3
∑Y
j =1
2
ij
CDi =
Yi i2
L
L∑ Y
j =1
R1
R2
8100
1296
90000
14400
38025 136125
6084 21780
2
ij
CDi* =
0,838016529
0,838016529
L 
1
 CDi − 
L −1 
L
0,75702479
0,75702479
8. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un país es:
Region/Sector Agricultura Industria Servicios
Región Norte
90
0
0
Región Sur
30
30
30
Calcule los coeficientes de diversificación normalizados. Interprete los resultados
Solución: En la región norte (R1) el grado de diversificación es mínimo, CDi* = 0 , esto
ocurre cuando una sóla actividad, (S1=agricultura), está presente en ella.
En la región sur (R2) el grado de diversificación es máximo, CDi* = 1 , esto ocurre cuando
la actividad de la región se distribuye uniformemente entre los distintos sectores,
(S1=S2=S3=30).
10. Contrastes χ 2 de Pearson
1. El gerente de una planta industrial pretende determinar si el número de empleados que
asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa
durante los cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro
semanas completas de trabajo, se observaron los siguientes números de empleados que
asistieron al consultorio:
Lunes Martes Miércoles Jueves Viernes
49
240
35
32
39
45
¿Existe alguna razón para creer que el número de empleados que asisten al consultorio
médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la
semana?, ( α = 0.05 ).
2
Solución: ( χ exp
= 4,9 ) < ( χ 4;2 0,95 = 9, 49 ) . No existe razón para creer que el número que
asisten al consultorio no se encuentra distribuido en forma equitativa.
2. En un cajero automático se ha observado una baja utilización del mismo. Con el fin de
confirmar este hecho, se ha controlado el número de llegadas diarias al mismo,
obteniéndose los siguientes resultados:
Nº llegadas al cajero Nº de días
0
21
1
18
2
7
3
3
4 ó más
1
En base a esta información, ¿existe alguna razón para creer que el número de llegadas
diarias es una variable de Poisson con parámetro 0,9? ( α = 0, 05 )
2
Solución: ( χ exp
= 0, 04 ) < ( χ 2;2 0,95 = 5,99 ) . Se acepta la hipótesis de que los datos proceden
de una distribución P (0,9) .
3. La siguiente tabla proporciona el número de erratas por página cometidas por una
secretaria de una cierta empresa:
Nº erratas por página Nº páginas
0
832
1
203
2
383
3
525
4
532
5
408
6
273
7
139
8
45
9
27
10
10
11 ó más
11
Contrastar a nivel α = 0.05 si el número de erratas por página sigue una distribución de
Poisson con parámetro 3.
Solución:
(χ
2
exp
= 3291, 05 ) > ( χ 9;2 0,95 = 16,92 ) . Luego se rechaza la hipótesis de que el
número de erratas por página sigue una distribución de Poisson con parámetro 3.
4. En la siguientes tabla están los datos de 2764 personas clasificadas según sus ingresos y el
tiempo trancurrido desde su última visita al médico:
241
Ingresos/Visitas <7 meses 7 meses-1 año >1 año Total
Menos de 90.000
186
38
35
259
90.000-100.000
227
54
45
326
100.000-150.000
219
78
78
375
150.000-200.000
355
112
140
607
Más de 200.000
653
285
259 1197
Total
1640
567
557 2764
Contrastar a un nivel α = 0.05 si los ingresos y el tiempo transcurrido desde la última
consulta médica son independientes.
Solución: (Estadístico=47'90, Valor crítico=15'5). Se rechaza la hipótesis de que los
ingresos y el tiempo transcurrido desde la última consulta médica son independientes.
5. En la siguiente tabla están los datos de 56 personas clasificadas según si fuman por la
noche y si tienen o no cancer de pulmon:
Si fuman No fuman Total
Si tienen cancer
20
16
36
No tienen cancer
6
14
20
Total
26
30
56
Contrastar a un nivel de α = 0.05 si son independientes estos dos atributos.
Solución: (Estadístico=3'38, Valor crítico=3'84). Se acepta la hipótesis de independencia.
6. Cierto comercio vende dos marcas distintas de un mismo producto. Durante una semana se
observa la marca de cada paquete vendido, y si el comprador es hombre o mujer, y se
obtienen los siguientes resultados:
A B
Hombres 20 15
Mujeres 25 30
Contrastar la hipótesis de que la marca comprada y el sexo del comprador son
independientes.
Solución: (Estadístico=1'169, Valor crítico=3'84). Se acepta la hipótesis de que la marca
comprada y el sexo del comprador son independientes.
7. Se preguntaron a 40 personas de tres barrios diferentes de una ciudad: A, B y C, si había
problemas de polución en su ciudad. Los datos obtenidos se resumen en la siguiente tabla:
Barrio
A
B
C
Total
No Si A veces No lo sabe Total
5 31
2
2
40
10 21
4
5
40
11 20
7
2
40
26 72
13
9
120
Contrastar a un nivel α = 0.05 si son los tres barrios homogeneos respecto al conocimiento
de los problemas de polución en su ciudad.
242
Solución: (Estadístico=7,74, Valor crítico=9'49). Luego hay diferencias entre los tres
barrios respecto al conocimiento de los problemas de polución.
8. Una muestra sobre el nº de personas que diariamente requieren información de un
producto financiero ofrece el siguiente resultado:
3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1
¿Se puede aceptar que el nº de personas que requieren la mencionada información se
distribuye según una ley de Poisson? ( α = 5% )
(χ
Solución:
2
exp
= 1,18 ) < ( χ 2;2 0,95 = 5,99 ) . Luego se acepta que el nº de personas que
requieren la mencionada información se distribuye según una ley de Poisson.
9. La siguiente tabla presenta el nº de reclamaciones recibidas en una oficina de información
al consumidor, clasificadas por tipo de producto reclamado (A, B, C) y por la edad del
reclamante
A
B
C
≤ 30
8
12
22
42
> 30
28
44
53
125
36
56
75
167
El contraste a realizar es:
H0 : Tipo de producto y edad son independientes (no están asociados).
H1 : No son independientes (están asociados).
2
Solución: ( χ exp
= 1, 27 ) < ( χ 2;2 0,95 = 5,99 ) . Luego no hay motivos para rechazar la hipótesis
de independencia.
10. Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los
resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la
antigüedad? (α = 0, 05)
Sueldo\Antigüedad
<5 años
5-10
10-20
>20 años
0-500
500-1000
1000-2000
2000-3000
>3000
n• j
17
16
4
9
6
52
5
8
11
8
3
35
10
9
5
8
4
36
6
7
2
6
6
27
ni•
38
40
22
31
19
150
2
Solución: ( χ exp
= 13,1) > ( χ 6;2 0,95 = 12,59 ) . Luego existen razones para pensar que los
sueldos y años de antigüedad NO son independientes.
243
11. A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen
y sus calificaciones fueron registradas como baja, media o alta, obteniéndose:
Universidad A
Universidad B
140
105
BAJA
135
140
MEDIA
225
255
ALTA
Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la
misma (con α = 0, 01 )
2
= 6,95 ) < ( χ 2;2 0,99 = 9, 21) . La distribución de las notas es la misma en las
Solución: ( χ exp
dos universidades con un nivel de significación del 1%. Observese que se llegaría a la
conclusión opuesta con un nivel de significación del 5%.
12. Se observan durante 100 horas el número de llamadas recibidas durante una hora en una
empresa de seguros del hogar. Los resultados se recogen en la siguiente tabla
Número de llamadas / hora
Número de horas
6
0
13
1
20
2
22
3
16
4
23
5 o más
Contraste la hipótesis de que el número de llamadas recibidas en una hora sigue una
distribución de Poissson con media 3,4. ( α = 0,1 )
2
Solución: χ k2−1,1−α = χ 4,2 0'90 = 7, 78 . Como ( χ exp
= 1,91) <7,78 aceptamos la hipótesis nula
de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con
media 3,4.
13. El colectivo de trabajadores de la banca de un país quiere conocer si existe dependencia
entre el nivel de salarios que reciben y la antigüedad en la empresa. Para ello seleccionan
una muestra aleatoria de 500 trabajadores, le formulan el correspondiente cuestionario y
obtienen la siguiente información:
Antigüedad Menos de 5 Entre 5 y 10 Entre 10 y 15
Más de 15
Salarios
años
años
años
años
34
14
16
36
Bajos (<1.000€)
82
20
34
64
Medios (1.000€, 1.500€)
84
16
50
50
Altos (>1.500€)
Contrastar la independencia de los salarios con la antigüedad al nivel de significación del
10%.
2
Solución: χ (2r −1)( c −1);1−α = χ 2*3
; 0,90 = 10, 6 .
244
Como
( χ 2 = 10,8833) > ( χ (2r −1)( c −1);1−α = 10, 6) , se rechazaría la hipótesis nula de
independencia entre los salarios y la antigüedad en la empresa.
14. Una empresa exportadora de naranjas piensa en cambiar su tipo de embalaje para el envío
de sus cítricos al exterior, pero no sabe si utilizar cajas de cartón, madera o plástico. Para
decidirse y utilizando información de otras empresas exportadoras, selecciona
aleatoriamente las fichas informativas de 142 cajas de cartón, 123 cajas de madera y 128
de plástico. En las fichas informativas de cada caja consta el número de kilogramos que
llegaron en mal estado a su destino en las distintas épocas del año, resumiéndose la
información de la siguiente forma
Tipos de embalaje
Cartón
Madera
Plástico
6
8
12
Primavera
65
52
27
Verano
57
63
103
Otoño
Contrastar, al nivel de significación del 5%, si los tres tipos de embalajes se comportan de
la misma forma en la conservación de su contenido.
2
Solución: χ (2r −1)( c −1);1−α = χ 2*2
; 0,95 = 9, 49 .
Como ( χ 2 = 31,8) > χ (2r −1)( c −1);1−α , se rechazaría la hipótesis nula de un comportamiento
homogéneo (igual) de los tres tipos de embalajes en la conservación de cítricos.
15. En una empresa constructora se ha observado el número de accidentes que ocurren durante
130 días, obteniéndose la siguiente distribución de frecuencias:
Número de accidentes por día
0
1
2
3
≥4
Número de días
69
42
15
4
0
130
Contraste la hipótesis de que el número de accidentes por día sigue una distribución de
Poisson, utilizando un nivel de significación del 1%.
2
Solución: χ1;0,99
= 6, 63 . ( χ 2 = 0,72) <6,63 luego aceptamos la hipótesis de que el número
de accidentes por día sigue una distribución de Poisson. (Obsérvese que se ha restado un
grado de libertad más por el parámetro λ de la distribución de Poisson estimado)
16. La siguiente tabla recoge la edad y el número de ausencias laborales durante un año de los
empleados de un ayuntamiento:
245
Ausencias
0-5
5-10
Más de 10
Edad
30
9
20
16-25
31
22
10
25-40
25
20
9
40-55
35
14
15
55-65
Contraste la independencia entre la edad y el número de ausencias con un nivel de
significación del 1%.
r
c
Solución: χ = ∑ ∑
2
(n
ij
− Eij )
Eij
i =1 j =1
2
= 13, 006
χ (2r −1)( c −1);1−α = χ 22×3 ; 0,99 = 16,81
Como ( χ 2 = 13, 006) < ( χ (2r −1)( c −1);1−α = 16,81) , se acepta la hipótesis nula de que la edad y
el número de ausencias son independientes con un nivel de significación del 1%.
Sin embargo ( χ 2 = 13, 006) > ( χ 6;2 0,95 = 12,59) , se rechazaría la hipótesis nula de que el
número de ausencias es independiente de la edad con un nivel de significación del 5%.
17. Se ha preguntado a 1000 conductores sobre su preferencia en relación a tres tipos de
vehículos, obteniéndose
Sexo/Vehículo monovolumen deportivo todo terreno
hombres
250
275
225
mujeres
80
75
95
c) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer?
d) En general, sin distinguir entre hombre y mujeres, ¿existe un mismo grado de
preferencia entre los conductores por cada tipo de vehículo?
r
c
Solución: a) χ = ∑ ∑
2
(n
ij
i =1 j =1
χ (32 −1)(2−1);1−0,05 = χ 2;2 0,95 = 5,99
− Eij )
Eij
2
= 6,233
χ (32 −1)(2−1);1−0,01 = χ 2;2 0,99 = 9, 21
Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se
acepta esa misma hipótesis nula con un nivel de significación del 1%.
b) χ 2 = 1, 4
χ k2−1,1−α = χ 2,2 0'90 = 4, 60 Incluso con un nivel de significación del 10% se
acepta la hipótesis nula de igual preferencia por cada tipo de vehículo.
18. Se sabe que en un centro de Enseñanza Primaria, el 62% de los estudiantes de último curso
dejan de estudiar, el 37% pasan a formación profesional y el 1% pasan a enseñanza
secundaria. Se toma una muestra de 80 de estos estudiantes que finalizaron el año pasado.
De ellos, 54 dejaron de estudiar, 17 se pasaron a formación profesional y nueve pasaron a
enseñanza secundaria. ¿Concuerdan los datos muestrales con los estadísticos de años
anteriores? ( α = 0, 05 )
246
2
Solución: χ 2 = 1, 027 χ1;0,95
= 3,84 . 1,027<3,84 luego se acepta la hipótesis de que los
porcentajes de alumnos que lo dejan y siguen estudiando son el 62% y 38%
repectivamente.
19. En Estados Unidos se sabe que, históricamente, el 75% de los profesores de la
Universidad de Harvard que se presentan a decanos son americanos, el 24% son europeos
y el 1% de otros paises. De una muestra de 100 candidatos que se han presentado este año,
70 eran americanos, 21 eran europeos y nueve de otros paises. ¿Los candidatos de este año
han seguido el mismo patrón que en años anteriores? ( α = 0, 05 )
2
Solución: χ 2 = 1,33 χ1;0,95
= 3,84 . 1,333<3,84 luego se acepta la hipótesis de que los
porcentajes de candidatos americanos y no americanos son el 75% y 25% repectivamente.
20. El rector de una universidad opina que el 60% de los estudiantes consideran los cursos que
realizan como muy útiles, el 36% como poco útiles y el 4% como nada útiles. Se toma una
muestra aleatoria de 100 estudiantes y se les pregunta sobre la utilidad de los cursos. 68
consideran que los cursos son muy útiles, 18 consideran que son pocos útiles y 14 que son
nada útiles. Contrastar la hipótesis de que los resultados obtenidos se corresponden con la
opinión personal del rector. ( α = 0, 05 )
2
Solución: χ 2 = 2, 67 χ1;0,95
= 3,84 . 2,67<3,84 luego se acepta la hipótesis de que los
porcentajes de alumnos que consideran los cursos útiles y poco o nada útiles son el 60% y
40% repectivamente.
21. Se realizó una investigación para estudiar la reacción de las empresas ante las opiniones de
importantes auditores. La siguiente tabla muestra, para empresas que habían recibido una
opinión positiva, negativa o neutra de un auditor, cuáles cambiaron de auditor al año
siguiente. Contrastar, a nivel del 1%, si el cambio de auditor por las empresas no depende
de la opinión que recibieron del auditor.
Opinión recibida
Positiva Negativa Neutra
Cambiaron auditor
141
227
23
No cambiaron auditor
991
8051
14
Solución:
r
c
χ =∑∑
2
i =1 j =1
(n
ij
− Eij )
Eij
2
= 224,223415 ,
hay
que
compararlo
con
el
valor
χ (2r −1)( c −1);1−α = χ12×1; 0,99 = χ1;2 0,99 = 6, 63 . Como χ 2 > χ (2r −1)( c −1);1−α , se rechazaría la hipótesis
nula de independencia entre las opiniones de los auditores y la reacción de las empresas.
247
22. A una muestra aleatoria de individuos del sudoeste de los Estados Unidos, con edades
comprendidas entre los 16 y los 24 años y de origen anglosajón o hispano, se les preguntó
cuanto alcohol consumían a lo largo de una semana. La siguiente tabla muestra los
resultados.
Número de botellas alcohol
0-1
2-4
Mas de 4
Anglosajón 19
45
3
Hispano
25
47
7
Contrastar, a nivel del 5% si el alcohol consumido depende del origen de los individuos.
r
c
Solución: χ 2 = ∑ ∑
(n
ij
− Eij )
2
= 0,186078677 , hay que compararlo con el valor
Eij
i =1 j =1
χ (2r −1)( c −1);1−α = χ12×1; 0,95 = χ1;2 0,95 = 3,84 . Como χ 2 < χ (2r −1)( c −1);1−α , se acepta la hipótesis nula
de independencia entre el consumo de alcohol y el origen de los individuos.
23. La siguiente tabla muestra, para muestras independientes de hombres y mujeres, cuántos
de ellos ven la televisión menos de dos horas, de dos a cuatro y más de cuatro horas.
Horas de televisión por día
Menos de 2 horas De 2 a 4 horas Más de 4 horas
Hombre
18
10
2
Mujer
17
13
8
Contrastar a nivel de significación del 5% si el número de horas que ven la televisión se
distribuye de igual forma en hombres que en mujeres.
r
c
Solución: χ = ∑ ∑
2
i =1 j =1
(n
ij
− Eij )
Eij
2
= 1,563581681 , hay que compararlo con el valor
χ (2r −1)( c −1);1−α = χ12×1; 0,95 = χ1;2 0,95 = 3,84 . Como χ 2 < χ (2r −1)( c −1);1−α , se acepta la hipótesis nula
de que se distribuye de igual forma en hombres que en mujeres el número de horas que
ven la televisión.
11. Contrastes no Paramétricos
1. A continuación se proporcionan los valores ordenados de una muestra aleatoria del
número de respuestas correctas para un determinado test: 852, 875, 910, 933, 957, 963,
981, 998, 1007, 1010, 1015, 1018, 1023, 1035, 1048, 1063.
248
En años anteriores el número de respuestas correctas estaba representado, de forma
adecuada, por una N(985, 50). Con base en esta muestra y usando el test de KolmogorovSmirnov, ¿existe razón para creer que ha ocurrido un cambio en la distribución de
respuestas correctas? ( α = 0.05 )
Solución: ( Dexp = 0,1207 ) < ( Dα = 0,327 ) luego no existen motivos para rechazar que el
número de respuestas correctas está representado por una N(985, 50).
2. Dos grupos de empleados de una empresa son sometidos a sendos programas de
entrenamiento, siendo evaluada posteriormente, mediante un test que valora en una escala
de 0 a 100, la mejora que se produce en el rendimiento de cada trabajador. Los resultados
obtenidos son
Grupo 1 50 83 45 63 72 56 65 47
66 35 14 57 90 25 15 74
Grupo 2 95 92 85 86 72 75 93 67
56 85 93 98 85 62 54 56
Comparar, utilizando el test de Kolmogorov-Smirnov, si los dos métodos producen la
misma distribución de probabilidades sobre las puntuaciones resultantes.( α = 0.05 )
Solución: La función de distribución del primer grupo siempre es mayor que la del
segundo grupo, F161 ( x) > F162 ( x) , lo que sugiere un contraste unilateral. α = 0, 05 , n=m=16
Dα =
6 
8 
6
.  Dexp =  >  Dα =  ⇒ las dos muestras no provienen de la misma
16 
16  
16 
población, o lo que es lo mismo, los dos métodos no son iguales. El grupo 2 arroja
puntuaciones mayores, lo que se refleja en que F161 ( x) > F162 ( x) .
3. Contrastar a un nivel α = 0.1 si los datos siguientes proceden de una distribución Normal
con media 10.84 y desviación típica 3.5:
10.5 8 15 12.1 4.1 12.1 8 10.5 16 12.1
Solución: α = 0,1 n = 10 ⇒ Dα = 0,369 . ( Dexp = 0,1594 ) < ( Dα = 0,369 ) luego no
existen motivos para rechazar la hipótesis nula.
4. Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma
empresa, se obtuvo en sendas muestras de 5 y 4 meses, la cantidad de unidades producidas
de un artículo concreto, el resultado se muestra a continuación:
Taller 1 78
64 75 45 82
Taller 2 110
70 53 51
249
Utilizando el contraste de Mann-Whitney, comprobar si la productividad en los dos
talleres es la misma. (α = 0.05) .
Solución:
RT 2 (taller 2) = 2 + 3 + 5 + 9 = 19 ⇒ U T 2 = ( 4 × 5 ) +
U = min (11, 9 ) = 9
4×5
− 19 = 11 ⇒ U T 1 = ( 4 × 5 ) − U T 2 = 9
2
n = 4, m = 5, U α = 1 (tabla 3.19) (U = 9) > (Uα = 1) ⇒
los dos talleres producen lo mismo.
5. Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello
un equipo de expertos somete a observación el comportamiento en el trabajo de 12
trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y
100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 12
trabajadores también seleccionados al azar. El resultado de ambas fue
No incentivos 67 78 69 67 56 57 78 79 56 43 45 65
Incentivos
78 98 67 87 79 65 76 87 57 76 77 78
Realizar el contraste utilizando la prueba de Mann-Whitney.( α = 0.05 )
 H 0 : Fn ( x) = Fm ( x) 
Solución: 

 H1 : Fn ( x) > Fm ( x) 
RNO = 1 + 2 + 3,5 + 3,5 + 5,5 + 7,5 + 10 + 10 + 12 + 17,5 + 17,5 + 20,5 = 110,5
U NO = (12 × 12 ) +
12 ×13
− 110,5 = 111,5 ⇒ U SI = 144 − 111,5 = 32,5
2
U 0 = min (111,5; 32,5) = 32,5
U α = 42 ;
(U 0 = 32,5) < (U α = 42) ⇒ rechazo la hipótesis nula, por tanto, los
incentivos tienen efectos positivos sobre la producción.
Repítase el contraste suponiendo que se dispusiera de información para 25 trabajadores en
cada situación y que los datos son los que se recogen en la siguiente tabla.
No incentivos
Incentivos
72 83 74 71 60 60 82 84 61 48 50 70 71
67 78 69 67 56 57 78 79 56 43 45 65
84 99 73 94 85 70 80 93 63 80 84 85 88
78 98 67 87 79 65 76 87 57 76 77 78
 H 0 : Fn ( x) = Fm ( x) 
Solución: 

 H1 : Fn ( x) > Fm ( x) 
RNO = 442 RSI = 833
250
U NO = ( 25 × 25 ) +
25 × 26
− 442 = 508 ⇒ U SI = ( 25 × 25 ) − 508 = 117
2
U 0 = min (508;117) = 117
 25 × 25 25 × 25 × 51 
U → N 
,
 = N ( 312,5; 51,54 )
12
 2

117 − 312,5 

p = P [U ≤ 117 / H 0 ] = P  Z ≤
= P [ Z ≤ −3, 79] = 0, 00007
51,54 

( p = 0, 00007 ) ≤ (α = 0, 05)
⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen
efectos positivos sobre la producción.
6. Para contrastar si un determinado curso de perfeccionamiento es efectivo, se somete a una
muestra de 11 trabajadores a dicho entrenamiento, controlando el tiempo medio empleado
en concluir determinada tarea, antes y después del curso. Los resultados son los siguientes
Antes
12 15 9 16 13 17 12 14 8 10 11
Después 8 15 10 10 11 15 13 12 9 9
7
¿Ha influido el curso en el tiempo empleado en concluir la tarea? (α = 0.05)
Solución: Test de Wilcoxon de los signos-rangos: R+ = 47,5 R− = 7,5 R = 7,5 . Según
tabla 4.2 (unilateral, 5%) valor crítico: 10. 7,5<10 se acepta que el tiempo empleado en
concluir la tarea es menor despues del curso. (bilateral, 5%) valor crítico 8,
7,5<8 se
rechaza la hipótesis nula de que el tiempo en concluir la tarea antes y después del curso es
el mismo.
Test de los signos: El número de diferencias negativas y positivas (3 y 7 respectivamente)
cae dentro de la región de aceptación [ 2, 8] (vease tabla 4.4, bilateral 5%), se acepta la
hipótesis nula de que el tiempo en concluir la tarea antes y después del curso es el mismo.
7. Con un nivel de significación del 5%, contraste la hipótesis de que los siguientes valores
muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribución normal de
media 14 y varianza 2,25.
Solución: Para n=10 y α = 0, 05 el valor crítico Dα para el test de bondad de ajuste de K-S
es Dα =0,409. ( Dexp = 0,1088 ) < ( Dα = 0, 409 ) luego no existen motivos para rechazar la
hipótesis nula.
8. Con nivel de significación 5% contraste la hipótesis de que los siguientes valores
muestrales
251
X
ni
2
0,45
3
0,55
1
0,6
2
0,75
1
0,8
4
0,85
2
0,88
5
1
n = 20
proceden de la distribución de probabilidad dada por
0

F0 =  x 2

1
x≤0


0 ≤ x ≤ 1
x ≥ 1 
Solución: Para n=20 y α = 0, 05 Dα =0,294. ( Dexp = 0,19 ) < ( Dα = 0, 294 ) luego acepto la
hipótesis nula.
9. Con nivel de significación de 5%, usando el test de Kolmogorov-Smirnov, contraste la
hipótesis de que los siguientes valores muestrales proceden de una misma población.
Muestra 1
Muestra 2
Solución: Dexp
2
2
4
4
2
5
3
3
5
5
6
4
7
7
8
9
3
6
5
3
6
= 2 /10 = 0, 2 α = 0, 05 , n=m=10, Dα = = 0, 6 , Dexp < Dα , acepto la
10
hipótesis nula de que las dos muestras se han obtenido de la misma población.
10. La duración en minutos de las 100 llamadas telefónicas recibidas durante un día en una
empresa de seguros de automóviles se recoge en la siguiente tabla
Duración en minutos
menos de 10
10-20
20-30
30-40
40-50
50-60
Número de llamadas
15
17
26
18
13
11
Contraste, con un nivel de significación del 5%, la hipótesis de que la duración de las
llamadas recibidas sigue una distribución Normal con media 30 minutos y desviación típica
10 minutos. Utilice los contrastes de bondad de ajuste χ 2 y de Kolmogorov-Smirnov.
Solución: χ k2−1,1−α = χ 3,2 0'95 = 7,81 . Como ( χ 2 = 30,13) >7,81 rechazamos la hipótesis nula
de que la duración de las llamadas sigue una distribución Normal con media 30 y
desviación típica 10.
252
Dexp = max F0 ( x ) − Fn ( x ) = 0,1613 . Buscando en las tablas, para un contraste bilateral,
DT =
1,3581
= 0,1358 . Al igual que con el anterior procedimiento de contraste se rechaza
100
H 0 dado que Dexp > DT
11. Las inversiones realizadas (en miles de €) por un grupo de 6 empresas en el mes pasado se
recogen en la siguiente tabla:
Empresa
E1
E2
E3
E4
E5
E6
Inversión
318
322
345
300
338
311
¿Puede considerarse que siguen una distribución normal de media 320.000 € y desviación
típica 10.000 €? ( α = 0, 05 )
Solución: Dexp = max F0 ( x ) − Fn ( x ) = 0,1493 DT (0,05) bilateral = 0,519 . Dexp < DT por tanto
se acepta la hipótesis de que las inversiones de las empresas siguen una ley normal con la
media y desviación típica indicadas.
12. Se observa durante 15 días los litros de cerveza de una determinada marca que se han
vendido en un supermercado, obteniéndose las siguientes cantidades:
150
140
150
130 160
160
150
140
170 140
130
160
150
140 170
Contraste la hipótesis de que el número de litros vendidos se distribuye según una ley
normal de media 150 litros y desviación típica 10 litros. ( α = 0,1 ). Utilice el contraste de
bondad de ajuste de Kolmogorov-Smirnov.
Solución: Dexp = max F0 ( x ) − Fn ( x ) = 0, 2413
DT (0,10)bilateral = 0,304
Se acepta H 0 dado que Dexp < DT
13. Se ha observado la temperatura durante los dias de una semana en la recepción de un
hotel, obteniéndose
23,3º
17,6º
16,4º
20,9º
23,8º
23,3º
24,0º
Contraste con un nivel de significación del 5% la hipótesis de que la muestra procede de
una población normal con media 20º y desviación típica 2º.
Solución: Dexp = 0, 2451
n = 7 DT (0,05)bilateral = 0, 483 Dexp < DT , por tanto se acepta la
hipótesis nula de que la muestra procede de una población normal.
253
14. Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19,
21, 18, 21, 22 ( α = 0,10 )
Solución: R = 4 es compatible al 10% con la hipótesis de aleatoriedad pues
( ru = 3) < ( R = 4 ) < ( ro = 9 )
15. Supóngase dos muestras aleatorias independientes de tamaños n1 = 20, n2 = 20 que han
proporcionado el siguiente número de rachas R = 15 . Contraste la hipótesis nula de
igualdad de las poblaciones de procedencia. ( α = 0, 05 )
Solución: Únicamente un reducido número de rachas nos induciría a rechazar la hipótesis
nula de igualdad de poblaciones. Es decir, un test al nivel del 5% unilateral. con ayuda de
los extremos críticos inferiores del 5% de la tabla 4.40. ru = 15 y como para
( R = 15) ≤ (ru = 15) se rechaza la hipótesis nula a favor de que las muestras proceden de
poblaciones distintas.
16. Supóngase que analizamos 15 pares de valores mediante el test de los signos, caso bilateral,
al nivel del 5%. Obtenemos 2 diferencias nulas y 13 no nulas, de ellas 11 positivas y 2
negativas. ¿Proceden las dos muestras ligadas de la misma población?
Solución: De la tabla 4.4 obtenemos para n=13 los extremos 3 y 10. Los valores
encontrados en nuestro caso caen fuera de los límites por lo que se rechaza la hipótesis nula
y se acepta que ambas muestras proceden de poblaciones distintas.
17. Un bioquímico quiere comparar dos métodos de determinación de la concentración de
testosterona en la orina. Sean A y B dichos métodos. Para la comparación, bilateral y al
nivel del 5%, dispone de 9 muestras de orina. No se sabe si la distribución de los valores es
normal. Los valores vienen dados en miligramos contenidos en la orina de 24 horas.
(utilícese el test de Wilcoxon de los signos-rangos)
Muestra nº
1
2
3
4
5
6
7
8
9
A (mg/muestra)
0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47
B (mg/muestra)
0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51
Solución: n=8, pues hay una pareja donde la diferencia es cero. Buscando en la tabla 4.2
se tiene que R = 13,5 > 3 , por tanto no puede rechazarse la hipótesis nula.
18. Se realiza una encuesta entre 15 familias de un barrio para conocer la cantidad mensual (en
euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago
por visión”. Pasados tres meses se repite la encuesta entre las mismas familias. Los
resultados aparecen en la siguiente tabla. Contraste la hipótesis de que la cantidad mensual
dedicada al “pago por visión” no ha cambiado significativamente (utilice los tests de los
signos y de Wilcoxon).
254
Familia nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Muestra A 30 24 0 50 37 25 29 38 56 56 42 26 17 0 78
Muestra B 32 20 12 65 0 28 29 45 43 62 76 26 37 0 82
Solución: Test de Wilcoxon de los signos-rangos:
R+ = 23,5 R− = 54,5 R = 23,5 . Según tabla 4.2 (bilateral, 5%) valor crítico: 13.
23,5>13 se acepta la hipótesis nula de que la cantidad mensual dedicada al “pago por
visión” no ha cambiado.
Test de los signos: El número de diferencias negativas y positivas (9 y 3 respectivamente)
cae dentro de la región de aceptación [3, 9] (vease tabla 4.4, bilateral 5%), se acepta la
hipótesis nula de que la cantidad mensual dedicada al “pago por visión” no ha cambiado.
19. Antes de realizar una campaña de publicidad, se realiza una encuesta a 200 personas a las
que se les solicita su opinión sobre un determinado producto financiero. Después de
realizada la campaña, se realiza la misma pregunta a las mismas 200 personas. Los
resultados se recogen en la siguiente tabla
DESPUES DE LA CAMPAÑA
BUENA
NO BUENA
ANTES DE LA
BUENA
30
24
CAMPAÑA
NO BUENA
126
20
Utilice el test de los signos para contrastar la hipótesis nula de que no ha cambiado la
opinión que los encuestados tienen sobre el producto.
Solución:
µ = np =
24 − µ
σ
n 150
=
= 75
2
2
σ 2 = npq =
n 150
=
= 37,5 ⇒ σ = 6,124
4
4
= −8,33 < −1, 645 (unilateral 5%, bilateral 10%) se rechaza la hipótesis nula de
que no ha cambiado la opinión que los encuestados tienen sobre el producto.
24 − µ
σ
= −8,33 < −1,96 (unilateral 2,5%, bilateral 5%) al mismo resultado se llega
con estos otros niveles de significación.
Según la tabla 4.5 para n=150=126+24, el extremo izquierdo para el test bilateral con
α = 5% es 63, como 24<63 se llega a la misma conclusión que antes (donde
63 ≅ µ − 1,96σ = 62,99 , es lo mismo comparar -8,33 con -1,96 que 24 con 63).
En este ejemplo parece más adecuado el test unilateral dado que claramente predomina el
cambio de signo en la opinión en un sentido frente al opuesto.
20. Se encuestan 40 establecimientos para conocer los beneficios diarios, en euros, que se
obtienen con la venta de un determinado producto. Al cabo de tres meses se repite la
255
encuesta. Los resultados se recogen en la siguiente tabla. Contraste la hipótesis “la
distribución de los beneficios, al cabo de tres meses, sigue siendo la misma”.
Nº de encuesta 1ª muestra 2ª muestra Nº de encuesta
1
16
17
21
2
20
24
22
3
8
12
23
4
9
6
24
5
27
24
25
6
12
15
26
7
35
28
27
8
25
25
28
9
15
17
29
10
30
21
30
11
16
30
31
12
32
31
32
13
21
21
33
14
23
26
34
15
19
21
35
16
32
32
36
17
27
32
37
18
16
14
38
19
21
21
39
20
34
30
40
Solución: Test de Wilcoxon de los signos-rangos:
1ª muestra
24
16
17
27
17
41
35
45
12
23
15
34
21
19
0
24
33
12
19
21
2ª muestra
25
19
15
24
17
32
32
41
0
23
19
30
21
19
14
29
47
20
19
21
R+ = 210,5 R− = 254,5 R = 210,5 . Según tabla 4.2 (bilateral, 5%) valor crítico: 137.
210,5>137 se acepta la hipótesis nula de que la distribución de los beneficios, al cabo de
tres meses, sigue siendo la misma.
Test de los signos: El número de diferencias negativas y positivas (16 y 14
respectivamente) cae dentro de la región de aceptación [10, 20] (vease tabla 4.4, bilateral
5%), se acepta la hipótesis nula de que la distribución de los beneficios, al cabo de tres
meses, sigue siendo la misma.
21. Se desea contrastar mediante los contrastes de Kolmogorov-Smirnov, Mann-Whitney y de
las rachas que las siguientes muestras proceden de la misma población (α = 0, 05)
MUESTRA A
MUESTRA B
10, 12, 8, 10, 15, 12, 11, 14, 15, 13, 15, 13, 10, 9, 15, 17, 14, 13, 12, 15,
14, 16, 17, 23, 17, 14, 15, 14, 21, 20, 17 12, 13, 12, 14, 14
Solución: Test de Kolmogorov-Smirnov:
Dexp = 0, 286
n1 y n2 grandes
DT (0,05)bilateral =
22 + 14
1,3581 = 0, 464
22 ×14
Dexp < DT , por
tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma
población.
256
Test de Mann-Whitney:
RA = 453 RB = 213 U 0 = 108
U α = 93
( tabla 3.19, α = 0, 05,
m = 22, n = 14 ) U 0 > Uα
por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma
población.
Test de las rachas:
Según se ordenen los empates se obtienen 13 o 15 rachas. Utilizamos la aproximación
normal con
µ=
σ2 =
z=
2n1n2 (2n1n2 − n1 − n2 )
( n1 + n2 ) ( n1 + n2 − 1)
2
13 − µ
σ
=
2n1n2
2 × 14 × 22
+1 =
+ 1 = 18,1
n1 + n2
14 + 22
2 ×14 × 22 ( 2 × 14 × 22 − 14 − 22 )
(14 + 22 ) (14 + 22 − 1)
2
= 7,876543 ⇒ σ = 2,81
= −1,815
( z = −1,815) ≤ (− z0,05 = −1, 645) ⇒ por tanto se rechaza la hipótesis nula de que las dos
muestras proceden de una misma población.
z=
15 − µ
σ
= −1.103
( z = −1,103) > (− z0,05 = −1, 645) ⇒ por tanto se acepta la hipótesis nula de que las dos
muestras proceden de una misma población.
22. Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma
empresa, se obtuvo en sendas muestras de 4 y 5 meses, la cantidad de unidades producidas
de un artículo concreto, el resultado se muestra a continuación:
Taller 1 70 60 70 40
Taller 2 110 70 50 50 70
Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos
talleres es la misma. (α = 0.05) .
Solución: Dexp = max F41 ( x) − F52 ( x) =
1
= 0, 25
4
DT (0,05)bilateral =
4
= 0,8
5
Se acepta que la productividad de los dos talleres de artesanía es la misma dado que
Dexp < DT
23. Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello
un equipo de expertos somete a observación el comportamiento en el trabajo de 5
trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y
257
100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 5
trabajadores también seleccionados al azar. El resultado de ambas fue
No incentivos 70 80 70 70 60
Incentivos
80 100 70 90 80
Realice un contraste de Kolmogorov-Smirnov. ( α = 0.05 )
Solución: Dexp = max F51 ( x) − F52 ( x) =
3
= 0, 6
5
DT (0,05)unilateral =
3
= 0, 6
5
Se acepta que los incentivos a la productividad no son efectivos dado que si
Dexp ≤ DT unilateral no se rechaza la hipótesis nula de que las dos poblaciones (con incentivos
y sin incentivos) tienen el mismo comportamiento.
24. Se realiza una encuesta entre 7 familias de un barrio para conocer la cantidad mensual (en
euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago
por visión”. Pasados tres meses se encuestan otras 7 familias. Los resultados aparecen en
la siguiente tabla. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por
visión” no ha cambiado significativamente (utilice el contraste de Kolmogorov-Smirnov,
α = 0, 05 ).
Primera encuesta
Tres meses después
30
20
Solución: Dexp = max F71 ( x) − F72 ( x) =
20
20
0
10
3
=0,4286
7
50
60
40
0
30
30
DT (0,05)bilateral
30
20
5
= = 0, 0, 7143
7
Se acepta la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha
cambiado dado que Dexp < DT bilateral .
258
PRE-PRÁCTICAS
259
INTRODUCCIÓN.
Sería deseable que el alumno construyera hojas de cálculo como las del fichero PRÁCTICAS
partiendo de hojas en blanco. Dado el escaso número de horas de prácticas y para que dicho
tiempo se dedique a los aspectos más relacionados con la asignatura, se han confeccionado
unas PRE-PRÁCTICAS donde la base de la plantilla como líneas, colores, etiquetas,...
permanece en las hojas y falta por completar aquellas expresiones que hemos considerado
más interesantes.
Los comentarios que siguen no pretenden ser un manual sobre el uso de Excel que se supone
conocido por el alumno, sencillamente se recuerda y aconseja sobre la forma de utilizarlo. Se
pretende así que el alumno conozca mejor cómo se han construido estas hojas para que haga
un uso correcto de ellas y, si fuera el caso, sea capaz de modificarlas y adaptarlas a nuevas
situaciones.
Al faltar el valor de determinadas celdas, otras que dependen de las anteriores aparecerán con
mensajes de error de cálculo. Esos errores de cálculo se irán resolviendo a medida que se
vayan completando las primeras. Todas las celdas, salvo las que el alumno debe completar,
están protegidas.
Una vez resuelta cada PRE-PRÁCTICA su contenido debe coincidir con la hoja
correspondiente del fichero PRÁCTICAS.
260
PRE-PRÁCTICA 1
Muestreo aleatorio simple en poblaciones infinitas
En esta pre-práctica completaremos todas las expresiones (celdas amarillas) del caso numérico
y aquellas del caso no numérico que son diferentes de las anteriores.
Las expresiones o funciones más habituales están en Excel y nos podemos referir a ellas
simplemente indicando su nombre. Así para calcular la media aritmética, en lugar de escribir
la expresión de la suma de las celdas donde están los datos y dividir por el número datos,
usaremos la función PROMEDIO.
Para contar el número de datos de la muestra usaremos la función CONTAR y para hallar la
cuasivarianza utilizaremos VAR.
Todas las funciones de Excel van precedidas por el signo =. Cuando una función, como las
anteriores, se refiere a los datos contenidos en un rango de celdas (conjunto continuo de
celdas), indicaremos la primera y última celda separadas por dos puntos
(p.e.,
=CONTAR(C21:C100)). Si el rango de celdas ocupa más de una columna, se indicará la
primera celda de la primera columna y la última celda de la última columna.
Para completar las expresiones de las celdas C12, C13, C14, C15, C18, D11, D12 Y D18 nos
basaremos en las expresiones estudiadas para este tipo de muestreo que aparecen en los
apuntes y en el formulario. Recordemos que debemos empezar siempre con el signo =, que las
operaciones aritméticas habituales están representadas por los conocidos símbolos del teclado
261
+ , − , * , / . Para la raíz cuadrada utilizaremos la función RAIZ (p.e. =RAIZ(D11)) y para las
potencias el símbolo del acento circunflejo francés ^ (p.e., para elevar B3 al cuadrado:
=B3^2).
PRE-PRÁCTICA 2
Muestreo aleatorio simple en poblaciones finitas
El muestreo aleatorio simple en poblaciones finitas es análogo en sus expresiones al caso
infinito tratado anteriormente salvo por dos hechos: el coeficiente corrector para poblaciones
finitas que aparece en la expresión de la varianza del estimador de la media

S 2  N - n 
V
(
y
)
=

 y la novedad de que no sólo se puede estimar la media sino también el

n  N  

total.
Utilizando las relaciones de la estimación del total y su varianza con los correspondientes
(
)
valores para la media τ = N y , V (τ ) = N 2 V ( y ) completaremos las celdas D10 y D12.
262
La varianza para el estimador de la media (y proporción) en C12 (y E12) es análoga a la del
S2  N - n 
V ( y) =

,
n  N 
caso infinito salvo el coeficiente corrector para poblaciones finitas:
V ( p) =
pq  N - n 

.
n −1 N 
En las celdas C18, D18, E18 y F18 calculamos el tamaño de la muestra n según las
expresiones que aparecen en el formulario. Debe decirse en este punto que debemos usar los
paréntesis necesarios para que el orden de las operaciones sea el correcto.
n=
Nσ 2
( N − 1) D + σ 2
D=
B2
4
(media)
D=
B2
4N 2
(total )
n=
Npq
( N − 1) D + pq
D=
B2
4
( proporción)
D=
B2
4N 2
(total )
Para facilitar la escritura en Excel de algunas expresiones del fichero PRÁCTICAS, éstas se
han simplificado previamente y lo que aparece no es la trascripción fiel de cómo están en los
apuntes de clase y en el formulario.
La cota del error de estimación y los extremos de los intervalos de confianza tienen en este
tipo de muestreo y en los que siguen la misma expresión que se ha visto para el muestreo
aleatorio simple en poblaciones infinitas por lo que no volveremos a recalcularlos en cada una
de las pre-prácticas.
PRE-PRÁCTICA 3
Muestreo aleatorio estratificado
Trabajaremos sobre el modelo de tres estratos, caso numérico. Los modelos de dos y cuatro
estratos así como el caso no numérico se han construido de forma análoga.
Este tipo de muestreo se basa en repetir para cada uno de los estratos un muestreo aleatorio
simple por lo que serán válidas las expresiones construidas para este tipo de muestreo en la
pre-práctica anterior. También serán útiles las funciones copiar y pegar para no tener que
repetir una por una todas las expresiones en cada uno de los estratos.
En primer lugar y para ilustrar lo último dicho, observemos que en la pre-práctica aparece en
la parte superior (donde calculamos los estimadores y sus errores) sólo las expresiones para el
primer estrato (según el muestreo aleatorio simple). Si se observa se verá que dichas
expresiones hacen referencia a los datos de la columna C (estrato y muestra 1). Análogas
263
expresiones pero referidas a la columna E necesitamos para el estrato 2 y referidas a la
columna G para el estrato 3. Para evitar la tediosa tarea de rescribir cada una de esas
expresiones dos o más veces, dependiendo del número de estratos, usaremos las acciones
copiar y pegar.
Marcaremos el rango de celdas que va de C9 a D15, seleccionaremos copiar, marcaremos el
rango E9:F15 (o sólo la primera de las celdas, E9) y con la opción pegar se copiarán las
expresiones del estrato 1 en el estrato 2 pero, como puede comprobarse, referidas a la columna
E en lugar de C. Repetiremos lo mismo para el estrato 3.
Con las acciones anteriores tenemos completado lo que se refiere a las estimaciones a nivel de
cada estrato pero no de la población global (columnas I y J). Dadas las conocidas relaciones
entre la media y el total (trabajado en la pre-práctica anterior) nos vamos a centrar en la media
y concretamente en las expresiones que son diferentes de todo lo que hasta aquí se ha visto.
Para calcular en I8 el tamaño total de la población (igual en I9 para el tamaño total de la
muestra) debemos sumar los correspondientes tamaños en cada estrato. Para eso se puede usar
el símbolo + o la función SUMA ( =C8+E8+G8 o =SUMA(C8:G8)). Cuando usemos la
función SUMA con celdas o expresiones que no ocupan posiciones contiguas sustituiremos
los
dos
puntos
por
punto
y
coma
(por
ejemplo,
=A5+B15+F3
es
igual
a
=SUMA(A5;B15;F3)). Esto último es lo que se ha hecho en las expresiones de I10 y I12 que
se podrían igualmente haber escrito usando el símbolo + sencillamente.
264
Para facilitar la construcción de las expresiones correspondientes a las distintas asignaciones
se calculan previamente en la franja intermedia de color blanco los elementos que aparecen en
esas sumatorias. Como las expresiones son las mismas para cada estrato, pero referidas a los
datos de cada uno, escribiremos primero las correspondientes al estrato 1 (C16, C17, C18 y
C19) y posteriormente como se hizo antes, las marcaremos, seleccionaremos copiar y
pegaremos en las celdas E16, E17, E18 y E19 para el segundo estrato y en G16, G17, G18 y
G19 para el tercero.
Dada la analogía de las expresiones para las distintas asignaciones en el caso de la media y
total (como puede consultarse en el formulario y en el fichero PRACTICAS en Excel), nos
centraremos en el caso de la media.
TAMAÑO
MUESTRAL
MEDIA y TOTAL
L
(error fijo B ) n =
∑N σ
i
i =1
L
∑
ci
i
i =1
Ni σ i
ci
L
N 2 D + ∑ N iσ i2
i =1
L
ASIGNACIÓN
ÓPTIMA
C∑
i =1
(coste fijo C ) n =
N iσ i
ci
L
∑Nσ
i
i =1
i
ci
N jσ j
cj
ωj =
L
∑
i =1
N iσ i
ci
(∑ N σ )
2
L
n=
ASIGNACIÓN DE
i
i =1
i
L
N 2 D + ∑ N iσ i2
i =1
NEYMAN
ωj =
N jσ j
L
∑Nσ
i
i =1
L
n=
ASIGNACIÓN
PROPORCIONAL
∑N σ
i =1
i
i
2
i
1 L
∑ Niσ i2
N i =1
N
ωj = j
N
ND +
265
B2
D=
(media )
4
B2
D=
(total )
4N 2
D
De acuerdo a las expresiones de n para cada tipo de asignación, confeccionaremos las celdas
I22, I23, I24 Y I25, a continuación calcularemos los tamaños de las muestras de cada estrato
según la expresión ni = nωi en las correspondientes celdas de las columnas C, E y G. Los
coeficientes de asignación son similares para cada estrato por lo que los escribiremos para el
estrato 1 en la columna C y lo copiaremos en los otros estratos.
Una novedad en relación a las copias que se han hecho antes es que aparece el símbolo $
precediendo bien la letra o el número que definen la posición de una celda. Este símbolo tiene
la propiedad de fijar el valor de la columna (letra) o fila (número) a la hora de hacer copias.
Como es conocido, cuando copiamos la expresión de una celda en otra, todas las letras y
números relativos a la posición de las celdas referenciadas en la expresión cambian avanzando
o retrocediendo tantas filas y/o columnas como separan la celda de partida de la celda donde
copiamos. Para que esto no sea así (cuando nos convenga, como el caso que nos ocupa de las
asignaciones) con el símbolo $ fijaremos las posiciones de las celdas que no queramos que
cambien en la copia.
Nota: se recuerda que el hecho de que aparezca el símbolo $ en la referencia a una celda no
cambia en absoluto su valor.
Según las anteriores aclaraciones escribiremos ni = nωi en las celdas C22, C23, C24 y C25
(observe que el valor de ωi es el mismo en C22 y C25, en ambos casos usamos la asignación
óptima), y posteriormente lo copiaremos en E22, E23, E24 y E25 para el estrato 2 y en G22,
G23, G24 y G25 para el estrato 3.
En la siguiente pantalla se pueden observar algunos de los anteriores comentarios.
N jσ j
n1 = nω1 = n
cj
L
∑
i =1
$I22=n
Los
paréntesis
C19=
que
aparecen
en
N iσ i
ci
N1σ 1
c1
la
3
$C19+$E19+$G19= ∑
i =1
expresión
de
la
celda
C22
N iσ i
ci
y
en
otras
(=$I22*(C19/($C19+$E19+$G19))) garantizan que las operaciones se llevan a cabo en el
orden adecuado.
266
PRE-PRÁCTICA 4
Estimadores de razón, regresión y diferencia
En esta pre-práctica estimaremos la razón R y la media utilizando estimadores de razón ,
regresión y diferencia (no nos ocuparemos de las expresiones para el total que son inmediatas
a partir de la media).
267
Los valores de los estimadores así como de sus varianzas se expresan fácilmente en las celdas
C12, C13, D12, D13, F12, F13, H12 y H13. Sólo un detalle digno de mención: debido a los
ceros que aparecen en las columnas E ( rxi ), F ( ( yi − rxi ) 2 ), H ( di = yi − xi ) e I ( di2 ) cuando se
opera sobre valores inexistentes de las columnas C y D, se tiene que utilizar en H12 la
expresión =SUMA(H22:H100)/C11 en lugar de =PROMEDIO(H22:H100) (el uso de la
función PROMEDIO incluiría a todos los ceros como datos, obteniendo un valor falso para
dicha media).
Por esta misma razón, al hallar las “varianzas residuales” C17 y H17 se han usado las
expresiones:
S r2 =
S D2 =
1 n
2
( yi − rxi )
∑
n − 1 i =1
(
1 n
∑ yi − ( xi + d )
n − 1 i =1
)
2
=
C17 ⇒
(
1 n
∑ di − d
n − 1 i =1
)
2
=SUMA(F22:F100)/(C11-1)
 n
2
n
 ∑ di
 n

2
di − n  i =1
∑
 ∑ di 
n
 n
i =1
di2 −  i =1 
∑

n

= i =1
=
n −1
n −1






2
di = yi − xi
En la anterior línea aparecen distintas formas de escribir la cuasivarianza de las diferencias.
En las PRÁCTICAS hemos utilizado la última.
H17 ⇒
=(SUMA(I22:I100)-(C11*((SUMA(H22:H100)/C11)^2)))/(C11-1)
2
 n

Nota: Mucho cuidado, no confunda ∑ d y  ∑ di  .
i =1
 i =1 
n
2
i
Ese problema de ceros inexistentes no hubiese aparecido si en los mencionados cálculos de las
columnas E, F, H e I se hubiese utilizado la función =SI(condición; acción si cierta; acción si
falsa), como veremos en la práctica 6. A pesar de esta posible solución se ha dejado así esta
hoja de prácticas para que seamos conscientes del peligro de esos “falsos” ceros que aparecen
cuando se opera de esta forma.
La complicada expresión de la “varianza residual” para los estimadores de regresión (F17) se
ve facilitada porque su raíz cuadrada (“desviación típica residual”) es la función de Excel
=ERROR.TIPICO.XY.
Nota: Cuidado al escribir los argumentos de esta función. En primer lugar se colocan las
celdas con los valores de la variable Y (D22:D100) y a continuación después del punto y
268
coma los valores de la variable X: =ERROR.TIPICO.XY(D22:D100;C22:C100). Hacerlo al
revés supondría calcular la desviación típica residual para la recta de regresión de X/Y
( x = a + by ) que no es la recta utilizada en el modelo de los estimadores de regresión.
Si observamos el formulario, los tamaños muestrales (tanto para la media como para el total)
para conseguir un determinado error de estimación máximo, son similares salvo que cada tipo
de estimador considera su “varianza residual”.
Nσ r2
n=
ND + σ r2
Nσ L2
n=
ND + σ L2
Nσ D2
n=
ND + σ D2
Basándonos en el anterior comentario y utilizando para copiar el símbolo $ donde sea
necesario, bastará con crear las expresiones D19 y E19 y copiarlas en F19, G19 y H19, I19.
A la hora de determinar el tamaño muestral para estimar el total se ha tenido en cuenta la
siguiente simplificación en las anteriores expresiones: ND = N
por ejemplo E19 ⇒
B2
B2
=
,
4N 2 4N
=($C8*C17)/(C17+((E18^2)/(4*$C8))).
La expresión C19 es algo distinta y no se puede copiar directamente de las anteriores
expresiones, es exactamente igual a D19 salvo el valor D =
B 2 µ x2
.
4
Para completar las columnas E, F, H e I, escribiremos las expresiones en las celdas E22, F22,
H22 e I22,
(E22=$C$12*C22,
F22=(D22-E22)^2,
H22=D22-C22,
I22=H22^2)
posteriormente copiaremos desde E22 hasta E100 (colocando el ratón en la esquina inferiorderecha de E22 y arrastrando hasta E100) y repetiremos para las columnas F, H e I de igual
forma. Dado que usamos el valor r de la celda C12 en todas las expresiones de E22 a E100
habrá que fijar con el símbolo $ dicha celda (no es necesario fijar C anteponiéndole el $,
aunque aparece así en la práctica, basta con escribir C$12 puesto que al copiar no nos
movemos de columna, sólo nos movemos de fila).
En G22 y G23 se recogen dos formas alternativas de calcular la pendiente de la recta de
regresión. En G22 la calcularemos, según nuestros apuntes, a partir de la covarianza y
varianza. En G23 aparece según la función de Excel que nos da dicho valor. Con esta
coincidencia se quiere mostrar que en este caso, como en otros, puede haber distintas
alternativas para calcular un mismo valor.
269
G22 ⇒
=COVAR(C22:C100;D22:D100)/VARP(C22:C100)
G23 ⇒
=PENDIENTE(D22:D100;C22:C100)
Notas:
La
misma
advertencia
que
se
hizo
con
la
función
=ERROR.TIPICO.XY(D22:D100;C22:C100) vale aquí. Las celdas en las que se encuentran
los valores de Y y de X deben aparecer en la función PENDIENTE en dicho orden pues si se
altera estaríamos calculando la pendiente de la recta de regresión de X/Y. En algunas
funciones bidimensionales como es el caso de la covarianza (COVAR) el orden en que
aparezcan las celdas con los valores de X e Y es indiferente. Se sugiere escribir estas
funciones cambiando el orden de las celdas que aparecen como argumentos para comprobarlo.
La función VARP es la varianza de los datos de la muestra mientras que la función VAR es la
cuasivarianza de la muestra.
PRE-PRÁCTICA 5
Muestreo sistemático
Los cálculos para este tipo de muestreo se basan en el muestreo aleatorio simple para
poblaciones finitas que ya se ha estudiado. La única novedad que presenta respecto a éste es el
cálculo de k, el cual se ilustra en la PRACTICA 5 RESUELTA.
270
PRE-PRÁCTICA 6
Muestreo por conglomerados
En esta pre-práctica haremos uso de la función “=SI” a la que hacíamos referencia más arriba
en la pre-práctica 4. Recordemos su formato,
=SI(condición; acción si cierta; acción si falsa)
De las celdas cuya expresión vamos a completar en esta pre-práctica
C13, C19, D12 y D13 se construyen utilizando la anterior función “=SI” que nos permite
realizar dos cálculos (o acciones) distintos dependiendo de una condición. En nuestro caso
concreto la condición va a ser el conocimiento o no del tamaño de la población M o lo que es
equivalente el conocimiento o no del tamaño medio de los conglomerados de toda la
población M =
M
. Si el contenido de la celda C8 es vacío (C8=“”) se entenderá que no se
N
conoce M y se procederá de una manera (acción si cierta), en cambio si la celda C8 no está
vacía se utilizará dicha información y se procederá de otra forma (acción si falsa).
En C13 y C19 las dos formas de proceder consisten en usar m = C11 o M =
C8
(aparece
C9
subrayado).
C13 ⇒ =SI(C8="";(C9-C10)*C17/(C10*C9*(C11^2));(C9-C10)*C17/(C10*C9*((C8/C9)^2)))
271
En D12 y D13 (también en D14, D15 y D16) dejaremos la celda en blanco (“”) si no tenemos
la información de C8 o bien utilizaremos las expresiones correspondientes cuando tengamos
esa información,
D12 ⇒
=SI(C8="";"";C12*C8)
El resto de celdas de esta pre-práctica (C12, C17, D19, E12, E13, E17 y E19) se resuelven
fácilmente a partir de las correspondientes expresiones del formulario.
La función =SI se podría haber utilizado en el cálculo de las celdas E23 a E100 y F23 a F100
para evitar la aparición de ceros “falsos” como se anunció en la pre-práctica 4. En la celda
E23 escribiríamos =SI(C23=“”;“”;C$12*C23) y copiaríamos su contenido hasta la celda
E100. En la celda F23 escribiríamos =SI(D23=“”;“”;(D23-E23)^2) y copiaríamos su
272
contenido hasta la celda F100. Como puede comprobarse, de esta manera no aparecen ceros
“falsos” y los problemas que comentábamos en la pre-práctica 4.
PRE-PRÁCTICA 7
Estimación del tamaño de la población
Utilizando las operaciones algebraicas básicas, potencias y logaritmos neperianos (=LN) se
completan sin ningún tipo de nueva dificultad, a partir del formulario, las celdas C17, C18,
D17, D18, E17, E18, E23, E24, F17, F18, F23 y F24. La cota del error de estimación y los
intervalos de confianza se completan a partir de las anteriores celdas igual que en el resto de
tipos de muestreo.
273
274
PRÁCTICAS
275
INTRODUCCIÓN
Se han diseñado unas hojas de cálculo en Excel que permiten calcular todas las expresiones
sobre muestreo, indicadores estadísticos regionales y medidas de localización espacial que se
estudian en la asignatura.
Aunque el formato de cada hoja es distinto dependiendo de los cálculos que en ella se
realizan, hay unas características comunes que vamos a describir en primer lugar:
‰
Las celdas en las que debemos introducir los datos de la muestra son de color gris.
‰
Las celdas en las que calculamos el valor de las expresiones (coeficientes, índices,
estadísticos,...) son de color amarillo.
‰
Las demás celdas de distintos colores (por motivos meramente estéticos) se
corresponden con etiquetas para identificar los valores que aparecen en la hoja.
‰
En la parte superior de cada hoja se calculan los estimadores y errores asociados
(además de otros valores necesarios y relativos como los intervalos de confianza,...)
por debajo de estas filas y separadas por una o más filas de color blanco se calcula el
tamaño de la muestra (o muestras) necesario para que se pueda hacer la estimación con
un error máximo fijado de antemano, “COTA DEL ERROR DE ESTIMACION
DESEADA” (o un coste total máximo, véase el muestreo estratificado)
Para evitar que involuntariamente alteremos las expresiones de estas hojas de cálculo se ha
protegido el contenido de todas las celdas salvo las de introducción de datos (celdas grises).
Si se quiere modificar una celda protegida seleccionaremos Herramientas / Proteger /
Desproteger hoja o bien copiaremos la hoja del fichero original (“PRACTICAS”) en una
nueva hoja no protegida (se aconseja esta segunda opción).
En el desarrollo de la asignatura se propone a los alumnos la realización de 9 prácticas con la
ayuda del fichero “PRACTICAS”.
Para que puedan comprobar la correcta resolución de las mismas, se ofrecen resueltas en los
ficheros: “PRACTICA 1 RESUELTA”,.... Las hojas de estos ficheros están protegidas para
evitar que se modifiquen involuntariamente pero pueden modificarse si se desprotegen
previamente según se indica en el párrafo anterior. Una vez resueltos los ejercicios que
aparecen en el enunciado de estas 9 prácticas (que se han seleccionado como representativos
de las diversas posibilidades que pueden plantearse) el alumno debe resolver cuantos
problemas pueda de las relaciones de ejercicios, resueltos o no, que se le han facilitado.
276
Cuando se vaya a utilizar el fichero “PRACTICAS”, se debe borrar, antes de introducir los
datos del problema, el contenido de todas las celdas de datos (celdas grises), pues dejar datos
de ejercicios previos podría dar lugar a resultados erróneos. Cuando se borren los datos de las
celdas grises aparecerán errores de cálculo en las celdas donde se evalúan las expresiones
sobre dichos datos (#¡DIV/0!, #¡VALOR!, #¡NUM!, ..., dado que se evalúa la expresión
considerando cero el valor de las celdas vacías). Estos errores desaparecerán en cuanto se
introduzcan los correspondientes nuevos datos. En las celdas donde permanezcan dichos
errores son expresiones que no se pueden calcular con la información de que disponemos y
por tanto no podemos conocer.
En algunas ocasiones será necesario introducir la información del problema en celdas distintas
a las habituales (grises), para ello desprotegeremos previamente la hoja. Destacamos aquí, por
ser muy frecuente, el hecho de que en ejercicios de clase sobre muestreo aleatorio simple y
muestreo estratificado en lugar de disponer de todos los datos que forman las muestras sólo
tenemos la información resumida del tamaño, media y varianza (en variables numéricas) o del
tamaño y proporción (en variables dicotómicas), en ese caso en las correspondientes celdas
(marcadas con un color amarillo más intenso) escribiremos dichos valores, quedando vacías
las celdas grises correspondientes a los datos muestrales.
(Nota: en la hoja Razón, regresión y diferencia se utilizan distintos tonos de amarillo sólo
con fines estéticos, no por los motivos indicados aquí para el muestreo aleatorio simple y
estratificado).
El aspecto de las pantallas de Excel puede variar ligeramente dependiendo de la versión del
programa y de la configuración de las barras de herramientas, zoom,..., de hecho en este
documento se pueden apreciar formatos distintos en las pantallas que se presentan pero ello no
resta generalidad ni validez a los comentarios que se acompañan.
Para cada una de las prácticas que siguen se han elegido ejercicios representativos, algunos
están resueltos en los ejemplos y ejercicios contenidos en el desarrollo de los capítulos. Sería
conveniente resolver todos ellos a mano antes de hacerlo con el ordenador, eso ayudará a una
mejor comprensión de cómo se ha construido la plantilla para la práctica y de la potencialidad
del ordenador para resolver este tipo de problemas.
Con la anterior sugerencia se quiere poner de manifiesto que no hay ejercicios especiales que
se resuelven con la ayuda del ordenador y otros a mano, sino que todos los ejercicios que hay
277
en las relaciones de cada capítulo se pueden resolver (salvo puntuales excepciones) de ambas
formas y deberían resolverse cómodamente una vez que se dominen estas prácticas tras
resolver los ejemplos que siguen.
Las prácticas 10 y 11 sobre contrastes de hipótesis no paramétricos se realizarán con la
ayuda del programa SPSS. Previo a estas prácticas se ofrece una “Introducción al SPSS”
para aquellos alumnos no familiarizados con el programa y en Internet se ha dejado una
“Guia breve de SPSS” para aquellos otros que quieran profundizar más en su uso.
278
PRÁCTICA 1
Muestreo Aleatorio Simple en poblaciones infinitas
(o con reemplazamiento)
1. Con objeto de estimar la media poblacional de dos poblaciones infinitas, realizamos
un muestreo aleatorio simple sobre ambas poblaciones, recogiendo en la primera una
muestra de tamaño 36 y en la segunda una muestra de tamaño 45
26,3
28,5
31,6
25,5
24,6
32,3
35,5
29
27,3
MUESTRA 1
31,5
34,6
30,2
29,5
29,4
28,8
30,6
26,6
31,4
27,5
25
35,4
26
38
24
29
29,2
27
25,5
27,8
26
24
26
31,5
35,3
32,2
34,1
1
0
1
1
0
0
1
1
0
1
1
1
0
0
1
1
0
1
MUESTRA 2
0
1
0
0
0
0
1
0
1
1
1
0
0
1
1
0
0
1
1
0
1
1
0
0
0
0
1
Obtenga en ambos casos:
a. La media muestral.
b. La cuasivarianza muestral.
c. Límite para el error de estimación (95% de confianza)
d. Intervalo de confianza para la media poblacional (nivel de confianza del 95%)
Solución:
a) Media muestral
b) Cuasivarianza muestral
c) Límite para el error de estimación
d) Intervalo de confianza
MUESTRA 1
y = 29,35
MUESTRA 2
S = 13,38
1,22
(28,13 , 30,57)
Sn2−1 = 0, 2556
0,1507
(36,04% , 66,18%)
2
n −1
p = 51,11%
Seleccionamos del fichero Excel “PRACTICAS” la hoja “MAS infinito” (Muestreo aleatorio
simple en poblaciones infinitas) y antes de nada, tal y como se aconseja en la
“INTRODUCCIÓN A LAS PRÁCTICAS EN EXCEL” debemos borrar toda la información
numérica que hubiera en las celdas grises. Este primer paso común a todas las prácticas que
siguen no se repetirá en la explicación de cada una para no aumentar innecesariamente la
longitud del documento
279
Dado que los datos de la muestra 1 son numéricos los escribiremos en la columna
correspondiente a “Datos numéricos” (columna C) y la muestra 2 por ser dicotómica la
escribiremos en la columna D
Obteniéndose la solución del apartado a) en C10 y D10, del apartado b) en C11 y D11, del
apartado c) en C13 y D13, del apartado d) en C14, C15, D14 y D15.
280
2. Un hipermercado desea estimar la proporción de compras que los clientes pagan con
su “Tarjeta de Compras”. Durante una semana observaron al azar 300 compras de las
cuales 35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporción de compras pagadas
con dicha tarjeta.
b) Cuantas compras deberían observarse para estimar, con un error inferior al
2%, la proporción de compras pagadas con la tarjeta. (Consideren los
datos anteriores como una muestra previa)
c) Si no se tuviera ninguna información acerca de los clientes que utilizan la
tarjeta, cuántas compras deberíamos observar para asegurar que la anterior
estimación se realiza con un error inferior al 2%.
Solución: a) (7,95%, 15,38%), b) n=1.030,6≈1.031, c) n=2.500.
Desprotegemos la hoja para poder modificar el valor de las celdas en amarillo más intenso
(Herramientas/Proteger/Desproteger hoja...).
Puesto que se trata de una variable dicotómica trabajaremos sobre la columna D. Escribimos
en D9 el tamaño de la muestra (300) y en D10 el valor de la proporción muestral (=35/300)
281
Obteniéndose en D14 y D15 la solución al apartado a): (0,0795 , 0,1538).
Si deseamos ver el valor de una o varias celdas con más decimales, seleccionaremos éstas y
pulsaremos en el botón “aumentar decimales” de la barra de herramientas “formato” tantas
veces como decimales se quieran añadir. Análogamente, con el botón “disminuir decimales”
redondearemos el resultado con un menor número de decimales. (Si la hoja está protegida no
nos permitirá hacer este tipo de acciones).
282
En casi todas las hojas (“MAS infinito”, “MAS finito”, “2 Estratos”, “3 Estratos”, “4
Estratos”, “Razón, regresión y diferencia” y “Conglomerados”) se ha adoptado un esquema
similar: en la parte alta de la plantilla (etiquetas de color rosa) se obtienen las estimaciones y
los errores de estimación asociados (y cálculos relacionados con los anteriores) en la parte
inferior (etiquetas de color naranja y separadas de las anteriores por una banda blanca) se
determina el tamaño de la muestra para un límite del error de estimación fijado (deseado).
Para esta parte inferior de la plantilla se necesita como información, para realizar los cálculos,
la cota del error de estimación deseada y en el caso numérico la varianza muestral que puede
obtenerse de una muestra previa cuyos datos deben aparecer bajo la etiqueta “Muestra” o bien
a partir del rango (como veremos en el ejercicio 5 de la práctica 2). En el caso dicotómico la
varianza muestral depende de p (proporción muestral o estimación de la proporción) y este
es el valor que debemos incluir en la plantilla para obtener el tamaño muestral, p puede
obtenerse de una muestra previa que aparecería bajo la etiqueta “Muestra”, introducirse
directamente si se conoce su valor (como en el apartado b de este ejemplo, p = 35 / 300 ), o
bien, darle el valor 0.5 cuando no se tenga ninguna información acerca de su valor (como en el
apartado c).
NOTA: No debe confundirse el tamaño muestral que aparece etiquetado en rosa que
corresponde al tamaño de una muestra que hemos observado, que ya tenemos, del tamaño
muestral que aparece etiquetado en naranja y que nos dice cómo debe ser la muestra que
debemos tomar, por tanto aún no se tiene, para conseguir que las estimaciones tengan
283
como máximo un determinado error de estimación. Asimismo no debemos confundir la
cota del error de estimación etiquetada en rosa que se refiere al error asociado a una
estimación hecha con la muestra que hemos observado y por tanto su valor no lo
decidimos nosotros, con la cota del error de estimación etiquetada en naranja que la
fijamos de antemano.
Para resolver el apartado b) escribiremos 0,02 (es decir, el 2%) en D17 “COTA DEL
ERROR DE ESTIMACION DESEADA y en D18 se obtiene la solución: n=1030,6
Por último, para resolver el apartado c), dado que no se tiene información sobre la proporción
de clientes que utilizan la tarjeta (es decir, desconocemos el valor de la celda D10=0,1167),
suponemos que ese valor es ½=0,50.
284
En las celdas D11, D12, D13, D14 y D15 aparecen errores en el cálculo de dichas expresiones
debido a que entienden que el tamaño muestral en D10 es cero, pero dichas celdas no afectan
al cálculo de la expresión D18 donde aparece el tamaño muestral necesario para que el error
de estimación no supere el 2% (D17=0,02)
3. Este mismo hipermercado desea estimar también el valor medio de las compras
realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa
que el valor total de las compras hechas con la tarjeta fue de 4.500€ (siendo la
cuasivarianza de los datos 615,15). Estímese el valor medio de las compras pagadas
con la tarjeta y el error de estimación asociado.
Solución: µ = 128,57 B = 8,38
Aunque en el mismo contexto que el ejercicio 2 de esta práctica, en este caso trabajamos con
una variable numérica donde el tamaño de la muestra no es 300 sino 35 (clientes observados
que pagaron con la tarjeta).
En lugar de facilitarnos los 35 datos de la muestra nos dan el resumen de dichos datos
mediante su media (la calculamos como la suma de las compras dividida entre el número de
ellas, 4500/35) y cuasivarianza muestral. Como en el ejemplo anterior desprotegemos la hoja
de cálculo para poder introducir directamente en las celdas color amarillo intenso los
anteriores valores que la hoja de cálculo hubiese obtenido si le diéramos los datos de la
muestra.
La estimación de la media y el error de estimación asociado pueden leerse en las celdas C10 y
C13.
285
PRÁCTICA 2
Muestreo Aleatorio Simple en poblaciones finitas.
Como vamos a ver, el muestreo aleatorio simple en poblaciones finitas es similar al caso de
poblaciones infinitas estudiado anteriormente y presenta análogas posibilidades y/o
dificultades. Nos podemos encontrar con variables de tipo numérico (ejercicios 1, 2 y 3) y
dicotómicas (ejercicios 3 y 4). Situaciones en las que conocemos explícitamente los datos de
la muestra (ejercicios 1 y 3), o bien, otras donde nos dan resumidos los valores de la muestra
en su media, varianza y tamaño muestrales (caso numérico, ejercicio 2) o en su proporción y
tamaño muestrales (caso dicotómico, ejercicio 4).
En cuanto a las diferencias entre un tipo de muestreo y otro, señalar que en el muestreo
aleatorio simple en poblaciones finitas tiene sentido la estimación del total poblacional (como
sabemos, a partir de la media o de la proporción) hecho que no se trata en el muestreo
aleatorio simple en poblaciones infinitas. Debido a esto, las columnas donde se recogen las
estimaciones, errores de estimación e intervalos de confianza, tanto en el caso numérico como
dicotómico, se han desdoblado para calcular los correspondientes valores relativos a la
estimación de la media (o proporción) y del total. Dado que nos enfrentamos a una población
finita debemos introducir el valor finito del tamaño de la población en C8 o E8. Cuando
algunos valores (tamaño poblacional, tamaño muestral,..., datos muestrales) son comunes a la
estimación de la media y del total se fusionan las celdas de las dos columnas para evitar
repeticiones innecesarias. Los anteriores comentarios pueden constatarse en la siguiente
pantalla que muestra el aspecto de la plantilla para el muestreo aleatorio simple en
poblaciones finitas.
286
1. Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada
para estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la
muestra para estas seis cuentas son los siguientes:
Dinero adeudado (€)
35,50
32,00
43,00
41,00
44,00
42,50
a) Estime el total del dinero adeudado y establezca un límite para el error de
estimación.
b) ¿Cuántas cuentas deberían observarse para estimar el total de deuda con un error
inferior a 200€? (considere los anteriores datos como una muestra previa)
Solución: a) τ = 3966,6
2 V (τ ) = 381, 02
b) n = 18,96 ≈ 19
En este sencillo ejercicio sólo tenemos que borrar los datos de las celdas grises e introducir la
información del enunciado. No es necesario desproteger la hoja porque no se modifica
ninguna de las expresiones de las celdas amarillas.
287
Los valores pedidos en a) se pueden leer en D10 y D13. Escribiendo el máximo error de
estimación que deseamos en la celda D17 se obtiene el tamaño muestral necesario en D18,
(si el error de estimación se refiere a la media, éste debe introducirse en C17).
2. Una muestra aleatoria simple de 50 contadores de agua es controlada dentro de una
comunidad de regantes para estimar el promedio de consumo de agua diario (en m3)
durante un periodo estacional seco. La media y varianzas muestrales fueron
y = 10,31 m3 y s 2 = 2, 25 m6 . Hay en total 750 regantes en la comunidad.
a) Estime el consumo medio diario de toda la comunidad y establezca un
límite para el error de estimación.
b) Estime con un intervalo de confianza la cantidad total de litros de agua
empleada diariamente.
Solución: a) y = 10,31m3
B = 0, 41m3 , b) (7.425.090 litros , 8.039.910 litros).
En este caso no disponemos de los 50 valores de la muestra por lo que tendremos que
desprotegerla para escribir en C9, C10 y C11 el tamaño, la media y varianza muestrales,
además de no olvidar el tamaño de la población en la celda C8. En C10 y C13 está la
respuesta al apartado a y en D14, D15 la respuesta a b (observe que los valores están
expresados en m3 y la respuesta la piden en litros por lo que se multiplicarán por 1000).
288
3. Para estimar el número de alumnos de un grupo de la asignatura Técnicas para el
Análisis del Mercado que tienen acceso a Internet en su casa, se ha preguntado a los
15 alumnos de un grupo de prácticas de la asignatura. La respuesta se recoge en la
siguiente tabla
1-SI
2-SI
3-NO
4-SI
5-NO
6-NO
7-SI
8-SI
9-SI
10-NO
11-NO
12-NO
13-SI
14-SI
15-NO
a) Estime, mediante un intervalo de confianza, cuántos de los 150 alumnos
que hay en ese grupo tienen acceso en casa a Internet.
b) ¿Le parece fiable la predicción?.
c) A cuantos alumnos se tendría que preguntar para que la estimación se
realizara con un error inferior a 10 alumnos.
Solución: a) (42,05 , 117,95),
b) No, el error es muy grande (37,95) y por tanto el
intervalo de confianza muy amplio, c) n=90,1≈91.
Este ejercicio es un sencillo ejemplo de datos dicotómicos donde se conocen los valores de la
muestra, sólo tenemos que introducirlos en la columna correspondiente, etiquetando como 1
aquella respuesta cuya proporción o total queremos estimar (en este caso SI=1, NO=0).
Como el apartado a me pide que estime el total de alumnos, buscaremos en la columna F y en
la filas 14 y 15 la respuesta. El valor de la cota del error de estimación del total que vemos en
F13=37,95 es importante si lo comparamos con la estimación del total F10=80 (casi la mitad),
por lo que se concluye la poca fiabilidad de la estimación. Escribiendo el máximo error de
estimación que deseamos cometer al estimar el total en la celda F17 obtenemos en F18 el
tamaño muestral necesario para conseguirlo.
289
4. Una muestra aleatoria simple de 180 estudiantes (de un total de 300) fue entrevistada
para determinar la proporción de estudiantes que está a favor del cambio del sistema
semestral al anual. Treinta y cinco de los estudiantes respondieron afirmativamente.
Estime la proporción de estudiantes que está a favor del cambio y establezca un límite
para el error de estimación.
Solución: p = 19, 44% B = 3, 74%
En este ejemplo de datos dicotómicos (como el anterior) no tenemos explícitamente la lista de
los 180 elementos observados pero conocemos el tamaño (180) y la proporción muestral
(35/180). Desprotegemos la hoja para escribir dichos datos en las celdas amarillas E9 (180) y
E10 (=35/180)
apareciendo en E10 y E13 la respuesta.
NOTA: En ejemplos con datos dicotómicos donde se tenga la lista completa de los valores de
la muestra se puede optar por este procedimiento de resolución que resulta a veces más
cómodo. Así por ejemplo, en el ejercicio anterior podríamos haber contado los elementos de la
muestra n=15, el número de respuestas SI=8, desproteger la hoja de cálculo y escribir en E9
(15) y en E10 (=8/15).
290
5. Encuentre el tamaño de muestra necesario para estimar el valor total de 1.000
cuentas por cobrar con un límite para el error de estimación de 10.000€. Aunque no
se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que
la mayoría de las cuentas caen dentro del intervalo (600, 1.400).
NOTA: En la casilla C11 estimamos la varianza mediante
R 2 (1400 − 600 )
σ ≅
=
= 40.000
16
16
2
2
(se utiliza que la desviación típica en variables normales es aproximadamente la cuarta
parte del rango o recorrido de los datos observados)
Solución: n = 615, 62 ≈ 616
En primer lugar, señalar que se trata de un problema con datos numéricos (valor de las
cuentas) y que estamos interesados en la estimación del total. Según se sugiere en la nota,
escribiremos en la celda C11 la expresión =((1400-600)^2)/16 ,o bien =(800^2)/16, que como
puede observarse vale 40000. En D17 introduciremos el máximo error de estimación que
queremos cometer al estimar el valor total de las cuentas y en D18 se tiene la respuesta
291
292
PRÁCTICA 3
Muestreo Aleatorio Estratificado.
En el fichero Excel de las prácticas de la asignatura hay tres hojas con las plantillas para los
cálculos necesarios en el muestreo aleatorio estratificado de 2, 3 y 4 estratos, tanto para datos
numéricos como dicotómicos. Para un mayor número de estratos se puede confeccionar la
plantilla fácilmente copiando las dos columnas de un estrato tantas veces como se quiera e
incluyendo los valores de los nuevos estratos en las sumatorias y expresiones de las dos
columnas de toda la población donde se recopila la información del conjunto de todos los
estratos (véase las notas sobre las preprácticas).
El muestreo aleatorio estratificado consiste en un muestreo aleatorio simple en cada uno de los
estratos, por lo que en cada estrato (en la parte superior de la plantilla) se han copiado,
exactamente, las mismas expresiones que aparecen en el muestreo aleatorio simple. La
determinación del tamaño muestral y su asignación (parte inferior de la plantilla) son mucho
más complejas que en el muestreo aleatorio simple y no guardan relación con él.
Al igual que el muestreo aleatorio simple, el muestreo aleatorio estratificado puede hacerse
sobre poblaciones finitas e infinitas. Nosotros hemos supuesto el modelo con tamaños
poblacionales de los estratos finitos (que aparecen en la fila 8), pero como veremos en algunos
ejemplos ( ejercicios 4 y 8) se puede aplicar también al caso de tamaños poblacionales
infinitos.
Para simplificar las expresiones de la parte inferior de la plantilla (determinación del tamaño
muestral y asignación) se han hecho unos cálculos previos en la banda blanca intermedia que
aparecen en un negro menos intenso y carecen de una interpretación directa.
1. Se está interesado en determinar la audiencia de la publicidad televisiva en una
cadena local de un municipio, se decide realizar una encuesta por muestreo para
estimar el número de horas por semana que se ve la televisión en las viviendas del
municipio. Éste está formado por tres barrios con diferentes perfiles socio-culturales
que afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio
B y 126 en el barrio C. La empresa publicitaria tiene tiempo y dinero suficientes
como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de
tamaños: 15 del barrio A, 6 del barrio B, y 9 del barrio C.
Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los
resultados, con mediciones del tiempo que se ve la televisión en horas por semana, se
293
muestran en la siguiente tabla:
BARRIO A
36
34
26
39
38
32
38
37
29
28
41
35
29
37
41
BARRIO B
20
25
30
14
41
39
BARRIO C
14
22
15
17
21
11
20
14
24
Estime el tiempo medio que se ve la televisión, en horas por semana, para:
a) Los hogares del barrio A.
b) Los hogares del barrio B.
c) Los hogares del barrio C.
d) Todos los hogares
Para todos los casos fije un límite para el error de estimación.
e) ¿Qué tipo de asignación se ha utilizado?
NOTA: Obsérvese que debido al tipo de asignación utilizado, y st = y .
y st aparece en la celda I10=28,23. y lo podemos calcular, por ejemplo en la celda B28,
escribiendo la función =PROMEDIO(C28:G100) que calcula la media aritmética de
todos los datos incluidos en las tres muestras (columnas C, E y G), obteniéndose
B28=28,23.
Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un
barrio que en otro. Se estima que el coste de una observación del barrio A es de 1€, 9€
para el barrio B y 4€ para el barrio C.
f) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a
la semana que se ve la televisión en los hogares del municipio con un error
inferior a 1 hora. (Tómese los anteriores datos como una muestra previa para
estimar los parámetros necesarios).
NOTA: Para comprobar que la asignación óptima y de Neyman coinciden cuando los
costes son iguales, escriba en las celdas C21, E21 y G21 el mismo valor para los tres
costes y observará que las filas 22 y 23 de la tabla (asignación óptima y de Neyman)
coinciden.
g) Supóngase que se tiene sólo 600€ para gastar en el estudio, determine el tamaño
de la muestra y la asignación que minimizan el error de estimación. (Como en el
apartado anterior, tómese los datos de la tabla como una muestra previa para
estimar las varianzas de los estratos).
294
Solución: a) y A = 34, 67 B = 2, 40
c) y C = 17,56 B = 2,82
b) y B = 28,17 B = 8,35
d) y st = 28, 23 B = 2, 22
e) proporcional
f) n=124,88 n1 =79,71 ≈ 80 n 2 =23,39 ≈ 24 n 3 =21,78 ≈ 22 n=80+24+22=126 . En
el caso de no querer sobrepasar un máximo error de estimación siempre redondearemos
por exceso.
g)
n=198,56 n1 =126,74 ≈ 126 n 2 =37,19 ≈ 37 n 3 =34,63 ≈ 34 n=126+37+34=197 .
Cuando no queramos superar un determinado presupuesto redondearemos por defecto,
haciéndolo así :
coste total = (1× 126) + (9 × 37) + (4 × 34) = 595€
sin embargo:
coste total = (1×127) + (9 × 38) + (4 × 35) = 609€
Estamos ante el caso más sencillo de estratos con datos numéricos donde sólo tenemos que
introducir la información que tenemos en las celdas grises. No hace falta desproteger la hoja
“3 Estratos” salvo para los cálculos del apartado e (motivo por el que lo resolveremos al final).
Para responder a los apartados a, b, c y d , escribiremos los tamaños poblacionales de los
estratos en la fila 8 y los valores de las muestras en las columnas C, E y G bajo las etiquetas
“Muestra 1”, “Muestra 2” y “Muestra 3”.
NOTA: No olvide pulsar “Enter” después de escribir el último dato pues en caso contrario
la hoja de cálculo no lee éste.
La estimación para la media y su límite para el error de estimación en cada uno de los estratos
(barrios) pueden verse en C10, C13; E10, E13; G10, G13 y la estimación para el conjunto de
todos los hogares de la población en I10, I13.
295
Para contestar al apartado f, escribiremos los costes de observación en C21, E21 y G21 y el
máximo error de estimación que queremos cometer al estimar la media en I20 (si
pretendiéramos estimar el total de horas con un determinado error utilizaríamos la celda J20).
En las filas 22, 23 y 24 están los tres tipos de asignación estudiados. Nos fijaremos en los
valores que aparecen en las columnas correspondientes a la media de cada estrato y de la
población porque ha sido sobre la estimación de la media donde hemos impuesto la condición
de que el error no supere 1 hora. A los valores que hay a la derecha de éstos y que se refieren
al total no hay que prestarles atención, se han calculado suponiendo que queremos estimar el
total con un error cero (celda J20 en blanco) y carecen de sentido, obsérvese que en el caso de
la asignación óptima deberíamos observar 453 elementos de un total de 420 que hay en toda
la población, con la asignación de Neyman habría que observar en el estrato 2 a 130
elementos, sin embargo sólo hay 84 en ese estrato.
Hechas estas aclaraciones nos queda aún la decisión de cuál de las tres asignaciones debemos
tomar. Salvo que se pregunte por una asignación concreta en el enunciado del ejercicio,
debemos utilizar siempre que se pueda la asignación óptima, fila 22, pues como su nombre
indica es la mejor. Cuando no conozcamos los costes de observación (bórrese estos de la fila
21) no se podrá obtener la asignación óptima, la hoja de cálculo nos dará errores de división
por cero.
296
En el apartado g debemos resolver la mejor forma de seleccionar una muestra dado un
presupuesto o coste total fijo, en este caso 600€. Para ello utilizamos la asignación óptima
para un coste total fijo, fila 25. La solución la tenemos en la pantalla que aparece en la página
19 de este documento (celdas C25, E25, G25, I25). La celda B21 incluye dos etiquetas, la
primera “COSTE DE UNA OBSERVACIÓN” se refiere a lo que cuesta una observación en
cada estrato y debemos escribirlo en C21, E21 y G21, la segunda etiqueta “COSTE TOTAL”
hace referencia al presupuesto total para tomar la muestra y su valor debe colocarse en I21.
La determinación y asignación de las muestras en los apartados f y g utilizan las estimaciones
de las varianzas de los datos en cada estrato (varianza muestral, fila 11) a partir de las
muestras previas de 15, 6 y 9 elementos que disponemos en los respectivos estratos, tal y
como se indica en el enunciado.
En el apartado e vamos a verificar que se ha utilizado la asignación proporcional en la
muestra
observada.
equivalentemente
Para
comprobarlo
hay
que
ver
que
n1
n
n
n
= 2 = 3 =
N1 N 2 N 3 N
o
N1 N 2 N 3 N
=
=
=
. Para ello en cualesquiera tres celdas en blanco
n1
n2
n3
n
calcularemos: =C8/C9, =E8/E9, =G8/G9 y observaremos que coinciden.
Nota: Para hacer esos cálculos en esta hoja habrá que desprotegerla. Si coinciden estos
tres valores no es necesario comprobar la igualdad con =I8/I9.
Consecuencia de haber utilizado la asignación proporcional es que y st = y . Ese hecho se ha
comprobado calculando y en B28 y observando que coincide con y st en I10 (véase pantalla
de la página 19).
2. En el caso anterior, también se desea saber qué proporción de hogares ven un
determinado programa, para decidir la conveniencia de insertar un anuncio en los
intermedios del mismo. La respuesta a la pregunta de si ven dicho programa por los
hogares de la muestra anterior se recoge a continuación:
BARRIO A
BARRIO B BARRIO C
SI
NO
SI
SI
SI
NO
SI
SI
SI
SI
NO
SI
SI
NO
NO
NO
SI
SI
SI
NO
SI
NO
SI
NO NO
SI
NO
NO
SI
SI
a) Estime con un intervalo de confianza la proporción de hogares del municipio
donde se ve el programa.
b) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con
un error inferior al 5%. (Supóngase que se realiza la entrevista por teléfono y el
297
coste de las observaciones es el mismo para todos los casos al no ser necesarios los
traslados. Tómese los anteriores datos como una muestra previa para estimar los
parámetros necesarios)
c) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna
información previa sobre la proporción de hogares donde se ve el programa.
Solución:
a) (42,7% , 77,3%)
b) n=188,98 n1 =101,29 ≈ 102 n 2 =30,27 ≈ 31 n 3 =57,42 ≈ 58 n=102+31+58=191
c) n=204,88 n1 =102,44 ≈ 103 n 2 =40,98 ≈ 41 n 3 =61,46 ≈ 62 n=103+41+62=206
Los apartados a y b son similares a los apartados d y f del ejercicio anterior salvo que aquí
trabajamos con datos dicotómicos. Seleccionaremos en la hoja “3 Estratos” la plantilla que
hay a la derecha para datos dicotómicos e introduciremos la información en las celdas grises
(no es necesario desproteger la hoja) codificando las respuestas SI como 1 y los NO como 0.
En el enunciado de este ejercicio no se repiten los tamaños poblacionales de los estratos
porque se sobreentiende que son los mismos al no cambiar de población en estudio.
Tras introducir los datos, en S14 y S15 tenemos los extremos del intervalo de confianza
pedido en el apartado a.
Obsérvese que aunque se dice que los costes de observación por teléfono son los mismos,
éstos son desconocidos por lo que la fila 21 aparece en blanco y no se puede obtener la
298
asignación óptima. Pero sabemos, como se ha comprobado en la nota al apartado f del
ejercicio anterior, que las asignaciones óptima y de Neyman coinciden si los costes de
observación son iguales (se conozcan o no). Se sugiere escribir unos costes de observación
(los que se quieran) iguales para los tres estratos y comprobar que la asignación óptima nos
daría los mismos valores que la asignación de Neyman (M23, O23, Q23 y S23) que son la
solución al apartado b.
Cuando, como en el apartado c, no se tienen datos previos para estimar la proporción en cada
estrato y a partir de ella la varianza de los datos en cada estrato, suponemos que el valor de la
proporción es 0,5 en cada uno de los estratos (hay que desproteger la hoja para poder escribir
en M10, O10 y Q10 dicho valor) y borramos los datos muestrales de las columnas
“MUESTRA 1”, “MUESTRA 2” y “MUESTRA3”.
Al no introducir datos muestrales (por tanto, tamaño muestral = 0) aparecen errores de cálculo
en las filas 11, 12, 13, 14 y 15, pero esos valores no afectan a la determinación del tamaño
muestral que sólo tiene en cuenta los tamaños de los estratos (fila 8) y la estimación de la
proporción (fila 10). Además se observa que al ser la proporción igual en los tres estratos y
por tanto la varianza de los estratos, las asignaciones de Neyman y proporcional coinciden y
son la solución al apartado c.
299
3. Una multinacional desea obtener información acerca de la efectividad de una máquina
comercial. Se va a entrevistar por teléfono a un número de jefes de división, para
pedirles que califiquen la maquina con base en una escala numérica. Las divisiones
están localizadas en Norteamérica, Europa y Asia. Es por eso que se usa muestreo
estratificado. Los costes son mayores para las entrevistas de los jefes de división
localizados fuera de Norteamérica. La tabla siguiente proporciona los costes por
entrevista, varianzas aproximadas de las calificaciones y número de jefes de división
en cada zona.
Estrato I
(Norteamérica)
Estrato II
(Europa)
Estrato III
(Asia)
c1 = $9
c 2 = $25
c 3 = $36
σ 12
σ 22
σ 32 = 3,24
= 2,25
N1 = 112
= 3,24
N 2 = 68
N 3 = 39
La multinacional quiere estimar la calificación media con un error inferior a 1 punto.
Encuentre el tamaño apropiado de la muestra que conduce a este error para el estimador y
su asignación.
Solución:
n=11,26 n1 =6,84 ≈ 7 n 2 =2,99 ≈ 3 n 3 =1,43 ≈ 2 n=7+3+2=12
En la hoja “3 Estratos”, tras borrar toda la información de las celdas grises, escribimos el valor
de los costes de observación en la fila 21, las varianzas de los estratos en la fila 11 (hay que
desproteger la hoja) y los tamaños de los estratos en la fila 8. El máximo error de estimación
que se quiere cometer al estimar la media se sustituye en I20. La solución sería la asignación
óptima (fila 22), valen los mismos comentarios hechos en el ejercicio 1, apartado f.
300
4. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados
de ordenador defectuosos que proceden de tres máquinas diferentes de producción.
Ella sabe que de los circuitos integrados que van a ser inspeccionados, el 50%
proceden de la máquina A, el 30% de la máquina B y el 20% de la máquina C. En una
muestra aleatoria de 200 circuitos integrados, 80 provienen de la máquina A, 70 de la
B y 50 de la C. De los circuitos integrados muestreados: son defectuosos 10 de la
máquina A, de la B son defectuosos 6 y de la C son 5 defectuosos. Estratifique la
muestra en circuitos integrados provenientes de las máquinas A, B y C, estime la
proporción de defectuosos en la población y fije un límite para el error de estimación
(omita los coeficientes correctores para poblaciones finitas en todos los casos).
NOTA: Para resolver este problema tenemos que eliminar los coeficientes correctores
para poblaciones finitas
N i − ni
en la correspondiente hoja de cálculo (tres estratos), lo que
Ni
equivale a hacerlos igual a 1. Tendríamos que (por ejemplo en el estrato 1) borrar en las
fórmulas de las celdas M12 y N12 las expresiones
N i − ni M 8 − M 9
=
(análogamente
Ni
M8
repetiríamos para los estratos 2 y 3 en las celdas O12, P12, Q12 y R12) . Lo anterior se
puede resolver más fácilmente dando a los valores N i en las celdas M8, O8 y Q8 valores
muy grandes de forma que
conocidos aunque sí
N i − ni
≅ 1 . Por otra parte dado que los valores N i no son
Ni
Ni
(0,50, 0,30 y 0,20), debemos respetar dichas proporciones
N
(sugerencia M8=50.000.000, O8=30.000.000 y Q8=20.000.000).
Solución: p st = 10,82% B = 4,56%
Al no disponer de las observaciones muestrales sino de los tamaños de las muestras (
n1 = M 9 = 80 , n2 = O9 = 70 , n3 = Q9 = 50 ) y proporciones muestrales en cada estrato
( M 10 = 10 / 80 , O10 = 6 / 70 , Q10 = 5 / 50 ), desprotegeremos la hoja y escribiremos esa
información en las filas 9 y 10. No se conocen los tamaños poblacionales de los estratos por lo
grandes que son estos (podemos considerarlos infinitos) pero sí se conoce la relación de estos
N
N

tamaños con el de toda la población 100 1 = 50% , 100 2 = 30% ,
N
N

100
N3

= 20%  .
N

301
Como se indicaba en la introducción a la práctica 3, las plantillas para el muestreo aleatorio
estratificado se han construido sobre el muestreo aleatorio simple en poblaciones finitas, pero
estas plantillas pueden utilizarse también para el caso de muestreo aleatorio estratificado con
tamaños poblacionales de los estratos infinitos (tan grandes que su tamaño es desconocido).
La clave para hacerlo está en la anterior nota. La diferencia entre las expresiones del muestreo
aleatorio simple en poblaciones finitas e infinitas está en que en el primero aparece
multiplicando el coeficiente corrector para poblaciones finitas
que es lo mismo,
N −n
y en el segundo no (o lo
N
N −n
N −n
= 1 ). Así, borrando i i de todas las expresiones o haciendo
N
Ni
N i − ni
= 1 , habremos adaptado nuestras plantillas al caso de muestreo estratificado con
Ni
tamaños de los estratos infinitos. Dado que borrar y manipular sobre las expresiones escritas
puede provocar fácilmente errores, si no se hace con toda cautela, proponemos la segunda
alternativa como la forma más segura de transformar las expresiones del muestreo aleatorio
simple finito en el caso infinito. Para ello en la fila 8 (TAMAÑO POBLACIONAL)
escribiremos valores muy grandes para los tamaños de los estratos ( N i ) de forma que
N i − ni
≅ 1 , lo que equivale prácticamente a quitarlo de las expresiones donde aparece. Pero
Ni
con esto no acaba todo, no podemos escribir unos tamaños N i tan grandes como queramos a
nuestro antojo, dichos tamaños han de respetar la relación entre los tamaños de los estratos, es
decir, los valores
100
N1
= 50% ,
N
Ni
que habitualmente vienen dados en porcentajes. En este ejercicio:
N
100
N2
= 30% ,
N
100
N3
= 20% . Por último, una forma sencilla de asignar
N
los tamaños a los estratos respetando dichos porcentajes consiste en añadir al porcentaje varios
ceros (el mismo en todos los estratos). En este caso para el estrato 1 hemos tomado 50
millones
como
tamaño
poblacional
y
análogamente
para
N1 = M8=50.000.000 , N 2 = O8=30.000.000 y N 3 = Q8=20.000.000
302
los
otros
estratos:
La pequeña diferencia entre la solución del problema B=4,56% y el valor que aparece en la
anterior pantalla (S13=0,0457, es decir, 4,57%) es debido a que trabajamos con
N i − ni
≅1 y
Ni
no exactamente 1. Si se quiere una mejor aproximación a la solución debemos escribir
mayores valores en M8, O8 y Q8, lo que se consigue simplemente añadiendo más ceros a
dichas cifras (¡ojo, el mismo número en todas!).
5. El Ministerio de Medio Ambiente quiere estimar el número total de hectáreas
plantadas de árboles en las fincas de una comarca. Ya que el número de hectáreas de
árboles varía considerablemente con respecto al tamaño de la finca, decide estratificar
sobre la base del tamaño de las fincas. Las 240 fincas de la comarca son clasificadas
en 4 categorías de acuerdo al tamaño. Una muestra aleatoria estratificada de 40 fincas,
seleccionada mediante asignación proporcional, dio como resultado el número de
hectáreas plantadas de árboles que se muestra en la siguiente tabla:
303
Estrato I Estrato II Estrato III Estrato IV
0-200 ha. 201-400 ha. 401-600 ha. +600 ha.
N1 = 86
N 2 = 72
N 3 = 52
N 4 = 30
n1 = 14
n 2 = 12
n3 = 9
n4 = 5
97
42
25
105
27
45
53
67
125
92
86
43
59
21
125
67
256
310
220
142
155
96
47
236
352
190
142
310
495
320
196
256
440
510
396
167 655
220 540
780
a) Estime el número total de hectáreas plantadas de árboles en las fincas de
la comarca y fije el límite para el error de estimación.
b) Este estudio se quiere hacer anualmente con un límite para el error de
estimación de 5.000 hectáreas. Encuentre el tamaño muestral y su
asignación para garantizar dicho límite de error si se usa la asignación de
Neyman.
Solución: a) τˆ = 50505, 60 B = 8663,12
b)
n=59,7 n1 =6,9 ≈ 7 n 2 =16,7 ≈ 17 n 3 =16,4 ≈ 17 n4 = 19, 7 ≈ 20 n=7+17+17+20=61
Este ejercicio es del mismo tipo que el ejercicio 1: datos numéricos y conocemos las
observaciones muestrales, pero en este caso el número de estratos es 4. Salvo esa diferencia
(por lo que seleccionaremos en este caso la hoja “4 Estratos”) no presenta ninguna dificultad
nueva a las encontradas en el ejercicio 1. Sin necesidad de desproteger la hoja, escribiremos
los tamaños poblacionales de los estratos en la fila 8 y las observaciones muestrales en las
columnas de cada estrato (nota: no es necesario escribir en la fila 9 los tamaños de las
muestras pues la hoja de cálculo los obtiene al contar las observaciones muestrales que se han
escrito debajo).
En L10 y L13 está la solución al apartado a. Escribiendo en L20 el máximo error que se quiere
cometer al estimar el total de hectáreas, se puede leer en la fila 23 (asignación de Neyman,
dado que no tenemos información sobre costes para poder calcular la asignación óptima) la
respuesta del apartado b (si queremos obtener la solución con un decimal podemos utilizar el
botón “disminuir decimales” como se indicó en el ejercicio 2 de la práctica 1). Recordemos,
dado que se va a estimar el total, que debemos leer de la fila 23 sólo la información de las
celdas bajo las columnas “TOTAL”.
304
6. Para la comarca del ejercicio anterior, el gobierno también desea conocer la proporción
de fincas que han sufrido algún incendio en los últimos diez años. Para ello, en la
misma muestra se pregunta sobre el referido asunto, obteniéndose las siguientes
respuestas
Estrato I Estrato II Estrato III Estrato IV
0-200 ha. 201-400 ha. 401-600 ha. +600 ha.
N1 = 86
N 2 = 72
N 3 = 52
N 4 = 30
n1 = 14
n 2 = 12
n3 = 9
n4 = 5
NO
SI
NO
NO
SI
NO
NO
NO
SI
NO
NO
SI
NO
NO
SI
NO
NO
NO
NO
NO
NO
SI
NO
NO
NO
SI
NO
SI
NO
NO
SI
NO
NO
NO
NO
NO NO
SI NO
NO
Estímese con un intervalo de confianza la proporción de fincas de la comarca que han
sufrido algún incendio en los últimos diez años.
Solución: (11,9% , 38,21%)
305
Este ejercicio es igual que el apartado a del ejercicio 2 pero con 4 estratos. Seleccionaremos
en la hoja “4 Estratos” la plantilla que hay a la derecha para datos dicotómicos e
introduciremos la información en las celdas grises (no es necesario desproteger la hoja)
codificando las respuestas SI como 1 y los NO como 0.
7. Una psicóloga que está trabajando con un grupo de adultos con retraso mental, desea
estimar su tiempo medio de reacción a un cierto estímulo. Ella considera que varones y
mujeres probablemente presentarán una diferencia en tiempos de reacción, por lo que
desea estratificar con base en los sexos. El grupo de 96 personas tiene 43 varones. En
estudios previos de este tipo de investigaciones se ha encontrado que los tiempos
presentan una amplitud de variación de 5 a 20 segundos para varones y de 3 a 14
segundos para mujeres. Los costes del muestreo son los mismos en ambos estratos.
Usando la asignación óptima, encuentre el tamaño muestral necesario para estimar el
tiempo medio de reacción para el grupo, con un límite de error de un segundo.
Solución: n = 28, 48 n1 = 14,96 ≈ 15 n2 = 13,52 ≈ 14 n = 15 + 14 = 29
N=96, N1=43, por tanto N2=53 .
Como en el ejercicio 5 de la práctica 2 estimaremos la varianza de los datos en cada
estrato a partir del rango o recorrido de los mismos. En el primer estrato escribiremos en la
306
R 2 ( 20 − 5 )
σ ≅
=
= 14, 06 .
16
16
2
celda
C11
2
Análogamente
en
el
estrato
2,
R 2 (14 − 3)
E11=
=
= 7,56 .
16
16
2
Como en el apartado b del ejercicio 2, los costes de observación en cada estrato son los
mismos. Podemos optar por escribir el mismo coste de observación en C21 y E21
(cualquier valor, por ejemplo aquí hemos considerado 1) y leer la solución en las filas 22 y
23, o bien dejar esas celdas en blanco (C21 y E21) y tomar como solución la asignación de
Neyman en la fila 23 (la asignación óptima en la fila 22 daría errores de cálculo, división
por cero, en este caso)
8. Una verificación de control de calidad estándar para baterías de automóviles consiste
simplemente en registrar su peso. Un embarque particular de una fábrica consistió en
las baterías producidas en dos meses diferentes, con el mismo número de baterías
producidas en cada mes. El investigador decide estratificar con base en meses para el
muestreo de inspección a fin de observar la variación mensual. Las muestras aleatorias
simples de los pesos de las baterías para los dos meses dieron las siguientes
mediciones (en libras):
307
Mes A Mes B
61,5
64,5
63,5
63,8
63,5
63,5
64,0
66,5
63,8
63,5
64,5
64,0
a) Estime el peso medio de las baterías del embarque (población), y fije un
límite para el error de estimación. Descarte el coeficiente corrector para
poblaciones finitas.
b) El estándar de la fábrica para este tipo de baterías es de 69 libras.
¿Considera usted que el embarque cumple el estándar promedio?
c) ¿Cree usted que la estratificación del ejercicio anterior es deseable, o será
suficiente con muestreo aleatorio simple?
Solución: a) y st = 63,88 B = 0, 63
b) No, 69 no pertenece al intervalo (63,26 , 64,51)
c) Considerando que los 12 datos constituyen una muestra aleatoria simple se obtendría
y = 63,88 B = 0, 65 , que es muy similar a lo obtenido en a) (las medias coinciden por ser
la asignación proporcional). Esta pequeña diferencia entre los errores del muestreo
aleatorio simple y del estratificado se debe a que los estratos no están formados por datos
más homogéneos que el conjunto de la población, como puede verse al comparar sus
varianzas muestrales S12 = 1, 07 S22 = 1,30 S 2 = 1, 27 , por tanto no estaría justificado
estratificar basándose en la producción por meses.
La producción de baterías no es conocida exactamente debido a su alto número, sólo nos dice
el enunciado que la producción es la misma en cada mes. Por tanto hemos de suponer los
tamaños de los estratos infinitos e iguales. Este hecho se confirma cuando en el apartado a se
sugiere que se descarte o haga igual a 1 el coeficiente corrector para poblaciones finitas. Este
problema ya se ha abordado en el ejercicio 4 y siguiendo los consejos que entonces se dieron
vamos a resolver este otro.
Así, daremos a los tamaños de los estratos en C8 y E8 valores elevados pero iguales
308
La solución al apartado a se puede leer en G10 y G13. Para responder al apartado b nos
fijamos en los extremos del intervalo de confianza para la media (G14, G15), dado que el
valor 69 no está entre ambos concluimos que nuestros datos rechazan la afirmación de que el
peso medio de la producción de baterías examinada sea de 69 libras.
Para el apartado c juntaremos las muestras de los dos estratos en una única muestra aleatoria
simple y la analizaremos con la ayuda de la hoja “MAS infinito”. Observamos que la
estimación de la media tiene una cota de error de estimación similar a la del apartado a
(analizando los datos según un muestreo estratificado). Tal y como se indica en los
comentarios a la solución del apartado c más arriba, esto es debido a la falta de homogeneidad
de los datos dentro de cada estrato, hecho que se confirma comparando las varianzas de las
muestras de los dos estratos (celdas C11 y E11 de la anterior pantalla) y de la muestra fusión
de ambas (celda C11 de la siguiente pantalla).
309
310
PRÁCTICA 4
Estimadores de Razón, Regresión y Diferencia.
En esta plantilla sólo tenemos que introducir los valores que aparecen en las celdas grises, no
tenemos que modificar ninguna expresión. No es necesario, por tanto, desproteger la hoja.
Se deberá tener cuidado en no confundir los papeles de las variables X e Y cuyos datos
muestrales colocaremos en las columnas C y D respectivamente (a partir de C22 y D22). La
variable X es la variable auxiliar en la que nos apoyamos para conseguir mejores estimaciones
sobre la variable Y. Por consiguiente, una forma sencilla de establecer claramente el papel de
las variables es fijarnos en sobre qué variable debemos estimar el valor de su media y/o total
(variable Y).
Habitualmente sólo nos darán el valor de la media poblacional de X o del total poblacional de
X, pero no ambos, dado que fácilmente se puede calcular uno a partir del otro
τx


 µ x = ⇔ τ x = N µ x  , en cualquier caso debemos completar el valor de los dos como se ha
N


C 8 15000 

=
hecho en la siguiente pantalla  C 9 = 75 =
 y volveremos a ver en el ejercicio 1
200 
C10

de esta práctica.
311
Si se quiere realizar alguna de las estimaciones con un error de estimación inferior a un
determinado valor B, escribiremos éste en la celda correspondiente de la fila 18. Para obtener
el tamaño muestral necesario para conseguir dicho nivel de error tenemos que conocer
además de éste (fila 18), el tamaño poblacional (C8) y la varianza residual asociada al modelo
(fila 17), para estimar esta última necesitamos una muestra previa que debe aparecer en las
columnas C y D. Sin embargo, los valores de la media poblacional de X
poblacional de X
( τx)
( µx )
o del total
no son necesarios, salvo en el caso de que se quiera estimar la razón
(R) con un determinado error B, entonces escribiremos el valor de µ x o en su defecto x
(como en el ejercicio 2) en la celda C9.
Nota: El valor del coeficiente b de la recta de regresión se ha obtenido en G22 y G23
utilizando dos expresiones distintas. Con esto se quiere mostrar al alumno que éste y otros
valores que se calculan en estas hojas pueden en muchos casos obtenerse de diferentes formas.
1. Los auditores frecuentemente están interesados en comparar el valor intervenido de los
artículos con el valor asentado en el libro. Generalmente, los valores en el libro son
conocidos para cada artículo en la población, y los valores intervenidos son obtenidos
con una muestra de esos artículos. Los valores en el libro entonces pueden utilizarse
para obtener una buena estimación del valor intervenido total o medio para la
población.
Supóngase que una población contiene 180 artículos inventariados con un valor
establecido en el libro de 13.320€. Una muestra aleatoria simple de 10 artículos nos dio los
siguientes resultados:
Valor intervenido yi
Valor en el libro xi
9
10
14
12
7
8
29
26
45
47
109
112
40
36
238
240
60
59
170
167
Estime el valor intervenido medio, mediante un estimador de razón, un estimador de
regresión y un estimador de diferencia. Obtenga el intervalo de confianza en cada caso.
Solución:
312
Estimador de razón (72,79 , 76,03).
Estimador de regresión (72,80 , 75,97).
Estimador de diferencia (72,86 , 75,94)
En el enunciado del ejercicio está indicado quien es cada variable. Si no lo fuera así,
utilizando la estrategia sugerida más arriba de que Y es la variable sobre la que se quiere hacer
la estimación, es claro que Y = valor intervenido y por tanto X = valor en el libro.
Conocemos C8=N=180 y C10=τ x = 13320 , escribiremos también C 9 = µ x =
τx
N
=
13320
,
180
colocaremos las muestras de las variables X e Y en sus respectivas columnas y en la siguiente
pantalla se lee la solución en las columnas de la estimación de la media, filas 15 y 16.
2. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en
alimentos sobre el ingreso por año, para las familias de una pequeña comunidad. Una
muestra aleatoria de 8 familias fue seleccionada de entre 100. Los datos de la muestra
se presentan en la siguiente tabla:
Familia Ingreso Total Gasto en alimentos
1
25100
3800
2
32200
5100
313
3
29600
4200
4
35000
6200
5
34400
5800
6
26500
4100
7
28700
3900
8
28200
3600
Estime la razón poblacional, y establezca un límite para el error de estimación.
Solución: r = 0,1531; B = 0, 0118
NOTA: Como no se conoce la media poblacional de X, debemos estimarla por su media
muestral, es decir, C9=PROMEDIO(C22:C100).
La nota anterior sólo es aplicable para estimar la razón r, pues si utilizamos x en lugar de
µ x cuando queremos estimar la media de la variable Y mediante un estimador de razón,
regresión o diferencia, obtendríamos que µ y = µ yL = µ yD = y , es decir, estimaríamos la
media de la variable Y sólo mediante su media muestral y no estaríamos utilizando
información
auxiliar
alguna.
Si
en
el
ejercicio
1
hacemos
B22=PROMEDIO(D22:D100)= y y en C9=PROMEDIO(C22:C100)= x se observa que
µ y = µ yL = µ yD = y (D12=F12=H12=B22)
Necesitamos conocer el valor de µ x (C9) y τ x (C10) cuando se quiere estimar la media o el
total, por cualquiera de los tres métodos. Sin embargo, no es necesario el valor de µ x para
estimar la razón R, aunque si es preciso al menos estimarla con x si queremos obtener la cota
del error de estimación asociado.
Al
no
conocer
µx
en
este
ejemplo,
( x=promedio(C22:C100) ) en la celda C9.
314
escribiremos
la
media
muestral
de
X
Para identificar las variables X e Y recordemos que la razón se define como el cociente del total de
Y sobre el total de X. Por tanto, en este ejemplo donde se quiere estimar la razón o proporción de
dinero gastado en alimentos en relación al ingreso total por año, Y = gasto en alimentos, X =
ingreso total.
En cuanto a la nota sobre no usar x en lugar de µ x cuando estimemos la media de Y, se
aclara con la siguiente pantalla.
315
(
)
Hemos escrito en C9 la media muestral de X x =promedio(C22:C100) en lugar de la media
τ 13320 

poblacional de X  µ x = x =
 . Se ha calculado en B22 la media muestral de Y
N
180 

( y =promedio(D22:D100) ) para comprobar que si se utiliza x en lugar de µ , la media de Y se
x
estimaría, mediante los tres métodos, sencillamente por y .
316
PRÁCTICA 5
Muestreo Sistemático.
El muestreo sistemático, bajo determinadas condiciones (muy generales), se comporta como el
muestreo aleatorio simple e incluso en ocasiones proporciona estimadores con menor error de
estimación. Debido a esto, tras razonar que nos encontramos bajo esas condiciones,
utilizaremos la plantilla del muestreo aleatorio simple en poblaciones finitas para resolver los
problemas de muestreo sistemático.
1. La gerencia de una compañía privada está interesada en estimar la proporción de
empleados que favorecen una nueva política de inversión. Una muestra sistemática de
1 en 10 es obtenida de los empleados que salen del edificio al final de un día de
trabajo en particular. Use los datos de la tabla siguiente para estimar la proporción a
favor de la nueva política, y establezca un límite para el error de estimación. Suponga
que hay un total de 2.000 empleados.
Empleado Respuesta
muestreado
3
1
13
0
23
1
1993
1
200
∑ y i = 132
i =1
Solución: p sy = 66% B = 6,37%
317
Dado que no conocemos explícitamente los 200 valores de la muestra (y aunque se conocieran
200
sería largo escribirlos) pero si conocemos la suma de ellos, ∑ y i = 132 , introduciremos
i =1
132 

directamente la estimación de p en E10  p =
 y el tamaño muestral en E9 (para lo que es
200 

preciso desproteger primero la hoja). El tamaño muestral se obtiene dividiendo el tamaño
poblacional N=2000 entre 10 (muestra sistemática de 1 en 10) o sencillamente observando el
200
índice superior de la sumatoria ∑ y i = 132 .
i =1
2. Con los datos del ejercicio anterior, determine el tamaño de muestra requerido para
estimar p, con un límite para el error de estimación del 4,8%. ¿Qué tipo de muestra
sistemática deberá obtenerse?
Solución: n = 326, 2 ≈ 327 . Sería suficiente con tomar una muestra sistemática de 1-en-6
donde n = 2000 = 333,3 ≈ 333 o 334 .
6
La hoja del muestreo aleatorio simple en poblaciones finitas nos da el tamaño muestral
necesario, en la celda E18 (326,2), para que la estimación de p no supere la cota B=0,048
(4,8%), pero no obtenemos directamente el valor de k que es sólo característico del muestreo
sistemático.
El valor de k se puede obtener fácilmente calculando en cualquier celda en blanco el cociente
entre el tamaño poblacional y el tamaño muestral (por ejemplo, B 22 =
N
E8
=
= 6,13 ) y
n E18
quedándonos con la parte entera (6) o hallando directamente la parte entera de dicho cociente
N
 E8 
como se ha hecho en B 23 = ENTERO   = ENTERO 
=6
n
 E18 
318
319
PRÁCTICA 6
Muestreo por Conglomerados.
En esta plantilla utilizamos la función condicional SI para el cálculo de expresiones que tienen
diferentes formas (o sencillamente no se pueden calcular) dependiendo de la información que
tengamos.
La función condicional SI cuya forma general es:
=SI(condición; acción si la condición es cierta; acción si la condición es falsa)
la hemos usado de la siguiente forma: en C13 para calcular la varianza del estimador de la
media, si conocemos M =
C8
(tamaños medio de todos los conglomerados de la población)
C9
1 N − n Sc2
se hará según V ( y ) = 2
, pero si no se conoce lo estimaremos mediante m = C11
N n
M
(tamaño medio de los conglomerados de la muestra). Así, en la condición preguntamos si la
celda C8 está vacía (si es igual a: abrimos y cerramos comillas sin escribir nada entre ellas) en
cuyo caso no es conocido M =
C8
y utilizaremos m = C11 (acción si la condición de no
C9
conocer M es cierta) y utilizaremos el valor de M =
C8
cuando C8 contenga el valor de M,
C9
es decir, no esté vacía (acción cuando la condición de C8 vacía sea falsa). Observe que las
dos acciones son iguales salvo esta diferencia que hemos subrayado.
=SI(C8="";(C9-C10)*C17/(C10*C9*(C11^2));(C9-C10)*C17/(C10*C9*((C8/C9)^2)))
320
En C19, para la determinación del tamaño muestral, se ha hecho igual que en C13.
=SI(C8="";(C9*C17)/(C17+(C9*((C18*C11/2)^2)));(C9*C17)/(C17+(C9*((C18*(C8/C9)/2)^2))))
En la parte inferior izquierda se ha calculado el coeficiente de correlación lineal entre los
tamaños de los conglomerados y los totales por conglomerado para justificar la conveniencia
de estimar el total considerando el tamaño de los conglomerados (TOTAL(M conocido),
columna D) o sin utilizar dicha información (columna E). Cuando esta correlación es fuerte el
método de estimación del total en la columna D nos proporciona mejores estimaciones (con
menor error de estimación). La anterior pantalla recoge una situación donde la correlación es
débil (los mayores tamaños de los conglomerados no están asociados con los mayores totales,
ni los menores con los menores) y como puede verse el método de estimación del total en la
columna D tiene un error asociado, 188218,94, mayor que el obtenido en la columna E,
184099,44. Lógicamente, cuando no podamos estimar el total por ambos métodos, todos estos
comentarios sobran.
También se ha utilizado la función SI en las expresiones de la estimación del total cuando M
es conocido (columna D). Obviamente, éstas no pueden calcularse cuando M es desconocido.
En este caso la acción cuando la condición (no conocemos M=C8) es cierta es que no se
calcula nada (escribimos para dejar la celda vacía: abrir y cerrar comillas sin nada entre ellas)
y si conocemos M=C8 (la condición es falsa) la acción es el cálculo de la correspondiente
expresión (en D12 la estimación del total y en D13, D14, D15 y D16 el resto de valores
asociados a dicha estimación)
D12 ⇒ =SI(C8=””;””;C12*C8)
En la anterior pantalla, donde M=1500, aparecen los valores para la estimación del total
cuando M es conocido, sin embargo, en la siguiente donde C8 está en blanco (desconocemos
el tamaño de la población) dichas celdas están vacías.
321
1. En una pequeña ciudad se quiere estimar la proporción de hogares interesados en
contratar el sistema de televisión digital, para lo cual se considera la ciudad dividida
en 200 manzanas de viviendas. Se extrae una muestra piloto de 5 manzanas y se
interroga a cada familia acerca de si estaría interesada en contratar la televisión
digital. Los datos de la encuesta se encuentran en la tabla:
Manzana Nº hogares en la manzana Nº hogares interesados
1
8
2
2
7
2
3
9
3
4
6
3
5
5
3
a) Estime la proporción de hogares interesados en contratar el sistema de televisión
digital. Calcule el límite para el error de estimación.
b) Con un intervalo de confianza estime el número de hogares interesados en
contratar dicho sistema.
c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es
1500.
d) Suponiendo que los datos de la tabla representan una muestra previa, cómo debe
tomarse una nueva muestra para estimar la proporción poblacional del apartado a)
con un límite para el error de estimación del 1%.
322
Solución: a) p = 37,14% B = 11,5% b) (423,25 , 616,75)
c) (396,16 , 718,12)
d) n = 154, 4 ≈ 155
NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 7
∀i ),
supongamos conocido M = 200 × 7 = 1400 y estime el total por los dos métodos
estudiados
(τ = M y
)
τ t = N y t . Observe como coinciden las dos estimaciones
D12=E12=520, así como la varianza del estimador D13=E13=2340 y el límite para el
error de estimación D14=E14=96,75.
En el muestreo por conglomerados no se distingue entre variables numéricas y variables
dicotómicas. En ambos casos el total por conglomerado, yi , se calcula de igual forma,
bien sumando valores numéricos o los ceros y unos de las variables dicotómicas. En este
ejercicio estamos ante un ejemplo de variable dicotómica donde las respuestas interesado
y no interesado se han codificado como 1 y 0, y posteriormente sumado para cada
manzana o conglomerado. Conocemos el número de manzanas o conglomerados en la
población, N=200, pero no sabemos el número de elementos en la población, M.
Se sustituyen los valores del número de hogares en la manzana en el tamaño o número de
elementos en el conglomerado, columna C, y el número de hogares que han mostrado
interés, respuesta igual a 1, en el total o suma por conglomerado de la columna D. El
máximo error que se quiere cometer al estimar la media (proporción en este caso) lo
escribiremos en tanto por uno en C18=0,01.
Las respuestas:
al apartado a se lee en C12 y C14,
al apartado b en E15 y E16
y al apartado d en C19.
323
En el apartado c se supone conocido M=1500. Al sustituir dicho valor en C8 se calculan las
expresiones para la estimación del total cuando M es conocido, columna D. No obstante, esta
estimación es peor que la obtenida en el apartado b como muestra la cota del error de
estimación en D14=160,98 y E14=96,75. Lo anterior puede justificarse en base a la débil
relación entre los tamaños y totales de los conglomerados, B27=0,083.
324
En la siguiente pantalla se comprueba la propiedad, que se recuerda en la nota, de
coincidencia de las dos estimaciones del total cuando todos los conglomerados son de igual
tamaño.
2. El gerente de un periódico desea estimar el número medio de ejemplares comprados
cada semana por una familia de una localidad. Los 4000 hogares están agrupados en
400 edificios. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4
edificios y se entrevistaron a todas las familias de estos edificios, obteniéndose los
siguientes resultados:
Edificio
1
2
3
4
a) Estime con
Periódicos comprados cada semana
por familia
1 2 1 3 3 2 1 4 1 1
1 3 2 2 4 4 1 1 2
2 1 1 1 1 3 2 1 2 1 1
1 1 3 2 1 5 3 3
la encuesta piloto el número medio de periódicos comprados
cada semana por las familias de la localidad y el error de estimación
asociado.
b) Determine, usando los datos de la encuesta piloto, cuántos edificios debe
325
tener la nueva muestra si se quiere estimar el número medio de periódicos
comprados cada semana por familia, con un error de estimación inferior a
0,20 unidades.
Solución: a) y = 1,95 B = 0, 40 b) n = 15, 21 ≈ 16
En este ejemplo de muestreo por conglomerados nos dan explícitamente las observaciones
individuales de la muestra, habrá que contar el número de elementos en cada conglomerado,
mi , y hallar la suma de las observaciones en cada uno de ellos, yi . Para obtener el número de
observaciones en cada edificio o conglomerado contaremos el número de familias que se han
observado en cada edificio, 10 en el primero, ... Para calcular los totales yi podemos hacerlo
como se indica en la siguiente pantalla, de forma que posteriores comprobaciones,
correcciones de errores, ... pueden hacerse fácilmente editando el contenido de las celdas D23
y siguientes.
326
PRÁCTICA 7
Estimación del tamaño de la población.
Las cuatro técnicas que se incluyen en esta práctica tienen elementos comunes como los
correspondientes a la estimación del tamaño de la población y otros, como la estimación de la
densidad,…, específicos de algunas de ellas. Se han marcado en negro las celdas cuyos
valores o expresiones no se utilizan en alguna de las técnicas.
1. Se desea estimar la población de avutardas en determinada región. Para ello se
capturan 30 avutardas que se devuelven marcadas a la población. En una segunda
muestra de 20 avutardas se observaron 5 marcadas. Estímese el número de avutardas
que viven en la región y la precisión del estimador usado.
Solución: N = 120 B = 92,95
2. Se desea estimar la población de ardillas en un parque. Para ello se capturan 50
ardillas que se devuelven al parque marcadas. Se toma una segunda muestra hasta
que se consigue encontrar 5 marcadas, para lo cual fue necesario capturar 70 de ellas.
Estime, usando un intervalo con el 95% de confianza, el número de ardillas que
viven en el parque.
Solución: (149, 24 , 1.250, 76)
3. La policía de Madrid está interesada en conocer el número de aficionados que se
reunieron en torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con
este dato se puede conocer la cuantía de medios materiales y humanos (policía,
protección civil, personal sanitario, etc.) necesaria para atender futuras
concentraciones. Para estimar el número de aficionados se toma una fotografía aérea
de la zona ocupada por éstos, tras lo cual se traza sobre ella una cuadrícula que
divide el área total en 300 cuadros de 10 metros de lado cada uno. Posteriormente se
numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por último se
cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados,
obteniéndose los resultados de la tabla:
327
Nº del cuadro
1
2
3
4
5
6
7
8
9
10
Número de aficionados
Nº del cuadro
en el cuadro
193
11
216
12
250
13
163
14
209
15
195
16
232
17
174
18
215
19
198
20
Número de aficionados
en el cuadro
160
220
163
306
319
289
205
210
209
198
a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo de
confianza.
b) Estime el número total de aficionados concentrados en la plaza de Neptuno y
obtenga su intervalo de confianza.
Solución: a) λ = 2,16 aficionados m 2
b) M = 64.860 aficionados
(2,1 , 2, 23)
(62.887, 29 , 66.832,71)
4. Se desea estimar el número total de autobuses que, entre las 6 y las 24 horas del
domingo, circulan por un determinado punto kilométrico de una carretera. La
observación se realiza mediante 40 intervalos, de 10 minutos cada uno, repartidos a
lo largo del periodo en estudio. En 18 ocasiones, de las cuarenta que se estableció el
control, no circuló por el punto en cuestión ningún autobús. Estimar el número total
de autobuses que circularon entre las 6 y las 24 horas. Dar un límite de error de
estimación.
Solución: Mˆ = 86, 24
B = 37,8
Con estos cuatro ejemplos se ilustran las cuatro técnicas de estimación del total que
estudiamos en este capítulo.
En el primer y segundo ejercicios sólo tenemos que identificar si se trata de muestreo directo o
inverso (dependiendo de si se ha fijado el tamaño de la segunda muestra o ésta se toma hasta
conseguir un número de elementos marcados). Es claro que el primer ejercicio se trata de un
caso de muestreo directo y el segundo de muestreo inverso.
328
En el muestreo por cuadros y por cuadros cargados se puede considerar una población en una
superficie (ejercicio 3) o en un espacio temporal (ejercicio 4).
El ejercicio 3 trata de un muestreo por cuadros: conocemos y es importante el número de
elementos observados en cada cuadro de la muestra. El área total se calcula multiplicando 300
cuadros por el área de cada uno (10x10), y el número total de elementos observados en la
n
muestra, m = ∑ mi , sumando los elementos observados en los 20 cuadros (como indica la
i =1
flecha en la anterior pantalla).
El último ejercicio es un caso de muestreo por cuadros cargados, donde no es importante el
número de elementos en cada cuadro puesto que éste es en general cero o uno y muy raras
veces mayor a uno. Así sólo contaremos los cuadros con elementos (uno o más), cuadros
cargados, y los cuadros sin elementos o cuadros no cargados. En este caso los cuadros en el
espacio temporal son sencillamente intervalos de tiempo.
Hay que tener cuidado en escribir el tamaño del área total y de cada cuadro en la misma
unidad de medida. En este ejemplo las 18 horas (desde las 6h hasta las 24h) en que se quieren
estimar los autobuses que circulan por un lugar se han expresado en minutos,
1080=(24-6)*60, al igual que los intervalos de tiempo controlados.
329
PRÁCTICA 8
Indicadores estadísticos regionales
En las plantillas de la hoja “Indicadores estadísticos regionales” se encuentran resueltos los
ejemplos 8.1 a 8.7 del capítulo 8 del mismo nombre. La observación de cómo se han resuelto
a mano en dicho capítulo puede ayudar a comprender mejor cómo se ha construido esta hoja.
Para resolver este tipo de problemas no es necesario modificar ninguna expresión (ni
desproteger la hoja), sólo hay que escribir los datos del problema en las celdas grises (como
siempre, se sugiere borrar el contenido de todas estas celdas antes de resolver un nuevo
problema para evitar trabajar por error con otros datos).
1. (ejercicio 3, relación tema 8) En el año 2005 el PIB a precios de mercado en millones
de euros en las 4 regiones de un determinado país fue
REGIONES PIB
R1
80
R2
15
R3
100
R4
50
Obtenga el índice de concentración de Theil e interprete su valor.
Solución:
N
T
= 0,1152
ln N
i =1
Sustituyendo los valores de PIB en la columna de la variable X se obtienen a pie de tabla el
T = ln N + ∑ xi ln xi = 0,1597
IT = ITHEIL =
coeficiente e índice de Theil. Las diferencias entre los valores obtenidos a mano y con la hoja
de cálculo son debidas sólo a errores de redondeo en las operaciones.
330
2. (ejercicio 4, relación tema 8) En el año 2005 el PIB a precios de mercado en millones
de euros en las 4 regiones de un determinado país fue
REGIONES PIB
R1
80
R2
15
R3
100
R4
50
Obtenga la desigualdad colectiva e interprete su valor.
Solución:
N
N
1 1 N
2, 6865
= ∑ di =
= 0, 6716
4 4 i =1
4
i =1
i =1
Sustituyendo los valores de PIB en la columna de la variable X se obtiene a pie de tabla la
D = ∑ di f i = ∑ di
desigualdad colectiva y en el margen derecho las desigualdades individuales.
3. (ejercicio 5, relación tema 8) En el año 2005 el PIB a precios de mercado en millones
de euros en las 4 regiones de un determinado país y el número de oficinas bancarias
fue
REGIONES PIB OFICINAS
R1
80
350
R2
15
70
R3
100
450
R4
50
250
Obtenga el índice de asociación geográfica de Florence del número de oficinas
respecto al PIB e interprete su valor.
331
1 N
∑ xi − yi = 0,97959
2 i =1
Sustituyendo los valores de PIB y número de oficinas en las variables X e Y se obtiene a pie
Solución: F = 1 −
de tabla el índice de asociación geográfica de Florence. Obsérvese que es indiferente permutar
los valores de X e Y. En la siguiente pantalla se han cambiado los valores de X e Y en
relación a como se resolvió este ejercicio al final del capítulo 8, obteniéndose el mismo
resultado.
332
PRÁCTICA 9
Medidas de localización espacial
En las plantillas de la hoja “Medidas localización espacial” se encuentran resueltos los
ejemplos 9.2, 9.3, 9.5 y 9.6 del capítulo 9 del mismo nombre. La observación de cómo se
han resuelto a mano en dicho capítulo puede ayudar a comprender mejor cómo se ha
construido esta hoja.
Para resolver este tipo de problemas no es necesario modificar ninguna expresión (ni
desproteger la hoja), sólo hay que escribir los datos del problema en las celdas grises de la
tabla “DATOS” que aparece en la parte superior de la hoja.
La hoja está preparada inicialmente para 10 sectores y 10 regiones pero puede fácilmente
ampliarse a cualquier número de la siguiente forma:
•
Se desprotege la hoja.
•
Entre las columnas de los sectores S1 y S10 se inserta una nueva columna (se marca la
columna E y seleccionamos en el menú Insertar/Columnas).
•
Se copia la columna de alguno de los 10 sectores iniciales en ésta (siguiendo la
conocida secuencia marcar+copiar+pegar, copiaremos la columna D en la E). Así, esta
nueva columna ya tendrá todas las expresiones necesarias para los cálculos
correspondientes (al copiar la columna se copian tanto las expresiones como los
valores de la tabla “DATOS” y la cabecera, en este ejemplo: “S2”; tendremos que
cambiar los datos y las etiquetas de la cabecera)
333
•
Repitiendo el mismo procedimiento se puede seguir ampliando la hoja para más de 11
sectores.
Un procedimiento análogo nos permite ampliar la hoja para más de 10 regiones. En este caso
se insertará una nueva fila (en cada una de las tablas) entre las regiones R1 y R10, y
copiaremos en la nueva fila alguna fila de las 10 regiones iniciales de esa tabla.
Esto último también es aplicable a la práctica 8 para ampliar el número de regiones o grupos
de regiones.
1. (ejercicio 4, relación tema 9) En un país, dividido administrativamente en tres regiones,
el sector industrial está constituido fundamentalmente por los siguientes subsectores:
Siderurgia, Construcción, Químicas y Alimentación. El número de trabajadores ocupados
en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles):
Regiones
Siderurgia
I
II
III
15
10
6
Construcción 165 110 66
Químicas
30
20
12
Alimentación 195 130 78
Calcule las diversas medidas de localización espacial e interprételas, justificando y apoyando
los comentarios en los datos del enunciado.
334
Solución:
Cocientes de localización y
especialización
Lij
REGION
R1
R2
R3
SECTOR
S1
S2
S3
S4
100,00 100,00 100,00 100,00
100,00 100,00 100,00 100,00
100,00 100,00 100,00 100,00
Coeficientes de especialización regional
REGION
R1
R2
R3
CEi
0
0
0
Coeficientes de localización
sectorial
SECTOR
S1
S2
S3 S4
CL j
0
0
0
0
Coeficientes de diversificación
de cada región
REGION
R1
R2
R3
CDi
0,6178
0,6178
0,6178
CDi*
0,49
0,49
0,49
Colocaremos los datos en las celdas de la tabla DATOS teniendo cuidado en no confundir los
sectores con las regiones pues las medidas que se obtienen no son simétricas en relación a los
datos, es decir, cambian si colocamos las regiones en los sectores y éstos en el lugar de las
otras.
Las distintas medidas de localización espacial pueden leerse en las tablas que hay bajo los
DATOS.
2. (ejercicio 3, relación tema 9) Se dispone de la siguiente información sobre número de
ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades:
Energía Alimentos Industrial textil
Andalucía
10.000
65.000
20.000
Castilla La Mancha
3.000
18.000
14.000
Castilla León
19.000
30.000
8.000
Cataluña
15.000
60.000
90.000
a) Obtenga los coeficientes de localización de las distintas actividades.
335
b) Calcule los coeficientes de especialización para cada comunidad.
Solución:
Coeficientes de localización sectorial
SECTOR
S1
S2
S3
CLj
0,2423 0,1219 0,2197
Coeficientes de especialización regional
REGION
CEi
R1
0,192733
R2
0,047808
R3
0,234649
R4
0,170455
Colocando los datos del ejercicio en la tabla DATOS, igual que antes, se obtienen entre otros
los coeficientes pedidos.
336
INTRODUCCIÓN AL SPSS
1.- INTRODUCCIÓN
El SPSS (Statistical Package for the Social Sciences) es un conjunto de programas orientados a
la realización de análisis estadísticos aplicados a las ciencias sociales. Con más de 30 años de
existencia es, en la actualidad, el paquete estadístico con más difusión a nivel mundial.
El SPSS implementa una gran variedad de temas estadísticos en los distintos módulos del
programa. Nosotros utilizaremos solo el módulo SPSS base.
En los siguientes apartados se hace una breve introducción a los conceptos básicos de este
programa. Para una mejor exposición de los mismos puede consultarse la “Guía breve de
SPSS” o el “Tutorial” en el menú de ayudas (?) – muy recomendable esta última opción.
1.1.- PASOS BÁSICOS EN EL ANÁLISIS
1. Introducir los datos en SPSS.
Es posible:
o
Abrir un archivo creado anteriormente o
o
Introducir nuevos datos (se verá más adelante en “1.3- Editor de datos”).
Los archivos de datos con formato SPSS tienen extensión *.sav. Para abrir un archivo de datos
de este formato, seleccione en el menú principal: Archivo/Abrir/Datos. Por defecto, SPSS dará
una relación de los archivos en su directorio con extensión *.sav. Busque y seleccione el
archivo que se desee abrir. Además de los archivos con este formato, SPSS puede abrir
337
archivos de EXCEL, LOTUS 1-2-3, dBASE,… sin necesidad de convertirlos a un formato
intermedio ni de introducir información sobre la definición de los datos.
Desde aplicaciones como Microsoft Excel también puede leer los encabezados de las columnas
como nombres de variables. Para ello elija en los menús: Archivo/Abrir/Datos y seleccione
Excel(*.xls) en la lista desplegable Tipo
Tras seleccionar el fichero Excel que queremos abrir, aparecerá el cuadro de diálogo Apertura
de origen de datos de Excel, que permite especificar si se incluyen los nombres de las variables
en la primera fila de la hoja de cálculo ( Leer nombres de variables de la primera fila de
datos), así como las casillas que se desean importar (Rango). En Excel 5 o posterior, también
se pueden especificar la “Hoja de trabajo” que se desea importar. Si los encabezados de las
columnas no cumplen las normas de denominación de variables de SPSS, se convertirán en
nombres de variables válidos y los encabezados originales de las columnas se guardarán como
etiquetas de variable (véase más adelante en “1.3.-Editor de datos”).
338
2. Seleccionar un procedimiento estadístico para analizar los datos con el sistema de menús.
3. Seleccionar las variables para el análisis.
Las variables que podemos usar en cada procedimiento se muestran en un cuadro de diálogo
del que se seleccionan.
4. Ejecutar el procedimiento y ver resultados.
Los resultados aparecen en una ventana de resultados y se pueden guardar como archivos de
extensión *.spo. Los gráficos se pueden modificar en la ventana del editor de gráficos.
339
1.2.- ENTORNO DE TRABAJO
Existen diversos tipos de ventanas en SPSS. Nosotros, principalmente, utilizaremos dos:
•
Editor de datos. Es la ventana que se abre automáticamente cuando se inicia una sesión de
SPSS. Muestra el contenido del archivo de datos actual. Con él, se pueden crear nuevos
archivos o modificar los ya existentes.
•
Visor de resultados. Todas las tablas, gráficos y los resultados estadísticos se muestran en el
visor. Puede editar resultados y guardarlos. Esta ventana se abre automáticamente la primera
vez que se ejecuta un procedimiento.
Además de las distintas ventanas, existen un conjunto de elementos, comunes a todas ellas que
configuran la apariencia general del SPSS:
• Barra de títulos. Muestra el icono de SPSS, sigue con el nombre del fichero que estamos
utilizando y el nombre de la ventana activa y termina con los botones de minimizar, maximizar
y cerrar ventana.
340
• Barra de menús. Recoge las denominaciones de los menús de SPSS a través de los cuales se
pueden ejecutar todos los posibles comandos que proporciona el paquete.
• Barra de herramientas. Proporciona un acceso rápido y fácil a las tareas más comunes de cada
ventana de SPSS. El significado de cada icono puede verse situando el ratón sobre el propio
icono.
• Barra de estado. Suministra información sobre el estado en que se encuentra SPSS.
Ejemplo 1.-
-
Abrir archivo de datos “Datos de empleados.sav”
-
Realizar el procedimiento:
Analizar/ Estadísticos Descriptivos/ Descriptivos con la variable “Salario Actual”
-
Realizar lo mismo con la variable “Meses desde el contrato”.
1.3.- EDITOR DE DATOS
El editor de datos proporciona dos vistas:
• Vista de datos. Muestra los valores de datos reales o las etiquetas de valor definidas. Las
funciones de la vista de datos son similares a las que se encuentran en aplicaciones de hojas de
cálculo, sin embargo, existen algunas diferencias:
o
Cada fila representa un caso u observación (atención en ejercicio 1).
o
Las columnas son variables.
o
Las casillas contienen valores numéricos o de cadena. A diferencia de una hoja de
cálculo, las casillas del editor de datos no pueden contener fórmulas.
• Vista de variables. Contiene descripciones de los atributos de cada variable del archivo de
datos. Aquí:
o
Las filas son variables.
o
Las columnas son características de las variables.
341
Ejemplo 2.- Abrir “vista de datos” y “vista de variables” en el archivo de datos:
“Datos de Empleados.sav”.
Una vez que nos encontramos en la ventana “Editor de datos” podemos abrir un archivo de
datos creado con anterioridad (como vimos en “1.1.- Pasos básicos en el análisis”) o crear un
nuevo archivo. En el caso en que queramos crear un archivo de datos nuevo, el primer paso
es el de definir las variables que formarán el archivo. Para definir una variable se pueden
seguir dos procedimientos:
•
En vista de datos, haciendo doble clic con el botón izquierdo del ratón cuando el puntero del
mismo se encuentra situado en la palabra var del extremo superior de la columna o
•
Pulsando en la pestaña de vista de variables y escribiendo las especificaciones de la variable
cuyos datos vamos a introducir según las indicaciones que siguen:
Para la especificación del nombre de las variables se debe tener en cuenta:
•
El nombre debe comenzar por una letra. Los demás caracteres pueden ser letras, dígitos, puntos
o los símbolos @, #, _ o $.
•
Los nombres de variable no pueden terminar en punto.
•
Se debe evitar acabar los nombres de variable con subrayado (para evitar conflictos con las
variables creadas automáticamente por algunos procedimientos).
•
La longitud del nombre no debe exceder los 64 bytes. Normalmente, 64 bytes suelen equivaler
a 64 caracteres en idiomas de un solo byte (por ejemplo, inglés, francés, alemán, español,
342
italiano, hebreo, ruso, griego, árabe, tailandés) y a 32 caracteres en los idiomas de dos bytes
(por ejemplo, japonés, chino, coreano).
•
No se pueden utilizar espacios en blanco ni caracteres especiales (por ejemplo, !, ?, ’ y *).
•
Cada nombre de variable debe ser único; no se permiten duplicados.
•
Las palabras reservadas no se pueden utilizar como nombres de variable. Las palabras
reservadas son: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH.
•
Los nombres de variable se pueden definir combinando de cualquier manera caracteres en
mayúsculas y en minúsculas, esta distinción entre mayúsculas y minúsculas se conserva en lo
que se refiere a la presentación.
•
Cuando es necesario dividir los nombres largos de variable en varias líneas en los resultados,
SPSS intenta dividir las líneas aprovechando los subrayados, los puntos y los cambios de
minúsculas a mayúsculas.
Una vez que se haya determinado el nombre de la variable, hay que definir sus
especificaciones:
• Tipo. Especifica el tipo de datos que contiene la variable. Si se pulsa el botón tipo y luego los
puntos suspensivos que aparecen en la casilla aparece un cuadro de dialogo. Los tipos más
usuales son numérico y cadena.
Tipo de variable especifica los tipos de datos de cada variable. Por defecto se asume que todas
las variables nuevas son numéricas. Se puede utilizar Tipo de variable para cambiar el tipo de
datos. El contenido del cuadro de diálogo Tipo de variable depende del tipo de datos
seleccionado. Para algunos tipos de datos, hay cuadros de texto para la anchura y el número de
decimales; para otros tipos de datos, simplemente puede seleccionar un formato de una lista
desplegable de ejemplos.
Los tipos de datos disponibles son los siguientes:
•
Numérico. Una variable cuyos valores son números. Los valores se muestran en formato
numérico estándar. El Editor de datos acepta valores numéricos en formato estándar o en
notación científica.
•
Coma. Una variable numérica cuyos valores se muestran con comas que delimitan cada tres
posiciones y con el punto como delimitador decimal. El Editor de datos acepta valores
numéricos para este tipo de variables con o sin comas, o bien en notación científica. Los
valores no pueden contener comas a la derecha del indicador decimal.
343
•
Punto. Una variable numérica cuyos valores se muestran con puntos que delimitan cada tres
posiciones y con la coma como delimitador decimal. El Editor de datos acepta valores
numéricos para este tipo de variables con o sin puntos, o bien en notación científica. Los
valores no pueden contener puntos a la derecha del indicador decimal.
•
Notación científica. Una variable numérica cuyos valores se muestran con una E intercalada y
un exponente con signo que representa una potencia de base diez. El Editor de datos acepta
para estas variables valores numéricos con o sin el exponente. El exponente puede aparecer
precedido por una E o una D con un signo opcional, o bien sólo por el signo (por ejemplo, 123,
1,23E2, 1,23D2, 1,23E+2 y 1,23+2).
•
Fecha. Una variable numérica cuyos valores se muestran en uno de los diferentes formatos de
fecha-calendario u hora-reloj. Seleccione un formato de la lista. Puede introducir las fechas
utilizando como delimitadores: barras, guiones, puntos, comas o espacios. El rango de siglo
para los valores de año de dos dígitos está determinado por la configuración de las opciones
(en el menú Edición, seleccione Opciones y, a continuación, pulse en la pestaña Datos).
•
Dólar. Una variable numérica que se muestra con un signo dólar inicial ($), comas que
delimitan cada tres posiciones y un punto como delimitador decimal. Se pueden introducir
valores de datos con o sin el signo dólar inicial.
•
Moneda personalizada. Una variable numérica cuyos valores se muestran en uno de los
formatos de moneda personalizados que se hayan definido previamente en la pestaña Moneda
del cuadro de diálogo Edición/Opciones. Los caracteres definidos en la moneda personalizada
no se pueden emplear en la introducción de datos pero sí se mostrarán en el Editor de datos.
344
•
Cadena. Una variable cuyos valores no son numéricos y, por lo tanto, no se utilizan en los
cálculos. Los valores pueden contener cualquier carácter siempre que no se exceda la longitud
definida. Las mayúsculas y las minúsculas se consideran diferentes. Este tipo también se
conoce como variable alfanumérica.
• Nivel de medida. Puede especificar el nivel de medida como Escala (datos numéricos de una
escala de intervalo o de razón), Ordinal o Nominal. Los datos nominales y ordinales pueden ser
de cadena (alfanuméricos) o numéricos.
•
nominal. Una variable puede ser tratada como nominal cuando sus valores representan
categorías que no obedecen a una ordenación intrínseca. Por ejemplo, el departamento de la
compañía en el que trabaja un empleado. Son ejemplos de variables nominales: la región, el
código postal o la confesión religiosa.
•
ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan
categorías con alguna ordenación intrínseca. Por ejemplo los niveles de satisfacción con un
servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables
ordinales: las puntuaciones de actitud que representan el nivel de satisfacción o confianza y las
puntuaciones de evaluación de la preferencia.
•
escala. Una variable puede ser tratada como de escala cuando sus valores representan
categorías ordenadas con una métrica con significado, por lo que son adecuadas las
comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en años
y los ingresos en dólares.
Nota: Para variables de cadena ordinales, se asume que el orden alfabético de los valores de
cadena indica el orden correcto de las categorías. Por ejemplo, en una variable de cadena cuyos
valores sean bajo, medio, alto, se interpreta el orden de las categorías como alto, bajo, medio
(orden que no es el correcto). Por norma general, se puede indicar que es más fiable utilizar
códigos numéricos para representar datos ordinales.
• Anchura. Número de dígitos de los valores de esa variable.
345
• Columnas. Anchura de las columnas. Se puede especificar un número de caracteres para el
ancho de la columna. Los anchos de columna también se pueden cambiar en la Vista de datos
pulsando y arrastrando los bordes de las columnas.
Los formatos de columna afectan sólo a la presentación de valores en el Editor de datos. Al
cambiar el ancho de columna no se cambia el ancho definido de una variable. Si el ancho real y
definido de un valor es más ancho que la columna, aparecerán asteriscos (*) en la ventana
Vista de datos.
• Decimales. Nº de decimales de los datos.
• Etiqueta. Puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud
(128 caracteres en los idiomas de doble byte). Las etiquetas de variable pueden contener
espacios y caracteres reservados que no se admiten en los nombres de variable.
• Valores. Puede asignar etiquetas de valor descriptivas a cada valor de una variable. Este
proceso es especialmente útil si el archivo de datos utiliza códigos numéricos para representar
categorías que no son numéricas (por ejemplo, códigos 1 y 2 para hombre y mujer). Las
etiquetas de valor se guardan con el archivo de datos. No es necesario volver a definir las
etiquetas de valor cada vez que se abre un archivo de datos. Las etiquetas de valor pueden
ocupar hasta 120 bytes. Las etiquetas de valor no están disponibles para las variables de cadena
larga (variables de cadena de más de 8 caracteres).
• Perdidos. Valores perdidos define los valores de los datos definidos como perdidos por el
usuario. Por ejemplo, es posible que quiera distinguir los datos perdidos porque un encuestado
se niegue a responder de los datos perdidos porque la pregunta no afecta a dicho encuestado.
Los valores de datos que se especifican como perdidos por el usuario aparecen marcados para
un tratamiento especial y se excluyen de la mayoría de los cálculos.
•
Las especificaciones de valores perdidos definidos por el usuario se guardan junto con el
archivo de datos. No es necesario volver a definir los valores definidos como perdidos por el
usuario cada vez que se abre un archivo de datos.
•
Se pueden introducir hasta tres valores perdidos (individuales) de tipo discreto, un rango de
valores perdidos o un rango más un valor de tipo discreto.
346
•
Sólo pueden especificarse rangos para las variables numéricas.
•
No se pueden definir valores perdidos para variables de cadena larga (variables de cadena de
más de ocho caracteres).
•
Se considera que son válidos todos los valores de cadena, incluidos los valores vacíos o nulos,
a no ser que se definan explícitamente como perdidos. Para definir como perdidos los valores
nulos o vacíos de una variable de cadena, escriba un espacio en blanco en uno de los campos
debajo de la selección Valores perdidos discretos.
• Alineación. Alineación de los datos (Izquierda, derecha o centro)
Una vez definidas las variables, para la introducción de los datos (en la pestaña vista de datos)
habrá que situar el cursor en la primera celda de la columna y comenzar a escribir los distintos
valores, pulsando ENTER o moviéndonos con el cursor.
También podemos modificar datos ya creados:
• Insertar un nuevo caso entre los casos existentes.
Seleccionar en la vista de datos, cualquier casilla debajo de la posición donde se desea insertar
el nuevo caso y
-
Elija en la barra de menús: Datos/Insertar Caso o
-
El correspondiente botón de la barra de herramientas o
-
Con el botón derecho del ratón elija Insertar caso.
• Insertar una nueva variable entre las variables existentes.
Seleccionar en la vista de datos, una casilla de la variable a la derecha de la posición donde se
desea insertar la nueva variable y
-
Elegir los menús: Datos/Insertar variable o
-
El correspondiente botón de la barra de herramientas o
-
Con el botón derecho del ratón elija Insertar variable
• Mover variables.
Si queremos mover una variable que está entre otras dos, en la vista de datos, podemos insertar
un nueva variable en el lugar donde la queramos copiar, luego cortar de donde estaba y por
último pegar en la nueva variable insertada.
347
• Borrar algún caso o variable.
Seleccionar previamente en la vista de datos las filas, las columnas o el área a borrar y pulsar
SUPR o Edición/Borrar o con el botón derecho del ratón elegir Eliminar.
• Ir a un caso en el editor de datos.
Elegir en la barra de menús: Edición/Ir al caso e introducir el número de fila o con el
correspondiente botón de la barra de herramientas.
Para guardar un archivo de datos creado tendremos que seleccionar en la barra de menús
Archivo/Guardar como. Nos aparecerá un cuadro de diálogo en el cual debemos indicar el
nombre del archivo y el lugar donde queremos guardarlo. En el caso de que se trate de
cambios en un archivo que ya ha sido guardado con anterioridad, solo tendremos que
seleccionar Archivo/Guardar o con el correspondiente botón de la barra de herramientas y el
archivo se guardará con el mismo nombre y ubicación que tenía con anterioridad.
348
EJERCICIOS
1. La siguiente tabla nos muestra la edad de 16 clientes que compraron un determinado
producto en una semana determinada. La variable edad es cuantitativa y mostramos sus
valores, la variable sexo es cualitativa y utilizamos una variable numérica (escala nominal:
1, hombre; 2, mujer). Los datos son los siguientes:
Hombres
Mujeres
32 32 42 55 37 61 48 43
50 80 61 49 30 21 37 34
Se pide:
a. Crea un archivo con la definición anterior de las variables y los datos y guárdalo con el
nombre Edad.sav
b. Crea una nueva variable denominada Unidades compradas y dale los siguientes valores
Hombres
1
Mujeres
1
Sitúala entre las variables anteriores.
1
5
1
1
2
1
1
2
1
2
2
1
1
1
2. La siguiente tabla nos muestra los datos de los representantes de 16 empresas:
SEXO
Hombre
Mujer
Mujer
Hombre
Mujer
Mujer
Hombre
Hombre
Hombre
Mujer
Hombre
Mujer
Mujer
Hombre
Hombre
Hombre
REGION DE
PROCEDENCIA
Andalucía (1)
Cataluña (2)
Madrid (3)
País Valenciano (4)
Galicia (5)
Cataluña (2)
País Vasco (6)
Andalucía (1)
Madrid (3)
Andalucía (1)
País Vasco (6)
Madrid (3)
Galicia (5)
Cataluña (2)
Andalucía (1)
Galicia (5)
MESES COMO
REPRESENTANTE
60
72
48
36
60
24
36
48
84
84
48
36
24
12
16
10
INGRESOS
MENSUALES en €
1950
1235
2251
3581
1500
2500
5890
3510
2456
2474
3000
2958
1354
1100
3581
2456
Se pide:
a. Crear un archivo de datos con el nombre Representantes, en el que debes incluir los datos
de la tabla anterior, definiendo las variables de forma adecuada.
b. Inserta una nueva variable que será el estado civil de los representantes con los siguientes
valores.
349
soltero
soltero
casado
soltero
divorciado
casado
casado
casado
soltero
soltero
viudo
casado
casado
casado
soltero
soltero
c. Inserta un nuevo caso entre los existentes con estos valores:
SEXO
Hombre
REGION DE
PROCEDENCIA
Cataluña
MESES COMO
INGRESOS
ESTADO CIVIL
REPRESENTANTE MENSUALES en €
48
1500
divorciado
d. Obtenga el número medio de meses como representante y los valores máximo, mínimo y
mediano de los ingresos.
3. Crear un archivo con los siguientes datos y llamarlo salarios.sav
SALARIOS
0-700
700-1000
1000-1500
1500-3000
más de 3000
EMPLEADOS
40
120
250
90
50
Nota: Introducir los valores de los salarios con códigos numéricos (por ejemplo, 1 a 5) y en
Vista de variables en la columna Valores etiquetarlos como “0-700”,…
Cuando se introducen las frecuencias de las observaciones de una variable hay que indicárselo
al SPSS. Seleccionaremos en la barra de menús Datos/Ponderar casos… marcando en la
ventana que nos aparece Ponderar casos mediante y seleccionando la Variable de ponderación
(variable que contiene los valores de las frecuencias) de la lista de variables del fichero. Otra
opción es seleccionar el correspondiente icono de la barra de herramientas que representa a una
balanza.
350
PRÁCTICA 10
Contrastes no paramétricos para una muestra (SPSS)
1.- CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE
2. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE
3. CONTRASTE DE LAS RACHAS
1.- CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE
El contraste Chi-cuadrado para una muestra permite averiguar si la distribución empírica de
una variable categórica (o numérica) se ajusta o no a una determinada distribución teórica. La
hipótesis nula de bondad de ajuste se pone a prueba utilizando un estadístico que compara las
frecuencias observadas (las obtenidas en la muestra) con las frecuencias esperadas (teóricas
según la hipótesis nula). La condición para que el test sea válido es que las frecuencias
esperadas en todas las categorías sean mayores que 5, el SPSS da por valido el test siempre y
cuando el número de frecuencias esperadas menores de 5 no superen el 20% del total de
frecuencias esperadas, aunque lo más correcto es que todas las frecuencias esperadas sean
mayores que 5. En el caso de que haya frecuencias esperadas menores que 5 se procederá a
agrupar modalidades semejantes, para ello seleccionaremos en la barra de menús
Transformar/Recodificar en distinta variable y repetiremos el análisis con la nueva variable
generada (véase ejemplo 3).
Para obtener la prueba Chi-Cuadrado hay que seleccionar Analizar/Pruebas no
paramétricas/Chi-cuadrado.
La lista de variables del archivo de datos ofrece un listado de todas las variables. Para
contrastar la hipótesis de bondad de ajuste referida a una variable hay que trasladar esa
variable a la lista Contrastar variables. Si se selecciona más de una variable, el SPSS ofrece
tantos contrastes como variables.
RECUADRO RANGO ESPERADO. En esta ventana es posible decidir qué rango de
valores deben tenerse en cuenta en el análisis:
¾ Obtener de los datos. Cada valor distinto de la variable se considera una categoría
para el análisis.
¾ Usar rango especificado. Solo se tienen en cuenta los valores comprendidos entre los
límites especificados en los cuadros de texto Inferior y Superior. Los valores no
incluidos en esos límites se excluyen del análisis.
351
RECUADRO VALORES ESPERADOS. Las opciones de este recuadro sirven para hacer
explícitas las frecuencias esperadas con las que se desean comparar las observadas:
¾ Todas las categorías iguales. Las frecuencias esperadas se obtienen dividiendo el
número total de casos válidos entre el número de categorías de la variable.
¾ Valores. Esta opción permite definir frecuencias esperadas concretas. Los valores que
se introducen pueden ser porcentajes, probabilidades, frecuencias relativas o
frecuencias absolutas. El orden en el que se introducen los valores es muy importante,
pues la secuencia introducida se hace corresponder con las categorías de la variable
cuando éstas se encuentran ordenadas de forma ascendente. Si se ha introducido como
una variable numérica con etiquetas, el orden es el de los valores numéricos. Si se ha
introducido como un variable de cadena (alfanumérica) el orden es el alfabético.
BOTÓN OPCIONES. Permite obtener algunos estadísticos descriptivos y decidir qué
tratamiento se desea dar a los valores perdidos.
¾ Estadísticos. Las opciones de este recuadro permiten obtener algunos estadísticos
descriptivos:
o Descriptivos. Ofrece el número de casos válidos, la media, la desviación típica,
el valor mínimo y el valor máximo.
o Cuartiles. Ofrece los centiles 25, 50 y 75.
Hay que señalar que estos estadísticos no siempre tendrán sentido, pues la prueba de
chi-cuadrado se utiliza generalmente con variables categóricas (no numéricas). Para
contrastar la hipótesis de bondad de ajuste con variables cuantitativas es preferible
utilizar el contraste de Kolmogorov-Smirnov.
¾ Valores perdidos. Estas opciones permiten decidir qué tratamientos se desea dar a los
valores perdidos en el caso de que se haya seleccionado más de una variable:
o Excluir casos según prueba. Se excluyen de cada contraste los casos con
valor perdido en la variable que se está contrastando. Es la opción por defecto.
o Excluir caso según lista. Se excluyen de todos los contrastes solicitados los
casos con algún valor perdido en cualquiera de las variables seleccionadas.
Ejemplo 1 (Ejercicio 1, relación Tema 10)
El gerente de una planta industrial pretende determinar si el número de empleados que asisten
al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los
cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas
352
completas de trabajo, se observaron los siguientes números de empleados que asistieron al
consultorio:
Lunes Martes Miércoles Jueves Viernes
49
35
32
39
45
¿Existe alguna razón para creer que el número de empleados que asisten al consultorio
médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la
semana?, ( α = 0.05 ).
(FICHEROS DE DATOS: Ejercicio1_T10.sav (datos sin agrupar, sin frecuencias).
Ejercicio1F_T10.sav (datos agrupados, con frecuencias))
NOTA: Cuando se utilicen ficheros con frecuencias se deberá indicar en que columna se
encuentran éstas, seleccionando en primer lugar el icono que representa una balanza o bien en
los menús Datos/Ponderar casos..., después en la ventana Ponderar casos marcaremos la
opción Ponderar casos mediante y en la casilla Variable de ponderación incluiremos el
nombre de la columna (variable) que contiene las frecuencias.
A continuación seleccionaremos Analizar/Pruebas no paramétricas/Chi-cuadrado
353
Seleccionaremos DiasSemana como la variable sobre la que se va a realizar el contraste
(recordemos que la variable VisitasMedico contiene las frecuencias absolutas) y en Valores
esperados marcaremos Todas las categorías iguales (aparece marcada por defecto).
Pulsaremos en Aceptar, obteniéndose en el visor de resultados lo que sigue:
DiasSemana
N observado
49
N esperado
40,0
Residual
9,0
Martes
35
40,0
-5,0
Miércoles
32
40,0
-8,0
Jueves
39
40,0
-1,0
Viernes
45
40,0
5,0
Lunes
Total
354
200
Estadísticos de contraste
DiasSemana
Chicuadrado(a)
gl
4,900
4
Sig. asintót.
,298
a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es
40,0.
Dado que el p-valor (0.298) es mayor que α = 0.05 , se mantiene la hipótesis nula de que el
número de visitas al consultorio médico se distribuye de forma equitativa de lunes a viernes.
Ejemplo 2
Una compañía de gas afirma, basándose en experiencias anteriores, que al final del invierno
el 80% de las facturas ya han sido cobradas, un 10% se cobraran con pago aplazado a un mes,
un 6% se cobrará a dos meses y un 4% se cobrará a más de dos meses. Al final del invierno
actual, la compañía selecciona una muestra aleatoria de 400 facturas, resultando 287 de estas
ya cobradas, 49 cobradas a un mes, 30 a cobrar en dos meses y 34 a cobrar en un periodo
superior a los dos meses. ¿Podemos concluir, a raíz de los resultados, que la experiencia de
años anteriores se ha vuelto a repetir este invierno?
(FICHERO DE DATOS: Ejemplo2F_T10.sav (datos agrupados, con frecuencias))
Seguiremos un procedimiento análogo al del ejemplo 1 pero marcaremos en Valores
esperados la opción Valores e introduciremos los porcentajes del modelo que indica el
enunciado en el orden 80, 10, 6 y 4 (según el orden de los valores numéricos que se han
utilizado para indicar cada categoría)
355
El visor de resultados nos ofrece:
facturas
N observado
287
N esperado
320,0
Residual
-33,0
se cobran a un mes
49
40,0
9,0
se cobran en dos meses
30
24,0
6,0
se cobran a más de dos
meses
34
16,0
18,0
ya cobradas
Total
400
Estadísticos de contraste
facturas
Chicuadrado(a)
gl
Sig. asintót.
27,178
3
,000
a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es
16,0.
Como el p-valor (0.000) es menor que 0.05, se rechaza la hipótesis nula de que los datos
observados se ajustan a los datos esperados. Por tanto, la experiencia de años anteriores no se
ha vuelto a repetir este invierno.
Ejemplo 3 (Ejercicio 8, relación Tema 11)
Una muestra sobre el nº de personas que diariamente requieren información de un producto
financiero ofrece el siguiente resultado:
3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1
¿Se puede aceptar que el nº de personas que requieren la mencionada información se
distribuye según una ley de Poisson de parámetro λ = 2, 7 ? (utilice el contraste χ 2 )
(FICHERO DE DATOS: Ejercico8_T11.sav (datos sin agrupar, sin frecuencias))
Este ejemplo se resuelve como el ejemplo anterior (salvo que en este caso tenemos un fichero
de datos sin frecuencias) pero en lugar de introducir porcentajes en Valores esperados, vamos
a introducir las probabilidades del modelo de la distribución de Poisson.
Aunque en la muestra sólo aparecen valores entre cero y cinco, en la distribución de Poisson
se puede presentar cualquier valor entero mayor o igual a cero. Según lo anterior
consideraremos inicialmente las modalidades: 0 personas, 1 persona, 2 personas, ..., 5 o más
personas.
Consultando en la tabla de probabilidades de la distribución de Poisson con λ = 2, 7
obtenemos para las anteriores modalidades:
356
x
p(x)
0
0,0672
1
0,1815
2
0,2450
3
0,2205
4
0,1488
...
...
La probabilidad, p(x ≥ 5), se puede obtener sumando p(5)+p(6)+p(7)+... , hasta el último valor
que aparezca en la columna de λ = 2, 7 con probabilidad distinta de cero, o bien, restando a 1
las probabilidades asociadas a x<5, 1-[p(0)+p(1)+p(2)+p(3)+p(4)]=1- 0,8630=0,1370.
(Introduciremos las probabilidas sin el cero de las unidades, pues sólo acepta valores con 5
dígitos incluida la coma: ,0672 ... ,1370)
En el visor de resultados aparecerá:
Estadísticos de contraste
N
observado
2
N
esperado
1,8
Residual
,2
1,00
4
4,9
-,9
2,00
5
6,6
-1,6
3,00
8
6,0
2,0
4,00
5
4,0
1,0
5,00
3
3,7
-,7
Total
27
PersonasDia
,00
PersonasDia
Chicuadrado(a)
gl
1,655
5
Sig. asintót.
,895
a 4 casillas (66,7%) tienen frecuencias esperadas
menores que 5. La frecuencia de casilla esperada
mínima es 1,8.
Como hay frecuencias esperadas menores que 5 vamos a agrupar las dos primeras y las dos
últimas modalidades para que todas las frecuencias esperadas sean mayores que 5.
357
NOTA: La opción de agrupar valores semejantes para que las frecuencias esperadas sean
mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de bondad de ajuste como de
independencia y homogeneidad.
Para agrupar esas modalidades seleccionamos Transformar/Recodificar en distinta variable.
Seleccionamos como variable numérica PersonasDia y como variable de resultado
escribimos PersonasDiaB. En Valores antiguos y nuevos escribiremos la siguiente
recodificación
Antiguo->Nuevo
0->1
1->1
2->2
3->3
4->4
5->4
(posteriormente, si se quiere, se etiquetarán los valores 1 como 1 o menos y 4 como 4 o más).
Se repetirá el contraste sobre la nueva variable PersonasDiaB, considerando las siguientes
modalidades y probalidades asociadas
358
x
1 o menos
2
3
4 o más
p(x)
0,2487=0,0672+0,1815
0,2450
0,2205
0,2858=0,1488+0,1370
Tras aceptar las selecciones de la anterior pantalla, en el visor de resultados observaremos:
PersonasDiaB
Estadísticos de contraste
N
observado
6
N
esperado
6,7
Residual
-,7
2,00
5
6,6
-1,6
3,00
8
6,0
2,0
1 o menos
4 o más
Total
8
7,7
27
,3
PersonasDiaB
Chicuadrado(a)
gl
Sig. asintót.
1,184
3
,757
a 0 casillas (,0%) tienen frecuencias esperadas
menores que 5. La frecuencia de casilla esperada
mínima es 6,0.
Donde ninguna frecuencia esperada es menor que 5 y los grados de libertad se ha reducido de
5 a 3 después de agrupar modalidades.
Según el nivel de significación asociado al estadístico chi-cuadrado (0,757>>0,05) se
aceptaría la hipótesis nula de que el número de personas que requieren la mencionada
información se distribuye según una ley de Poisson de parámetro λ = 2, 7 .
359
2. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE
Al igual que el contraste chi-cuadrado para una muestra, la prueba de Kolmogorov-Smirnov
es una prueba de bondad de ajuste: sirve para contrastar la hipótesis nula de que la
distribución de una variable se ajusta a una determinada distribución teórica de probabilidad.
A diferencia del contraste Chi-cuadrado que fue diseñada para evaluar más bien el ajuste de
variables categóricas, el contraste K-S para una muestra se usa sólo para evaluar el ajuste de
variables cuantitativas.
Para contrastar la hipótesis nula de bondad de ajuste, la prueba K-S se basa en la comparación
de dos funciones de distribución: la empírica, Fn , y la teórica F0 .
Para las distribuciones discretas (Poisson,...) se calculan las diferencias:
Di = Fn ( xi ) − F0 ( xi )
Para las distribuciones continuas (Normal, Uniforme,...) se calculan las diferencias
Di = Fn ( xi ) − F0 ( xi )
y
Di* = Fn ( xi ) − F0 ( xi +1 )
El estadístico del contraste Z se obtiene a partir de la diferencia más grande en valor absoluto
(
)
y del tamaño muestral n, Z = n max i Di , Di* , obteniéndose la significación asintótica
bilateral a partir de la fórmula de Smirnov:
Si 0 ≤ Z ≤ 0, 27 ⇒
p =1
Si 0, 27 ≤ Z ≤ 1 ⇒
p = 1−
Si 1 ≤ Z ≤ 3,1
⇒
p = 2 ( Q − Q 4 + Q 9 − Q16 )
Si 3,1 ≤ Z
⇒
p=0
2,506628
(Q + Q 9 + Q 25 )
Z
(Q = e
)
(Q = e )
−1,233701Z −2
−2 Z 2
Para obtener la prueba de bondad de ajuste de K-S para una muestra se selecciona
Analizar/Pruebas no paramétricas/K-S de 1 muestra.
La lista de variables del archivo de datos ofrece un listado de todas las variables con formato
numérico. Para contrastar la hipótesis de bondad de ajuste referida a una variable se traslada a
la lista Contrastar variables. Si se selecciona más de una variable, el SPSS ofrece un contraste
por cada variable seleccionada.
RECUADRO DISTRIBUCIÓN DEL CONTRASTE. Las opciones de este recuadro
permiten elegir la distribución teórica a la cual se desea ajustar la distribución de la variable
seleccionada: Normal, Uniforme, Poisson y Exponencial (puede seleccionarse más de una).
Los parámetros en las diferentes distribuciones se estiman a partir de los datos.
BOTÓN OPCIONES. Conduce a un subcuadro de diálogo idéntico al del contraste de chi-
cuadrado.
360
Ejemplo 4 (Ejercicio 8, relación Tema 11)
Una muestra sobre el nº de personas que diariamente requieren información de un producto
financiero ofrece el siguiente resultado:
3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1
¿Se puede aceptar que el nº de personas que requieren la mencionada información se
distribuye según una ley de Poisson? (utilice el contraste de Kolmogorov-Smirnov)
(FICHERO DE DATOS: Ejercico8_T11.sav (datos sin agrupar, sin frecuencias))
Seleccionamos Analizar/Pruebas no paramétricas/K-S de 1 muestra.
En Distribuciones de contraste seleccionamos Poisson y en Contrastar variable incluiremos
PersonasDia, pulsando Aceptar en el visor de resultados aparecerá:
361
Prueba de Kolmogorov-Smirnov para una muestra
PersonasDia
27
N
Parámetro de Poisson(a,b)
Diferencias más extremas
Media
2,7037
Absoluta
,085
Positiva
,057
Negativa
-,085
Z de Kolmogorov-Smirnov
,443
Sig. asintót. (bilateral)
,989
a La distribución de contraste es la de Poisson.
b Se han calculado a partir de los datos.
Como el p-valor (0,989) es mayor que 0,05 se acepta la hipótesis de que el número de
personas que requieren información se distribuye como una Poisson (de parámetro 2,7).
Ejemplo 5 (Ejercicio 7, relación Tema 11)
Con un nivel de significación del 5%, contraste la hipótesis de que los siguientes valores
muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribución normal de
media 14 y varianza 2,25 (desviación típica 1,5).
(FICHERO DE DATOS: Ejercicio7_T11.sav (datos sin agrupar, sin frecuencias))
El SPSS toma por defecto como valores de la media y de la desviación típica para la hipótesis
nula los de la muestra (14,4 y 1,955).
Prueba de Kolmogorov-Smirnov para una muestra
N
10
Media
Parámetros normales(a,b)
Desviación típica
Diferencias más extremas
Absoluta
14,4000
1,95505
,181
Positiva
,181
Negativa
-,119
Z de Kolmogorov-Smirnov
,573
Sig. asintót. (bilateral)
,898
a La distribución de contraste es la Normal.
b Se han calculado a partir de los datos.
Si queremos que la media y desviación típica tomen en la hipótesis nula unos valores
concretos, como en este ejemplo, debemos seleccionar Pegar en la ventana de opciones del
contraste de Kolmogorov-Smirnov para una muestra. Nos aparecerán los comandos de SPSS
que siguen:
NPAR TESTS
/K-S(NORMAL)= DATOS
/MISSING ANALYSIS.
362
A continuación del comando NORMAL escribiremos una coma seguida del valor de la media
seguida de otra coma y del valor de la desviación típica. Si la media o desviación típica
tuvieran decimales se usará el punto decimal (nunca la coma). Una vez modificado quedará
como:
NPAR TESTS
/K-S(NORMAL,14,1.5)= DATOS
/MISSING ANALYSIS.
En esta misma ventana donde se ha hecho la modificación seleccionamos Ejecutar/Todo y
obtendremos el resultado del contraste.
Prueba de Kolmogorov-Smirnov para una muestra
N
10
Media
Parámetros normales(a,b)
Desviación típica
Diferencias más extremas
Absoluta
14
1,5
,200
Positiva
,109
Negativa
-,200
Z de Kolmogorov-Smirnov
,632
Sig. asintót. (bilateral)
,819
a La distribución de contraste es la Normal.
b Especificado por el usuario
Como el p-valor (0,819) es mayor que 0,05 se acepta la hipótesis de que la muestra procede de
una distribución Normal de media 14 y varianza 2,25.
363
3. CONTRASTE DE LAS RACHAS
La prueba de las rachas sirve para evaluar si una determinada secuencia de observaciones
es aleatoria, es decir, para estudiar si las observaciones de una determinada muestra son
independientes entre sí. Esta prueba permite detectar si el número de rachas observado en una
determinada muestra de tamaño n es lo suficientemente grande o lo suficientemente pequeño
como para poder rechazar la hipótesis de aleatoriedad en las observaciones.
Para obtener el número de rachas de un conjunto de observaciones es necesario que éstas estén
clasificadas en dos grupos exhaustivos y mutuamente exclusivos (variable dicotómica). Si no
lo están, se deberá utilizar algún criterio (media, mediana, moda, etc.) para hacer que lo estén.
Una vez clasificadas las observaciones en dos grupos, el SPSS utiliza una tipificación del
número de rachas cuya distribución es una N(0,1). El SPSS ofrece el nivel crítico bilateral.
Para obtener la prueba de las rachas se selecciona Analizar/Pruebas no paramétricas/Rachas.
La lista de variables del archivo de datos ofrece un listado de todas las variables con formato
numérico. Para contrastar la hipótesis de aleatoriedad o independencia referida a una variable
se traslada esa variable a la lista Contrastar variables. Si se selecciona más de una variable,
el SPSS ofrece un contraste por cada variable seleccionada.
RECUADRO PUNTO DE CORTE. Para obtener el número de rachas es necesario que las
observaciones estén claramente clasificadas en dos grupos. Si no lo están, debe utilizarse
algún criterio para hacer que lo estén. Pueden usarse como criterio de dicotomización la
mediana, la moda, la media o cualquier valor. En ese caso, los valores más pequeños que el
punto de corte pasan a formar parte del primer grupo y los valores iguales o mayores que el
punto de corte pasan a formar parte del segundo grupo. Si se desea contrastar la hipótesis de
independencia referida a una variable categórica o de cadena puede utilizarse en punto de
corte la opción Personalizado. Si la variable es, por ejemplo, dicotómica, con códigos 0 y 1,
puede utilizarse como punto de corte el valor 0.5 (o cualquier número comprendido entre 0 y
1), de modo que los casos con código 0 pasen a formar parte del primer grupo y los casos con
valor 1 pasen a formar parte del segundo grupo. Para convertir las variables de cadena en
variables numéricas (para poder aplicar este contraste) utilice el procedimiento
Recodificación automática, disponible en el menú Transformar.
BOTÓN OPCIONES. Igual que en los contrastes anteriores.
364
Ejemplo 6. (Ejercicio 14, relación Tema 11)
Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21,
18, 21, 22 ( α = 0,10 ).
(FICHERO DE DATOS: Ejercico14_T11.sav (datos sin agrupar, sin frecuencias))
Seleccionamos Analizar/Pruebas no paramétricas/Rachas.
En el enunciado no se indica que se tome como punto de corte un valor en especial. Hemos
tomado la mediana que es el valor marcado por defecto.
Prueba de rachas
Valor de prueba(a)
Casos < Valor de prueba
Casos >= Valor de prueba
Casos en total
Número de rachas
Z
Sig. asintót. (bilateral)
ejemplo_rachas
19,00
4
7
11
4
-1,102
,270
a Mediana
Como el p-valor (0,270) es mayor que 0,10 se acepta la hipótesis nula de aleatoriedad de la
muestra.
365
PRÁCTICA 11
Contrastes no paramétricos: Tablas de contingencia y contrastes para dos
muestras independientes (SPSS)
1.- TABLAS DE CONTINGENCIA. CHI-CUADRADO. INDEPENDENCIA Y
HOMOGENEIDAD.
2. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES. PRUEBA DE
KOLMOGOROV-SMIRNOV. PRUEBA U DE MANN-WHITNEY
1.- TABLAS DE CONTINGENCIA
Cuando se trabaja con dos variables categóricas, los datos suelen organizarse en tablas de
doble entrada en las que cada entrada representa un criterio de clasificación o variable
categórica. Como resultado de esta clasificación, las frecuencias aparecen organizadas en
casillas que contienen información sobre la relación existente entre ambos criterios. A estas
tablas de frecuencias se les llama tablas de contingencias.
El procedimiento de tablas de contingencias permite obtener no solo las tablas, además
incluye estadísticos y medidas de asociación que proporcionan la información necesaria para
estudiar las posibles pautas de asociación existentes entre las variables que conforman la tabla.
Para utilizar este procedimiento seleccionamos en el menú Analizar la opción Estadísticos
Descriptivos/ Tablas de contingencias. La lista de variables del archivo de datos muestra todas
las variables numéricas y de cadena corta del archivo de datos. Para obtener una tabla de
contingencia se traslada una variable a la lista filas y otra a la lista columna.
Las opciones disponibles son:
¾ Mostrar los gráficos de barras agrupadas. Activando esta opción el visor de
resultados muestra un gráfico de barras agrupadas con las categorías de la variable fila
en el eje de abscisas y las categorías de la variable columna anidadas dentro de las
categorías de la variable fila. Cada barra del diagrama, por tanto, representa una casilla
y su altura viene dada por la frecuencia de la correspondiente casilla.
¾ Suprimir tablas. Esta opción puede activarse si no se desea obtener ninguna tabla de
contingencias. Esto tendría sentido si únicamente interesara obtener un gráfico de
barras o alguno de los estadísticos o medidas de asociación disponibles en el
procedimiento Tablas de contingencias.
366
BOTÓN ESTADÍSTICOS
El grado de relación existente entre dos variables categóricas no puede ser establecido
simplemente observando las frecuencias de una tabla de contingencias. Incluso aunque la tabla
recoja las frecuencias porcentuales en lugar de las absolutas, la simple observación de las
frecuencias no puede conducir a una conclusión definitiva. Para determinar si dos variables se
encuentran relacionadas debe utilizarse una medida de asociación, preferiblemente
acompañada de su correspondiente prueba de significación. Una de las opciones disponibles
es Chi-cuadrado.
CHI-CUADRADO
La opción Chi-cuadrado proporciona un estadístico que permite contrastar la hipótesis de que
los dos criterios de clasificación utilizados (las dos variables categóricas) son independientes.
Para ello compara las frecuencias observadas con las frecuencias esperadas si las dos variables
fueran independientes. Si los datos son compatibles con la hipótesis de independencia, la
probabilidad asociada al estadístico Chi-cuadrado (el p-valor) será alta (mayor 0.05). Si esa
probabilidad es pequeña (menor que 0.05), se considera que los datos son incompatibles con
la hipótesis de independencia y se concluirá que las variables estudiadas está relacionadas.
Para que el estadístico Chi-cuadrado se comporte bien conviene que las frecuencias esperadas
no sean demasiado pequeñas. Suele asumirse que, si existen frecuencias esperadas menores de
5, éstas no deben superar el 20% del total de frecuencias esperadas, aunque lo más correcto es
que todas las frecuencias esperadas sean mayores que 5. El SPSS muestra en una nota a pie de
tabla un mensaje indicando el valor de la frecuencia esperada más pequeña; si existe alguna
casilla con frecuencia esperada menor que 5, la nota a pie de tabla también informa acerca del
porcentaje que éstas representan sobre el total de casillas de la tabla. En el caso de que ese
porcentaje supere el 20%, el estadístico debe interpretarse con cautela o mejor proceder a
agrupar filas y/o columnas de la tabla. Para ello seleccionaremos en la barra de menús
Transformar/Recodificar en distinta variable y repetiremos el análisis con la nueva variable
generada.
BOTÓN CASILLAS
Las casillas o celdas de una tabla de contingencias pueden contener información muy variada,
en concreto: frecuencias observadas, frecuencias esperadas, varios tipos de porcentajes y
residuos brutos y tipificados. Parte de esta información es esencial para poder interpretar
apropiadamente las pautas de asociación presentes en una tabla después de que se rechace la
hipótesis de independencia.
367
Recuadro Frecuencia: Es posible seleccionar uno o los dos tipos de frecuencias
absolutas:
ƒ
Observadas. Número de casos resultantes de la clasificación.
ƒ
Esperadas. Número de casos que debería haber en cada casilla si las variables
utilizadas fueran independientes.
Recuadro Porcentajes. Es posible seleccionar uno o más de las siguientes frecuencias
porcentuales:
ƒ
Fila. Porcentaje que la frecuencia observada de una casilla representa respecto
al total marginal de su fila.
ƒ
Columna. Porcentaje que la frecuencia observada de una casilla representa
respecto al total marginal de su columna.
ƒ
Total. Porcentaje que la frecuencia observada de una casilla representa
respecto al número total de casos de la tabla.
Recuadro Residuos. Los residuos son las diferencias existentes entre las frecuencias
observadas y esperadas de una casilla. Son especialmente útiles para averiguar en qué
grado se desvían de la hipótesis de independencia las frecuencias de cada casilla;
consecuentemente, son útiles para interpretar las pautas de asociación presentes en la
tabla. Es posible seleccionar una o más de las siguientes opciones:
ƒ No tipificados. Diferencia entre la frecuencia observada y la esperada.
ƒ
Tipificados. Residuo no tipificado dividido por la raíz cuadrada de su
correspondiente frecuencia esperada. Su valor esperado es 0 pero su desviación
típica es menor que 1, lo cual hace que no puedan interpretarse como
puntuaciones Z. Sin embargo, sirven como indicadores del grado en que cada
casilla contribuye al valor del estadístico chi-cuadrado. De hecho, sumando los
cuadrados de los residuos tipificados se obtiene el valor del estadístico chicuadrado. Los residuos tipificados son iguales a
ƒ
(n
ij
− Eij )
Eij
2
=
(n
ij
− Eij )
Eij
Tipificados corregidos. Estos residuos se distribuyen normalmente con media
0 y desviación típica 1. Su utilidad radica en que, puesto que se distribuye
como N(0,1), son fácilmente interpretables: utilizando un nivel de confianza
0.95, puede afirmarse que los residuos mayores de 1.96 delatan casillas con
más casos de los que debería haber en esa casilla si las variables estudiadas
fueran independientes; mientras que los residuos menores de -1.96 delatan
368
casillas con menos casos de los que cabría esperar bajo la condición de
independencia.
BOTÓN FORMATO
Controla algunos detalles relacionados con el aspecto de las tablas de contingencias
generadas.
Recuadro Orden de filas. Permite controlar el orden en el que aparecen las categorías
de la variable fila:
ƒ
Ascendente. Muestra las categorías de la variable fila ordenadas de menor
a mayor. Es la opción por defecto.
ƒ
Descendente. Muestra las categorías de la variable fila ordenadas de mayor
a menor.
Ejemplo 1 (ejercicio 10, relación tema 10)
Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los
resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la
antigüedad? ( (α = 0, 05)
Salario\Antigüedad
<5 años
5-10
10-20
>20 años
0-500
500-1000
1000-2000
2000-3000
>3000
n• j
17
16
4
9
6
52
5
8
11
8
3
35
10
9
5
8
4
36
6
7
2
6
6
27
ni•
38
40
22
31
19
150
(FICHEROS DE DATOS: Ejercicio10_T10.sav (datos sin agrupar, sin frecuencias).
Ejercicio10F_T10.sav (datos agrupados, con frecuencias))
Recordemos que cuando se utilizan ficheros con frecuencias se deberá indicar en que
columna se encuentran éstas, seleccionando en primer lugar el icono que representa una
balanza o bien en los menús Datos/Ponderar casos..., después en la ventana Ponderar casos
marcaremos la opción Ponderar casos mediante y en la casilla Variable de ponderación
incluiremos el nombre de la columna (variable) que contiene las frecuencias.
Seleccionamos Analizar/Estadísticos Descriptivos/Tablas de contingencia
369
En situaciones reales, inicialmente no se dispone de los datos agrupados y ordenados en una
tabla como en el enunciado del ejemplo 1 sino que los datos se han ido anotando en un
formato de dos columnas como aparece en estas pantallas. Por ello vamos a pedir que estos
datos los represente en una tabla de contigencia (no marcaremos la opción Suprimir tablas)
con los Salarios por filas y la Antigüedad por columnas.
370
En Casillas seleccionaremos los valores que apareceran en cada celda de la tabla de
contingencia, en este ejemplo marcaremos Frecuencias observadas (aparece como recuento
en la tabla), Frecuencias esperadas y Residuos tipificados corregidos.
En Estadísticos seleccionaremos el estadístico Chi-cuadrado de Pearson para estudiar la
independencia entre Salario y Antigüedad.
Tras Aceptar las opciones seleccionadas en el visor de resultados aparecen:
•
La tabla de contingencia, donde se reflejan las frecuencias observadas, las esperadas y los
residuos tipificados corregidos
371
Tabla de contingencia Salario * Antiguedad
Antiguedad
Salario
0-500
menos de 5
años
17
Recuento
500-1000
1000-2000
Total
13,2
8,9
9,1
6,8
1,5
-1,7
,4
-,4
Recuento
8
9
7
40
13,9
9,3
9,6
7,2
40,0
Residuos corregidos
,8
-,6
-,3
-,1
4
11
5
2
22
Frecuencia esperada
7,6
5,1
5,3
4,0
22,0
Residuos corregidos
-1,8
3,2
-,2
-1,2
9
8
8
6
31
Frecuencia esperada
10,7
7,2
7,4
5,6
31,0
Residuos corregidos
-,7
,4
,3
,2
6
3
4
6
19
Frecuencia esperada
6,6
4,4
4,6
3,4
19,0
Residuos corregidos
-,3
-,8
-,3
1,6
Recuento
52
35
36
27
150
52,0
35,0
36,0
27,0
150,0
Recuento
Pruebas de chi-cuadrado
Valor
15,932(a)
14,781
1,888
Chi-cuadrado de Pearson
Razón de verosimilitudes
Asociación lineal por lineal
N de casos válidos
gl
12
12
1
Sig. asintótica
(bilateral)
,194
,254
,169
150
a 4 casillas (20,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 3,42.
•
Gráfico de barras
Años_Antiguedad
< 5 años
5-10 años
10-20 años
Más de 20 años
20
15
Recuento
38,0
16
La prueba Chi-cuadrado de independencia
10
5
0
0-500
500-1000
1000-2000
Salario
372
38
Frecuencia esperada
Frecuencia esperada
•
10-20 años
10
Residuos corregidos
Recuento
Más de 3000
5-10 años
5
Frecuencia esperada
Recuento
2000-3000
Total
más de 20
años
6
2000-3000
Más 3000
Según el p-valor (0.194) se aceptaría la hipótesis de independencia. Sin embargo, el residuo
corregido para un salario (1000-2000) y una antigüedad (5-10) es 3.2 que no está comprendido
entre -1.96 y 1.96, es decir, se escapa de la hipótesis de independencia al 5% de significación.
Como hay frecuencias esperadas menores de 5 vamos a agrupar las 2 últimas filas y las dos
últimas columnas de la tabla de contingencia para que todas las frecuencias esperadas sean
mayores que 5.
Recordemos que la opción de agrupar valores semejantes para que las frecuencias esperadas
sean mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de independencia y
homogeneidad para dos muestras como a los contrastes chi-cuadrado de bondad de ajuste para
una muestra (como vimos en el ejemplo 3 de la práctica 10).
Para agrupar esas filas y columnas seleccionamos Transformar/Recodificar en distinta
variable. Seleccionamos como variable numérica Salario y como variable de resultado
escribimos SalarioB. En Valores antiguos y nuevos escribiremos la siguiente recodificación
Antiguo->Nuevo
1->1
2->2
3->3
4->4
5->4
(posteriormente, si se quiere, se etiquetaran los valores 1, 2 y 3 como en Salario y el nuevo
valor 4 que agrupa a los anteriores valores 4 y 5 lo etiquetaremos como Más de 2000).
Repetiremos el mismo proceso con la variable Antigüedad. Seleccionamos como variable
numérica Antiguedad y como variable de resultado escribimos AntiguedadB. (Nota: En la
ventana Var. numérica->Var. de resultado hay que eliminar primero Salario->SalarioB, pues
si no lo hacemos se aplicará también a ese par de variables la recodificación que queremos
hacer en la pareja Antigüedad->AntiguedadB). En Valores antiguos y nuevos escribiremos la
siguiente recodificación
Antiguo->Nuevo
1->1
2->2
3->3
4->3
(posteriormente, si se quiere, se etiquetaran los valores 1 y 2 como en Antiguedad y el nuevo
valor 3 que agrupa a los anteriores valores 3 y 4 lo etiquetaremos como más de 10 años).
Repetimos el contraste con AntiguedadB y SalarioB (incluidas originalmente en los ficheros
Ejercicio10_T10.sav y Ejercicio10F_T10.sav) obteniendo:
373
Tabla de contingencia SueldoB * AntiguedadB
AntiguedadB
SueldoB
0-500
500-1000
1000-2000
más de 2000
Total
menos de 5
años
17
Recuento
5-10 años
5
mas de 10
años
16
Frecuencia esperada
13,2
8,9
16,0
Residuos corregidos
1,5
-1,7
,0
Recuento
Total
38
38,0
16
8
16
40
Frecuencia esperada
13,9
9,3
16,8
40,0
Residuos corregidos
,8
-,6
-,3
Recuento
4
11
7
22
Frecuencia esperada
7,6
5,1
9,2
22,0
Residuos corregidos
-1,8
3,2
-1,0
15
11
24
50
Frecuencia esperada
17,3
11,7
21,0
50,0
Residuos corregidos
-,8
-,3
1,1
Recuento
52
35
63
150
52,0
35,0
63,0
150,0
Recuento
Frecuencia esperada
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
Razón de verosimilitudes
Asociación lineal por lineal
Valor
13,108(a)
12,069
1,537
N de casos válidos
gl
6
6
1
Sig. asintótica
(bilateral)
,041
,060
,215
150
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 5,13.
Según el p-valor (0.041) se rechazaría la hipótesis de independencia a un nivel de
significación del 5% (0,05), contrariamente a la conclusión obtenida antes de agrupar las
frecuencias esperadas menores que 5.
Ejemplo 2 (Ejercicio 11, relación Tema 10)
A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y
sus calificaciones fueron registradas como baja, media o alta, obteniéndose:
BAJA
MEDIA
ALTA
Contrastar la hipótesis de que
Universidad A
Universidad B
105
140
140
135
255
225
la distribución de calificaciones en las 2 universidades es la
misma (con α = 0, 01 )
(FICHEROS DE DATOS: Ejercicio11_T10.sav (datos sin agrupar, sin frecuencias).
Ejercicio11F_T10.sav (datos agrupados, con frecuencias))
La tabla de contingencia, donde se reflejan las frecuencias observadas, las esperadas y los
residuos corregidos, es la siguiente:
374
Tabla de contingencia Nota * Universidad
Universidad
A
Nota
Baja
Media
Alta
Recuento
140
245
Frecuencia esperada
122,5
122,5
245,0
Residuos corregidos
-2,6
2,6
Recuento
140
135
275
Frecuencia esperada
137,5
137,5
275,0
Residuos corregidos
,4
-,4
Recuento
255
225
480
240,0
240,0
480,0
Residuos corregidos
1,9
-1,9
Recuento
500
500
1000
500,0
500,0
1000,0
Frecuencia esperada
Total
Total
B
105
Frecuencia esperada
Se puede observar como los residuos corregidos de las casillas “Nota baja” se salen del
intervalo (-1.96, 1.96). Existe una desproporción significativa a favor de la “Universidad B”
(residuo corregido 2.6 frente a -2.6) lo que significa que hay una proporción de alumnos de la
universidad A menor de la esperada con notas bajas. En la prueba chi-cuadrado se obtiene:
Pruebas de chi-cuadrado
Valor
6,966(a)
6,984
1000
Chi-cuadrado de Pearson
Razón de verosimilitudes
N de casos válidos
gl
2
2
Sig. asintótica
(bilateral)
,031
,030
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 122,50.
El p-valor menor de 0.05 (0.031) nos lleva a rechazar la hipótesis de homogeneidad con un
nivel de significación del 5% pero a aceptarla con un nivel de significación del 1% como
aparece en el enunciado del ejercicio.
Gráfico de barras
Universidad
A
B
300
250
Recuento
200
150
100
50
0
Baja
Media
Alta
Nota
375
2. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES
Este procedimiento contiene varias pruebas no paramétricas, todas ellas diseñadas para
analizar datos provenientes de diseños con una variable independiente categórica (con dos
niveles que definen los grupos o muestras) y una variable dependiente cuantitativa al menos
ordinal (en la cual interesa comparar los dos grupos o muestras).
El procedimiento incluye cuatro pruebas: la prueba de Kolmogorov-Smirnov para dos
muestras, la prueba U de Mann-Whitney, la prueba de reacciones extremas de Moses y la
prueba de las rachas de Wald-Wolfowitz. Para obtener cualquiera de estas pruebas:
Se selecciona la opción Pruebas no paramétricas/Dos muestras independientes del menú
Analizar. La lista de variables del archivo de datos ofrece un listado de todas las variables con
formato numérico. Para obtener cualquiera de las pruebas no paramétricas incluidas en el
procedimiento (puede seleccionarse más de una simultáneamente):
¾ Seleccionar la variable en la que interesa comparar los grupos y trasladarla a la lista
Contrastar variables. Si se selecciona más de una variable, el SPSS ofrece un
contraste por cada variable seleccionada.
¾ Seleccionar la variable que define los grupos (muestras) que interesa comparar y
trasladarla al cuadro Variable de agrupación.
¾ Pulsar el botón Definir grupos para acceder al subcuadro de diálogo que permite
indicar cuáles son los dos códigos de la variable de agrupación que corresponden a los
grupos que interesa comparar.
¾ En el recuadro Tipo de prueba, marcar la opción u opciones correspondientes a las
pruebas que se desea obtener. Conviene tener en cuenta que no todas ellas permiten
contrastar la misma hipótesis.
El botón opciones conduce a un cuadro de diálogo que permite obtener algunos estadísticos
descriptivos y controlar el tratamiento de los valores perdidos.
PRUEBA DE KOLMOGOROV-SMIRNOV
Esta prueba sirve para contrastar la hipótesis de que dos muestras proceden de la misma
población. Para ello compara las funciones de distribución empíricas de ambas muestras,
Fn ( x) y Fm ( x) .
Se calculan las diferencias Di = Fn ( xi ) − Fm ( xi ) . El estadístico del contraste Z se obtiene a
partir de la diferencia más grande en valor absoluto y de los tamaños muestrales n y m,
376
Z=
nm
max i ( Di ) , obteniéndose la significación asintótica bilateral a partir de la fórmula
n+m
de Smirnov:
Si 0 ≤ Z ≤ 0, 27 ⇒
p =1
Si 0, 27 ≤ Z ≤ 1 ⇒
p = 1−
Si 1 ≤ Z ≤ 3,1
⇒
p = 2 ( Q − Q 4 + Q 9 − Q16 )
Si 3,1 ≤ Z
⇒
p=0
2,506628
(Q + Q 9 + Q 25 )
Z
(Q = e
)
(Q = e )
−1,233701Z −2
−2 Z 2
Esta prueba es sensible a cualquier tipo de diferencia entre las dos distribuciones: tendencia
central, simetría, variabilidad,…
Ejemplo 3 (Ejercicio 9, relación Tema 11)
Con nivel de significación de 5%, contraste la hipótesis de que los siguientes valores
muestrales proceden de una misma población.
Muestra 1
2
4
2
3
5
Muestra 2
2
4
5
3
5
(FICHERO DE DATOS: Ejercicio9_T11.sav)
6
4
7
7
8
6
9
5
3
3
Al tratarse de muestras independientes, aparecerán todos los datos de ambas muestras en la
misma columna (Puntuación) y en la columna Muestras con los códigos 1 y 2 distinguiremos
a qué muestra pertenece cada puntuación.
Seleccionaremos Analizar/Pruebas no paramétricas/Dos muestras independientes del menú
Analizar.
377
En la ventana que aparecerá, seleccionaremos Puntuaciones para Contrastar variables y
Muestras para Variable de agrupación. En Definir grupos indicaremos que la primera muestra
tiene asignado el valor 1 y la segunda el valor 2. En tipo de prueba marcaremos Z de
Kolmogorov-Smirnov.
En el visor de resultados se obtiene:
Estadísticos de contraste(a)
Diferencias más extremas
Absoluta
Valores
,200
Positiva
,100
Negativa
-,200
Z de Kolmogorov-Smirnov
,447
Sig. asintót. (bilateral)
,988
a Variable de agrupación: Muestra
Dado que la significación asintótica (0.988) es mayor que 0.05 se acepta la hipótesis de que
ambas muestras proceden de la misma población.
PRUEBA U DE MANN-WHITNEY
Esta prueba es una excelente alternativa a la prueba T sobre diferencia de medias cuando no se
cumplen los supuestos en los que se basa la prueba (normalidad), o cuando no es apropiado
utilizar la prueba T porque el nivel de medida de los datos es ordinal. Este test es sensible a las
diferencias de medianas, algo sensible frente a las diferencias de asimetría e insensible frente a
las diferencias de varianzas. Es fiable en la comparación de dos promedios poblacionales
cuando ambas distribuciones tienen la misma forma.
378
Con muestras pequeñas el SPSS ofrece el nivel crítico bilateral exacto del estadístico U, el
cual se obtiene multiplicando por dos la probabilidad de obtener valores menores o iguales
que U.
Con muestras grandes, el SPSS ofrece una tipificación del estadístico U denominada Z, que se
distribuye aproximadamente como una N(0,1). El nivel crítico bilateral se obtiene
multiplicando por dos la probabilidad de obtener valores menores o iguales a Z.
Ejemplo 4 (Ejercicio 9, relación Tema 11)
Con los mismos datos del ejemplo anterior y utilizando el contraste de Mann-Whitney.
Se repite el mismo procedimiento que en el ejemplo anterior pero seleccionando U de Mann-
Whitney en Tipo de prueba
Según el visor de resultados:
Estadísticos de contraste(b)
U de Mann-Whitney
W de Wilcoxon
Z
Sig. asintót. (bilateral)
Sig. exacta [2*(Sig.
unilateral)]
Valores
46,500
101,500
-,268
,789
,796(a)
a No corregidos para los empates.
b Variable de agrupación: Muestra
Al ser las muestras pequeñas observamos la significación exacta (0.796). Ésta es mayor que
0.05, concluimos que ambas muestras proceden de la misma población.
379
Nota: Según Mann y Whitney pueden considerarse suficientemente grandes m y n a partir de
m≥8
y n ≥ 8 . Hay autores que consideran m y n grandes cuando m + n ≥ 60 . En nuestro
ejemplo n=10, m=10 y la significación exacta y asintótica son muy próximas.
380
FORMULARIOS
Y
TABLAS ESTADÍSTICAS
381
382
MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS
(O CON REEMPLAZAMIENTO)
MEDIA
1 n
y = ∑ yi
n i =1
ESTIMADOR
S2 =
CUASIVARIANZA
MUESTRAL
VARIANZA DEL
ESTIMADOR
PROPORCION
1 n
p = ∑ yi ,
n i =1
(
1 n
∑ yi − y
n − 1 i =1
)
 n

 ∑ yi 
n
yi2 −  i =1 
∑
n
S 2 = i =1
n −1
V ( y) =
LIMITE DEL ERROR DE
ESTIMACIÓN = B
σ2
2 V ( y) = 2
INTERVALO DE
CONFIANZA
TAMAÑO MUESTRAL
n=
σ2
B2
4
=
σ2
D
S2
n
V ( p) =
pq
n
2 V ( p) = 2
=B
, D=
)
=
n pq
n −1
V ( p) =
pq
n −1
2
q = 1− p
S
n
σ2
n
2
2
S
S 

, y+2
 y−2

n
n

2 V ( y) = 2
(
1 n
S =
∑ yi − y
n − 1 i =1
2
V ( y) =
n
yi = 0, 1
B2
4
pq
n −1

pq
pq 
 p−2

, p+2

n −1
n −1 


2 V ( p) = 2
n=
pq pq
=
B2
D
4
pq
=B
n
, D=
B2
4
383
MUESTREO ALEATORIO SIMPLE EN POBLACIONES FINITAS
SIN REEMPLAZAMIENTO
MEDIA
TOTAL
1 n
y = ∑ yi
n i =1
ESTIMADOR
τ =Ny=
V ( y) =
VARIANZA DEL
ESTIMADOR
LIMITE DEL ERROR
DE ESTIMACIÓN = B
N
n
1 n
p = ∑ yi ,
n i =1
n
i =1
i
S2 N − n
n N
384
2 V ( p)
2 V (τ ) = N 2 V ( p )
)
(τ − 2 V (τ ) , τ + 2 V (τ ) ) =
= ( N ( y − 2 V ( y ) ) , N ( y + 2 V ( y ) ))
B2
(media )
D=
4
B2
D=
(total )
4N 2
pq N − n
n −1 N
S2
pq
V (τ ) = V ( N p) = N 2 V ( p) = N ( N − n)
n
n −1
2 V (τ ) = N 2 V ( y )
Nσ 2
n=
( N − 1) D + σ 2
TAMAÑO MUESTRAL
V ( p) =
2 V ( y)
V ( y) , y + 2 V ( y)
yi = 0, 1
τ =Np
∑y
V (τ ) = V ( N y ) = N 2 V ( y ) = N ( N − n)
(y − 2
INTERVALO DE
CONFIANZA
PROPORCION
TOTAL
(p − 2
(τ − 2
= (N ( p − 2
n=
D=
V ( p) , p + 2 V ( p)
)
)
V (τ ) , τ + 2 V (τ ) =
) (
V ( p) , N p + 2 V ( p)
Npq
( N − 1) D + pq
B2
4
( proporcion)
B2
D=
4N 2
(total )
))
MUESTREO ALEATORIO ESTRATIFICADO
MEDIA
TOTAL
y st =
ESTIMADOR
PROPORCION
TOTAL
L
1
N
∑ Ni y i
p st =
i =1
L
VARIANZA DEL
ESTIMADOR
=
1
N2
L
∑ Ni2 V ( yi ) =
i =1
L
∑ Ni2
i =1
Si2 N i − ni
ni N i
L
V (τ st ) = N 2 V ( y st ) = ∑ N i2
i =1
TAMAÑO
MUESTRAL
n=
∑
i =1
V ( p st ) =
=
1
N2
L
N 2 D + ∑ N iσ i2
i =1
i
pi
1
N2
L
∑N
i =1
L
∑N
2
i
i =1
2
i
V ( pi ) =
p i q i N i − ni
ni − 1 N i
L
V (τ st ) = N 2 V ( p st ) = ∑ N i2
i =1
p i q i N i − ni
ni − 1 N i
PROPORCION
TOTAL
N i2σ i2
ωi
i =1
i =1
MEDIA
TOTAL
L
FORMULACIÓN
GENERAL
Si2 N i − ni
ni N i
∑N
τ st = N p st = ∑ N i p i
i =1
1
N2
L
L
τ st = N y st = ∑ N i y i
V ( y st ) =
1
N
L
n=
∑
i =1
N i2 pi qi
ωi
L
N 2 D + ∑ N i pi qi
i =1
385
MUESTREO ALEATORIO ESTRATIFICADO
TAMAÑO
MUESTRAL
MEDIA
TOTAL
PROPORCION
TOTAL
L
(error fijo B ) n =
∑N σ
i
i =1
L
∑
ci
i
i =1
L
Ni σ i
ci
N 2 D + ∑ N iσ i2
L
n=
∑ Ni
i =1
N iσ i
ci
L
(coste fijo C ) n =
C∑
i =1
L
∑Nσ
i
i =1
i =1
L
i =1
n=
L
∑N
i =1
cj
ASIGNACIÓN DE
NEYMAN
ωj =
N iσ i
∑
ci
i =1
2
i =1
i
L
N 2 D + ∑ N iσ i2
N jσ j
i
i =1
(∑ N
n=
i =1
i =1
ASIGNACIÓN
PROPORCIONAL
ND +
1
N
ωj =
D
386
L
∑ Niσ i2
L
∑N
pi qi
i
L
∑N pq
n=
i
i =1
ND +
i =1
Nj
1
N
ωj =
N
B2
(media )
4
B2
(total )
D=
4N 2
D=
N j p jq j
i =1
i =1
)
2
pi qi
i
L
i
∑ Ni σ i2
pi qi
ci
i
N 2 D + ∑ N i pi qi
L
n=
∑N
ωj =
L
∑Nσ
L
L
i =1
ωj =
p jq j
cj
i =1
(∑ N σ )
L
n=
pi qi ci
i
Nj
L
i
pi qi
ci
C ∑ Ni
N jσ j
ωj =
i =1
i
N 2 D + ∑ N i pi qi
ci
i
∑N
L
i =1
ASIGNACIÓN
ÓPTIMA
L
pi qi ci
D=
B2
4
D=
i i
L
∑N pq
i =1
i
i i
Nj
N
( proporcion)
B2
4N 2
(total )
pi qi
ci
ESTIMACIÓN DE RAZÓN
RAZÓN
MEDIA
TOTAL
n
µ y = rµx
∑y
i
ESTIMADOR
y
r = in=1 =
∑ xi x
τ y = rτ x
i =1
S r2 =
VARIANZA RESIDUAL
1 n
2
( yi − rxi )
∑
n − 1 i =1
V ( µ y ) = µ x2 V (r ) =
VARIANZA DEL
ESTIMADOR
V (r ) =
1 N − n Sr2
µ x2 N n
N − n Sr2
N n
V (τ y ) = τ x2 V (r ) = N 2
n=
Nσ r2
ND + σ r2
DETERMINACIÓN DEL
TAMAÑO MUESTRAL
2
σ r = Sr2 de una muestra previa
D=
D=
B2
4
N − n Sr2
N n
B 2 µ x2
4
( para estimar R)
( para estimar µ y )
D=
B2
4N 2
( para estimar τ y )
387
ESTIMACIÓN DE REGRESIÓN
S x2 =
(
1 n
∑ xi − x
n − 1 i =1
VARIANZA, COVARIANZA
1 n
Y COEF. DE
S xy =
∑ xi − x
n − 1 i =1
CORRELACIÓN
MUESTRALES
(
)
MEDIA
TOTAL
1 n
sx2 = ∑ xi − x
n i =1
(
2
)( y − y )
rxy2 =
S xy2
S x2 S y2
2
(
1 n
∑ xi − x
n i =1
sxy =
i
)
=
(n − 1) S x2 = nsx2
)( y − y ) = 1n ∑ x y − x y
n
i
i =1
i
i
sxy2
sx2 s y2
∑ ( x − x )( y − y )
n
µ yL = y + b( µ x − x)
b=
ESTIMADOR
S xy
S x2
=
sxy
sx2
=
i
i =1
i
∑ ( x − x)
n
i =1
2
i
τ yL = N µ yL
VARIANZA RESIDUAL
( (
1 n
S =
∑ yi − y + b( xi − x)
n − 2 i =1
2
L
ERROR TÍPICO DE
ESTIMACIÓN
))
2

n 2
s y (1 − rxy2 )
 =
 n−2
S L2 = S L
V ( µ yL ) =
VARIANZA DEL
ESTIMADOR
N − n S L2
N n
V (τ yL ) = N 2 V ( µ yL )
n=
Nσ L2
ND + σ L2
D=
B2
4
DETERMINACIÓN DEL
TAMAÑO MUESTRAL
388
2
n  2 sxy
=
 sy − 2
n − 2 
sx
2
σ L = S L2 de una muestra previa
( para estimar µ y )
D=
B2
4N 2
( para estimar τ y )
ESTIMACIÓN DE DIFERENCIA
MEDIA
TOTAL
µ yD = y + ( µ x − x) = µ x + d
d = y−x
ESTIMADOR
τ yD = N µ yD
VARIANZA RESIDUAL
S D2 =
(
1 n
∑ yi − ( xi + d )
n − 1 i =1
)
2
=
(
1 n
∑ di − d
n − 1 i =1
V ( µ yD ) =
VARIANZA DEL ESTIMADOR
)
2
di = yi − xi
N − n S D2
N n
V (τ yD ) = N 2 V ( µ yD )
DETERMINACIÓN DEL
TAMAÑO MUESTRAL
Nσ D2
n=
ND + σ D2
B2
D=
4
2
σ D = S D2
( para estimar µ y )
de una muestra previa
B2
D=
4N 2
( para estimar τ y )
389
MUESTREO POR CONGLOMERADOS
MEDIA o PROPORCIÓN
TOTAL (M conocido)
n = conglomerados en la muestra
yi = suma de las observaciones del conglomerado i
N = conglomerados en la población
mi = elementos en el conglomerado i
N
NOTACIÓN
n
M = ∑ mi = elementos en la población
m = ∑ mi = elementos en la muestra
i =1
M=
1
N
N
∑m
i =1
i
TOTAL
i =1
= tamaño medio de los conglomerados de la población
m=
1 n
∑ mi = tamaño medio de los conglomerados de la muestra
n i =1
n
µ=y=
ESTIMADOR
∑y
i =1
n
i
yt =
∑m
i =1
i
τ t = N yt
τ =My
Sc2 =
VARIANZA
DEL
ESTIMADOR
(
1 n
∑ yi − ymi
n − 1 i =1
)
2
St2 =
1 N − n Sc2
V ( y) = 2
N n
M
S2
V (τ ) = M V ( y ) = N ( N − n) c
n
TAMAÑO
MUESTRAL
390
Nσ c2
ND + σ c2
2
σ c = Sc2
de una muestra previa
(
1 n
∑ yi − y t
n − 1 i =1
(media)
(total )
2
V (τ t ) = N 2 V ( y t ) = N ( N − n)
n=
Nσ t2
ND + σ t2
2
σ t = St2
B2
D=
4N 2
St2
n
de una muestra previa
2
B2 M
D=
4
B2
D=
4N 2
)
N − n St2
V ( yt ) =
N n
2
n=
1 n
∑ yi
n i =1
(total )
ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN
MUESTREO DIRECTO
NOTACIÓN
ESTIMADOR
t = elementos marcados
n = total de elementos en la muestra de recaptura
s = elementos marcados en la muestra de recaptura
N=
( )
t
p
E N =N+
PROPIEDADES DEL
ESTIMADOR
MUESTREO INVERSO
( )
=
nt
s
N (N − t)
nt
t 2 n( n − s )
V N =
s3
N=
t
p
=
nt
s
( )
E N =N
( )
t 2 n( n − s )
V N = 2
s ( s + 1)
391
ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN
MUESTREO POR CUADROS
DENSIDAD
NOTACIÓN
TOTAL
A = área total
a = área de cada cuadro
n = número de cuadros en la muestra
m = número medio de elementos por cuadro en la muestra
ESTIMADOR
VARIANZA DEL
ESTIMADOR
λ=
()
M = λA
m
a
V λ =
( )
λ
A2 λ
V M =AV λ =
an
an
( )
2
CUADROS CARGADOS
DENSIDAD
NOTACIÓN
ESTIMADOR
VARIANZA DEL
ESTIMADOR
392
TOTAL
A = área total
a = área de cada cuadro
n = número de cuadros en la muestra
y = número total de cuadros no cargados
1
 y
λ = − ln  
a n
()
V λ =
1 n− y
a 2 ny
M = Aλ = −
( )
A  y
ln  
a n
( )
V M = A2 V λ =
A2 n − y
a 2 ny
INDICADORES ESTADÍSTICOS REGIONALES
Medidas de desigualdad-concentración regional:
x j = valores porcentuales (proporciones) de la variable respecto del total=
Xj
N
∑X
j =1
j
N
Coeficiente de Theil
T = ln N + ∑ x j ln x j
j =1
k
 xg
Propiedad de agregación: T = ln N + ∑ xg ln 
g =1
 Ng
k
∑ Ng = N
∑
xg =
j∈Gg
g =1
 k
 + ∑ xg Tg
 g =1
Tg = ln N g +
xj
N
Índice de Theil: IT = ITHEIL
T
=
=
ln N
Desigualdad individual: di =
ln N + ∑ x j ln x j
j =1
ln N
∑
j∈Gg
N
= 1+
∑x
j =1
j
x
ln  j
xg  xg
xj



ln x j
ln N
x − Xi
x
=
−1
Xi
Xi
N
Desigualdad colectiva: D = ∑ di f i
i =1
Propiedad de agregación: D =
Dg =
∑
j∈Gg
xg − X j
Xj
dg =
fj
1
N
k
∑ dg Ng +
g =1
x
N
k
∑D
g =1
g
Ng
xg
x − xg
xg
Medidas de dispersión regional:
Varianza: V ( X ) =
1
N
N
∑( X
j =1
j
− x)
2
Varianza normalizada: VN ( X ) =
V (X )
x2
Coeficiente de asociación geográfica de Florence : F = 1 −
1 N
∑ xj − yj
2 j =1
393
MEDIDAS DE LOCALIZACIÓN ESPACIAL
Yij
Yi j
→ participación de la región i en el sector j
Yi i
→ participación de la región i en la población
Y
Yij
Yi i
Yij
Yi i
→ participación del sector j en la región i
→ participación del sector j en la región i
Cociente de localización regional del sector j en la región i (cociente de especialización de
la región i en el sector j) :
Lij =
Yij / Yi i
Yi j / Y
100 =
Yij / Yi j
Yi i / Y
100
Coeficiente de localización sectorial (del sector j-ésimo):
CL j =
1 N Yij Yi i
∑ −
2 i =1 Yi j Y
Coeficiente de especialización regional (de la región i-ésima):
CEi =
1 L Yij Yi j
∑ −
2 j =1 Yi i Y
Coeficiente de diversificación (de la región i-ésima):
2
 L 
 ∑ Yij 
Y2
j =1
CDi =  L  = Li i
L ∑ Yij2
L∑ Yij2
j =1
j =1
Coeficiente de diversificación normalizado:
CDi* =
394
L 
1
 CDi − 
L −1 
L
Contrastes χ 2 de Pearson
ni=nº de observaciones en la clase i.
Ei=npi=nº esperado de
observaciones en la clase i bajo H0.
k
χ2 = ∑
( ni − Ei )
i =1
2
nij = nº de elementos en la categoría Ai de X
nij = nº de elementos en la categoría Ai de X,
y B j de Y.
de la población B j .
c
ni• = ∑ nij = nº de elementos en la categoría
ni• = ∑ nij = nº de elementos en la categoría
Ai de X.
Ai de X.
j =1
Ei
r
r
n• j = ∑ nij = nº de elementos en la población
B j de Y.
Bj .
n = nº de elementos en la muestra.
n = nº de elementos en la muestra.
Eij =
ni• n• j
n
r
c
i =1
j =1
χ2 = ∑ ∑
(n
ij
− Eij )
H 0 : X → F(x)
H0 : X e Y son independientes.
H 1: X → G ( x). G ( x) ≠ F ( x)
H1 : X e Y no son independientes.
χ 2 > χ k2−1,1−α
j =1
n• j = ∑ nij = nº de elementos en la categoría
i =1
rechazamos H 0 si
c
rechazamos H o si
i =1
2
Eij
χ 2 > χ (2r −1)( c−1); 1−α
Eij =
ni• n• j
n
r
c
i =1
j =1
χ2 = ∑ ∑
(n
ij
− Eij )
2
Eij
H0: Las c poblaciones son homogéneas
(se distribuyen igual)
H1: Las c poblaciones no se distribuyen igual
rechazamos H o si
χ 2 > χ (2r −1)( c−1); 1−α
395
Contrastes de Kolmogorov-Smirnov (muestras independientes).
F0 ( x) = P [ X ≤ x ]
muestra 1
n º observaciones ≤ x
Fn ( x ) =
n
Dexp = max F0 ( x ) − Fn ( x )
Fn ( x ) =
muestra 2
nº observaciones ≤ x
n º observaciones ≤ x
Fm ( x ) =
n
m
Dexp = max Fn ( x) − Fm ( x)
Contraste bilateral:
H 0 : X → F(x)
 H 0 : Fn ( x) = Fm ( x) 


 H1 : Fn ( x) ≠ Fm ( x) 
Contrastes unilaterales:
H 1: X → G ( x). G ( x) ≠ F ( x)
 H 0 : Fn ( x) = Fm ( x) 

 (1)
 H1 : Fn ( x) < Fm ( x) 
rechazamos H 0 si
396
Dexp > Dα
(tabla A.14)
ó
 H 0 : Fn ( x) = Fm ( x) 

 (2)
 H1 : Fn ( x) > Fm ( x) 
distinguiendo si n = m o n ≠ m y si el test es unilateral o bilateral. Se rechaza
H 0 si Dexp > Dα . (Tablas A.18 y A.19)
Contraste de Mann-Whitney (muestras independientes).
U1 = nm +
muestras de
tamaños n y m
n≤m
n(n + 1)
− R1
2
U 2 = nm +
n + m > 60
( z → N (0,1) )
U 0 = min (U1 , U 2 )
H 0 = Las dos muestras proceden de la misma población. Fn ( x) = Fm ( x)
H1 = Las muestras proceden de
poblaciones distintas. Fn ( x) ≠ Fm ( x)
n ≤ 20 y m ≤ 40
(tablas 3.17 a 3.20)
m(m + 1)
− R2
2
Se rechaza H 0 si U 0 ≤ U α
H1 = Fn ( x) < Fm ( x)
H1 = Fn ( x) > Fm ( x)
( La muestra de tamaño n toma valores
mayores que la muestra de tamaño m).
( La muestra de tamaño n toma valores
menores que la muestra de tamaño m).
Se rechaza H 0 si U 0 ≤ Uα
Se rechaza H 0 si U 0 ≤ Uα
(Uα valor crítico para el test bilateral ) (Uα valor crítico para el test unilateral ) (Uα valor crítico para el test unilateral )
U0 − µ
σ
µ=
= z0
nm
2
σ2 =
nm(n + m + 1)
12
p = P [ z ≤ z0 ]
Se rechaza H 0 si p ≤
α
2
Se rechaza H 0 si p ≤ α
Se rechaza H 0 si p ≤ α
397
Test de las rachas (aleatoriedad, muestras independientes).
H 0 = El orden de los valores de la muestra es aleatorio (casual )
H 0 = Las dos muestras proceden
de la misma población
H A1 = Las dos muestras proceden
H A = El orden de los valores de la H A1 = Efecto de aglomeración H A 2 = Los valores se
suceden de forma regular. de poblaciones distintas.
muestra NO es aleatorio (casual ) ( pocas rachas )
n1 y n2 ≤ 20
(tabla 4.40)
( N (0,1) )
Se mantiene H 0 si ru < R
Se mantiene H 0 si ru < R
Se mantiene H 0 si R < ro
(límites inferiores y superiores
(límites inferiores del α %)
(límites superiores del α %) (límites inferiores del α %)
α
%)
2
R−µ
σ
µ=
=z
2n1n2
+1
n1 + n2
σ2 =
2n1n2 (2n1n2 − n1 − n2 )
( n1 + n2 ) ( n1 + n2 − 1)
2
Se mantiene H 0 si − zα < z < zα
2
398
( pocas rachas )
Se mantiene H 0 si ru < R < ro
del
n1 o n2 > 20
(muchas rachas)
2
Se mantiene H 0 si − zα < z
Se mantiene H 0 si z < zα
Se mantiene H 0 si − zα < z
Test de los signos (muestras dependientes).
H 0 : La mediana de las diferencias es cero ≈ Las dos muestras proceden de la misma distribución. F1 ( x) = F2 ( x)
Se rechaza H 0 cuando hay demasiadas diferencias de un signo y, por tanto, muy pocas del signo contrario
di = xi1 − xi 2
d + = diferencias de signo positivo
H1 : Las dos muestras proceden
de distribuciones distintas. F1 ( x) ≠ F2 ( x)
n ≤ 100
d − = diferencias de signo negativo
H1 : Las dos muestras proceden
H1 : Las dos muestras proceden
de distribuciones distintas.
F1 ( x) < F2 ( x) ( La muestra 1 toma
de distribuciones distintas.
F1 ( x) > F2 ( x) ( La muestra 1 toma
valores mayores que la muestra 2).
valores menores que la muestra 2).
Se acepta H 0 si EI ≤ {d + , d − } ≤ ED
Se acepta H 0 si
{d+ ≤ ED , EI ≤ d − }
Se acepta H 0 si
{d− ≤ ED , EI ≤ d + }
Se acepta H 0 si EI ≤ {d + , d − } ≤ ED
Se acepta H 0 si
{d + ≤ ED , EI ≤ d − }
Se acepta H 0 si
{d − ≤ ED , EI ≤ d + }
(tabla 4.4)
101 ≤ n ≤ 1000
(tabla 4.5)
30 ≤ n
( N (0,1) )
z+ =
d+ − µ
z− =
σ
µ=
n
2
σ2 =
d− − µ
σ
d+ − µ
σ
z− =
d− − µ
σ
n
4
Se acepta H 0 si − zα ≤ { z+ , z− } ≤ zα
2
z+ =
Se acepta H 0 si { z+ ≤ zα , − zα ≤ z− }
Se acepta H 0 si { z− ≤ zα , − zα ≤ z+ }
2
399
Test de Wilcoxon de los signos-rangos (muestras dependientes).
di = xi1 − xi 2
⇒ ordenar di de menor a mayor ⇒ R+
y
R−
⇒ verificar
R+ + R− =
n(n + 1)
⇒ R = min( R+ , R− )
2
H 0 : La distribución de las diferencias es simétrica alrededor de su mediana 0 ≈ Las dos muestras proceden de la misma distribución.
H0 :
f(+d)= f(-d)
F(+d)+ F(-d)= 1
H1 : Las dos muestras proceden de distribuciones distintas.
n ≤ 65
( tabla 4.2 )
n > 25
( N (0,1) )
Se rechaza H 0 si
R−µ
σ
Se rechaza H 0 si
µ=
=z
z ≤ − zα
2
400
R ≤ Rα
n(n + 1)
4
(test bilateral )
( Rα valor crítico para el test )
σ2 =
n ( n + 1)( 2n + 1)
24
Se rechaza H 0 si
z ≤ − zα
(test unilateral )
Descargar