Apuntes de la asignatura.

Anuncio
DPTO. MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA
UNIVERSIDAD DE GRANADA
TÉCNICAS
PARA EL ANÁLISIS DEL MERCADO
TEORÍA, EJERCICIOS Y PRÁCTICAS
1
2
INFORMACIÓN GENERAL (Exámenes, temario, bibliografía,...) . . . . . . . .
6
APUNTES:
1. Elementos del problema de muestreo. . . . . . . . . . . . . . . . . . . . . . . .
1.1 Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Selección de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Errores de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Errores de no muestreo. . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Métodos de recolección de datos. . . . . . . . . . . . . . . . . . . . . . . .
1.5 Diseño del cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Planificación de la encuesta. . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Razones para el uso del muestreo. . . . . . . . . . . . . . . . . . . . . . .
11
11
12
13
13
15
16
16
16
17
2. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas
aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . .
2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de
estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
2.2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
2.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . .
2.3.1 Estimación de la media, proporción y total poblacionales. . . . . . .
2.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
23
24
25
27
30
3. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Selección de una muestra aleatoria estratificada. . . . . . . . . . . . . . . .
3.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
3.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .
3.4 Asignación de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Asignación óptima. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Asignación de Neyman. . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3 Asignación proporcional. . . . . . . . . . . . . . . . . . . . . . . .
3.5 Estratificación después de seleccionar la muestra. . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
38
39
42
43
43
44
44
50
52
4. Muestreo con información auxiliar. . . . . . . . . . . . . . . . . . . . . . . . .
4.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Estimación de razón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
4.2.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
4.3 Estimación de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
4.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
4.4 Estimación de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
4.4.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
63
63
64
65
68
69
70
71
72
72
74
18
19
19
3
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
5. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Selección de una muestra sistemática. Usos. Ventajas. . . . . . . . . . . . .
5.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas,
aleatorias y periódicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
82
84
86
5.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .
88
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
6. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . .
6.2 Formación de los conglomerados. Conglomerados y estratos. . . . . . . . .
6.3 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
6.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
92
92
92
97
98
7. Estimación del tamaño de la población. . . . . . . . . . . . . . . . . . . . . . .
7.1 Muestreo directo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Muestreo inverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Muestreo por cuadros.
7.3.1 Estimación de la densidad y tamaño de la población. . . . . . . . .
7.3.2 Muestreo por cuadros en el espacio temporal. . . . . . . . . . . . .
7.3.3 Cuadros cargados. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
108
108
109
8. Análisis cluster. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Medidas de similaridad. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2.1 Medidas de similaridad para variables métricas. . . . . . . . . . . .
8.2.2 Medidas de similaridad para datos binarios. . . . . . . . . . . . . .
8.3 Estandarización de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4 Formación de grupos: Clusters jerárquicos y clusters no jerárquicos. . . . .
8.4.1 Clusters jerárquicos. . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4.2 Clusters no jerárquicos. . . . . . . . . . . . . . . . . . . . . . . . .
8.5 Elección entre los distintos tipos de análisis cluster. . . . . . . . . . . . . .
117
117
118
120
121
122
125
125
132
136
9. Componentes principales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Componentes principales. . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1. Componentes principales a partir de variables estandarizadas . . . .
137
137
138
145
110
112
112
114
EJERCICIOS:
Ejercicios del capítulo 2.
Ejercicios del capítulo 3.
Ejercicios del capítulo 4.
Ejercicios del capítulo 5.
Ejercicios del capítulo 6.
Ejercicios del capítulo 7.
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
156
162
173
183
186
196
Ejercicios del capítulo 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
200
202
PRÁCTICAS:
Introducción al SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
204
Práctica 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
Práctica 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
FORMULARIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
239
5
INFORMACIÓN GENERAL
Licenciatura: Administración y Dirección de Empresas
Carácter: Optativo
Créditos: 6
Periodo lectivo: Segundo cuatrimestre
Departamento: Métodos Cuantitativos para la Economía y la Empresa
Objetivos de la Asignatura:
o Completar los conocimientos previos de estadística con el estudio de nuevas técnicas
de muestreo en poblaciones finitas y análisis multivariante, dotando al alumno de las
herramientas estadísticas e informáticas necesarias para poder abordar la resolución de
supuestos prácticos.
o La asignatura es de tipo teórico-práctico. Se considera fundamental la comprensión de
los conceptos, la capacidad de elección del método en la resolución de los problemas
prácticos que se planteen, la solución de dichos problemas mediante la hoja de cálculo
Excel y el paquete estadístico SPSS así como la interpretación de los resultados.
o Una hora de clase a la semana será en el aula de informática donde se utilizarán los
programas Excel y SPSS.
Sistema de Evaluación:
• En cualquiera de las convocatorias de examen de esta asignatura se realizarán dos
pruebas, una escrita (valorada en al menos el 70% de la calificación) y otra con
ordenador (valorada como máximo en el 30% de la calificación). Siendo necesario un
mínimo del 35% de la calificación en cada una de estas dos partes, para realizar la
media ponderada entre ambas calificaciones y así obtener la calificación global. En
ambas pruebas los alumnos podrán utilizar el “formulario” (con todas las expresiones
utilizadas en la asignatura), dicha información se facilitará por internet y/o en la
fotocopiadora del centro. También se permite el uso de calculadora no programable en
la prueba escrita.
• Los alumnos que reúnan determinados requisitos de seguimiento de la asignatura, que
oportunamente se expondrán en clase, serán evaluados mediante exámenes previos a la
convocatoria oficial de Junio. La superación en estos exámenes de la prueba escrita y/o
con ordenador eximirá de la realización del examen final (escrito y ordenador) o de
alguna de las pruebas en la convocatoria de Junio (no se guardará el aprobado en la
parte escrita o con ordenador para posteriores convocatorias: Septiembre, …)
6
TEMARIO
1. Elementos del problema de muestreo.
1.1 Definiciones básicas.
1.2 Selección de la muestra.
1.3 Fuentes de error.
1.3.1 Errores de muestreo.
1.3.2 Errores de no muestreo.
1.4 Métodos de recolección de datos.
1.5 Diseño del cuestionario.
1.6 Planificación de la encuesta.
1.7 Razones para el uso del muestreo.
2. Muestreo aleatorio simple.
2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.
2.2 Muestreo aleatorio simple en poblaciones infinitas.
2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de
estimación.
2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
2.2.3 Determinación del tamaño muestral.
2.3 Muestreo aleatorio simple en poblaciones finitas.
2.3.1 Estimación de la media, proporción y total poblacionales.
2.3.2 Determinación del tamaño muestral.
3. Muestreo aleatorio estratificado.
3.1 Selección de una muestra aleatoria estratificada.
3.2 Estimación de la media, proporción y total poblacionales.
3.3 Determinación del tamaño muestral.
3.4 Asignación de la muestra.
3.4.1 Asignación óptima.
3.4.2 Asignación de Neyman.
3.4.3 Asignación proporcional.
3.5 Estratificación después de seleccionar la muestra.
4. Muestreo con información auxiliar.
4.1 Introducción.
4.2 Estimación de razón.
4.2.1 Estimación de la media y total poblacionales.
4.2.2 Determinación del tamaño muestral.
4.3 Estimación de regresión.
4.3.1 Estimación de la media y total poblacionales.
4.3.2 Determinación del tamaño muestral.
4.4 Estimación de diferencia.
4.4.1 Estimación de la media y total poblacionales.
4.4.2 Determinación del tamaño muestral.
5. Muestreo sistemático.
5.1 Selección de una muestra sistemática. Usos. Ventajas.
5.2 Estimación de la media, proporción y total poblacionales.
5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias
y periódicas.
7
5.4 Determinación del tamaño muestral.
6. Muestreo por conglomerados.
6.1 Necesidad y ventajas del muestreo por conglomerados.
6.2 Formación de los conglomerados. Conglomerados y estratos.
6.3 Estimación de la media, proporción y total poblacionales.
6.4 Determinación del tamaño muestral.
7. Estimación del tamaño de la población.
7.1 Muestreo directo.
7.2 Muestreo inverso.
7.3 Muestreo por cuadros.
7.3.1 Estimación de la densidad y tamaño de la población.
7.3.2 Muestreo por cuadros en el espacio temporal.
7.3.3 Cuadros cargados.
8. Análisis cluster.
8.1 Introducción.
8.2 Medidas de similaridad.
8.2.1 Medidas de similaridad para variables métricas
8.2.2 Medidas de similaridad para datos binarios
8.3 Estandarización de datos.
8.4 Formación de grupos: Clusters jerárquicos y clusters no jerárquicos.
8.4.1 Clusters jerárquicos.
8.4.2 Clusters no jerárquicos.
8.5 Elección entre los distintos tipos de análisis cluster.
9. Componentes principales.
9.1 Introducción.
9.2 Componentes principales.
9.2.1. Componentes principales a partir de variables estandarizadas.
8
Bibliografía:
Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.
Palacios, F. Callejón, J. (2004). Técnicas Cuantitativas para el Análisis Regional. Editorial
Universidad de Granada. Manuales Ciencias Económicas y Empresariales.
Fernández García, Mayor Gallego (1995). Ejercicios y prácticas de muestreo en
poblaciones finitas. EUB.
Lohr, S.L. (1999). Muestreo: Diseño y Análisis. International Thomson Editores
Luque, T. (2000). Técnicas de Análisis de Datos en Investigación de Mercados. Pirámide.
Hair, J. F. (2001). Análisis Multivariante. Prentice-Hall.
Peña, D. (2002). Análisis de Datos Multivariantes. McGraw-Hill.
Uriel, E. Aldás, J. (2005). Análisis Multivariante Aplicado. International Thomson Editores.
Información en la WEB:
En la página web de la Universidad (www.ugr.es/local/jhermoso) se facilitará información a
los alumnos sobre:
Profesores que imparten la asignatura, despacho, correo electrónico, horario de
tutorías...
Programa de la asignatura
Bibliografía
Apuntes de clase
Relaciones de ejercicios
Prácticas de ordenador
Sistema de evaluación
Fechas de exámenes
Calificaciones
Revisión de exámenes
Cualquier otra información que se considere importante.
9
10
Elementos del problema de muestreo.
1.1 Definiciones básicas.
1.2 Selección de la muestra.
1.3 Fuentes de error.
1.3.1 Errores de muestreo.
1.3.2 Errores de no muestreo.
1.4 Métodos de recolección de datos.
1.5 Diseño del cuestionario.
1.6 Planificación de la encuesta.
1.7 Razones para el uso del muestreo.
El objetivo fundamental de la estadística es hacer inferencia acerca de una población con base
en la información contenida en una muestra representativa.
La información obtenida de las encuestas por muestreo afecta a casi todos los aspectos de
nuestra vida: IPC, audiencia de televisión, intención de voto,... Un área particular de actividad
comercial que depende de las técnicas de muestreo es el análisis de mercados. Decisiones
sobre qué producto comercializar, cuándo, dónde, cómo anunciarlo son frecuentemente
tomadas sobre la base de la información de encuestas por muestreo.
1.1 Definiciones básicas
En la actualidad, las encuestas y las muestras están presentes en nuestra vida diaria. Muchas
nos dan información valiosa, pero otras están mal concebidas y aplicadas. Una muestra
perfecta sería una versión a escala reducida de la población, que reflejaría cada una de las
características de toda la población. Una buena muestra reproduce las características de interés
que existen en la población de la manera más cercana posible.
Para precisar el concepto de “buena muestra” necesitamos una serie de definiciones previas
que ilustraremos apoyándonos en el siguiente ejemplo: supongamos que en cierta ciudad se
quiere realizar una encuesta telefónica con el objetivo de conocer la proporción de votantes
que apoyarán a un determinado candidato
Un elemento de muestreo es un objeto en el que se toman las mediciones. En nuestro
ejemplo un elemento de muestreo es un votante y la medición que se toma es si apoyará o no
al candidato.
La población objetivo es el conjunto de elementos que deseamos estudiar. La definición debe
contener:
una descripción de los elementos que serán incluidos, y
una especificación de las mediciones que se van a considerar.
11
Una muestra es un subconjunto de la población.
El muestreo de la población deseada no es siempre posible, y el investigador tendrá que reunir
información adicional a las preguntas de interés. Por ejemplo, en la encuesta sobre un
candidato en una votación, la información disponible para el muestreo puede ser el censo de
residentes en la ciudad, entonces debemos recolectar información acerca de si cada persona
muestreada es un votante censado o no.
La población muestreada es la colección de todos los elementos posibles que podrían
seleccionarse para la muestra.
Las unidades de muestreo son conjuntos (no solapados) de elementos de la población que
cubren la población completa.
Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una lista de los
teléfonos de todos los individuos que pertenecen a la población objetivo. En vez de esto, las
familias sirven como unidades de muestreo y los elementos son los individuos que viven en
una familia.
El marco de muestreo es la lista de las unidades de muestreo.
Por ejemplo, para las encuestas telefónicas, el marco de muestreo puede ser una lista de todos
los números de teléfono residenciales de la ciudad. Casi todos los marcos presentan
inconvenientes: listas no actualizadas, algunos votantes pueden no aparecer en las listas,... Sin
embargo, cabe esperar que la separación entre el marco y la población sea lo bastante pequeño
como para permitir que se hagan inferencias acerca de la población basándose en una muestra
obtenida del marco.
1.2 Selección de la muestra
Si el muestreo se realiza de manera adecuada, con una muestra relativamente pequeña se
puede llevar a cabo inferencias de una población arbitrariamente grande. La cantidad de
información contenida en una muestra se controla por medio del número de datos muestrales y
por el método usado para seleccionar los datos muestrales.
Veamos algunos métodos:
1. Muestreo aleatorio simple. Es la forma más sencilla de realizar un muestreo.
Consiste en seleccionar n unidades muestrales de tal manera que cualquier muestra de
tamaño n tenga la misma probabilidad de ser elegida. Este tipo de muestreo es la base
de otros diseños de muestreo.
2. Muestreo aleatorio estratificado. Supongamos que los habitantes de una ciudad se
pueden dividir en grupos con diferentes opiniones sobre un determinado candidato.
Obviamente nos interesa tener información de cada uno de esos grupos. Entonces se
12
divide a la población en esos grupos o estratos y se selecciona una muestra aleatoria
simple de cada grupo. A la muestra resultante se le llama muestra aleatoria
estratificada.
3. Muestreo por conglomerados. En una muestra por conglomerados, los elementos que
componen una población se reúnen en unidades de muestreo de mayor tamaño,
llamadas conglomerados. Para nuestra encuesta podemos muestrear familias en lugar
de votantes individuales. En este caso las familias forman los conglomerados y los
miembros de las familias son las unidades de muestreo.
4. Muestreo sistemático: Es un tipo de muestreo que muchas veces se utiliza como
sustituto del muestreo aleatorio simple. Consiste en seleccionar un elemento al
comienzo de una lista de la población y luego se selecciona cada un número fijo de
posiciones el resto de elementos.
1.3 Fuentes de error
1.3.1 Errores de muestreo
El error de muestreo es el que surge al considerar una muestra y no examinar toda la
población. El error de muestreo puede ser controlado y medido mediante un diseño cuidadoso
de la muestra.
Nuestro objetivo a lo largo de la asignatura será conocer o investigar alguna característica de
una población que, en principio, vamos a denotar por θ . Por ejemplo, estudiaremos la
audiencia televisiva una determinada noche, la intención de voto de una región,....
Claramente la recogida de información sobre toda la población resultaría cara y lenta. Por ello
es preferible utilizar un subconjunto pequeño de la población, la muestra.
Denotando por θˆ a un estimador de la característica θ , definimos el error de estimación como
error de estimación = θˆ - θ
Dado que el estimador es una variable aleatoria, no podemos asegurar que siempre el
estimador y θ están dentro de una distancia especificada B, pero podemos expresar que eso
ocurre con una determinada probabilidad
P  θˆ − θ ≤ B  = 1 − α


,0 < α <1
donde
 Límite para el Error de Estimación (LEE) con nivel de confianza 1 − α

B = Cota para el error de estimación con nivel de confianza 1-α
 Error de estimación máximo con nivel de confianza 1-α

13
A continuación veremos que forma tiene B bajo distintas hipótesis sobre el estimador:
(
)
1. θˆ es un estimador insesgado de θ y tiene una distribución Normal θˆ → N (θ , σ θˆ ) .
Dado que θˆ − θ → N (0, σ θˆ ) , entonces
P  θˆ − θ ≤ B  = P  − B ≤ θˆ − θ ≤ B 


 B
B
= P −
≤Z≤
 = 1−α
σ θˆ 
 σ θˆ
donde Z =
B
θɵ − θ
→ N (0,1) . Por tanto,
= z α (podemos obtenerlo en una tabla de
1−
σ θˆ
σ θɵ
2
probabilidades de la N(0,1)) y el límite del error de estimación es B = z
1−
α
σ θˆ . Como
2
se puede observar, el límite del error de estimación dependerá del nivel de confianza y
de la desviación típica del estimador (esto último dependerá de la variabilidad de la
muestra y del tipo de muestreo).
Tomando una confianza del 95% el límite del error de estimación será:
B = z 0,975σ θˆ = 1,96σ θˆ ≅ 2σ θˆ . Entonces
P  θˆ − θ ≤ 2σ θˆ  = 0,95


Es decir, con una confianza del 95%, el límite del error de estimación es dos veces la
desviación típica del estimador. (En muchos textos se denomina error típico a la
desviación típica del estimador)
2. θˆ es un estimador insesgado de θ con desviación típica (error típico) σ θˆ .
Por la desigualdad de Tchebyshev:
()
1
P  θˆ − E θˆ ≤ kσ θˆ  ≥ 1 − 2


k
, k ≥1
Dado que el estimador es insesgado y tomando k = 2 ,
1
P  θˆ − θ < 2σ θˆ  ≥ 1 − 2 = 0, 75


2
Luego, con una confianza mayor del 75%, el límite del error de estimación es dos
veces la desviación típica del estimador.
Resumiendo, el límite del error de estimación es dos veces la desviación típica del estimador
con una confianza del 95% si el estimador tiene distribución Normal y con una confianza
14
mayor del 75% si no tiene esa distribución. Además, si el tamaño muestral es mayor que 30,
los estimadores que usaremos tendrán una distribución aproximadamente Normal, en virtud
del Teorema central del límite.
La expresión P  θˆ − θ ≤ B  = 1 − α tiene una segunda lectura. Dado que


P  θˆ − θ ≤ B  = P  − B ≤ θˆ − θ ≤ B  = P θˆ − B ≤ θ ≤ θˆ + B  = 1 − α


(
el verdadero valor del parámetro se encuentra entre los extremos del intervalo θˆ − B, θˆ + B
)
con una confianza de 1 − α .
1.3.2 Errores de no muestreo
Otro tipo de errores, más difícil de controlar, pueden ocurrir en la encuesta. Estos errores se
llaman errores de no muestreo. En muchas encuestas, el error de muestreo cometido para esa
encuesta puede ser despreciable en comparación con los errores que no son de muestreo.
Los errores de no muestreo más comunes son:
1. Sesgo de selección. Este error ocurre cuando alguna parte de la población objetivo no
está en la población muestreada. Una muestra así obtenida no es representativa de la
población objetivo.
2. Sesgo de medición. El sesgo de medición ocurre cuando los datos observados difieren
del valor verdadero. La obtención de respuestas precisas en las encuestas es
fundamental pero esto a veces no se consigue por diversos motivos:
-
A veces, las personas no dicen la verdad.
-
Las personas no siempre comprenden las preguntas.
-
Un entrevistador puede leer mal las preguntas o anotar las respuestas de manera
equivocada.
-
La formulación y el orden de las preguntas tiene un gran efecto sobre las respuestas
obtenidas.
3. No respuesta. La no respuesta de un individuo seleccionado para formar parte de la
muestra puede causar un sesgo en los datos muestrales similar al sesgo de selección.
Puede ocurrir que las personas que respondan no representen a la población bajo
estudio.
Los errores de no muestreo pueden controlarse con las siguientes acciones:
1. Reentrevistas.
15
2. Recompensas e incentivos.
3. Entrevistadores adiestrados.
4. Verificación de datos.
(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.4 Métodos de recolección de datos
También el método de recolección de datos es fundamental en la reducción de los errores de
no muestreo. Destacamos como métodos más habituales:
(A) Entrevista personal.
(B) Entrevista por teléfono.
(C) Cuestionarios autoaplicados.
(D) Observación directa.
(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.5 Diseño del cuestionario
Uno de los objetivos en cualquier diseño de encuesta es minimizar los errores de no muestreo
que pueden ocurrir. Algunos consejos interesantes para la construcción del cuestionario son
los siguientes:
-
Decidir lo que se quiere descubrir.
-
Verificar las preguntas antes de realizar la encuesta.
-
Elaborar las preguntas de manera sencilla y clara.
-
Prestar atención al orden de las preguntas.
-
Decida si desea utilizar preguntas abiertas o cerradas.
-
Evitar preguntas que induzcan al entrevistado a decir lo que usted quiere escuchar.
-
Utilice preguntas de opción forzosa.
(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.6 Planificación de la encuesta
Teniendo en cuenta todo lo anteriormente expuesto, los siguientes aspectos deben de tenerse
en cuenta en la planificación de una encuesta:
1. Establecer objetivos.
2. Población objetivo.
16
3. El marco.
4. Diseño del muestreo.
5. Método de recolección de datos.
6. Instrumentos de recolección de datos.
7. Selección y preparación de investigadores de campo.
8. Prueba piloto.
9. Organización del trabajo de campo.
10. Organización de la administración de datos.
11. Análisis de los datos.
(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.7 Razones para el uso del muestreo
Entre otras muchas razones, destacamos:
(a) Evitar la destrucción de la población. En algunos casos, una unidad de observación
debe ser destruida para ser observada. En ese caso, un censo destruiría a toda la
población. Por ejemplo el muestreo en el control de calidad.
(b) Rapidez. Los datos se pueden reunir más rápido, de modo que las estimaciones se
pueden publicar de una manera programada. Por ejemplo las elecciones.
(c) Economía y precisión. El muestreo puede proporcionar información fiable con costes
mucho menores que los de un censo. Las estimaciones basadas en las encuestas y sus
respectivas muestras son, con frecuencia, más precisas que las basadas en un censo,
pues los investigadores pueden tener más cuidado al reunir los datos. Un censo
completo necesita, por lo regular, de una gran organización administrativa e implica a
muchas personas en la recolección de los datos. Con tal complejidad administrativa y
la presión por producir las estimaciones a tiempo, se pueden cometer muchos errores
en la elaboración del censo. En una muestra, se puede dedicar más atención a la
calidad de los datos, a entrenar al personal y realizar un seguimiento de quienes no
contestan la encuesta.
17
2. Muestreo aleatorio simple.
2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.
2.2 Muestreo aleatorio simple en poblaciones infinitas.
2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación.
2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
2.2.3 Determinación del tamaño muestral.
2.3 Muestreo aleatorio simple en poblaciones finitas.
2.3.1 Estimación de la media, proporción y total poblacionales.
2.3.2 Determinación del tamaño muestral.
2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.
Si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada, el
procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra así
seleccionada se le llama muestra aleatoria simple.
En el muestreo aleatorio con reemplazamiento el comportamiento de cada observación da
lugar a variables aleatorias independientes e idénticamente distribuidas.
El muestreo aleatorio sin reemplazamiento da lugar a variables aleatorias donde sus
distribuciones marginales (no así las condicionadas) son idénticamente distribuidas pero falla
la hipótesis de independencia.
Si el número de elementos de la población es muy grande (poblaciones infinitas) la anterior
distinción es irrelevante.
En poblaciones finitas, muestrear un mismo elemento dos veces no proporciona más
información. Por ello, en general, en poblaciones finitas se prefiere el muestreo sin
reemplazamiento.
En la práctica, la condición de que cada muestra tenga la misma probabilidad de ser
seleccionada se traduce en que cada elemento tenga la misma probabilidad de pertenecer a la
muestra. Para ello la selección de cada elemento de la muestra se hace sobre la base de un
sorteo completamente aleatorio. Para facilitar la obtención de los resultados de ese sorteo
aleatorio existen lo que se conoce como tablas de números aleatorios y que, junto con otras
tablas, suelen aparecer en un apéndice al final de muchos libros de estadística. Cada vez más,
estas tablas de números aleatorios son sustituidas por la generación de números aleatorios
mediante programas de ordenador (Excel, SPSS,...). Para asociar el valor de esos números
aleatorios con los elementos de la población necesitamos que ésta esté numerada, en caso
contrario deberíamos formar una lista y numerarla. Esto último, en muchos casos, no es tan
sencillo. Una alternativa a la formación de una lista numerada para la selección mediante
números aleatorios de los elementos de la muestra es el método de las rutas aleatorias. Según
18
este método cada número aleatorio o grupo de números aleatorios describe el camino hasta el
elemento de la muestra. Veamos cómo se aplicaría este método con un sencillo ejemplo:
Se ha seleccionado el número aleatorio 11071032, las dos primeras cifras (11) indican el
distrito de la ciudad, las dos siguientes (07) la calle del distrito, las dos siguientes (10) el
número de la calle, la siguiente (3) la planta del edificio y la última (2) la letra B de dicha
planta.
En muchos casos para llevar a cabo este procedimiento se recurre a la guía telefónica,
sobretodo si la entrevista es por teléfono, así el número aleatorio 7836 podría interpretarse
como que se selecciona la página 78 de la guía y dentro de ésta al abonado del teléfono que
aparece en el lugar 36 de dicha página.
Otros tipos de muestreo que se utilizan con cierta frecuencia son:
Muestreo causal, usamos nuestro criterio para seleccionar aleatoriamente la muestra.
Muestreo por cuotas (o representativo), seleccionamos una muestra que consideramos
representativa de la población, respetando el tamaño relativo de los grupos que la
integran. Por ejemplo si en la población hay un 65% de mujeres y un 35% de hombres,
tomamos una muestra que respete esos tamaños.
Estos muestreos están sujetos al sesgo del investigador y conducen a estimadores cuyas
propiedades no pueden ser evaluadas estadísticamente (incurrimos en errores de no muestreo),
la forma adecuada de seleccionar una muestra aleatoria es mediante el uso de números
aleatorios.
EL NÚMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA TIENE
MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIÓN ALEATORIA.
2.2 Muestreo aleatorio simple en poblaciones infinitas.
Supongamos que la característica en estudio de la población está representada por la variable
Y (con media µ y varianza σ2), una muestra aleatoria simple de tamaño n estará representada
por n variables: Y1,..., Yn, independientes e idénticamente distribuidas (i.i.d.). (Observaciones
en poblaciones infinitas y también en poblaciones finitas si se hacen con reemplazamiento nos
conducen a variables i.i.d.)
2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación.
Como estimador de la media de la población, µ, se utiliza la media muestral, y .
19
y=
1 n
∑ yi
n i =1
Un valor aislado y del estimador revela poco acerca de la media poblacional, deberíamos
evaluar también su bondad.
Este estimador tiene propiedades deseables como ser insesgado y tener mínima varianza
( )
( )
E y =µ
V y =
σ2
n
Como estimador de la varianza de la población, σ 2 , se utiliza la cuasivarianza muestral, S 2 .
S2 =
(
1 n
∑ yi − y
n − 1 i =1
)
2
que también tiene la propiedad de ser insesgado
E (S2 ) = σ 2
de forma que la varianza de la media muestral se estima de forma insesgada por
V ( y) =
S2
n
Cuando las variables Y, Y1, ..., Yn son dicotómicas, sólo toman dos valores (0 y 1), su media µ
representa una proporción y se nota como p y el estimador de la misma, la proporción
muestral, por p
p=
1 n
∑ yi ,
n i =1
yi = 0, 1
Este estimador, como media muestral que es, tiene las mismas propiedades mencionadas
antes.
La varianza de la población es en este caso σ 2 = pq , donde q=1-p. Como antes, el estimador
insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a
S2 =
n
pqɵ
n −1
Si conocemos más características de las variables aleatorias Y, Y1,..., Yn, conoceremos más
propiedades de la media muestral, aparte de las mencionadas. Así,
si Y → N ( µ , σ 2 )
y−µ
σ
n
20
σ 2 conocida
→ N (0,1)
si Y → N ( µ , σ 2 )
σ 2 desconocida
y−µ
→ tn −1 ≈ N (0,1)
S
n
(en la práctica, para n > 30 )
si Y → cualquier distribución (por el Teorema Central del Límite) cuando n → ∞
y−µ
σ
≈
n
y−µ
→ N (0,1)
S
n
(en la práctica, para n>30)
un caso particular del anterior es cuando Y → B (1, p ) , donde µ = p
p− p
≈
pq
n
p− p
n pqɵ
n −1 n
=
p− p
→ N (0,1)
pqɵ
y= p
(en la práctica, para n>30)
n −1
Todo lo anterior puede resumirse diciendo que la media muestral (de variables numéricas, y ,
o dicotómicas, p ) sigue o se puede aproximar, si el tamaño de la muestra es suficientemente
grande, por una distribución normal. De forma que podemos conocer la probabilidad de que
dicha variable tome determinados valores, por ejemplo (tomando una de las anteriores
expresiones de la media muestral tipificada, siendo válido lo que sigue también para las otras)




y−µ
P  −1, 96 ≤
≤ 1, 96  = 0,95
σ




n
o en un caso más general




y−µ
P  − Zα ≤
≤ Zα  = 1 − α
σ
2
2




n
α=nivel de significación
1-α=nivel de confianza
Para un nivel de confianza del 95% (el más habitual) se suele redondear el anterior valor
1,96≈2
De las probabilidades anteriores se puede hacer dos lecturas. La primera:
σ
σ 
σ 


P  −2
≤ y−µ ≤2
 = 0, 95 ⇒ P  y − µ ≤ 2
 = 0, 95
n
n
n


21
En esta última expresión aparecen valores y expresiones fundamentales en las técnicas de
estimación:
1-α=0,95= nivel de confianza del 95%.
y − µ = error de estimación o diferencia entre la estimación que hacemos, y , y el verdadero
valor del parámetro que se quiere estimar, µ.
2
σ
n
= cota o límite para el error de estimación, es el máximo error de estimación que se
puede estar cometiendo, con una confianza del 95%. En la práctica se estima por 2
S
.
n
La segunda lectura:
σ
σ 

Py −2
≤ µ ≤ y+2
 = 0, 95
n
n

expresa la confianza que tenemos de que el verdadero valor del parámetro µ se encuentre
σ
σ 

entre los extremos del intervalo  y − 2
,y+2
.
n
n

Todo lo anterior se puede asegurar si el tamaño de la muestra es suficientemente grande,
n>30. Pero qué ocurre si no es así. En ese caso la desigualdad de Tchebychev nos da la
respuesta.
La desigualdad de Tchebychev dice que si X es una variable aleatoria con media E ( X ) = µ y
varianza V ( X ) = σ 2 , entonces
P  X − µ ≤ kσ  ≥ 1 −
1
k2
Aplicando lo anterior, en particular, a la media muestral para k=2 se obtiene
σ 
1

P y−µ ≤ 2
 ≥ 1 − 4 = 0, 75
n

resultado parecido al que obteníamos anteriormente
σ 

P y−µ ≤ 2
 = 0, 95
n

salvo que en este caso lo más que podemos asegurar es que la probabilidad de que
y−µ ≤2
22
σ
n
es mayor de 0,75.
2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
Cuando estimamos el valor de un parámetro poblacional con el valor que ha presentado en una
determinada muestra el estimador asociado, hacemos una estimación puntual.
Si dicha estimación puntual se acompaña de un margen de error (límite para el error de
estimación) y de una medida de la certidumbre que se tiene en tal estimación (nivel de
confianza), hablamos de intervalo de confianza. Por ejemplo, utilizando muestras grandes, el
intervalo de confianza para la media poblacional µ con un nivel de confianza del 95% es
S
S 

,y+2
 y−2

n
n

En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de
que el verdadero valor de un parámetro de la población sea un determinado valor, por
ejemplo, se quiere contrastar la hipótesis nula H 0 : µ = µ0 con un nivel de significación del
5%. Lo anterior equivale a comprobar si

µ0 ∈  y − 2

S
S 
,y+2

n
n
en cuyo caso se aceptaría la hipótesis nula, rechazándose en caso contrario.
2.2.3 Determinación del tamaño muestral.
En ocasiones se fija de antemano el máximo error de estimación que estamos dispuestos a
aceptar en una estimación, 2
σ
n
= B . La cantidad de información necesaria para conseguir lo
anterior depende del tamaño de la muestra según la siguiente expresión
4
σ2
n
= B2 ⇒ n =
σ2
B2
4
=
σ2
D
, D=
B2
4
El caso de la proporción es análogo al de la media, teniendo en cuenta que σ 2 = pq
n=
pq
,
D
D=
B2
4
Ejemplo 2.1. (ejercicio 13, relación tema 2) Un hipermercado desea estimar la proporción de
compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron
al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta.
23
b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la
proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una
muestra previa)
c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta, cuántas
compras deberíamos observar para asegurar que la anterior estimación se realiza con un
error inferior al 3%.
d) Este mismo hipermercado desea estimar también el valor medio de las compras
realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos se observa que
el valor total de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza
de los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error
de estimación asociado.
Solución:
a)
p=
1 n
35
= 0,175
yi =
∑
200
n i =1
qɵ = 1 − 0,175 = 0,825
n = 200
V ( p) =
pqɵ
= 0, 000726
n −1
p ∈ (12,11% , 22,89% )
B = 2 V ( p) = 0,0539
b)
B = 0, 03
B2
D=
= 0, 000225
4
n=
⌢
pq
= 641, 6 ≈ 642
D
c)
B = 0, 03
D=
B2
= 0, 000225
4
p = q = 0,5
n=
⌢
pq
= 1111,1 ≈ 1112
D
d)
n = 35
S 2 = 625
V ( y) =
S 2 625
=
= 17,8571
n
35
y=
1 n
5600
yi =
= 160€
∑
35
n i =1
B = 2 V ( y ) = 8, 45€
2.3 Muestreo aleatorio simple en poblaciones finitas.
Suponemos que la población es finita, tiene N elementos, y además que la muestra se
selecciona sin reemplazamiento (en caso contrario estaríamos ante el modelo del muestreo
aleatorio simple en poblaciones infinitas con variables i.i.d.)
24
2.3.1 Estimación de la media, proporción y total poblacionales.
(A) Estimación de la media poblacional.
Para estimar la media poblacional, µ, se utiliza la media muestral
1 n
∑ yi
n i =1
Este estimador es insesgado y su varianza decrece conforme crece el tamaño de la muestra
µ=y=
( )
E y =µ
( )
V y =
σ2  N −n


n  N −1 
En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la
varianza de la población
E (S2 ) =
N
σ2
N −1
 N −1 2 
E
S  =σ2
N


De lo anterior se sigue que la varianza de la media muestral puede ser estimada
insesgadamente por
2
 N −1 2  1  N − n  S  N − n 
V y =
S  
=



 N
 n  N −1  n  N 
( )

S2 
expresión igual a la del caso de poblaciones infinitas,  V ( y ) =
 , salvo el coeficiente
n 

 N −n

 que se denomina coeficiente corrector para poblaciones finitas (c.p.f.).
 N 
 N −n
En la práctica el coeficiente c.p.f. suele despreciarse si 
 ≥ 0, 95 o lo que es equivalente
 N 
si n ≤
1
N = 5% N . En muchos casos N no está claramente definido o se desconoce, pero si
20
 N −n
N se supone suficientemente grande el c.p.f. se omite, 
 ≅ 1.
 N 
Para calcular el límite para el error de estimación , con un 95% de confianza, se halla
2 V ( y ) . Igual que en el caso de poblaciones infinitas, se habla de un nivel de confianza del
95% cuando trabajamos con el coeficiente 1,96≈2. Pero en algunos casos, según la
desigualdad de Tchevychev, sólo se puede asegurar que este nivel es mayor de un 75%.
25
(B) Estimación del total poblacional.
Para estimar el total poblacional, τ, dado que µ =
τɵ = N y =
N
n
τ
N
⇒ τ = N µ utilizaremos el estimador
n
∑y
i =1
i
.
Para hallar su varianza, recordemos las propiedades de la varianza
V (kX ) = k 2V ( X )
V ( X + Y ) = V ( X ) + V (Y )
( X e Y incorreladas )
Varianza estimada de τɵ
S2 N − n
S2
V (τɵ ) = V ( N y ) = N 2 V ( y ) = N 2
= N ( N − n)
n N
n
Como en el caso de la media, el límite para el error de estimación con una confianza del 95%
está dado por 2 V (τɵ ) . Valiendo comentarios análogos a los hechos anteriormente.
En lo sucesivo se dará el valor de la varianza del estimador para los distintos tipos de
muestreo, omitiéndose, para no repetirnos más, la referencia al límite para el error de
estimación.
Ejemplo 2.2. (ejercicio 1, relación tema 2) Un auditor examina las cuentas abiertas con
diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se
examinan 300. La media muestral de las cuentas fue y = 1.040€ y la varianza muestral
(“cuasivarianza”) es S2=45.000€2. Estime el promedio de la deuda y el total de la deuda por
cobrar para las 1.000 cuentas abiertas con un intervalo de confianza al 95%.
Solución:
V ( y) =
S n2−1 N − n 45000 1000 − 300
=
= 105
n
N
300
1000
2 V ( y ) = 2 105 = 20, 49€
(1.040 ∓ 20, 49 ) = (1.019,51 , 1.060, 49 )
τɵ = N y = 1000 ×1040 = 1.040.000€
2 V (τɵ ) = N 2 V ( y ) = 1000 × 20, 49 = 20.490€ (valor exacto 20.493,9)
(1.040.000 ∓ 20.490 ) = (1.019.510 , 1.060.490 )
(C) Estimación de la proporción poblacional.
Para estimar la proporción poblacional p , dado que se trata de una media usaremos la media
muestral que tiene la siguiente notación en este caso
26
1 n
∑ yi ,
n i =1
p=
su varianza estimada, teniendo en cuenta que S 2 =
V ( p) =
yi = 0, 1
n pqɵ
, es igual a
n −1
S2 N − n
pqɵ N − n
=
n N
n −1 N
Para estimar el total poblacional de una variable dicotómica usamos
pqɵ
V (τɵ ) = V ( N p ) = N 2 V ( p ) = N ( N − n)
n −1
τɵ = N p
2 V (τɵ ) = N 2 V ( p)
Ejemplo 2.3. (ejercicio 2, relación tema 2) Se toma una muestra aleatoria simple de 100
estudiantes de un centro con 900 estudiantes para estimar
•
La proporción que votarán a un determinado representante de centro.
•
La proporción de ellos que tienen algún tipo de trabajo.
(i = 1,...,100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0 cuando
Sean yi , zi
responden NO, yi = 1 cuando responden SI, análogamente para zi ).
100
∑ yi = 70
Según la muestra
i =1
100
∑z
i =1
i
= 25
Usando los datos de la muestra, estime p1 (proporción de estudiantes que votarán a un
determinado representante) p2 (proporción y número de estudiantes con algún tipo de trabajo)
y los límites para los errores de estimación correspondientes.
Solución:
100
p1 =
V ( p1 ) =
∑y
i =1
i
100
100
= 0, 70 (70%)
p1 qɵ 1 N − n
= 0,0018855
n −1 N
2 V ( p1 ) = 0, 0868 (8, 68%)
τɵ 2 = N p 2 = 900 × 0, 25 = 225
p2 =
∑z
i =1
i
100
V ( p2 ) =
= 0, 25 (25%)
p 2 qɵ 2 N − n
= 0, 0016835
n −1 N
2 V ( p 2 ) = 0, 0821 (8, 21%)
2 V (τɵ 2 ) = 900 × 0, 0821 = 73,89
2.3.2 Determinación del tamaño muestral.
El número de observaciones necesarias para estimar µ con un límite para el error de
estimación de magnitud B se obtiene resolviendo 2 V ( y ) = B
27
( )
B2
2 V ( y) = B ⇔ V y =
=D
4
V ( y) =
σ2 N −n
n N −1
=D ⇒ n=
Nσ 2
( N − 1) D + σ 2
Para estimar el total poblacional con un límite para el error de estimación B, dado que
B2
2 V (τɵ ) = N 2 V ( y ) = B , se llega a la misma expresión de n pero con D =
4N 2
En la práctica la varianza poblacional σ 2 es desconocida. Si disponemos de S 2 de un estudio
anterior podemos obtener el valor de n sustituyendo en la anterior expresión σ 2 por S 2 ,
N −1 2 

2
S .
 aunque la estimación insesgada de σ es
N


Si no se dispone de información previa para estimar la varianza podemos usar que en variables
normales el rango de la muestra es aproximadamente cuatro veces su desviación típica
σ≅
R
4
⇔ σ2 ≅
R2
16
La proporción poblacional p es la media µ de una variable dicotómica ( B (1, p ) , E ( X ) = p ,
V ( X ) = pq ), luego el problema de determinar el tamaño muestral se hace de forma análoga
sustituyendo σ 2 por pq, obteniéndose
n=
Npq
( N − 1) D + pq
D=
B2
4
( proporcion)
D=
B2
4N 2
(total )
En la práctica p se desconoce. Una aproximación al mismo se obtiene reemplazándolo por el
valor estimado p obtenido en encuestas preliminares. Si no se cuenta con información
anterior, suponiendo p =
1
se obtiene un tamaño muestral conservador (mayor que el
2
requerido para obtener la cota del error de estimación prefijada).
Ejemplo 2.4. (ejercicio 3, relación tema 2) Encuentre el tamaño de muestra necesario para
estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de
10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero
se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400).
28
Solución:
B2
10.0002
D=
=
= 25
4 N 2 4 × 1.0002
4σ ≅ 800 ⇒ σ ≅ 200 ⇒ σ 2 ≅ 40.000
Nσ 2
n=
= 615, 62 ≈ 616
( N − 1) D + σ 2
Si se realizan dos preguntas (o más) a cada elemento de la muestra, se calcularán los tamaños
muestrales que satisfacen los límites para el error de estimación fijados para cada estimación y
finalmente el mayor de los dos será el tamaño de la muestra que satisface ambos límites.
Ejemplo 2.5. (ejercicio 4, relación tema 2) Los alumnos de TAM de una facultad con 3.000
estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que
están a favor de hacer los exámenes en sábado con un límite para el error de estimación del
10%. La información previa disponible indica que el 60% preferían los exámenes en sábado.
También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un
error de estimación del 5%. Determínese el tamaño muestral que se requiere para estimar
ambas proporciones con los límites de error especificados.
Solución:
p1 = proporción de estudiantes que prefieren los exámenes en sábado.
D1 =
n1 =
B12 (0,10)2
=
= 0, 0025
4
4
3.000 × 0, 60 × 0, 40
Np1q1
=
= 93, 05 ≈ 94
( N − 1) D1 + p1q1 (2.999 × 0, 0025) + (0, 60 × 0, 40)
p2 = proporción de estudiantes que apoyan al equipo decanal.
D2 =
n2 =
B22 (0, 05)2
=
= 0, 000625
4
4
Np2 q2
3.000 × 0,50 × 0, 50
=
= 353, 04 ≈ 354
( N − 1) D2 + p2 q2 (2.999 × 0, 000625) + (0,50 × 0, 50)
para cumplir con ambos objetivos habría que tomar n=354 con lo que el límite para el error de
la estimación de p1 disminuiría (con un 95% de confianza) hasta:
2 V ( p1 ) = 2
p1 qɵ 1 N − n
0, 60 × 0, 40 3.000 − 354
=2
= 0, 0489 (≅ 4,9%)
n −1 N
353
3.000
o bien la cota del error de estimación del 10% se tiene con un nivel de confianza mucho
mayor
29
Zα
2
V ( p1 ) = 0,10 ⇒ Zα 0, 02445 = 0,10 ⇒ Zα = 4, 09
2
2
buscando en la tabla de la normal (o con ayuda de la hoja de cálculo Excel, ...) la probabilidad
comprendida entre (-4,09 , 4,09) se obtiene 0,99995684, es decir, prácticamente del 100%.
EJERCICIOS RESUELTOS
1. (Ejercicio 19, relación tema 2) Se selecciona una m.a.s. de 9 compras de clientes de un
centro comercial para estimar el valor medio de las compras por cliente.
VALOR en €
33,5 32
52
43
40
41
45
42,5
39
a) Obtener un intervalo de confianza para el valor medio de las compras.
b) ¿Podemos aceptar que la compra media es de 45€?
c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€?
SOLUCIÓN:
a) µ = y =
S2 =
33, 5 + ... + 39
= 40,89 €
9
(
)
1
2
2
( 33,5 − 40,89 ) + ... + ( 39 − 40,89 ) = 35, 67
9 −1
( )
V y =
S2
= 3,963
n
( )
B = 2 V y = 3, 98 €
( 40,89 − 3,98 ; 40,89 + 3,98) = ( 36,91; 44,87 )
b) No, porque 45 ∉ ( 36,91; 44,87 )
σ2
S 2 35, 67
c) n = 2 ≅ 2 =
= 35, 67 ≈ 36 compras
B
B
1
4
4
2. (Ejercicio 17, relación tema 2) Se han entrevistado 1.000 vecinos, elegidos aleatoriamente
entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los
nuevos impuestos municipales. 655 manifestaron su opinión desfavorable. Estime la
proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite
para el error de estimación. ¿Se puede afirmar que la mayoría de los habitantes están en
contra?
30
SOLUCIÓN:
p=
V ( p) =
655
= 0, 655 ⇒
1.000
p = 65,5%
pqɵ 0, 655 × (1 − 0, 655)
=
= 0, 0002262012
n −1
999
2 V ( p) = 0, 0301 ⇒ 3, 01%
(65,5% − 3, 01% , 65, 5% + 3, 01%) = (62, 49% , 68, 51%)
p ∈ (62, 49% , 68,51%) ⇒
habitantes están en contra
p > 50% ⇒ sí se puede afirmar que la mayoría de los
3. (Ejercicio 18, relación tema 2) El Centro de Estadística desea estimar el salario medio de
los trabajadores de los invernaderos de una región. Se decide clasificarlos en dos estratos,
los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los
contratos fijos está comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los
contratos temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser
el tamaño muestral total y su asignación para que se estime el salario medio de los
contratos fijos con un error inferior a 100€ y el salario medio de los contratos temporales
con un error inferior a 120€?`
SOLUCIÓN:
Ri
2.200-1.200=1000
1.700-500=1.200
n1 =
n2 =
σ 12
D1
σ 22
D2
=
=
σ 12
2
1
B
4
σ 22
2
2
B
4
Ri
≈ σi
4
250
300
σ i2
62.500
90.000
=
62.500 62.500
=
= 25
10.000
100 2
4
4
=
90.000 90.000
=
= 25
14.400
120 2
4
4
n = n1 + n2 = 50
4. (Ejercicio 14, relación tema 2) Entre todas las oficinas bancarias de una pequeña ciudad se
tienen concedidos 2000 préstamos hipotecarios. Existen razones para pensar que el
préstamo hipotecario de menor cuantía es de algo más de 1200 euros, siendo de casi 11000
31
euros el de mayor cuantía. ¿cuál es el tamaño muestral necesario para estimar estos dos
parámetros:
-
la cuantía media de los prestamos cometiendo un error de estimación menor de 400
euros y
-
la proporción de préstamos pendientes de amortizar más de la mitad de la deuda
cometiendo un error máximo del 5%?
SOLUCIÓN:
N = 2.000
R = 11.000 − 1.200 = 9.800 ⇒ σ ≅
D=
n=
R
= 2450 σ 2 ≅ 6.002.500
4
B 2 4002
=
= 40.000
4
4
Nσ 2
= 139, 65 ≈ 140
( N − 1) D + σ 2
B 2 0.052
=
= 0, 000625
4
4
Npq
n=
= 333, 47 ≈ 334
( N − 1) D + pq
D=
p = q = 0,5
Para conseguir estimar los dos parámetros con los niveles de error especificados
necesitamos un tamaño muestral igual al máximo de 140 y 334. n = 334 .
5. (Ejercicio 15, relación tema 2) Se desea estimar el salario medio de los empleados de una
empresa y la proporción de empleados que apoyan a la actual directiva. La empresa tiene
110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros
mensuales. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota
de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual
directiva el error máximo cometido sea del 2%?
SOLUCIÓN:
N = 110 R = 1.800 − 1.500 = 300 ⇒ σ ≅
D=
R
= 75 σ 2 ≅ 5625
4
B 2 102
=
= 25
4
4
Nσ 2
n=
= 74,1 ≈ 75
( N − 1) D + σ 2
D=
32
B 2 0.022
=
= 0, 0001
4
4
p = q = 0,5
n=
Npq
= 105, 4 ≈ 106
( N − 1) D + pq
6. (Ejercicio 16, relación tema 2) Una empresa de trabajo temporal quiere investigar las
necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una
muestra de 5 de las 25 inscritas en el registro mercantil. El número de bajas en el último
año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los
servicios de la empresa de trabajo temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1
1
7
Si
2
2
15
No
3
9
85
Si
4
0
3
No
5
2
12
No
a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el
límite para el error de estimación.
b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite
para el error de estimación.
SOLUCIÓN:
a) N = 25
n=5
14
= 2,8 ⇒ τɵ = N y = 70
y=
5
S2
12, 7
= 25 × 20
= 1270
V (τɵ ) = N ( N − n)
n
5
B = 2 V (τɵ ) = 71, 2741
Nota: este apartado podrá resolverse de otra forma cuando estudiemos el muestreo por
conglomerados. Véase ejercicio 10 de la relación del capítulo 6)
b)
2
= 0, 4 ⇒ τɵ = N p = 10
5
pqɵ
0, 24
V (τɵ ) = N ( N − n)
= 25 × 20
= 30
n −1
4
B = 2 V (τɵ ) = 10,9545
p=
7. (Ejercicio 21, relación tema 2) El consumo medio de combustible de los taxis de una
ciudad es 5.6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado
elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se
33
toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo.
El consumo en litros de combustible por cada 100 Km. se recoge en la siguiente tabla
Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo
1
5.4
6
6.3
11
3.6
16
5.4
2
5.5
7
5.4
12
6.7
17
4.8
3
6.9
8
5
13
5.2
18
4.7
4
3.9
9
4.5
14
5.1
19
5.8
5
4.5
10
4.4
15
5.4
20
6.2
a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo
inferior a 5.6 litros/100 Km.
b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error
menor o igual que un 10%?
SOLUCIÓN:
a) 15 de los 20 taxis no superan el consumo de 5’6 litros/100 Km, por tanto
p=
15
= 0 '75
20
V ( p) =
pqɵ N − n 0 '75 × 0 ' 25 580
=
= 0 '00954
n −1 N
19
600
2 V ( p) = 0 '1953
( 0 '75 − 0 '1953 , 0 '75 + 0 '1953) = ( 0 '5547 , 0 '9453)
b) B = 0 '10
D=
( 0 '10 )
n=
4
( 55'47% , 94 '53% )
2
= 0 '0025
Npq
600 × 0 '75 × 0 '25
=
= 66 '77 ≈ 67
( N − 1) D + pq ( 599 × 0 '0025 ) + ( 0 '75 × 0 '25)
8. (ejercicio 1, práctica 2) Una muestra aleatoria simple de 6 deudas de clientes de una
farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas
abiertas. Los valores de la muestra para estas seis cuentas son los siguientes:
Dinero adeudado (€)
35,50
32,00
43,00
41,00
44,00
42,50
Estime el total del dinero adeudado y establezca un límite para el error de estimación.
34
SOLUCIÓN:
yi2
1260,25
1024,00
1849,00
1681,00
1936,00
1806,25
yi
35,50
32,00
43,00
41,00
44,00
42,50
n
∑y
i =1
i
n
∑y
= 238,00
i =1
τɵ = N y =
2
i
N
n
= 9556,50
n
∑y
i =1
i
=
⌢
100
238=3966,6
6
2
S2 =
(
1 n
∑ yi − y
n − 1 i =1
)
2
 n

 ∑ yi 
n
yi2 −  i =1 
∑
1
2382 
n
= i =1
=  9556,50 −
 = 23,1667
n −1
5
6 
2
S
23,1667
2 V (τɵ ) = 2 N ( N − n)
= 2 100(100 − 6)
= 381, 02
n
6
Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica
se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas
calculadoras nos proporcionan los valores de un grupo de funciones estadísticas
∑x
2
∑x
x
σ n = sx
σ n = sx = desviación típica
σ n − 1 = Sx
de forma inmediata.
σ n − 1 = S x = cuasidesviación típica
9. (Ejercicio 16, relación tema 2) En un estudio sociológico, realizado en una pequeña
ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde
habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 5000 hogares,
según la guía de teléfonos más reciente. Una muestra aleatoria simple de 300 hogares fue
seleccionada de la guía. Al terminar la investigación de campo, de los 300 hogares
muestreados, en 51 habita al menos una persona mayor de 65 años. Contraste la hipótesis
de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65
años.
35
SOLUCIÓN: N=5000, n=300
p=
51
pqɵ N − n
= 0,17 qɵ = 1 − p = 0,83 V ( p ) =
= 0, 00044359197 2 V ( p ) = 0, 0421
300
n −1 N
25% ∉ (17% ∓ 4, 21% ) = (12, 79%, 21, 21% )
luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al
menos una persona mayor de 65 años.
10. (Ejercicio 8, relación tema 2) El gerente de un taller de maquinaria desea estimar el
tiempo medio que necesita un operador para terminar una tarea sencilla. El taller tiene 45
operadores. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Los
resultados obtenidos son los siguientes:
Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3
¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del
taller para terminar dicha tarea es inferior a 6 minutos?
SOLUCIÓN: (con las funciones del modo SD de la calculadora )
N=45, n=5
y=
1 n
∑ yi = 5, 26
n i =1
S2 =
(
1 n
∑ yi − y
n − 1 i =1
)
2
= 2, 563
S2 N − n
= 0, 4556
2 V ( y ) = 1,35
INTERV . CONF .: ( 3, 91 min ., 6, 61 min .)
n N
Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no
V ( y) =
podemos aceptar esa hipótesis.
11. (Ejercicio 11, relación tema 2) Con objetivos benéficos, una asociación filantrópica ha
solicitado firmas para una petición en 700 hojas. Cada hoja tiene espacio suficiente para
40 firmas pero en muchas de las hojas se ha obtenido un número menor. Contando el
número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los
siguientes resultados:
50
50
∑ Y = 1.450; ∑ Y
i =1
i
i
i =1
2
= 54.496
¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas
recogidas para la petición?
SOLUCIÓN: N=700, n=50
2
y=
36
1 n
1450
yi =
= 29
∑
50
n i =1
 n

 ∑ yi 
n
yi2 −  i =1 
∑
n
S 2 = i =1
= 254
n −1
τɵ = N y = 20.300
2
S
V (τɵ ) = N ( N − n)
= 2.311.400
n
B = 2 V (τɵ ) = 3.040, 66
( 20.300 ∓ 3.040, 66 ) = (17.259,34 , 23.340, 66 )
Previsión más optimista: 23.340 ; previsión más pesimista: 17.259
37
3. Muestreo aleatorio estratificado.
3.1
3.2
3.3
3.4
Selección de una muestra aleatoria estratificada.
Estimación de la media, proporción y total poblacionales.
Determinación del tamaño muestral.
Asignación de la muestra.
3.4.1 Asignación óptima.
3.4.2 Asignación de Neyman.
3.4.3 Asignación proporcional.
3.5 Estratificación después de seleccionar la muestra.
3.1 Selección de una muestra aleatoria estratificada.
Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la
población en conjuntos que no presenten intersección, llamados estratos, y la selección
posterior de una muestra aleatoria simple en cada estrato.
Los estratos deben formarse de manera que los elementos de cada estrato sean lo más
homogéneos que se pueda entre sí (más homogéneos que el conjunto de la población) y las
diferencias entre un estrato y otro sean las mayores posibles. Esta forma de construir los
estratos conduce a muestras con poca variabilidad entre las mediciones que producirán
pequeñas varianzas de los estimadores y por tanto menores límites para los errores de
estimación que con otros diseños de la muestra.
Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes:
A veces los estratos se corresponden con zonas compactas bien definidas con lo que se
reduce el coste (en tiempo y/o dinero) de la muestra.
Además de las estimaciones para toda la población, este muestreo permite hacer
estimaciones de los parámetros poblacionales para los estratos.
Antes de continuar fijemos la notación que va a utilizarse (a la izquierda para la población, a
la derecha para la muestra):
L = número de estratos
N = tamaño de la población
n = tamaño de la muestra
N i = tamaño del estrato
ni = tamaño de la muestra del estrato i
L
L
N = ∑ Ni
n = ∑ ni
µi = media poblacional del estrato i
y i = media muestral del estrato i
i =1
τ i = total poblacional del estrato i
38
i =1
σ i2 = varianza poblacional del estrato i
Si2 = varianza muestral del estrato i
pi = proporción poblacional del estrato i
p i = proporción muestral del estrato i
ci = coste de una observación del estrato i
3.2 Estimación de la media, proporción y total poblacionales.
En cada estrato se ha realizado un muestreo aleatorio simple, sabemos que en cada estrato
L
N i y i es un estimador insesgado del total τ i , parece razonable estimar τ = ∑ τ i por
i =1
L
τ
i =1
N
τɵ st = ∑ N i y i y la media poblacional µ =
mediante y st =
1
N
L
∑N
i =1
i
yi
y st ≠ y en general ( y = media muestral de las n observaciones)
NOTA:
τɵ st ≠ τɵ en general ( τɵ = N y = estimador del total según un M.A.S.)
Varianza estimada de y st
1 L 2
1 L 2 Si2 N i − ni
N
V
(
y
)
=
Ni
∑ i i N2 ∑
N 2 i =1
ni N i
i =1
(se obtiene aplicando las propiedades de la varianza mencionadas en el capítulo 2)
V ( y st ) =
Varianza estimada de τɵ st
2
L
2
2 S i N i − ni
ɵ
V (τ st ) = N V ( y st ) = ∑ N i
ni N i
i =1
En el caso de variables dicotómicas los estimadores de la proporción y total poblacionales así
como sus varianzas toman valores similares a los anteriores salvo las diferencias de notación
vistas en el capítulo anterior.
Estimador de la proporción poblacional p
p st =
1
N
L
∑N
i =1
i
pi
Varianza estimada de p st
1 L 2
1 L 2 pi qɵ i N i − ni
V ( p st ) = 2 ∑ N i V ( pi ) = 2 ∑ N i
N i =1
N i =1
ni − 1 N i
Estimador del total poblacional τ
L
τɵ st = N p st = ∑ N i pi
i =1
39
Varianza estimada de τɵ st
L
p qɵ N − n
V (τɵ st ) = N 2 V ( p st ) = ∑ N i2 i i i i
ni − 1 N i
i =1
Ejemplo 3.1. (Ejercicio 1, práctica 3) Se está interesado en determinar la audiencia de la
publicidad televisiva en una cadena local de un municipio, se decide realizar una encuesta por
muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas
del municipio. Éste está formado por tres barrios con diferentes perfiles socio-culturales que
afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio B y 126 en el
barrio C. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30
hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A, 6 del barrio B,
y 9 del barrio C.
Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados,
con mediciones del tiempo que se ve la televisión en horas por semana, se muestran en la
siguiente tabla:
BARRIO A
36
34
26
39
38
32
38
37
29
28
41
35
29
37
41
BARRIO B
20
25
30
14
41
39
BARRIO C
14
22
15
17
21
11
20
14
24
Estime el tiempo medio que se ve la televisión, en horas por semana, para:
a) Los hogares del barrio A.
b) Los hogares del barrio B.
c) Los hogares del barrio C.
d) Todos los hogares
Para todos los casos fije un límite para el error de estimación.
Solución: en primer lugar se calculan las medias y varianzas muestrales en cada estrato
y1 = 34, 67 horas / semana
y 2 = 28,17 h / s
y 3 = 17, 56 h / s S12 = 23, 24 S 22 = 112,57 S32 = 19, 28
y = 28, 23
S 2 = 92, 74
A partir de estos valores calculamos las varianzas de los estimadores de la media en cada
estrato y los límites para los errores de dichas estimaciones
N1 = 210 N 2 = 84 N 3 = 126 N = N1 + N 2 + N 3 = 420
n1 = 15 n2 = 6 n3 = 9 n = n1 + n2 + n3 = 30
40
S12 N1 − n1
V ( y1 ) =
= 1, 44
n1 N1
S 22 N 2 − n2
V ( y2 ) =
= 17, 42
n2 N 2
S32 N 3 − n3
V ( y3 ) =
= 1, 99
n3 N 3
2 V ( y1 ) = 2, 40 h / s
2 V ( y 2 ) = 8,35 h / s
2 V ( y 3 ) = 2,82 h / s
Para el conjunto de todos los hogares el estimador de la media es
1 3
∑ Ni y i = 28, 23 h / s
N i =1
y la varianza de este estimador la podemos calcular basándonos en las varianzas de los
y st =
estimadores de la media en cada estrato mediante
V ( y st ) =
1
N2
3
∑N
i =1
2
i
V ( y i ) = 1, 24
o, si se prefiere, utilizando
1 3 2 Si2 N i − ni
∑ Ni n N
N 2 i =1
i
i
el error para la estimación de la media para todos los hogares está dado por
V ( y st ) =
2 V ( y st ) = 2, 22 h / s
Ejemplo 3.2. (Ejercicio 2, práctica 3) En el caso anterior, también se desea saber qué
proporción de hogares ven un determinado programa, para decidir la conveniencia de insertar
un anuncio en los intermedios del mismo. La respuesta a la pregunta de si ven dicho
programa por los hogares de la muestra anterior se recoge a continuación:
BARRIO A
BARRIO B BARRIO C
SI
NO
SI
SI
SI
NO
SI
SI
SI
SI
NO
SI
SI
NO
NO
NO
SI
SI
SI
NO
SI
NO
SI
NO NO
SI
NO
NO
SI
SI
Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el
programa.
Solución: en primer lugar se calculan las proporciones muestrales en cada estrato
p1 =
7
= 0, 4667
15
p2 =
5
= 0,8333
6
p3 =
6
= 0, 6667
9
La estimación puntual de la proporción de hogares del municipio donde se ve el programa es
1 3
∑ Ni pi = 0, 60
N i =1
la varianza y error de estimación asociados son
p st =
1 3 2 pi qɵ i N i − ni
∑ Ni n − 1 N = 0, 00748
N 2 i =1
i
i
y el intervalo de confianza expresado en porcentajes es
V ( p st ) =
2 V ( p st ) = 0,173
41
( 60% ∓ 17,3% ) = ( 42, 7%, 77,3% )
3.3 Determinación del tamaño muestral.
El tamaño muestral para conseguir un límite para el error de estimación de la media, B, viene
L
1
dado por 2 V ( y st ) = B donde V ( y st ) = 2
N
∑N
i =1
2
i
σ i2 N i − ni
ni N i − 1
.
No podemos despejar el valor de todos los ni de una sola ecuación a menos que conozcamos
la relación entre los ni y n . Hay diversas formas de asignar el tamaño muestral n en los
diferentes estratos ni = nωi (problema de la asignación de la muestra que estudiaremos más
adelante) , sustituyendo lo anterior en V ( y st ) se puede despejar n en función de los ωi
obteniendo el tamaño muestral aproximado que se requiere para estimar µ con un límite para
el error de estimación B (aproximado porque se hacen algunas modificaciones como
N i − 1 ≅ N i , ... para resolver la anterior ecuación).
L
∑
n=
i =1
N i2σ i2
ωi
L
N 2 D + ∑ N iσ i2
i =1
2
B
D=
4
B2
y la misma expresión vale para el total tomando D =
.
4N 2
Al igual que en el M.A.S. para poder usar la anterior ecuación necesitamos conocer las
varianzas poblacionales de los estratos o valores aproximados de ellas, para lo cual se pueden
usar las varianzas muestrales de un estudio previo o conocer la amplitud de variación de las
observaciones dentro de cada estrato.
En el caso de variables dicotómicas se obtiene una expresión similar, teniendo en cuenta que
en este caso particular σ i2 = pi qi
L
∑
n=
i =1
N i2 pi qi
ωi
L
N 2 D + ∑ N i pi qi
i =1
D=
42
B2
B2
(para estimar p) y la misma expresión vale para el total tomando D =
.
4
4N 2
3.4 Asignación de la muestra.
Hay diversas formas de asignar el tamaño muestral n en los distintos estratos.
El objetivo del diseño de una encuesta por muestreo es proporcionar estimadores con varianza
pequeña (por tanto, pequeño error de estimación) al menor coste posible.
El mejor esquema de asignación está influido por:
•
El número total de elementos en cada estrato.
•
La variabilidad de las observaciones en cada estrato.
•
El coste de obtener una observación en cada estrato.
3.4.1 Asignación óptima.
La asignación que minimiza el coste para un límite para el error de estimación fijado se
denomina asignación óptima y está dada por
N jσ j
cj
ωj =
L
∑
i =1
N iσ i
ci
sustituyendo los ω j en la expresión que obteníamos antes para n se tiene el tamaño total de la
muestra según la asignación óptima
L
L
∑ Ni σ i ci
∑
i =1
n=
i =1
Ni σ i
ci
L
N 2 D + ∑ N iσ i2
i =1
En el caso dicotómico las anteriores expresiones toman los valores
pjq j
cj
Nj
ωj =
L
∑N
i =1
i
L
∑N
n=
i =1
pi qi
ci
L
∑N
pi qi ci
i
i =1
i
pi qi
ci
L
N 2 D + ∑ N i pi qi
i =1
En algunas ocasiones interesa encontrar la asignación que minimiza el error de estimación
para un coste fijo de obtención de la muestra, en este caso la asignación óptima también es la
respuesta y la elección de n viene dada por
43
N iσ i
ci
L
C∑
n=
i =1
L
∑Nσ
i
i =1
ci
i
donde C representa el coste total de obtención de la muestra (véase ejemplo 3.3).
Análogamente para el caso dicotómico sustituyendo σ i =
pi qi .
3.4.2 Asignación de Neyman.
Cuando los costes de observación de cada estrato son los mismos, las expresiones de la
asignación óptima se simplifican y transforman en:
Caso numérico
N jσ j
ωj =
L
∑Nσ
i
i =1
i
2
(∑ N σ )
L
n=
i
i =1
i
L
N D + ∑ N iσ i2
2
i =1
Caso dicotómico
ωj =
N j pjqj
L
∑N
i =1
(∑ N
i
pi qi
2
L
n=
i =1
i
pi qi
)
L
N 2 D + ∑ N i pi qi
i =1
A este tipo de asignación se le denomina de Neyman, que como acabamos de decir coincide
con la asignación óptima cuando los costes de observación son iguales en todos los estratos.
Las expresiones de esta asignación son más simples que las de la óptima y se utiliza aún
cuando los costes de observación no son idénticos, a veces, sencillamente porque no se
conocen.
3.4.3 Asignación proporcional.
Si además de los costes coincide el valor de las varianzas en cada uno de los estratos las
expresiones de la asignación óptima se simplifican y reducen a
44
Caso numérico
Nj
ωj =
N
L
n=
∑N σ
i
i =1
ND +
1
N
2
i
L
∑Nσ
i
i =1
2
i
Caso dicotómico
Nj
ωj =
N
L
n=
∑N pq
i
i =1
ND +
1
N
i i
L
∑N pq
i =1
i
i i
La asignación proporcional puede y suele utilizarse cuando las varianzas y costes de
observación no son iguales para cada estrato, por la simplicidad de los cálculos y por las
ventajas que presenta frente a los anteriores tipos de asignaciones:
Cuando se utiliza la asignación proporcional el estimador y st coincide con la media muestral
de toda la muestra, y st = y (análogamente para p st y el total).
Cuando se toma más de una medición en cada unidad muestral para estimar más de un
parámetro poblacional aparecen complicaciones en la asignación y determinación del tamaño
muestral. En la práctica se usa la asignación proporcional cuando se observan varias variables
porque usualmente está cercana al óptimo y si se usa la asignación óptima obtendríamos
distintas asignaciones para cada variable que se mide. Con la asignación proporcional y
tomando como n el máximo de los valores encontrados para cada estimación, estaremos
utilizando estimadores, en muchos casos, con un límite para el error mucho más pequeño que
el establecido.
Aclarémoslo con un ejemplo. En la asignación óptima y en la de Neyman los ωi dependen de
las varianzas y pueden ser distintos de una variable a otra
1ª estimación: n = 100 ω1 = 0,10 ⇒ n1 = 10 ω2 = 0,90 ⇒ n2 = 90
2ª estimación: n = 40 ω1 = 0,50 ⇒ n1 = 20 ω2 = 0,50 ⇒ n2 = 20
45
Aún tomando el mayor de los tamaños muestrales (100) y pasando la encuesta a 10 individuos
del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimación
fijado para la segunda estimación que necesita al menos 20 individuos de cada estrato.
En la asignación proporcional no ocurre lo anterior pues los ω j =
Nj
N
son iguales para todas
las variables al no depender de sus varianzas, así si en dos estimaciones para los niveles de
error requeridos tenemos lo siguiente
1ª estimación: n = 100 ω1 = 0,30 ⇒ n1 = 30 ω2 = 0, 70 ⇒ n2 = 70
2ª estimación: n = 40 ω1 = 0,30 ⇒ n1 = 12 ω2 = 0, 70 ⇒ n2 = 28
tomando como n el máximo de los dos (o de los k si hay k variables que se observan), se
tiene garantizado que se cumple con los límites para el error fijados para todas las
estimaciones.
Ejemplo 3.3 (Ejercicio 1, práctica 3) Continuando con el ejemplo 3.1
a) ¿Qué tipo de asignación se ha utilizado?
Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un
barrio que en otro. Se estima que el coste de una observación del barrio A es de 1€, 9€
para el barrio B y 4€ para el barrio C.
b) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la
semana que se ve la televisión en los hogares del municipio con un error inferior a 1
hora. (Tómese los anteriores datos como una muestra previa para estimar los
parámetros necesarios).
c) Supóngase que se tiene sólo 600€ para gastar en el estudio, determine el tamaño de la
muestra y la asignación que minimizan el error de estimación. (Como en el apartado
anterior, tómese los datos de la tabla como una muestra previa para estimar las
varianzas de los estratos).
Solución:
a) Podemos comprobar que se cumple que
15 210
=
= 0, 5
30 420
ni N i
=
n N
∀i
6
84
=
= 0, 2
30 420
9 126
=
= 0, 3
30 420
luego la asignación utilizada ha sido la proporcional.
b) Según los datos anteriores estimaremos las varianzas de cada estrato por
2
σ 1 = S12 = 23, 24
46
2
σ 2 = S22 = 112,56
2
σ 3 = S32 = 19, 28
D=
Ni
σi
ci
N iσ i ci
210
84
126
420
4,8208
10,6094
4,3909
1
3
2
1012,368
2673,5688
1106,5068
4792,4436
N iσ i
ci
1012,368
297,0632
276,6267
1586,0579
N iσ i2
4880,4
9455,04
2429,28
16764,72
B2 1
= = 0, 25
4 4
3
∑N σ
n=
i =1
i
Ni σ i
ci
3
∑
ci
i
i =1
3
N 2 D + ∑ N iσ i2
=
4792, 4436 × 1586, 0579
= 124,89
( 4202 × 0, 25) + 16764, 72
i =1
N1σ 1
c
ω1 = 3 1 = 0, 6383
N iσ i
∑
ci
i =1
n1 = nω1 = 79, 71 ≈ 80
ω2 = 0,1873
n2 = nω2 = 23,39 ≈ 24
ω3 = 0,1744
n3 = nω3 = 21, 78 ≈ 22
n = 80 + 24 + 22 = 126
c) En el supuesto de que se disponga sólo de 600€ para realizar el estudio
N iσ i
ci
3
600∑
n=
i =1
3
∑Nσ
i =1
i
i
ci
=
600 × 1586, 0679
= 198,57
4792, 4436
y los tamaños de la muestra en cada estrato están dados por la asignación óptima
n1 = 0, 6383n = 126, 75 ≈ 126
n2 = 0,1873n = 37,19 ≈ 37
n = 126 + 37 + 34 = 197
n3 = 0,1744n = 34, 63 ≈ 34
o bien resolviendo la ecuación
c1n1 + c2 n2 + c3 n3 = 600
donde ni = ωi n
c1ω1n + c2ω2 n + c3ω3 n = 600
n=
600
600
=
= 198,57
c1ω1 + c2ω2 + c3ω3 3, 0216
A partir de n se obtienen los ni = ωi n según la asignación óptima.
47
Ejemplo 3.4 (Ejercicio 2, práctica 3) Continuando con el ejemplo 3.2
a) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un
error inferior al 5%. (Supóngase que se realiza la entrevista por teléfono y el coste de
las observaciones es el mismo para todos los casos al no ser necesarios los traslados.
Tómese los anteriores datos como una muestra previa para estimar los parámetros
necesarios)
b) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna
información previa sobre la proporción de hogares donde se ve el programa.
Solución: a)
Ni
pi
qi
N i pi qi
N i pi qi
210
84
126
420
0,4667
0,8333
0,6667
0,5333
0,1667
0,3333
52,2671
11,6685
27,9986
91,9342
104,7669
31,3075
59,3955
195,4699
B 2 0, 052
D=
=
= 0, 000625
4
4
(∑ N
2
3
n=
i =1
i
pi qi
)
3
N 2 D + ∑ N i pi qi
=
195, 46992
= 188,98
( 4202 × 0, 000625) + 91,9342
i =1
n1 = nω1 = n
N1 p1q1
= 188,98
3
∑N
i =1
i
análogamente n2 = 30, 27 ≈ 31
pi qi
104, 7669
= 101, 29 ≈ 102
195, 4699
n3 = 57, 42 ≈ 58
⇒ n = 102 + 31 + 58 = 191
b)
Ni
210
84
126
420
pi
0,5
0,5
0,5
qi
0,5
0,5
0,5
N i pi qi
52,5
21
31,5
105
L
n=
n1 = 204,878
∑N pq
i =1
1
ND +
N
i
i i
L
∑N pq
i =1
i
i i
=
105
105
( 420 × 0, 000625 ) +
420
210
= 102, 439 ≈ 103 análogamente n2 = 40,98 ≈ 41
420
n = 103 + 41 + 62 = 206
48
= 204,878
n3 = 61, 46 ≈ 62
El muestreo estratificado no siempre conduce a un estimador con menor error de
estimación, esto suele ocurrir cuando los estratos no incluyen datos homogéneos.
Esto es debido muchas veces a que predomina el deseo de obtener estimaciones en cada
estrato (por ejemplo, en un estudio regional también se quieren obtener estimaciones a nivel
provincial) frente al objetivo de minimizar los errores de los estimadores. Este problema
queda bien ilustrado con el siguiente ejemplo.
Ejemplo 3.5 (Ejercicio 1, relación tema 3) Un distribuidor de productos de limpieza desea
conocer el consumo por hogar durante un año de un determinado producto en una comarca
formada por cuatro municipios. Para estimar de paso también el consumo en cada municipio
decide usar muestreo estratificado tomando cada municipio como un estrato. Se sabe que el
20% de la población de la comarca vive en el municipio 1, el 30% en el municipio 2, el 25%
en el municipio 3 y el 25% restante en el municipio 4. El distribuidor tiene medios suficientes
para controlar y obtener datos sobre el consumo anual de 20 hogares.
Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste
del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual conduce
a
N1
= 20 × 0, 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 .
N
Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros).
n1 = n
Estrato 1
470
510
500
550
y1 = 507,5 S12 = 1091,67
Estrato 2
490
500
470
520
550
500
y 2 = 505 S22 = 750
Estrato 3
540
480
500
470
470
Estrato 4
450
560
460
440
580
y 3 = 492 S32 = 870 y 4 = 498 S42 = 4420
Estime el consumo anual medio por hogar y fije un límite para el error de estimación.
Solución:
y st =
1
N
N1
= 0, 20
N
4
4
i =1
i =1
∑ Ni y i = ∑
N2
= 0,30
N
N3
= 0, 25
N
N4
= 0, 25
N
Ni
y i = ( 0, 20 × 507, 5 ) + ( 0,30 × 505 ) + ( 0, 25 × 492 ) + ( 0, 25 × 498 ) = 500,5€
N
Obsérvese que cuando se utiliza la asignación proporcional y st = y , efectivamente
y=
1 20
10010
yi =
= 500,5€
∑
n i =1
20
49
En la siguiente expresión consideramos los c.p.f. en cada estrato iguales a la unidad
1
V ( y st ) = 2
N
2
4
2
 N i  Si2
Si2 N i − ni
N i2 Si2
N
=
=
=
∑
∑
∑


2
ni N i
ni
i =1
i =1 N
i =1  N  ni
4
2
i
1091, 67  



2 750 
2 870 
2 4420 
=  0, 202
 +  0, 30
 +  0, 25
 +  0, 25
 = 88, 29
4
6  
5  
5 

 
2 V ( y st ) = 18, 79 €
Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20
hogares, los mismos 20 de la tabla anterior, entonces el estimador de la media es
y=
1 20
∑ yi = 500, 5 €
n i =1
que coincide con el estimador del muestreo estratificado por las razones mencionadas
anteriormente, pero la varianza estimada y error de estimación asociados toman los valores
(se omite el c.p.f.):
S n2−1 = 1520, 79
V ( y) =
S n2−1 N − n 1520, 79
=
= 76, 04
n
N
20
2 V ( y ) = 17, 44 €
Se observa que el error de estimación es menor en el caso del muestreo aleatorio simple, esto
es debido a que el distribuidor no tuvo en cuenta que el consumo varía mucho dentro del
cuarto municipio. Pudo haber obtenido un error menor si hubiera estratificado en base al
tamaño de las familias u hogares, esto es, colocando los hogares pequeños en un estrato, los
medianos en otro, ...
3.5 Estratificación después de seleccionar la muestra.
A veces no se sabe a qué estrato pertenece un dato hasta que no se observa (p.e. estratos según
sexo y entrevista telefónica).
Supóngase una muestra aleatoria simple de n personas para una encuesta. La muestra puede
ser dividida en n1 masculinos y n2 femeninos después de que ha sido realizada. Entonces en
lugar de usar y para estimar µ , podemos usar y st siempre que
Ni
sea conocido para todo i.
N
Obsérvese que en esta situación los ni son aleatorios, ya que varían de una muestra a otra
aunque n sea fijo. Luego esto no es una muestra aleatoria estratificada en su pleno sentido,
50
pero si
Ni
es conocido y ni ≥ 20 ∀i , entonces este método de estratificar después de la
N
selección es casi tan exacto como el muestreo aleatorio estratificado con asignación
proporcional. Si
Ni
se desconoce o no se puede tener una buena aproximación de su valor,
N
este método no debe usarse.
Ejemplo 3.6 (Ejercicio 17, relación tema 3) En una ciudad se sabe que el 30% de los hogares
tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en
euros de la factura bimensual) se obtuvieron los siguientes resultados:
Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral
Eléctrica
60
5730
200
No eléctrica
40
2080
90
Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un
límite para el error de estimación.
Solución: Ya que la proporción observada de facturas de hogares con calefacción eléctrica
(0,60=60/100) está muy alejada de la proporción verdadera (0,30), es conveniente la
estratificación después de que se ha seleccionado la muestra aleatoria simple. Además el
procedimiento se justifica pues tanto n1 como n2 superan 20.
y1 =
y st =
1
N
5730
= 95,5€
60
2
2
i =1
i =1
∑ Ni y i = ∑
V ( y st ) =
1
N2
y2 =
2080
= 52€
40
Ni
y i = (0, 30 × 95,5) + (0, 70 × 52) = 65, 05€
N
2
∑ Ni2
i =1
2
Si2 N i − ni
N2 S2 N − n
= ∑ i2 i i i
ni N i
ni N i
i =1 N
omitiendo el coeficiente corrector por poblaciones finitas se tiene
2
V ( y st ) = ∑
i =1
2
2
2
2
 N i  Si2 

N i2 Si2
2 200 
2 90 
= ∑
=  0,30

 +  0, 70
 = 159, 225
60  
40 
N 2 ni
ni 
i =1  N 
2 V ( y st ) =25,24€
A veces este método de estimación se utiliza para ajustar por no respuesta. Por ejemplo, si
muchos de quienes no respondieron a una muestra aleatoria simple son varones, entonces la
proporción de varones en la muestra va a ser pequeña, y se podría conseguir un estimador
ajustado mediante la estratificación después del muestreo.
51
Así, en este ejemplo la baja representación en la muestra de facturas sin calefacción eléctrica y
la alta de facturas con calefacción eléctrica conducen a una sobreestimación del valor medio
de las facturas si se utiliza m.a.s. y no se ajusta la estimación de la media con la estraficación
después de seleccionar la muestra:
y=
5730 + 2080 7810
=
= 78,10€
60 + 40
100
EJERCICIOS RESUELTOS
1. (Ejercicio 10, relación tema 3) De una ciudad con 350 casas, se sabe que 164 de ellas
tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (en
kilovatios-hora) se obtuvieron los siguientes resultados:
Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral
Eléctrica
24
972
202,396
No eléctrica
36
463
96,721
a. Obtenga una estimación del número medio de kilovatios-hora utilizado en la
ciudad. Dé un límite para el error de estimación.
b. Obtenga una estimación del número medio de kilovatios-hora utilizado por las
casas que no tienen calefacción eléctrica. Dé un límite para el error de
estimación.
SOLUCIÓN:
a.
Ni
164
186
350
ni
24
36
Si2
yi
972
463
202,396
96,721
y st =
V ( y st ) =
Ni y i
1
N2
1
N
L
L
∑N y
i
i =1
∑ Ni2
i =1
159.408
86.118
245.526
i
=
0,854
0,806
245.526
= 701, 50
350
Si2 N i − ni 268.624, 45
=
= 2,19
ni N i
3502
2 2,19 = 2,96
52
N i − ni
Ni
Si2 N i − ni
N
ni N i
193.699,13
74.925,32
268.624,45
2
i
b.
y 2 = 463
V ( y2 ) =
S 22 N 2 − n2 96, 721 186 − 36
=
= 2,17
n2 N 2
36
186
2 2,17 = 2, 94
2. (Ejercicio 11, relación tema 3) Un analista de la opinión pública tiene un presupuesto de
20.000 euros para realizar una encuesta sobre el número medio de coches por hogar. Se
sabe que de los 10.000 hogares de la ciudad, 9.000 tienen teléfono. Las entrevistas por
teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros
por hogar visitado. Suponga que las varianzas en los estratos con y sin teléfono son
iguales. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares
deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico
son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente?
SOLUCIÓN:
L
C∑
n=
i =1
N iσ i
ci
L
∑Nσ
i =1
i
i
Ni
9.000
1.000
10.000
ci
L
C∑
=
i =1
N iσ
ci
L
Cσ ∑
=
L
∑Nσ
i =1
ci
10
30
i
ci
i =1
L
L
Ni
ci
σ ∑ N i ci
i =1
Ni
ci
C∑
=
i =1
L
∑N
i =1
i
ci
=
20.000 × 3.028, 624
= 1784,81
33.937, 726
ωi
Ni
ci
N i ci
2.846,05
182,574
28.460,5 2.846,05/3.028,624=0,9397
5.477,226 182,574/3.028,624=0,0603
3.028,624
33.937,726
1,0000
n1 = nω1 = 1.784,81× 0,9397 = 1677, 2 ≈ 1677
n2 = nω2 = 1.784,81× 0, 0603 = 107, 59 ≈ 107
n = n1 + n2 = 1784
O bien
c1n1 + c2 n2 = 20.000
c1ω1n + c2ω2 n = 20.000
9, 397 n + 1,809n = 11, 206n = 20.000
20.000
= 1.784,8 = n
11, 206
Y a partir de n se obtienen n1 y n2 como antes.
53
3. (Ejercicio 12, relación tema 3) Se desea conocer el número de fines de semana que las
familias de una gran ciudad salen fuera de ella. Se sabe que el 42’5% de las familias tienen
de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un
muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana
que pasan fuera, obteniéndose los siguientes datos:
Número de hijos ni
n
∑ yi
S i2
i =1
0-2
25 239 60’76
3-5
19 174 63’01
Mas de 5
16 78
78’24
Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y
dar el límite de error de estimación. Omitir el corrector por población finita.
SOLUCIÓN:
y1 =
y st =
Si
1
N
239
= 9,56
25
L
L
i =1
i =1
∑ Ni y i = ∑
y2 =
174
= 9,16
19
y3 =
78
= 4,87
16
Ni
y i = ( 0, 425 × 9, 56 ) + ( 0, 30 × 9,16 ) + ( 0, 275 × 4,87 ) = 8,15
N
N i − ni
1
= 1 ⇒ V ( y st ) = 2
Ni
N
L
∑ Ni2
i =1
Si2 N i − ni
1
= 2
ni N i
N
L
∑ Ni2
i =1
L
L
Si2
N 2 S2
= ∑ i2 i = ∑
ni i =1 N ni i =1
2
2
 N i  Si
=
 
 N  ni
60, 77  

2 63, 01  
2 78, 24 
=  0, 4252
 +  0,30
 +  0, 275
 = 1,107
25  
19  
16 

2 1,107 = 2,1
4. (Ejercicio 6, relación tema 3) Una compañía de autobuses está planeando una nueva ruta
para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada
barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1
(totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. Los
resultados se resumen en la tabla adjunta:
Barrio
1
2
3
4
N i 240 190 350 220
ni
25 25 25 25
y i 3,5 3,6 3,9 3,8
S i 0,8 0,9 1,2 0,7
a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del
nuevo servicio.
b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos
pertenecerían al barrio 3. (Suponga iguales los costes de observación)
54
SOLUCIÓN:
a)
L
N = ∑ N i = 1000
y st =
i =1
1
N
L
∑ Ni y i =3, 725
i =1
B = 2 V ( y st ) = 0,1973
b)
n3 = nω3 = 100
N 3σ 3
= 100
4
∑Nσ
i =1
i
V ( y st ) =
1
N2
L
∑ Ni2
i =1
Si2 N i − ni
= 0, 00973
ni N i
µ ∈ ( 3,5277 , 3,9223)
350 × 1, 2
=
(240 × 0,8) + (190 × 0,9) + (350 × 1, 2) + (220 × 0, 7)
i
= 100 × 0, 4482 = 44,82 ≈ 45
5. (Ejercicio 20, relación tema 3) Una empresa especializada en seguros está pensando en
ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Para
ajustar sus tarifas desea estimar el gasto en pequeñas reparaciones de mantenimiento
(objeto del seguro) de dichas empresas. Se clasifican las empresas en función de su
tamaño. El número de empresas de cada tipo, el coste de obtención de esta información en
cada empresa así como los valores mínimos, medios y máximos de un estudio similar
hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados
en euros)
Tipo de
Número de
Costes de
Gastos de reparación
empresa
empresas
observación
Mínimo
Media
Máximo
A
100
16
400
500
600
B
500
9
240
300
360
C
700
4
70
100
130
Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas
empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de
estimación asociado?
SOLUCIÓN:
La asignación que minimiza la cota del error de estimación para un coste fijo es la
asignación óptima.
Usamos que R≈4σ y por tanto estimamos que σ ≈
Ni
ci
100 16
500 9
700 4
600 = 16n1 + 9n2 + 4n3
ci
4
3
2
( ni = ωin )
Ri
σi
R
.
4
N iσ i
ci
ωi
600-400 50
360-240 30
130-70 15
1250 0’1087
5000 0’4348
5250 0’4565
11500
1
600 = 1’7392n + 3’9132n + 1’826n = 7’4784n
55
n = 600/7’4784 = 80’231
n1 = ω1n = 8’72 ≈ 8
n2 = ω2n = 34’88 ≈ 34 n3 = ω3n = 36’63 ≈ 36
C = (16×8) + (9×34) + (4×36) = 578 < 600
pero
C’ = (16×9) + (9×35) + (4×37) = 607 > 600
6. (Ejercicio 13, relación tema 3) En una población compuesta por aproximadamente igual
número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante
en ocio. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de
500 números de teléfono del citado municipio. Después de obtenidos los datos se observa
que sólo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide
llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los
siguientes datos
Ni
HOMBRES
2.500
MUJERES
2.700
ni
100
400
yi
120
250
9.000
16.000
Si2
Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante
muestreo aleatorio estratificado después de seleccionar la muestra.
SOLUCIÓN:
Ni
ni
2.500
2.700
5.200
100
400
500
Si2
yi
120
250
Ni y i
9.000
16.000
y st =
1
V ( y st ) = 2
N
1
N
300.000
675.000
975.000
L
∑N y
i =1
i
i
=
N i − ni
Ni
0,96
0,85185
N i2
Si2 N i − ni
ni N i
540.000.000
248.399.460
788.399.460
975.000
= 187, 5
5.200
Si2 N i − ni 788.399.460
N
=
= 29,16
∑
ni N i
5.2002
i =1
L
2
i
2 29,16 = 10,8
7. (Ejercicio 14, relación tema 3) En una población compuesta por aproximadamente igual
número de hombres que de mujeres se desea estimar la proporción de individuos que ven
un determinado programa de televisión. Se lleva a cabo la encuesta por teléfono mediante
56
una muestra aleatoria simple de 300 números de teléfono. Después de obtenidos los datos
se observa que sólo 50 de los encuestados fueron hombres y el resto mujeres. Por ello se
decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los
siguientes datos
HOMBRES
MUJERES
Encuestados
50
250
Ven el programa
12
130
Estime la proporción de la población que ven el programa de televisión y su cota de error,
mediante muestreo aleatorio estratificado después de seleccionar la muestra.
SOLUCIÓN:
12
= 0, 24
50
p1 =
p st =
1
N
L
∑N
i =1
L
i
pi = ∑
i =1
p2 =
130
= 0,52 qɵ i = 1 − p i
250
Ni
p i = ( 0, 50 × 0, 24 ) + ( 0,50 × 0,52 ) = 0,38 ⇒ p st = 38%
N
N i − ni
=1 ⇒
Ni
L
L
p qɵ N − n
p qɵ
1 L
1 L
N 2 p qɵ
V ( p st ) = 2 ∑ N i2 i i i i = 2 ∑ N i2 i i = ∑ i2 i i = ∑
N i =1
ni − 1 N i
N i =1
ni − 1 i =1 N ni − 1 i =1
Si
2
 N i  p i qɵ i
=
 
 N  ni − 1
0, 24 × 0, 76  

2 0,52 × 0, 48 
=  0,502
 +  0,50
 = 0, 0011812146
49
249

 

2 V ( p st ) = 0, 0687 ⇒ 6,87%
8. (Ejercicio 15, relación tema 3) Una corporación desea estimar el número total de horas
perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los
obreros, técnicos y administrativos tienen diferentes tasas de accidentes, la corporación
decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de años
previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas
perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaños de
los estratos. No habiendo diferencia entre los costes de observación de cada grupo,
determine la mejor asignación para una muestra de 40 empleados.
Obreros
Técnicos
Administrativos
Si2
36
25
9
Ni
132
92
27
57
SOLUCIÓN:
Ni
132
σ i ≈ Si
6
N iσ i
792
ωi
792
1.333
= 0,5941
= 0,3451
1.333
81
= 0, 0608
27
3
81
1.333
1.333
1
Donde se ha aplicado la asignación de Neyman al ser los costes de observación iguales:
92
ωj =
5
N jσ j
n1 = 40 × 0,5941 = 23,8 ≈ 24
n2 = 40 × 0, 3451 = 13,8 ≈ 14
L
∑Nσ
i
i =1
460
460
i
n3 = 40 × 0, 0608 = 2, 4 ≈ 2
n = 40
9. (Ejercicio 16, relación tema 3) Se dispone de la siguiente información sobre tamaños
poblacionales de los estratos, costes de observación y estimaciones de las proporciones
Tamaño del estrato Coste de observación Proporciones en %
ESTRATO 1
5000
9
90
ESTRATO 2
2000
25
55
ESTRATO 3
3000
16
70
Determine la mejor asignación para una muestra de 200 observaciones.
SOLUCIÓN:
Ni
ci
qɵ i
pi
p i qɵ i
ωi
N i p i qɵ i
ci
5.000
3
0,90
0,10
0,3
500
2.000
5
0,55
0,45
0,4975
199
3.000
4
0,70
0,30
0,45826
343,695
1.042,695
500
1.042, 695
= 0, 4795
= 0,1909
1.042, 695
343, 695
= 0,3296
1.042, 695
1
199
Donde se ha aplicado la asignación óptima:
Nj
ωj =
L
∑N
i =1
i
p jq j
n1 = 200 × 0, 4795 = 95,9 ≈ 96
cj
n2 = 200 × 0,1909 = 38, 2 ≈ 38
pi qi
ci
n3 = 200 × 0,3296 = 65,9 ≈ 66
n = 200
10. (Ejercicio 19, relación tema 3) La producción de piezas de una factoría se realiza en dos
máquinas. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B.
Se les pasó control de calidad a 200 piezas; 67 producidas por la máquina A y dos de ellas
resultaron defectuosas; las 133 restantes procedían de la máquina B, siendo 6 de ellas
defectuosas. Estimar la proporción de piezas defectuosas de la factoría y dar el límite de
error de estimación. Omita el coeficiente corrector por población finita.
58
SOLUCIÓN:
p=
Estrato
Ni
ni
pi
A
B
0.40 × N
0.60 × N
N
67
133
200
2/67=0.030
6/133=0.045
p i qɵ i
ni − 1
0.000441
0.000326
1
( ( 0.40 × N × 0.030 ) + ( 0.60 × N × 0.045) ) = ( ( 0.40 × 0.030 ) + ( 0.60 × 0.045) ) = 0.039
N
( )
(
( 3.9% )
)
1
0.402 × N 2 × 0.000441) + ( 0.602 × N 2 × 0.000326 ) =
2 (
N
= ( 0.402 × 0.000441) + ( 0.602 × 0.000326 ) = 0.000188
V p =
(
)
B = 2 0.000188 = 0.0274
( 2.74% )
11. (Como ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la
proporción de circuitos integrados de ordenador defectuosos que provienen de dos
diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van
a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación
de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20
provienen de la operación A y 80 de la operación B. De entre los circuitos integrados
muestreados de la operación A, 3 son defectuosos. De entre las piezas muestreadas de la
operación B, 13 son defectuosas. Estime la proporción de los defectuosos en la población,
y fije un límite para el error de estimación.
SOLUCIÓN
Ni
3  
13 

p i =  0, 60  +  0, 40  = 0,155 (15,5% )
20  
80 

i =1
i =1 N
2
L
L
 N i  p i qɵ i
1 L 2 p i qɵ i N i − ni
N i2 p i qɵ i
V ( p st ) = 2 ∑ N i
=∑ 2
=∑ 
=

N i =1
ni − 1 N i
i =1 N ni − 1
i =1  N  ni − 1
p st =
1
N
L
L
∑ Ni pi = ∑
= ( 0, 60 )
2
0,15 × 0,85
2 0,1625 × 0,8375
+ ( 0, 40 )
= 0, 00267
19
79
2 V ( p st ) = 0,103
(10, 3% )
12. (Ejercicio 18, relación tema 3) Para la comercialización de un producto se le clasifica,
atendiendo al calibre, en tres categorías: pequeña, mediana y grande. Un establecimiento
dispone de 300 piezas pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso
total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas
de todas las categorías, resultando
59
Categoría Nº de piezas Peso en gramos
Pequeña 5
12, 14, 12, 15, 12
Mediana 6
16, 22, 24, 20, 20, 18
Grande
4
30, 33, 31, 34
Considerando los anteriores datos como una muestra previa, obtenga el número de
unidades que cada categoría debe aportar a la muestra para que el error en la estimación
del peso total no supere el medio kilo.
SOLUCIÓN:
Peso en gramos
(con las funciones del modo SD de la calculadora )
12, 14, 12, 15, 12
S1 = 1, 4142
S12 = 2
16, 22, 24, 20, 20, 18 S 2 = 2,8284
S 22 = 8
S3 = 1,8257
30, 33, 31, 34
Ni
σi
σ
2
i
S32 = 3, 3333
N iσ i
N iσ
ωj =
2
i
N jσ j
∑Nσ
i =1
300
500
200
1,4142
2,8284
1,8257
2
8
3,3333
N = 1000
424,26
1414,2
365,14
600
4000
666,66
2203,6
5266,66
1
n=
i
13, 79 ≈ 14
45,99 ≈ 46
11,87 ≈ 12
n = 72
2
(∑ N σ )
i =1
i
0,1925
0,6418
0,1657
L
B2
250.000
=
= 0, 0625
D=
2
4N
4.000.000
ni = 71, 66ωi
L
i
i
= 71, 66
L
N D + ∑ N iσ
2
i =1
2
i
13. (Ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la
proporción de circuitos integrados de ordenador defectuosos que provienen de dos
diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van
a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación
de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20
provienen de la operación A y 80 de la operación B. De entre los circuitos integrados
muestreados de la operación A, 2 son defectuosos. De entre las piezas muestreadas de la
operación B, 16 son defectuosas.
a. Considerando únicamente la muestra aleatoria simple de 100 circuitos
integrados, estime la proporción de los defectuosos en el lote, y establezca un
límite para el error de estimación.
60
b. Estratifique la muestra, después de la selección, en circuitos integrados
provenientes de la operación A y B, estime la proporción de los defectuosos en
la población, y fije un límite para el error de estimación.
c. ¿Qué respuesta encuentra más aceptable? ¿Por qué?
SOLUCIÓN:
a. p =
18
pqɵ
= 0,18 (18%) V ( p ) =
= 0, 001491 2 V ( p ) = 0, 0772
100
n −1
b. p st =
1
N
L
L
i =1
i =1
∑ Ni pi = ∑
1
V ( p st ) = 2
N
Ni
2  
16 

p i =  0, 60  +  0, 40  = 0,14
N
20  
80 

L
L
p i qɵ i N i − ni
N i2 p i qɵ i
N
=∑ 2
=∑
∑
ni − 1 N i
i =1
i =1 N ni − 1
i =1
= ( 0, 60 )
L
2
i
2
( 7, 72% )
(14% )
2
 N i  p i qɵ i
=


 N  ni − 1
0,10 × 0,90
2 0, 20 × 0,80
+ ( 0, 40 )
= 0, 00203
19
79
2 V ( p st ) = 0, 0901
( 9, 01% )
c. Aunque en el conjunto de la población hay más elementos que proceden de A (60%)
que de B (40%), la muestra global no representa adecuadamente este hecho,
predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el
apartado a. la estimación esté sesgada hacia el valor de B ( p 2 = 0, 20 ) frente al de A
( p1 = 0,10 ). En el apartado b.
este hecho se corrige dando a p1 y p 2 las
ponderaciones 0,60 y 0,40 respectivamente para estimar p.
14. (Ejercicio 4, relación tema 3) Una cadena de restaurantes tiene 100 establecimientos en
Madrid, 70 en Barcelona y 30 en Sevilla. La dirección está considerando añadir un nuevo
producto en el menú. Para contrastar la posible demanda de este producto, lo introdujo en
el menú de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de
Sevilla. Usando los índice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla,
respectivamente, las medias y las desviaciones típicas muestrales del número de pedidos
de este producto recibidos por restaurante en las tres ciudades durante una semana fueron:
y1 = 21, 2
S1 = 12
y2 = 13, 3
S 2 = 11
y3 = 26,1
S3 = 9
a. Estimar el número medio de pedidos semanales por restaurante para los
restaurantes de la cadena. Dar un límite del error de estimación.
61
b. Determinar el tamaño muestral y la asignación para repetir el estudio anterior
cometiendo un error inferior a 3 pedidos.
SOLUCIÓN:
a. y st =
V ( y st ) =
1
N
L
∑N y
i
i =1
1
N2
i
L
∑N
i =1
2
i
=
3834
= 19,17 pedidos / semana
200
Si2 N i − ni
= 6, 2965
ni N i
2 V ( y st ) = 5, 02 pedidos / semana
b.
Ni
σi
σ
2
i
N iσ i
N iσ
ωj =
2
i
N jσ j
∑Nσ
i =1
100
70
30
12
11
9
144
121
81
N = 200
1200
770
270
14400
8470
2430
2240
25300
n=
1
i
i
= 43,52
L
N D + ∑ N iσ
2
i =1
62
i
2
(∑ N σ )
i =1
i
0,5357
0,3438
0,1205
L
B2 9
D=
= = 2, 25
4 4
ni = 43, 52ωi
L
2
i
23, 31 ≈ 24
14,96 ≈ 15
5, 24 ≈ 6
n = 45
4. Muestreo con información auxiliar.
4.1 Introducción.
4.2 Estimación de razón.
4.2.1 Estimación de la media y total poblacionales.
4.2.2 Determinación del tamaño muestral.
4.3 Estimación de regresión.
4.3.1 Estimación de la media y total poblacionales.
4.3.2 Determinación del tamaño muestral.
4.4 Estimación de diferencia.
4.4.1 Estimación de la media y total poblacionales.
4.4.2 Determinación del tamaño muestral.
4.1 Introducción.
Si entre dos variables existe una fuerte relación es posible utilizar la información auxiliar que
de una de las variables se tenga, como puede ser la media o el total poblacional, para estimar
la media o el total de la otra variable. Esta circunstancia es importante cuando se pretende
estimar el total sin conocer el número de elementos de la población y sí el valor total de la
variable que proporciona la información auxiliar
Denotemos por
Y → Variable bajo estudio
X → Variable que proporciona la información auxiliar
Y supongamos que tenemos una muestra constituida por n pares:
(x1 , y1 ),..., ( x n , y n )
A través de los datos muestrales se puede estimar la relación existente entre ambas variables.
Distintos diseños de muestreo pueden utilizarse con la estimación con información auxiliar.
Aquí suponemos que el muestreo que se emplea es el aleatorio simple
Ejemplo 4.1. Ya que existe una fuerte relación entre renta y ahorro, se puede estimar el valor
total de los ahorros de los empleados de una empresa si se conoce el valor total de las rentas
de dichos empleados. Por ejemplo, si se estima que, por termino medio, el 10% de la renta se
dedica al ahorro y si se conoce la renta total, el ahorro total se estima igual a la décima parte
del total de la renta. Observemos que esto se puede llevar a cabo sin necesidad de conocer el
número de empleados de la empresa.
Dependiendo de la relación entre las variables X e Y utilizaremos:
•
Estimadores de razón ( y = bx )
63
•
Estimadores de regresión ( y = a + bx )
•
Estimadores de diferencia ( y = a + x )
Cualquiera de estos estimadores sólo se debe utilizar si entre las dos variables existe una
fuerte relación lineal positiva ( rxy >
1
).
2
4.2 Estimación de razón
Dada una población de tamaño N en la que se consideran las variables X e Y , se define la
razón como el cociente:
R=
τy
τx
Es decir, la proporción del total de Y respecto del total de X . Puesto que τ y = Nµ y y
τ x = Nµ x , obtenemos
R=
µY
µX
De estas definiciones se deduce que
τ y = Rτ x
µ y = Rµ x
Por tanto, si se conocen los valores de la media y el total de la variable X , entonces para
estimar la media y el total de Y sólo hay que estimar el valor de R (que notaremos como
R = r ):
τˆy = rτ x
µˆ y = r µ x
Puesto que la razón R es el cociente entre las medias poblacionales, tomando una muestra
aleatoria simple: ( y1 , x1 ),..., ( y n , x n ) , podemos estimar R tomando el cociente entre las
medias muestrales:
•
•
64
ESTIMADOR DE LA RAZÓN:
VARIANZA ESTIMADA DE r :
1 n
yi
y n∑
i =1
r= =
=
x 1 n
∑ xi
n i =1
n
∑y
i =1
n
i
∑x
i =1
i
1 S2  N − n 
1 n
2
Vˆ (r ) = 2 r 
,
( yi − rxi )2
S
=
∑
r

µx n  N 
n − 1 i =1
4.2.1 Estimación de la media y el total poblacionales
Hemos de suponer que entre X e Y existe una alta correlación lineal positiva y que el
modelo lineal, donde X es la variable explicativa e Y la explicada, pasa por el origen,
( y = bx,
en este contexto se nota b = r dado su significado )
ESTIMADOR DE LA MEDIA:
µˆ y = rµ x
•
VARIANZA ESTIMADA DE µ̂ y :
S r2  N − n 
2 ˆ
ˆ
V (µˆ y ) = µ x V (r ) =


n  N 
•
ESTIMADOR DEL TOTAL:
τˆ y = rτ x
•
Observemos que no es necesario conocer el tamaño de la población N.
•
VARIANZA ESTIMADA DE τˆ y :
τ x2 S r2  N − n 
2 ˆ
ˆ
ˆ
V (τ y ) = τ x V (r ) = 2


µx n  N 
Comentarios sobre el uso de estos estimadores:
•
Cuando N es desconocido y si estimamos que n ≤ 5% N (el tamaño poblacional es
más de 20 veces el tamaño de la muestra), es decir que
N −n
≥ 0,95 , entonces
N
N −n
≅ 1 . (Véase ejercicio resuelto 4)
N
•
De la relación µ x =
τx
N
, conociendo dos de esos elementos se puede calcular el
tercero.
•
A la hora de obtener Vˆ (τˆ y ) , si µ x es desconocida y no podemos utilizar la relación
anterior entonces µ x ≅ x . Sin embargo, para estimar µ̂ y necesitamos conocer el
verdadero valor de µ x .
•
Son estimadores sesgados.
•
A la hora de estimar el total, aún conociendo el tamaño de la población, cuando existe
una fuerte correlación entre las variables se comporta mejor el muestreo con
información auxiliar (τˆ y = rτ x ) que el m.a.s (τˆ = Ny ) .
Ejemplo 4.2 (Ejercicio 2, relación tema 4, apartado (a))
Mediante una tasación previa se desea estimar la producción media y la producción total de
los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de
65
3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les
preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron:
Superficie Producción
3,7
12
4,3
14
4,1
11
5
15
5,5
16
3,8
12
8
24
5,1
15
5,7
18
6
20
3
8
7
20
5,4
16
4,4
14
5,5
18
5
15
5,9
18
5,6
17
5
15
7,2
22
Estime la producción media y total mediante los estimadores de razón y m.a.s., calcule sus
respectivos límites para el error de estimación y compárelos.
Solución
Y = " producción (toneladas, tm)"
X = "superficie plantada (hectáreas, ha)"
66
xi
yi
xi2
yi2
xi yi
3,7
4,3
4,1
5
5,5
3,8
8
5,1
5,7
6
3
7
5,4
4,4
5,5
12
14
11
15
16
12
24
15
18
20
8
20
16
14
18
13,69
144
44,4
18,49
196
60,2
16,81
121
45,1
25
225
75
30,25
256
88
14,44
144
45,6
64
576
192
26,01
225
76,5
32,49
324
102,6
36
400
120
9
64
24
49
400
140
29,16
256
86,4
19,36
196
61,6
30,25
324
99
5
5,9
5,6
5
7,2
105,2
TOTALES
15
18
17
15
22
320
25
225
75
34,81
324
106,2
31,36
289
95,2
25
225
75
51,84
484
158,4
581,96
5398
1770,2
Del enunciado y de la tabla anterior obtenemos
n = 20
n
∑ xi = 105, 2
i =1
n
y=
1 n
320
yi =
= 16
∑
n i =1
20
(
∑ xi2 = 581, 96
i =1
1 n
105, 2
xi =
= 5, 26
∑
n i =1
20
1 n
∑ xi − x
n i =1
n
∑ yi = 320
x=
sxy =
τ x = 3.840 ha
N = 750 socios
)(
i =1
sx2 =
s y2 =
)
yi − y =
(
1 n
∑ xi − x
n i =1
(
1 n
∑ yi − y
n i =1
)
2
)
=
2
=
n
n
∑ yi2 = 5398
∑x y
i =1
i =1
i
i
= 1770, 2
2
1 n 2
581,96
xi − x =
− 5, 26 2 = 1, 4304
∑
n i =1
20
2
1 n 2
5398
yi − y =
− 16 2 = 13,9
∑
n i =1
20
1 n
1770, 2
xi yi − x y =
− ( 5, 26 × 16 ) = 4, 35
∑
n i =1
20
Si queremos calcular las cuasivarianzas, a partir de las varianzas se tiene:
S x2 =
n 2 20
s x = 1, 4304 = 1,5057
n −1
19
S y2 =
n 2 20
s y = 13,9 = 14, 6316
n −1
19
y hallando las raíces cuadradas obtenemos las desviaciones
(s , s )
x
y
y cuasidesviaciones
típicas ( S x , S y ) .
Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se
simplifican notablemente si utilizamos una calculadora científica de uso común. Estas
calculadoras nos proporcionan los valores de un grupo de funciones estadísticas
∑x
2
∑x
x
σ n = sx
σ n = sx = desviación típica
σ n − 1 = S x de forma inmediata.
σ n − 1 = S x = cuasidesviación típica


s
4,35
La relación entre las variables es alta  rxy = xy =
= 0,9756  . Esto junto con la


sx s y 1,196 × 3, 728


información auxiliar que disponemos de la variable X justifica el uso de estimadores de razón.
Por otra parte, dado el contexto, es lógico que la relación pase por el origen (a 0 ha de
superficie le corresponde una producción de 0 tm).
67
20
r=
∑y
i =1
20
i
∑x
i =1
=
320
= 3, 042 tm/ha
105, 2
i
τˆy = rτ x = 3, 042 × 3.840 = 11.680, 6 tm
τ
3840
µ = x=
= 5,12 ha / socio
x N
750
µˆ y = r µ x = 3, 042 × 5,12 = 15,57 tm/socio
Sr =
2
20
1 20
1  20 2 2 20 2
2
y
−
rx
=
y
+
r
x
−
2
r
xi yi
∑ ( i i ) n − 1  ∑
∑
∑
i
i
n − 1 i =1
i =1
i =1
i =1
S2  N − n 
Vˆ ( µˆ y ) = r 
 = 0, 0344
n  N 
⇒

 =0, 706

Bµ = 2 Vˆ ( µˆ y ) = 0,37 tm/socio
2
τ x2 Sr2  N − n 
2 Sr  N − n 
ˆ
ˆ
V (τ y ) = 2
=N

 = 19.326, 75
µ x n  N 
n  N 
⇒
Bτ = 2 Vˆ (τˆy ) = 278, 04 tm
o Bτ = 750 × Bµ = 750 × 0,37 = 277,5 tm (no coinciden los dos procedimientos por los errores
de redondeo en el valor de Bµ ).
A continuación lo estimaremos utilizando muestro aleatorio simple.
320
y=
= 16 tm / socio
20
S 2  N − n  14, 63  750 − 20 
ˆ
V y =

=

 = 0, 712
n  N 
20  750 
( )
Bµ = 2 0, 712 = 1, 69 tm / socio
τˆ = Ny = 750
320
= 12.000 tm
20
2
2 S  N −n
2 14,63  750 − 20 
ˆ
ˆ
V (τ ) = N

 = 750

 = 400.539,47
n  N 
20  750 
Bτ = 2 400.539, 47 = 1.265,76 tm o Bτ = 750 × Bµ
Observemos que el límite del error de estimación es mucho mayor que el cometido utilizando
estimadores de razón.
4.2.2
Determinación del tamaño muestral
Tamaño muestral mínimo para que la estimación de la razón, la media y el total no supere una
cota de error de magnitud B
n=
68
Nσ r2
σ r2 + ND
donde para estimar:
•
•
•
la razón:
B 2 µ x2
D=
4
la media:
B2
D=
4
el total:
B2
D=
4N 2
Comentarios:
•
σ r2 se estima utilizando una muestra previa (tamaño n' ): σˆ r2 = S r2 .
•
Si µ x es desconcocido, µˆ x2 = x 2
Ejemplo 4.3 (Ejercicio 2, relación tema 4, apartado (b))
Supongamos que queremos reducir el límite para el error de estimación (LEE) de la media a
0,25 tm/socio y el LEE del total no debe superar las 200 tm ¿a cuántos socios se les debe tasar
su producción antes de realizar una nueva estimación?
Solución
MEDIA: n =
Nσ r2
σ r2 + N
Nσ r2
TOTAL: n =
σ r2 + N
B2
4N 2
2
B
4
=
=
750 × 0, 706
= 42,6 ≅ 43 socios

0, 252 
0, 706 +  750 ×

4 

Nσ r2
750 × 0, 706
=
= 37, 7 ≅ 38 socios
2
B
 2002 
2
σr +
0, 706 + 

4N
 4 × 750 
Necesitamos al menos 43 socios para cumplir con ambos niveles de error.
4.3 Estimación de regresión
El uso del estimador de razón es más efectivo cuando la relación entre las variables X e Y es
lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados).
En caso de relación lineal que no pase por el origen de coordenadas es preferible utilizar
estimadores de regresión.
En el modelo lineal simple Y = a + bX , el método de mínimos cuadrados permite estimar a y
b de la siguiente forma:
69
n
sxy S xy
bˆ = 2 = 2 =
sx
Sx
∑ ( y − y )( x − x )
i
i =1
i
n
∑(x − x )
i =1
2
i
ˆ
aˆ = y − bx
donde
1 n
2
S =
( xi − x )
∑
n − 1 i =1
1 n
S xy =
∑ ( xi − x )( yi − y )
n − 1 i =1
1 n
2
s = ∑ ( xi − x ) ;
n i =1
1 n
1 n
sxy = ∑ ( xi − x )( yi − y ) = ∑ xi yi − x y
n i =1
n i =1
2
x
4.3.1
2
x
Estimación de la media y el total poblacionales
ˆ + bˆµ = y + bˆ ( µ − x )
µˆ yL = aˆ + bˆµ x = y − bx
x
x
•
ESTIMADOR DE LA MEDIA:
•
S2  N −n
VARIANZA ESTIMADA DE µ̂ yL : Vˆ (µˆ yL ) = L 

n  N 
siendo S L2 la varianza residual en el modelo lineal simple:
S L2 =
( (
1 n
∑ yi − y + bˆ ( xi − x )
n − 2 i =1
))
2
=
2
n  2 sxy
 s y − 2
n−2
sx

n 2
s y (1 − rxy2 )
 =
n
−
2

•
ESTIMADOR DEL TOTAL:
τˆ yL = Nµˆ yL
•
VARIANZA ESTIMADA DE τˆyL :
Vˆ (τˆ yL ) = N 2Vˆ (µˆ yL )
Comentario. En este caso para estimar el total es necesario conocer el tamaño de la población
N. No se puede estimar como τˆ yL = aˆ + bˆτ x ya que la recta de regresión no pasa por el punto
(τ
x
,τ y ) .
Ejemplo 4.4 (Ejercicio 3, relación tema 4, apartado (a))
Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre las
ventas diarias. Se tiene información de que, por término medio, el gasto en publicidad es de 5
euros. Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en
publicidad y ventas diarios. Los resultados son:
Gastos Ventas
3,7
120
4,3
140
4,1
135
70
5
150
5,5
160
3,8
120
8
160
5,1
150
5,7
125
6
130
0
80
7
150
5,4
150
4,4
120
5,5
140
5
150
5,9
150
6,6
170
Estime el total de ventas diarias y la media utilizando estimadores de regresión. Obtenga el
límite para el error de estimación.
Solución
Denotamos Y = " ventas diaria (euros)" ;
X = " gastos diarios en publicidad (euros)"
Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos:
n = 18 establecimientos
N = 1.000 establecimientos
x = 5, 0556€
y = 138,889€
µ x = 5€
sx = 1, 6375 ⇒ sx2 = 2, 6814
s y = 20, 314 ⇒ s 2y = 412, 654
S y2 =
sxy = 27, 7284
n 2
s y = 436, 928
n −1
La relación entre las variables es fuerte: rxy = 0,8336 .
(
µˆ yL = y + bˆ µ x − x
)
sxy 27, 7284
↓ bˆ = 2 =
= 10, 341
sx
2, 6814
µˆ yL = 138,314€
S L2 =
n −1 2
S y (1 − rxy2 ) = 141, 6
n−2
Bµ = 2 Vˆ ( µˆ yL ) = 5,56
τˆyL = N µˆ yL = 138.314€
S2  N − n 
Vˆ ( µˆ yL ) = L 
 = 7, 73
n  N 
Bτ = N × Bµ = 1.000 × 5, 56 = 5.560€
4.3.2 Determinación del tamaño muestral
Tamaño muestral mínimo necesario para que al estimar la media y el total poblacionales la
cota de error no supere la magnitud B
71
Nσ L2
n= 2
σ L + ND
donde para estimar:
•
la media: D =
•
el total:
D=
B2
4
B2
4N 2
σ L2 se estima utilizando una muestra previa (tamaño n' ): σˆ L2 = S L2
Ejemplo 4.5 (Ejercicio 3, relación tema 4, apartado (b))
Se quiere repetir el estudio anterior de forma que el error para la estimación del total no supere
los 1.000 euros ¿cuál debe ser el tamaño muestral?
Solución
n=
Nσ L2
σ L2 + N
2
B
4N 2
=
1000 × 141, 6
= 361, 6 ≅ 362 establecimientos.

1000 2 
141, 6 + 1000

4 ×1000 2 

4.4 Estimación de diferencia
El uso del estimador de diferencia tiene un buen comportamiento (cota de error más baja)
cuando la relación entre las variables es lineal y la pendiente del modelo es uno.
(y =a+x
ó
y = y + ( x − x) a = y − x = d
)
Comúnmente se emplea en procedimientos de auditoría.
4.4.1 Estimación de la media y el total poblacionales
µ̂ yD = y + (µ x − x ) = µ x + d
•
ESTIMADOR DE LA MEDIA:
•
S2  N −n
VARIANZA ESTIMADA DE µ̂ yD : Vˆ (µˆ yD ) = D 

n  N 
d = y−x
2
2
1 n
1 n
(
(
)
)
(
y
−
x
+
d
=
d i − d ) , donde d i = y i − xi , por tanto S D2 es la
∑
∑
i
i
n − 1 i =1
n − 1 i =1
cuasivarianza de los d i .
S D2 =
•
72
ESTIMADOR DEL TOTAL:
τˆ yD = Nµˆ yD
•
VARIANZA ESTIMADA DE τˆYD : Vˆ (τˆ yD ) = N 2Vˆ (µˆ yD )
Ejemplo 4.6 (Ejercicio 4, relación tema 4, apartado (a))
Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se
tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar una
muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose:
X=Ingresos Y=Gastos
470
405
650
585
710
650
300
240
475
410
505
435
610
550
380
320
540
480
520
460
Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo
aleatorio simple, estimadores de razón, regresión y diferencia. Obtenga el LEE en cada caso.
(Nota: en el enunciado de la relación de problemas sólo se pide mediante el estimador de
diferencia)
Solución
Y = "gasto diario (euros)"
Denotamos 
"
 X = "ingresos diarios (euros)
Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos:
N = 200 establecimientos
n = 10 establecimientos
 x = 516€
y = 453,5€

 sx = 115, 797
⇒
s x2 = 13.409

 s = 115, 738
⇒
s y2 = 13.395,3
 y
 S 2 = 14883, 7
 y
 sxy = 13.396,5
La relación entre las variables es muy fuerte: rxy = 0,99958
µ x = 500€
rxy2 = 0,99916 .
MUESTREO ALEATORIO SIMPLE
S y2 = 14883, 7
µˆ = y = 453, 5€
τˆ = Ny = 90.700€
ˆ µˆ ) = S  N − n  = 1.413,94
V(


n  N 
2
y
ˆ µˆ ) = 75,20€
Bµ = 2 V(
Bτ = 200 × Bµ =15.040,97€
73
ESTIMADORES DE RAZÓN
r=
y
= 0,879
x
Sr =
2
τ x = 200µ x = 100.000
τˆy = rτ x = 87.900€
µˆ y = r µ x = 439, 5€
n
1 n
1  n 2 2 n 2
2
y
−
rx
=
y
+
r
x
−
2
r
xi yi
(
)
∑ i i n − 1  ∑
∑
∑
i
i
n − 1 i =1
i =1
i =1
i =1
S2  N − n 
Vˆ ( µˆ y ) = r 
 = 21, 63
n  N 
⇒

 = 227, 717

Bµ = 9,3€
Bτ = N × Bµ =1.860€
ESTIMADORES DE REGRESIÓN
(
µˆ yL = y + bˆ µ x − x
)
sxy 13.396, 5
↓ bˆ = 2 =
= 0,99907
13.409
sx
µˆ yL = 437,515€
τˆyL = N µˆ yL = 87.503€
n −1 2
S y (1 − rxy2 ) = 14, 05
n−2
S2  N − n 
Vˆ ( µˆ yL ) = L 
⇒
 = 1,33
n  N 
S L2 =
Bµ = 2,3104€
Bτ = NBµ = 462, 09€
ESTIMADORES DE DIFERENCIA
µˆ yD = µ x + d
µˆ yD
↓ d = −62,5
= 437,5€
τˆyD = N µˆ yD = 87.500€
(con la calculadora hallamos σ n −1 sobre las diferencias d i y lo elevamos al cuadrado)
(
1 n
S =
∑ di − d
n − 1 i =1
2
D
S2  N − n 
Vˆ ( µˆ yD ) = D 
 = 1,1875
n  N 
)
2
= 12, 5
Bµ = 2 Vˆ ( µˆ yD ) = 2,179
Bτ = NBµ = 435,8899
4.4.2 Determinación del tamaño muestral
Tamaño muestral mínimo necesario para que la estimación no supere un cota de error B al
estimar la media y el total poblacionales
n=
74
Nσ D2
σ D2 + ND
donde para estimar:
•
•
B2
la media: D =
4
el total:
B2
D=
4N 2
σ D2 se estima utilizando una muestra previa (tamaño n' ): σˆ D2 = S D2
Ejemplo 4.7 (Ejercicio 4, relación tema 4, apartado (b))
Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un
error como máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral?
Solución
Nσ D2
200 × 12,5
n=
=
= 20 establecimientos
2
B
300 2
2
σD + N
12, 5 +
4N 2
4 × 200
EJERCICIOS RESUELTOS
1. (ejercicio 9, relación tema 4) En una población de 500 hogares, para la que es conocido
que el gasto total general durante un año es de 15.000.000 €, se quiere estimar el gasto
total en alimentación durante un año, para lo que se obtiene una muestra aleatoria simple
de 4 hogares que proporciona los siguientes valores anuales en €:
Gasto en alimentación 12.500 15.000 10.000 17.500
Gasto general
24.000 31.000 20.000 36.000
Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?,
justifíquese.
Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo
de confianza.
SOLUCIÓN (trabajaremos en cientos de euros)
xi
yi
xi yi
xi2
yi2
240 125 57.600 15.625 30.000
310 150 96.100 22.500 46.500
200 100 40.000 10.000 20.000
360 175 129.600 30.625 63.000
1110 550 323.300 78.750 159.500
75
n
N = 500 n = 4 r =
∑y
i =1
n
i
∑x
i =1
=
550
= 0, 4955 τɵ y = rτ x = 0, 4955 × 150.000 = 74.325 cientos de €
1110
i
τɵ y = 7.432.500 €
2
n
1 n
1  n 2 2 n 2
 62, 2
S =
y
+
r
x
−
2
r
xi yi  =
= 20, 73
( yi − rxi ) =
∑
∑
∑
∑
i
i

n − 1 i =1
n − 1  i =1
3
i =1
i =1

2
r
2
S
V (τɵ y ) = N ( N − n) r = 1.285, 4667
2 V (τɵ y ) = 2.267,568
n
τ y ∈ ( 72.057, 432 ; 76.592,568) en cientos de €
Para expresarlo en € hay que multiplicarlo por cien.
2. (Ejercicio 17, relación tema 4) Un trabajador social quiere estimar la ratio
personas/habitación en un determinado barrio. El trabajador social selecciona una muestra
aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el número de personas en
cada vivienda e y el número de habitaciones por vivienda. A partir de los datos
siguientes:
x = 9,1;
25
∑x
y = 2, 6;
2
i
i =1
= 2240;
25
∑y
i =1
2
i
= 169;
25
∑x y
i =1
i
i
= 522
Estime la razón personas/habitación en el barrio y establezca el límite para el error de
estimación con una confianza del 95%.
SOLUCIÓN (los papeles de las variables x e y deben permutarse en las expresiones
del formulario)
n
N = 275 n = 25 r =
∑x
i =1
n
∑y
i =1
2
S r2 =
i
=
2
x
= 3,5 pers. / hab. µ y2 ≅ y = 2, 62 = 6, 76
y
i
n
1 n
1  n 2 2 n 2

x
+
r
y
−
2
r
xi yi  = 27,34375
( xi − ryi ) =
∑
∑
∑
∑
i
i

n − 1 i =1
n − 1  i =1
i =1
i =1

1 ( N − n) S r2
V (r ) = 2
= 0,1471
µy N
n
2 V (r ) = 0, 767
3. (Ejercicio 12, relación tema 4) Se desea estimar el agua utilizada en la presente campaña
por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10
parcelas cuyo tamaño y metros cúbicos utilizados en riego aparecen en la siguiente tabla
76
m3
600
1800
750
900
1100
1400
950
700
1000
720
Hectáreas
50
150
60
70
100
120
80
60
90
60
Estime la media de m3 /hectárea que utiliza la comunidad de regantes y la cota del error de
dicha estimación.
SOLUCIÓN:
y = consumo de m3 litros de agua,
X
x = tamaño de la parcela en hectáreas
x2
Y
50
150
60
70
100
120
80
60
90
60
840
600
1800
750
900
1100
1400
950
700
1000
720
9920
2500
22500
3600
4900
10000
14400
6400
3600
8100
3600
79600
y2
360000
3240000
562500
810000
1210000
1960000
902500
490000
1000000
518400
11053400
xy
30000
270000
45000
63000
110000
168000
76000
42000
90000
43200
937200
n
r=
∑y
i =1
n
i
∑x
i =1
=
9920
= 11'81 m3 / hectarea
840
i
n
1 n
1  n 2 2 n 2

2
y
+
r
x
−
2
r
xi yi  =
( yi − rxi ) =
∑
∑
∑
∑
i
i

n − 1 i =1
n − 1  i =1
i =1
i =1

1
= (11053400 + 11102297 '56 − 22136664 ) = 2114 '84
9
S r2 =
840
= 84
10
1 N − n S r2
1 240 2114 '84
V (r ) = 2
= 2
= 0 '02877
µ x N n 84 250 10
µx = x =
2 V (r ) = 0 '3392
4. (Ejercicio 1, relación del tema 4) Se desea estimar el consumo mensual de una ciudad. Se
sabe que los ingresos en dicha ciudad, vía declaración de la renta, ascienden a 1.502.530
euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados
de renta y consumo se recogen en esta tabla.
Renta Consumo
1.702,44
1.204
1.339,56
1.000
981,06
800
2.537,04
1.800
1.519,85
1.200
3.080,19
2.600
77
1.502,53
1.080
1.702,87
1.240
1.402,36
1.000
1.803,04
1.400
2.053,46
1.484
3.005,06
2.000
Estime el consumo total mensual para todos los hogares de la ciudad mediante el
estimador de razón. Obtenga el límite para el error de estimación.
SOLUCIÓN:
Denotemos por
Y = " consumo mensual"
X = "ingresos mensuales"
De la información muestral obtenemos
n = 12
12
∑y
i =1
i
= 16.808 euros
i
= 22.629,46 euros
12
∑x
i =1
y como información auxiliar sabemos que τ x = 1.502.530 euros.
s xy
Podemos comprobar que el coeficiente de correlación lineal es alto ( rxy =
sx s y
= 0,9677 ).
Esto junto con la información auxiliar nos permite utilizar muestreo con información
auxiliar, en concreto utilizaremos estimadores de razón.
12
r =
∑
yi
∑
xi
i =1
12
i =1
= 0, 7427
τˆ y = r τ x = 1 .1 1 6 .0 0 2 , 0 7 €
τ2 S  N −n
Vˆ (τˆY ) = x2 r 
µ x n  N 
2
↓ No conocemos N , pero en la ciudad hay muchos hogares, observando
i =1
N −n
≅1
N
↓ estimamos que n < ( 5% N ) ⇒
12
∑ x < ( 5% τ )
↓ µ x = x = 1.885, 79€
↓ Sr =
2
12
1 12
1  12 2 2 12 2
2
y
−
rx
=
y
+
r
x
−
2
r
xi yi
∑ ( i i ) n − 1  ∑
∑
∑
i
i
n − 1 i =1
i =1
i =1
i =1
Vˆ (τˆY ) = 871.825.002, 67
78
⇒

 = 16.479, 7

B = 2 Vˆ (τˆY ) = 59.053,37€
i
x
5
(Ejercicio 10, relación tema 4) Las diferencias entre ingresos y gastos, en 5 de las 250
oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros)
570
721
650
650
569
Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime
el total de ingresos y el límite para el error de estimación.
SOLUCIÓN:
N=250, n=5, µ x = 12764 , X=gastos, Y=ingresos
(con las funciones del modo SD de la calculadora ) :
µ yD = µ x + d = 13396 €
d = 632
S D2 = 4095,5
τɵ yD = N µ yD = 3349000 €
N − n S D2
S2
V (τɵ yD ) = N 2
= N ( N − n ) D = 50169875 € 2
N n
n
2 V (τɵ yD ) = 14166,14 €
6. (Ejercicio 6, relación del tema 4) Una cadena de electrodomésticos está interesada en
estimar el total de ganancias por las ventas de televisores al final de un periodo de tres
meses. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese
mismo periodo de tres meses correspondiente al año anterior, ese total es de 128.200 €.
Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena
resultando los datos de la siguiente tabla:
Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual
1
550
610
2
720
780
3
1500
1600
4
1020
1030
5
620
600
Usando un estimador de razón, estime el total de ganancias con un intervalo de confianza.
SOLUCIÓN:
N=123, n=5, τ x = 128200 € , X=del año anterior, Y=del año actual
(con las funciones del modo SD de la calculadora ) :
x = 882
5
∑ xi = 4410
i =1
y = 924
5
∑y
i =1
i
= 4620
xi yi
335500
561600
2400000
1050600
372000
5
∑ xi2 = 4495700
i =1
5
∑y
i =1
2
i
= 4961400
5
∑x y
i =1
i
i
= 4719700
79
n
r=
∑y
i
i =1
n
∑x
2
y
= 1, 047619
x
τɵ y = rτ x = 134304, 76 €
i
i =1
Sr =
=
5
1 5
1  5 2 2 5 2
2
y
+
r
x
−
2
r
xi yi
( yi − rxi ) =
∑
∑
∑
∑
i
i
n − 1 i =1
n − 1  i =1
i =1
i =1
2
S
V (τɵ y ) = N ( N − n ) r = 4761314, 071
n

 = 1640, 25

2 V (τɵ y ) = 4364, 09
τ y ∈ (129940, 67 , 138668,85 )
7. (Como ejercicio 7, relación del tema 4) Una agencia de publicidad está interesada en el
efecto de una nueva campaña de promoción regional sobre las ventas totales de un
producto en particular. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452
tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales
son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a
la nueva campaña.
Tienda Ventas antes de Ventas
la campaña
actuales
1
208
239
2
400
428
3
440
472
4
259
276
5
351
363
Usando los anteriores datos para estimar los parámetros necesarios, determine el tamaño
de la muestra para estimar τˆY con un límite para el error de estimación de 2.000€,
cuando se utiliza el estimador de razón.
SOLUCIÓN:
N=452, n’=5, X=ventas antes, Y=ventas actuales
(con las funciones del modo SD de la calculadora ) :
x = 331, 6
5
∑ xi = 1658
i =1
y = 355, 6
5
∑y
i =1
i
= 1778
xi yi
49712
171200
207680
71484
127413
5
∑ xi2 = 587146
i =1
5
∑y
i =1
2
i
= 671034
5
∑x y
5
r=
∑ yi
i =1
5
∑x
i =1
80
i
=
y
= 1, 072376
x
i =1
i
i
= 627489
5
1 5
1  5 2 2 5 2

2
Sr =
yi + r ∑ xi − 2r ∑ xi yi  = 109, 4775
( yi − rxi ) =
∑
∑

n '− 1 i =1
n '− 1  i =1
i =1
i =1

2
D=
2
B2
= 4,8947 σ r = S r2 = 109, 4775
2
4N
n=
Nσ r2
= 21,3 ≈ 22
ND + σ r2
81
5. Muestreo sistemático.
5.1 Selección de una muestra sistemática. Usos. Ventajas.
5.2 Estimación de la media, proporción y total poblacionales.
5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias
y periódicas.
5.4 Determinación del tamaño muestral.
5.1 Selección de una muestra sistemática. Usos. Ventajas.
En el muestreo aleatorio simple, la selección de los elementos se efectúa con total
aleatoriedad, todas las muestras posibles son igualmente probables y, para ello, se enumeran
los N elementos de la población y después se seleccionan al azar los n elementos que han de
formar la muestra. Esto, en general, complica el proceso de selección de la muestra.
En el muestreo sistemático los elementos de la población se enumeran, o se ordenan. Una
muestra sistemática de “1 en k” es la que se extrae de la siguiente forma:
1. Se selecciona aleatoriamente un elemento (llamado punto de inicio) de los primeros k
elementos de la población.
2. Después se seleccionan cada k -ésimo elemento hasta conseguir una muestra de
tamaño n .
En general, k se toma como el número entero menor o igual que el cociente
k≤
N
:
n
N
n
Nos podemos encontrar con las siguientes situaciones:
1. k =
N
entero. Entonces se obtienen exactamente n observaciones.
n
Por ejemplo si N = 100 y n = 5 , entonces k = 20 y aún tomando la ultima
observación del primer intervalo (20º), obtenemos 5 observaciones: 20º, 40º,…, 100º.
2.
N
no es entero. Veámoslo con un ejemplo.
n
Por ejemplo si N = 103 y n = 5 , entonces
N
= 20,6 y tomamos k = 20 . Según el
n
punto inicial nos podemos encontrar con estas situaciones:
a. Si elegimos, por ejemplo, el 2º como punto inicial, obtendríamos:
2º, 22º, 42º, 62º, 82º, ...
82
Al dividir la población en 5 intervalos de 20 elementos, sobran 3. Si no hay
problema de coste podríamos elegir también el 102º y la muestra sería de
tamaño 6.
b. Si se elige, por ejemplo, la observación 18º como la inicial obtendríamos una
muestra de tamaño 5:
18º, 38º, 58º, 78º, 98º
3. N es desconocido. En este caso, la decisión sobre el valor de k se tomará de forma
que se asegure el número mínimo deseado de elementos de la muestra. N se estima
por defecto, así k será menor de lo necesario y, por tanto, el tamaño muestral será
mayor o igual de lo requerido.
Ventajas del muestreo sistemático frente al aleatorio simple:
•
En la práctica el muestreo sistemático es más fácil de llevar a cabo y está expuesto a
menos errores del encuestador. (En el m.a.s. se nos juntaría el trabajo si dos números
aleatorios fueran consecutivos o muy próximos).
Por ejemplo, sería difícil escoger una m.a.s. de 50 personas entre las que pasan por la
esquina de una calle, porque no se conoce el tamaño poblacional N hasta que no pasen
todas las personas; entonces seleccionaríamos n elementos al azar menores o iguales a N.
Pero sí sería fácil, por ejemplo, coger 1 de cada 20 personas que pasen hasta completar
la muestra ( n = 50 )
•
Frecuentemente con igual tamaño de muestra el muestreo sistemático proporciona
más información que el muestreo aleatorio simple. Esto se debe a que la muestra
sistemática se extiende uniformemente a lo largo de toda la población, mientras que en
el muestreo aleatorio simple puede ocurrir que un gran número de observaciones se
concentre en una zona y descuide otras.
Por ejemplo, supongamos que en una fábrica los primeros 500 tubos de escape se
fabrican correctamente y los últimos 500 son defectuosos por un problema en la
maquinaria. Una muestra aleatoria simple podría seleccionar un gran número o incluso
todos del mismo grupo, dando una mala estimación de la proporción de defectuosos. El
muestreo sistemático, en cambio, selecciona el mismo número de tubos de ambos
grupos, dando una estimación mejor. En este caso, donde en cierta medida hay un
orden en la población, el muestreo sistemático es mejor que el m.a.s.
83
Usos: Este tipo de muestreo es muy utilizado: en los planes de muestreo para el control de
calidad dentro del proceso de fabricación, los auditores cuando se enfrentan a largas listas de
apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en
movimiento.
5.2 Estimación de la media, proporción y el total poblacionales
1 n
∑ yi +( j −1) k
n j =1
•
ESTIMADOR DE LA MEDIA POBLACIONAL:
µˆ = ysy =
•
VARIANZA ESTIMADA DE y sy :
S2  N −n
Vˆ ( y sy ) =


n  N 
Comentarios.
-
Si se desconoce el tamaño poblacional por su gran magnitud, entonces
-
Cuando N no es múltiplo exacto de n , el estimador es sesgado.
N −n
≅ 1.
N
Como se puede observar la varianza estimada del estimador de la media es igual que en el
muestreo aleatorio simple (véase 5.3 Comparación con el muestreo aleatorio simple). Esto no
implica que las varianzas reales sean iguales:
V (y) =
σ2 N −n
n N −1
y
V ( y sy ) =
σ2
n
[1 + (n − 1)ρ ]
donde ρ = coeficiente de correlación entre los elementos de una muestra sistemática.
El tamaño poblacional se desconoce en muchas situaciones prácticas, en las que se sugiere el
uso del muestreo sistemático. Cuando N es conocida, podemos estimar el total poblacional.
•
ESTIMADOR DEL TOTAL POBLACIONAL:
τˆ = Ny sy
•
VARIANZA ESTIMADA DE τˆ :
2
2 ˆ
2 S  N −n
ˆ
ˆ
(
)
V (τ ) = N V y sy = N


n  N 
Ejemplo 5.1 (Ejercicio 3, relación tema 5)
Los funcionarios de un museo están interesados en el número total de personas que visitaron
el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades estuvo
en exhibición. Puesto que el control de visitantes en el museo cada día es muy costoso, los
84
funcionarios decidieron obtener estos datos cada diez días. La información de esta muestra
sistemática de 1 en 10 se resume en esta tabla
Día
3
13
23
Nº personas que visitan el museo
160
350
225
⋮
⋮
173 290
18
18
i =1
i =1
∑ y i = 4.868;
2
∑ y i = 1.321.450
Use estos datos para estimar el número total de personas que visitaron el museo durante el
periodo especificado. Establezca un límite para el error de estimación.
Solución
τˆ = Ny sy = 180
4.868
= 48.680 visitantes
18
2
2 S  N−n 
ˆ
V (τˆ ) = N


n  N 
↓ N = 180
2

( 4868 ) 
1.321.450 −


n
 = 289, 79
↓ S2 = 
n −1
ˆ
V (τˆ ) = 469.461,18
Bτ = 1.370,34
Como en el muestreo aleatorio simple, las propiedades del estimador de la proporción son
análogas a las propiedades de la media muestral:
•
ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: pˆ sy =
•
VARIANZA ESTIMADA DE p̂ sy :
1 n
∑ yi+( j −1) k
n j =1
Vˆ ( pˆ sy ) =
, yi = 0, 1
pˆ sy qˆ sy  N − n 


n −1  N 
Notemos, de nuevo, que las varianzas estimadas son iguales a las del muestreo aleatorio
simple. Esto no quiere decir que las varianzas reales lo sean.
Ejemplo 5.2 (Ejercicio 2 (a), relación tema 5)
La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el
permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un
conductor de cada siete. Use los datos de la tabla adjunta para estimar la proporción de
85
conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga
que 2.800 autos pasan por el puesto de verificación durante el periodo de muestreo.
Automóvil
1
8
15
Respuesta
1
1
0
⋮
⋮
2794
1
400
∑ y i = 324
i =1
Solución
pˆ sy = y sy =
Vˆ ( pˆ sy ) =
324
= 0,81
400
pˆ sy qˆ sy  N − n  0,81(1 − 0,81)  2.800 − 400 

=

 = 0,000330612 ⇒ B = 0,0364
n −1  N 
400 − 1  2.800 
Si la estratificación de la población fuese ventajosa, el muestreo sistemático puede utilizarse
dentro de cada estrato en lugar del m.a. simple, aplicándose las fórmulas del m.a. estratificado
análogamente a como se han utilizado las del m.a. simple para aproximar el comportamiento
del muestreo sistemático.
5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y
periódicas
Veamos bajo qué condiciones la varianza estimada de los estimadores en el muestreo
sistemático se puede suponer igual a la del m.a. simple.
Según las expresiones
V (y) =
σ2 N −n
n N −1
éstas serán similares cuando
σ
V (y ) =
[1 + (n − 1)ρ ]
n
2
y
sy
N −n
≅ 1 y ρ ≅ 0 , pero en otros casos no.
N −1
Distinguimos los siguientes casos:
A. Población ordenada (ρ ≤ 0)
Una población es ordenada cuando los elementos que la constituyen están ordenados
de acuerdo con los valores, crecientes o decrecientes, de una determinada
característica. En este caso es preferible el uso del muestreo sistemático, ya que la
muestra se extiende uniformemente a lo largo de la población:
86
V ( y sy ) ≤ V ( y )
Por ejemplo, en una lista de cuentas por cobrar que estén ordenadas de mayor a menor
cantidad, las estimaciones de una muestra sistemática tendrían en general una varianza
menor que las de una muestra aleatoria simple (es posible que ésta última contenga
solo cantidades grandes o cantidades pequeñas).
Al utilizar las varianzas estimadas de los estimadores del m.a.s. en el m. sistemático
conseguimos una estimación conservadora del error (mayor que el error real que
cometemos en el m. sistemático).
B. Población aleatoria (ρ ≅ 0)
Se dice que una población es aleatoria cuando sus elementos están ordenados al azar.
En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo
sistemático ya que
V ( y sy ) ≅ V ( y ) .
Por ejemplo, en una lista de estudiantes por orden alfabético, la estimación de sus
calificaciones sería similar con ambos muestreos ya que las calificaciones no dependen
del apellido del estudiante.
C. Población periódica (ρ ≥ 0)
Una población es periódica cuando los valores de la variable objeto de estudio tienen
una variación cíclica. En este caso es preferible el muestreo aleatorio simple dado que
V ( y sy ) > V ( y ) .
Por ejemplo:
a. Supongamos que tenemos una lista en la que los nombres de mujeres y
hombres se alternan. Una muestra sistemática con k par proporcionaría solo
una lista de mujeres o de hombres.
b. Ventas diarias de un supermercado con k = 7
Para evitar este problema, el investigador puede cambiar varias veces el punto de
inicio aleatorio. Esto tiene el efecto de mezclar los elementos de la población y
comportarse como una población aleatoria, en cuyo caso el uso de las expresiones del
m.a.s. en el m. sistemático estaría justificado.
87
5.4 Determinación del tamaño muestral
El tamaño muestral requerido para estimar la media poblacional con un límite B para el error
de estimación se obtiene despejando el tamaño muestral de la ecuación:
2 V ( ysy ) = B
Dado que el valor real de la varianza del estimador no es conocido, usaremos las expresiones
del muestreo aleatorio simple. Lo anterior conduce a obtener muestras más grandes de las
necesarias para poblaciones ordenadas y muestras más pequeñas para poblaciones periódicas
(si no se mezclaran los elementos cambiando el punto de inicio). En poblaciones aleatorias no
tendremos problemas.
Tamaño muestral requerido para estimar µ y τ con un límite B para el error de estimación
n=
 B2
 4 para estimar la media

con D = 
 2
 B para estimar el total
 4N 2
Nσ 2
( N − 1) D + σ 2
Tamaño muestral requerido para estimar p y τ con un límite B para el error de estimación
n=

B2
para estimar p

4

con D = 
 2
 B para estimar el total
 4N 2
Npq
(N − 1)D + pq
Ejemplo 5.3 (Ejercicio 2 (b), relación tema 5)
En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000 automóviles por
el puesto de verificación. Determine el tamaño de muestra y k para estimar p con un error
inferior al 2%.
Solución
p = 0,81
n=
qɵ = 1 − p = 0,19
Npq
5.000 × 0,81× (1 − 0,81)
=
= 1.176,97 ≅ 1.177 automóviles
2
B

0, 02 2 
( N − 1)
+ pq  (5.000 − 1)
 + ( 0,81× (1 − 0,81) )
4
4 

k≤
88
N
= 4, 25
n
Si tomáramos k=5 ⇒ n =
5000
5000
= 1000 . Tomando k=4 ⇒ n =
= 1250 ≥ 1177 .
5
4
EJERCICIOS RESUELTOS
1. (Ejercicio 7, relación tema 5) La gerencia de una compañía privada con 2.000 empleados
está interesada en estimar la proporción de empleados que favorecen una nueva política de
inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del
edificio al final de un día de trabajo (las respuestas a favor se han representado como 1)
Empleado Respuesta
muestreado
3
1
13
0
23
1
⋮
⋮
1993
1
200
∑y
i =1
i
= 110
Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando
la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué
tipo de muestra sistemática deberá obtenerse? (indique n y k).
SOLUCIÓN
110
0, 052
= 0,55 qɵ = 1 − p = 0, 45 D =
= 0, 000625
200
4
Npq
N
n=
= 330, 7 ≈ 331
k ≤ = 6, 04 ⇒ k = 6
( N − 1) D + pq
n
N = 2.000
p=
2. (Ejercicio 8, relación tema 5) Un auditor se enfrenta a una larga lista de 1.000 cuentas por
cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21.000
€. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a
1.000.000 € con una confianza del 95%. Para ello decide tomar una muestra sistemática de
1 en k . Determine el valor de k.
SOLUCIÓN
21.000 2
1.000.000 2
=
27.562.500
D
=
= 250.000
42
4 × 1.0002
Nσ 2
N
n=
= 99,39 ≈ 100 k = = 10
2
( N − 1) D + σ
n
N = 1.000 R = 21.000 σ 2 ≅
89
3. (Ejercicio 5 (a), relación tema 5) La tabla anexa muestra el número de nacimientos y la
tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años
seleccionados sistemáticamente.
Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad
1955 2.073.719
1.973.576
4.047.295
26,0
1960 2.179.708
2.078.142
4.257.850
23,7
1965 1.927.054
1.833.304
3.760.358
19,4
1970 1.915.378
1.816.008
3.731.386
18,4
1975 1.613.135
1.531.063
3.144.198
14,6
1980 1.852.616
1.759.642
3.612.258
15,9
Estime el número medio de varones nacidos por año para el periodo 1955-1980, y
establezca un límite para el error de estimación.
SOLUCIÓN
1 n
1
µˆ = ysy = ∑ yi = 11.561.610 = 1.926.935
6
n i =1
S2  N −n
Vˆ ( y sy ) =


n  N 
↓ N = 26 años
↓ S 2 = 37.913.412.871,20
Vˆ ( y sy ) = 4.860.693.957,85
B = 139.437,35
4. (Como ejercicio 1, relación tema 5) La sección de control de calidad de una empresa usa el
muestreo sistemático para estimar la cantidad media de llenado en latas de 33cl que salen
de una línea de producción. Los datos de la tabla adjunta representan una muestra
sistemática 1 en 300 de una producción diaria de 1800 latas.
Cantidad de llenado en cl
33 32,5 33,5 33 32 31
Determine el tamaño de la muestra y k para estimar el contenido medio de las latas con un
error de estimación inferior a 0,42 cl, considerando la muestra anterior como una muestra
previa para estimar los parámetros necesarios.
SOLUCIÓN:
N=1800, n’=6,
(con las funciones del modo SD de la calculadora ) : S n2'−1 = 0,8
D=
90
B2
= 0, 0441
4
n=
Nσ 2
= 17,97 ≈ 18
( N − 1) D + σ 2
k=
σ 2 = Sn2'−1
1800
= 100
18
5. (Ejercicio 9, relación tema 5) Los funcionarios de cierta sociedad profesional desean
determinar la proporción de miembros que apoyan varias enmiendas propuestas en las
prácticas de arbitraje. Los funcionarios tomaron una muestra sistemática de 1 en 10, a
partir de una lista en orden alfabético de los 650 miembros registrados, obteniendo que 47
estaban a favor de los cambios propuestos. Se quiere repetir el estudio anterior con un
error de estimación inferior al 5%. Considerando la muestra anterior como una muestra
previa para estimar los parámetros necesarios, ¿qué tipo de muestra sistemática deberá
obtenerse? (indique n y k).
SOLUCIÓN:
N=650, n’=65, p =
B = 0, 05
n=
47
= 0, 7231
65
qɵ = 1 − 0, 7231 = 0, 2769
B2
D=
= 0, 000625
4
Npq
= 214,8 ≈ 215
( N − 1) D + pq
k≤
650
= 3, 02
215
k =3
91
6. Muestreo por conglomerados.
6.1
6.2
6.3
6.4
Necesidad y ventajas del muestreo por conglomerados.
Formación de los conglomerados. Conglomerados y estratos.
Estimación de la media, proporción y total poblacionales.
Determinación del tamaño muestral.
6.1 Necesidad y ventajas del muestreo por conglomerados.
Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo
es una colección (o conglomerado) de elementos.
El muestreo por conglomerados es útil para obtener información en las siguientes situaciones:
Es complicado disponer de una lista de los elementos de la población, mientras que es
fácil lograr un marco que liste los conglomerados. (Alumnos que asisten a clase =
elemento,
aulas = conglomerados)
El coste de obtención de las observaciones es menor debido al agrupamiento de los
elementos.
6.2 Formación de los conglomerados. Conglomerados y estratos.
Lo primero que debemos hacer es especificar los conglomerados apropiados. Si los elementos
dentro de un conglomerado presentan características similares, entonces tomar muchas
observaciones dentro de un conglomerado sería un trabajo no productivo. Sin embargo, si los
elementos de un conglomerado son diferentes entre sí, una muestra con pocos conglomerados
recogería gran cantidad de información sobre un parámetro poblacional.
Nótese que los estratos deben ser tan homogéneos como sea posible, pero un estrato debe
diferir tanto como se pueda de otro con respecto a la característica que está siendo medida.
Los conglomerados, por otro lado, deben ser tan heterogéneos dentro de ellos como sea
posible y un conglomerado debe ser muy similar a otro para que el muestreo por
conglomerados esté indicado.
Una vez especificados los conglomerados, se selecciona una muestra aleatoria simple de
conglomerados.
6.3 Estimación de la media, proporción y total poblacionales.
Vamos a utilizar la siguiente notación:
N = conglomerados en la población.
n = conglomerados en la muestra.
92
mi = elementos en el conglomerado i
yi = suma de las observaciones en el conglomerado i
N
M = ∑ mi = elementos en la población (con frecuencia es desconocido)
i =1
n
m = ∑ mi = elementos en la muestra
i =1
1 N
∑ mi = tamaño medio de los conglomerados de la población (con frecuencia es
N i =1
desconocido).
1 n
m = ∑ mi = tamaño medio de los conglomerados de la muestra (se
n i =1
M=
utililza para estimar M .
(A) Estimación de la media.
El estimador de la media poblacional µ es la media y ,
n
1 n
µ = y = ∑ yi =
m i =1
∑y
i =1
n
i
∑m
i =1
i
La media y tiene la forma de un estimador de razón, por lo que la varianza estimada de y
toma la forma de la varianza de un estimador de razón.
V ( y) =
1 N − n S c2
2
N n
M
donde Sc2 =
(
1 n
∑ yi − ymi
n − 1 i =1
)
2
( M puede ser estimado por m , si se desconoce)
La varianza estimada es sesgada y sería un buen estimador de V ( y ) si n es grande ( n ≥ 20 ).
El
sesgo
desaparece
cuando
los
tamaños
de
los
conglomerados
son
iguales
( m1 = m2 = ... = mN )
Notas:
• La expresión de V ( y ) =
1 N − n S c2
no se suele simplificar pues como ocurre en el
2
N n
M
ejercicio 4, relación del tema 6, a veces N no se conoce y en otras ocasiones como en
este último ejemplo porque M es desconocido y M debe ser estimada por m .
93
• Si la variable que estamos estudiando es dicotómica, hablaremos de la proporción
poblacional p y de la proporción muestral p . En este caso al número total de elementos
en el conglomerado i que poseen la característica de interés se nota como ai en lugar de
yi como es habitual en variables numéricas. Así tendremos que
n
p=y=
∑a
i =1
n
i
∑m
i =1
i
Salvo esta diferencia en la notación, todo lo anteriormente expuesto para variables
numéricas es válido para variables dicotómicas.
(B) Estimación del total.
De la relación entre la media y el total poblacional µ =
τ
M
se sigue que τ = M µ , siendo el
estimador del total poblacional τ
τɵ = M y
y la varianza estimada del mismo
2
S
V (τɵ ) = M 2 V ( y ) = N ( N − n) c
n
(sea cual sea el valor de M no afecta a la varianza ni al error del estimador, aunque sí al valor
del estimador del total)
(C) Estimación del total cuando se desconoce el tamaño de la población.
Frecuentemente el número de elementos en la población no es conocido en problemas donde
se aplica el muestreo por conglomerados. En ese caso no podemos utilizar el estimador del
total τɵ = M y , debemos construir un estimador del total que no dependa de M . La cantidad
yt =
1 n
∑ yi , es el promedio de los totales de los conglomerados de la muestra y por tanto un
n i =1
estimador insesgado del promedio de los N totales de los conglomerados de la población. Por
el mismo razonamiento empleado en el muestreo aleatorio simple, N y t es un estimador
insesgado de la suma de los totales de todos los conglomerados, o equivalentemente del total
poblacional τ .
94
En resumen
τɵ t = N y t
2
S
V (τɵ t ) = N 2 V ( y t ) = N ( N − n) t
n
N − n St2
1 n
, St2 =
donde V ( y t ) =
∑ yi − y t
N n
n − 1 i =1
(
)
2
Si existe una gran variación entre los tamaños de los conglomerados y además los tamaños
están altamente correlacionados con los totales de los conglomerados, la varianza de N y t es
generalmente mayor que la varianza de M y . Esto es debido a que el estimador N y t no usa la
información proporcionada por los tamaños de los conglomerados y por ello puede ser menos
preciso.
Cuando los tamaños de los conglomerados son iguales los dos estimadores del total coinciden,
además el estimador de la media, y , es un estimador insesgado de la media poblacional, µ , y
también es insesgado el estimador de su varianza, V ( y ) (lo mismo se extiende al total).
Ejemplo 6.1 (como ejercicio 13, relación tema 6, pero con menos datos) En una ciudad se
quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital,
para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una
muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en
contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla:
Manzana Nº hogares en la manzana Nº hogares interesados
1
8
2
2
7
2
3
9
3
4
6
3
5
5
3
a) Estime la proporción de hogares interesados en contratar el sistema de televisión
digital. Calcule el límite para el error de estimación.
b) Con un intervalo de confianza estime el número de hogares interesados en
contratar dicho sistema.
c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es
1500.
95
SOLUCIÓN
Aunque en un caso de variables dicotómicas como éste se suele usar en los textos la
notación ai en lugar de yi , utilizaremos esta última para unificar la notación a emplear en el
muestreo por conglomerados
mi
yi
mi2
yi2
mi yi
8
7
9
6
5
35
2
2
3
3
3
13
64
49
81
36
25
255
4
4
9
9
9
35
16
14
27
18
15
90
n
p=y=
a)
∑y
i =1
n
i
=
∑m
∑ ( y − ym ) = ∑ y
n
2
i
i =1
i
i =1
n
− 2 y ∑ yi mi + y
i =1
(
1 n
∑ yi − ymi
n − 1 i =1
2
i =1
∑ mi2 = 255
i =1
Sc2 =
n
2
i
n
∑ yi2 = 35
p = 37,14%
i
i =1
n
13
= 0,3714
35
)
2
=
n
∑m
i =1
n
∑ym
i
i =1
i
2
i
= 3,3222
= 90
3, 3222
= 0,8306
4
Ya que M es desconocido, M debe ser estimada por m
m=
1 n
35
mi =
= 7 hogares / manzana
∑
5
n i =1
V ( y) =
1 N − n S c2
= 0, 003305
2
m N n
yt =
b)
1 n
13
yi = = 2, 6
∑
n i =1
5
∑ (y − y )
n
S =
2
t
i =1
i
t
n −1
2
2 V ( y ) = 0,115
11,5%
τɵ t = N y t = 520
2
1 n

y
−
yi 
∑
∑

n  i =1 
= i =1
= 0, 3
n −1
n
2
i
N ( N − n) St2
V (τɵ t ) =
= 2.340
n
( 423, 25 , 616, 75)
2 V (τɵ t ) = 96, 75
c)
τɵ = M y = 557,14
96
M=
1500
= 7,5
200
V ( y) =
1 N − n Sc2
= 0, 0028795
2
N n
M
V (τɵ ) = M 2 V ( y ) = 6478,8
2 V (τɵ ) = 160,98
( 396,16 , 718,12 )
Como puede observarse, el límite para el error de estimación es más pequeño en b) que en c),
debido a que los tamaños de los conglomerados no están altamente correlacionados con los
totales de los conglomerados en este ejemplo ( rmy2 = 0, 08 ). En otras palabras, los tamaños de
los conglomerados proporcionan poca información referente a los totales de los
conglomerados.
6.4 Determinación del tamaño muestral.
Supongamos que los conglomerados ya están formados y vamos a seleccionar el número de
conglomerados n para conseguir un determinado límite para el error de estimación B
Nσ c2
n=
ND + σ c2
donde σ c2 se estima mediante Sc2 =
B2 M
D=
4
(
1 n
∑ yi − ymi
n − 1 i =1
2
para la estimación de la media y D =
)
2
de una muestra previa, siendo
B2
para la estimación del total.
4N 2
Habitualmente el tamaño promedio de los conglomerados de la población M no se conoce y
tiene que estimarse por el tamaño medio m de los conglomerados de una muestra previa.
Cuando se utiliza N y t para estimar el total, el número de conglomerados en la muestra para
obtener un determinado límite para el error de estimación B viene dado por
n=
D=
Nσ t2
ND + σ t2
(
B2
1 n
2
2
y
σ
se
estima
mediante
S
=
∑ yi − y t
t
t
4N 2
n − 1 i =1
2
)
2
de una estimación del rango de los valores de yi como σ t =
de una muestra previa (o a partir
R2
).
16
Ejemplo 6.2 Suponiendo que los datos del ejemplo 6.1 representan una muestra previa, cómo
debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un
límite para el error de estimación del 1%.
97
SOLUCIÓN
2
B2 M
0, 012 × 7 2
D=
=
= 0, 001225
4
4
1 n
35
M ≅ m = ∑ mi =
=7
n i =1
5
S = 0,8306
2
c
n=
Nσ c2
= 154, 4 ≈ 155
ND + σ c2
EJERCICIOS RESUELTOS
1. (Ejercicio 6, relación tema 6) Con motivo del cuarto centenario del Quijote, el Ministerio
de Cultura desea estimar el número de libros comprados cada mes en una localidad. Se
selecciona una localidad con 6.200 hogares agrupados en 700 manzanas de viviendas. Se
tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se
entrevistaron a todas las familias, obteniéndose los siguientes resultados:
manzana libros comprados cada mes por familia
1
1 2 1 0 3 2 1 0 1 2
2
1 0 2 2 0 0 1 3
3
2 1 1 1 1 0 2 1 2 2 2
4
1 1 0 2 1 0 3
Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva
muestra si se quiere estimar los libros comprados cada mes con un error de estimación
inferior a 140 unidades.
SOLUCIÓN
mi
yi
10
8
11
7
36
13
9
15
8
45
mi2
yi2 mi yi
100 169
130
64 81
72
121 225
165
49 64
56
334 539
423
n
M = 6.200 N = 700
y=
∑y
i =1
n
∑m
i =1
σ c2 ≅ Sc2 =
(
1 n
∑ yi − ymi
n − 1 i =1
)
n=
98
2
=
i
= 1, 25 D =
B2
= 0, 01
4N 2
i
n
n
2
1  n 2

2
y
+
y
m
−
2
y
mi yi  = 1,125
∑
∑
∑
i
i

n − 1  i =1
i =1
i =1

Nσ c2
= 96,92 ≈ 97
ND + σ c2
2.
(Ejercicio 2, relación tema 6 pero con menos datos) Una industria está considerando la
revisión de su política de jubilación y quiere estimar la proporción de empleados que
apoyan la nueva política. La industria consta de 57 plantas. Se selecciona una muestra
aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas
a través de un cuestionario. Los resultados se presentan en esta tabla:
Planta Nº empleados Nº empleados que apoyan la nueva política
1
51
42
2
62
53
3
49
40
4
73
45
5
101
63
a. Estime la proporción de empleados en la industria que apoyan la nueva política de
jubilación y establezca un límite para el error de estimación.
b. La industria modificó su política de jubilación después de obtener los resultados de la
encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política
modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 5% para el
error de estimación? Use los datos anteriores para aproximar los resultados de la nueva
encuesta.
SOLUCIÓN:
n=5
a) N = 57
mi
yi
51
62
49
73
101
336
42
53
40
45
63
243
mi2
2601
3844
2401
5329
10201
24376
yi2
1764
2809
1600
2025
3969
12167
mi yi
2142
3286
1960
3285
6363
17036
n
p=
∑y
i =1
n
∑m
i =1
Sc2 =
(
1 n
∑ yi − pmi
n − 1 i =1
)
2
=
i
=
243
= 0, 7232 ⇒ p = 72,32%
336
i
n
2 n
1  n 2

y
−
2
p
y
m
+
p
mi2  = 68, 7
∑
∑
∑
i
i i

n − 1  i =1
i =1
i =1

2
 336 
M ≈m =
 = 4515,84
 5 
1 N − n Sc2
V ( p) = 2
= 0, 00278
N n
M
b)
2
2
2 V ( p) = 0,1054 ⇒ 10,54%
2
B2 M
0, 052 × 4515,84
D=
=
= 2,8224
4
4
σ ≈S
2
c
2
c
Nσ c2
= 17, 06 ≈ 18
n=
ND + σ c2
99
3. (Ejercicio 7, relación tema 6) Un sociólogo quiere estimar el ingreso medio por persona en
cierta ciudad pequeña donde no existe una lista disponible de adultos residentes. Por esta
razón para el diseño de la encuesta utiliza muestreo por conglomerados. Se divide la
ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser
considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El
investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25
conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan
aleatoriamente 25 conglomerados y se realizan las entrevistas, obteniéndose estos datos:
Conglomerado (i) Nº de residentes (mi)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
8
12
4
5
6
6
7
5
8
3
2
6
5
10
9
3
6
5
5
4
6
8
7
3
8
151 residentes
Ingreso total por
conglomerado en € (yi)
96000
121000
42000
65000
52000
40000
75000
65000
45000
50000
85000
43000
54000
49000
53000
50000
32000
22000
45000
37000
51000
30000
39000
47000
41000
1329000 €
a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de
estimación.
b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de
estimación, suponiendo que M es desconocido.
c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de todos los
residentes de la ciudad mediante un intervalo de confianza.
100
NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 6 ∀i ,
supongamos conocido M = 6 × 415 = 2.490 ) y estime el total por los dos métodos
(
)
estudiados τɵ = M y τɵ t = N y t . Observe como coinciden las dos estimaciones así como
la varianza del estimador y el límite para el error de estimación.
d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la muestra en
una encuesta futura para estimar el ingreso promedio por persona con un límite para el
error de estimación de 500€.
SOLUCIÓN:
a) (este ejemplo no se puede resolver con una calculadora de 10 dígitos de forma exacta
por la dificultad de trabajar con cantidades muy grandes)
n
µ=y=
∑y
i =1
n
∑m
i =1
∑ ( y − ym ) = ∑ y
n
2
i
i =1
n
∑y
i =1
n
2
i
i =1
i =1
2
i
=
1.329.000
= 8.801,32 € / residente
151
i
n
− 2 y ∑ yi mi + y
i =1
2
n
∑m
i =1
2
i
= 96.000 2 + ... = 82.039.000.000
2
i
∑m
i
n
i
= 82 + ... = 1.047
n
∑ y m = ( 96.000 × 8) + ... = 8.403.000
i =1
i
Sc2 =
i
(
1 n
∑ yi − ymi
n − 1 i =1
)
2
=
15.227.502.247
= 634.501.213, 40
24
Ya que M es desconocido, M debe ser estimada por m
m=
1 n
151
mi =
= 6, 04 residente / bloque
∑
n i =1
25
V ( y) =
1 N − n Sc2
= 653.785,19
2
N n
M
2 V ( y ) = 1.617,14€
b)
yt =
1 n
1.329.000
yi =
= 53160 € / bloque
∑
n i =1
25
τɵ t = N y t = 22.061.400 €
101
∑ (y − y )
n
i =1
i
2
t
2
1 n
1

= ∑ y −  ∑ yi  = 82.039.000.000 − (1.329.000) 2 = 11.389.360.000
25
n  i =1 
i =1
n
2
i
(y − y )
N ( N − n) ∑
n
V (τɵ t ) =
i =1
n
i
2
t
n −1
2 V (τɵ t ) = 3.505.584, 04 €
= 3.072.279.860.000
c)
N = 415
n = 25
M=
2500
= 6, 0241
415
Sc2 = 634.501.213, 40
V ( y) =
τɵ = M y = 22.003.311, 26€
1 N − n S c2
= 657.240,9482
2
N n
M
V (τɵ ) = M 2 V ( y ) = 4.107.755.926.250
2 V (τɵ ) = 4.053.519,92
(17.949.791,34€ , 26.056.831,18€ )
Como puede observarse el límite para el error de estimación es más pequeño en b) que en
c) debido a que los tamaños de los conglomerados no están altamente correlacionados con
los totales de los conglomerados en este ejemplo ( rmy2 = 0, 0919 ). En otras palabras, los
tamaños de los conglomerados proporcionan poca información referente a los totales de
los conglomerados.
d)
2
S = 634.501.213, 40
2
c
B2 M
5002 × 6, 04 2
D=
=
= 2.280.100
4
4
Nσ c2
= 166,58 ≈ 167
n=
ND + σ c2
4. (Ejercicio 10, relación tema 6) Una empresa de trabajo temporal quiere investigar las
necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una
muestra de 10 de las 85 inscritas en el registro mercantil. El número de bajas en el último
año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los
servicios de la empresa de trabajo temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1
1
7
Si
2
2
15
No
3
9
85
Si
4
0
3
No
5
2
12
No
6
0
8
No
7
1
21
Si
8
0
4
No
9
4
35
No
10
6
92
Si
102
(a) Estime el número de bajas en el último año en las empresas del pueblo. Dé el límite
del error de estimación.
(b) Estime la proporción de empresas que usarían los servicios ofertados. Dé el límite del
error de estimación.
SOLUCIÓN:
a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde
no se conoce el número total de empleados para toda la población, por tanto para estimar
el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales
las empresas.
(y − y )
yi
i
1
2
9
0
2
0
1
0
4
6
25
2
t
2.25
0.25
42.25
6.25
0.25
6.25
2.25
6.25
2.25
12.25
80.5
τɵ t = 85 × 2.5 = 212.5 bajas
25
= 2.5 bajas / empresa
10
⌢
⌢
80.5
 85 − 10  8.94
2
2
ɵ
St =
= 8.94 ⇒ V ( y t ) = 
 10 = 0.7892157 ⇒ V (τ t ) = 85 V ( y t ) = 5702.08
9
85


yt =
Bτ = 2 5702.08 = 151.024 bajas
b)
p=
V ( p) =
4
= 0.40 (40%)
10
85 − 10 0.4 × 0.6
= 0.02353
85
10 − 1
B = 2 0.02353 = 0.3068 (30.68%)
5. (Como ejercicio 3, relación tema 6) Se diseña una encuesta económica para estimar la
cantidad media gastada en servicios por hogar de una ciudad formada por 3.600 hogares.
Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60. Los
entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados;
los gastos totales se muestran en esta tabla:
Barrio Nº hogares Cantidad total gastada en servicios (€)
1
55
2210
2
60
2390
3
63
2430
103
Estime la cantidad media de gastos en servicios por hogar en la ciudad y el límite para el
error de estimación.
SOLUCIÓN:
mi yi
121550
143400
153090
n
∑m y
i =1
N = 60
n=3
n
i =1
i
= 418040
i
n
3600
= 60
60
M=
∑y
i
∑ mi = 178
i =1
n
∑y
= 7030
i =1
n
∑m
2
i
= 10594
i =1
= 16501100
2
i
n
y=µ=
∑y
i =1
n
∑m
i =1
Sc =
2
(
1 n
∑ yi − ymi
n − 1 i =1
)
2
=
i
= 39, 49 €
i
n
n
2
1  n 2
2
y
+
y
m
−
2
y
mi yi
∑ i ∑
∑
i
n − 1  i =1
i =1
i =1

 = 2612,04

1 N − n Sc2
= 0, 23
2 V ( y ) = 0,96 €
2
N n
M
6. (Como ejercicio 4, relación del tema 6) En un proceso de control del volumen envasado
V ( y) =
por una fábrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora, cada uno
de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las
observaciones se presentan en la tabla adjunta:
Paquete nº Volumen envasado en cl
1
33,5 32,5 31 34
2
32,5 32
33 32,5
3
30,5 33
33 33,5
Estime el volumen medio de los envases y la cota del error de estimación.
SOLUCIÓN:
N=40, n=3,
mi
4
4
4
yi
131
130
130
mi yi
524
520
520
3
∑m y
i
i =1
(con las funciones del modo SD de la calculadora ) :
M =m=4
3
∑m
i =1
104
i
= 12
3
∑m
i =1
2
i
= 48
i
= 1564
3
3
∑ yi = 391
y t = 130,33
∑y
i =1
2
i
i =1
= 50961
3
y=µ=
∑y
i =1
3
2
=
∑m
i =1
Sc =
i
yt
= 32,5833 cl
m
i
(
1 3
∑ yi − ymi
n − 1 i =1
)
2
=
3
3
2
1  3 2
2
y
+
y
m
−
2
y
mi yi
∑ i
∑
∑
i
n − 1  i =1
i =1
i =1
1 N − n Sc2
V ( y) = 2
= 0, 006423
N n
M

 = 0,3333

2 V ( y ) = 0,1603 cl
7. (Como ejercicio 1, relación del tema 6) Un fabricante de sierras quiere estimar el coste
medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El
fabricante no puede obtener un coste de reparación para cada sierra, pero puede obtener la
cantidad total gastada en reparación y el número de sierras que tiene cada industria.
Entonces decide usar muestreo por conglomerados, con cada industria como un
conglomerado. El fabricante selecciona una muestra aleatoria simple de 5 de 100
industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y
el número de sierras son:
Industria Nº sierras Costo total de reparación
para el mes pasado (€)
1
3
50
2
7
110
3
11
230
4
9
140
5
2
60
Estime el coste medio de reparación por sierra para el mes pasado y el límite para el error
de estimación.
SOLUCIÓN: N=100, n=5,
mi yi
150
770
2530
1260
120
n
∑m y
i =1
i
i
= 4830
(con las funciones del modo SD de la calculadora ) :
M = m = 6, 4
n
∑ mi = 32
i =1
n
∑m
i =1
2
i
= 264
105
n
n
∑ yi = 590
y t = 118
∑y
i =1
2
i
i =1
= 90700
5
y=µ=
∑y
i =1
5
2
=
∑m
i =1
Sc =
i
yt
= 18, 4375 €
m
i
(
1 n
∑ yi − ymi
n − 1 i =1
)
2
=
n
n
2
1  n 2
2
y
+
y
m
−
2
y
mi yi
∑ i ∑
∑
i
n − 1  i =1
i =1
i =1
1 N − n Sc2
V ( y) = 2
= 2, 7116
N n
M

 = 584, 57

2 V ( y ) = 3, 2934 €
8. (Como ejercicio 5, relación del tema 6) Un periódico quiere estimar la proporción de
votantes que apoyan a cierto candidato A, en una elección estatal. Ya que la selección y
entrevista de una muestra aleatoria simple de votantes registrados es muy costosa, se
utiliza muestreo por conglomerados, con distritos como conglomerados. Se selecciona una
muestra aleatoria de 5 distritos de un total de 495 que tiene el estado. El periódico quiere
hacer la estimación el día de la elección, pero antes de que se haya hecho la cuenta final de
los votos. Es por eso que los reporteros son enviados a los lugares de votación de cada
distrito en la muestra, para obtener la información pertinente directamente de los votantes.
Los resultados se muestran en esta tabla:
Nº votantes Nº votantes A
1290
680
1170
631
840
475
1620
935
1381
472
Estime la proporción de votantes que apoyan al candidato A y el límite para el error de
estimación.
SOLUCIÓN:
N=495, n=5,
mi yi
877200
738270
399000
1514700
651832
n
∑m y
i =1
106
i
i
= 4181002
(con las funciones del modo SD de la calculadora ) :
n
∑ mi = 6301
M = m = 1260, 2
i =1
n
∑y
y t = 638, 6
i =1
i
= 3193
n
∑m
i =1
n
∑y
i =1
= 8270161
2
i
2
i
= 2183195
5
p=µ=
∑y
i =1
5
∑m
i =1
Sc =
2
i
=
yt
= 0,506745
m
i
(
1 n
∑ yi − ymi
n − 1 i =1
V ( p) =
( 50, 67% )
)
2
=
n
n
2
1  n 2
2
y
+
y
m
−
2
y
mi yi
∑ i ∑
∑
i
n − 1  i =1
i =1
i =1
1 N − n Sc2
= 0, 00216573
2
N n
M
2 V ( y ) = 0, 0930748

 = 17372,505

( 9,31% )
107
7. Estimación del tamaño de la población.
7.1 Muestreo directo.
7.2 Muestreo inverso.
7.3 Muestreo por cuadros.
7.3.1 Estimación de la densidad y tamaño de la población.
7.3.2 Muestreo por cuadros en el espacio temporal.
7.3.3 Cuadros cargados.
7.1 Estimación del tamaño de la población usando muestreo directo
En el muestreo directo se realizan los siguientes pasos:
1. Se selecciona una muestra aleatoria de tamaño t , se marcan y se devuelven a la
población.
2. Posteriormente se selecciona una muestra aleatoria de tamaño n (tamaño fijado de
antemano) de la misma población y se observa cuántos de ellos están marcados
( s =número de elementos marcados en esta 2ª muestra)
Sea p = proporción de elementos marcados en la población, p =
t
t
, N=
, pero p es
N
p
desconocido. Entonces estimamos p mediante la proporción muestral:
pˆ =
s
= proporción de elementos marcados en la 2ª muestra
n
Por tanto,
•
ESTIMADOR DE N :
t
t
nt
Nˆ = =
=
pˆ s / n s
•
VARIANZA ESTIMADA DE N̂ :
t 2 n(n − s )
Vˆ Nˆ =
s3
 n, t = constantes 


 s = aleatoria

( )
Comentarios
s = número de elementos marcados en la 2ª muestra, ha de ser mayor que 0 para que
las fórmulas estén bien definidas. Si en la segunda muestra no aparece ningún
elemento marcado, se aumenta el tamaño muestral.
N̂ no es un estimador insesgado de N :
[ ]
(N − t)
≠N
E Nˆ = N + N
nt
Cuanto mayor sean n y t menor será el sesgo N
108
(N − t)
.
nt
N̂ tiende a sobreestimar el valor real de N .
Ejemplo 7.1 (Ejercicio 1, relación tema 7)
Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un
periodo de varios días se atrapan 100 truchas, se marcan y se devuelven al arroyo. Obsérvese
que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado que ya hubiera
sido marcado se devolvía inmediatamente. Varias semanas después se atrapó una muestra de
120 peces y se observó el número de peces marcados. Supongamos que este número fue de 27
en la segunda muestra. Estime el tamaño total de la población de truchas y dé un límite de
error de estimación.
Solución
nt 120 × 100
Nˆ = =
= 444, 4
s
27
t 2 n(n − s ) 100 2 × 120(120 − 27)
ˆ
ˆ
V N =
=
= 5.669,87
s3
273
( )
( )
B = 2 Vˆ Nˆ = 150, 60
7.2 Estimación del tamaño de la población usando muestreo inverso
La diferencia con el muestreo directo es que aquí el tamaño de la segunda muestra no está
fijado (es aleatorio), lo que se fija es s = número de elementos marcados en la segunda
muestra.
Los pasos para realizar este método son:
1. Se selecciona una muestra inicial de t elementos, se marcan y se devuelven a la
población.
2. Se selecciona una segunda muestra aleatoria hasta que se obtienen s elementos
marcados (sea n el tamaño final de dicha muestra).
•
ESTIMADOR DE N :
t
t
nt
Nˆ = =
=
pˆ s / n s
•
VARIANZA ESTIMADA DE N̂ :
t 2 n( n − s )
Vˆ Nˆ = 2
s ( s + 1)
 t , s = constantes 


 n = aleatoria 
( )
Comentario. N̂ es un estimador insesgado de N , por ello, si se pueden aplicar ambos tipos
de muestreo se prefiere el inverso.
109
Ejemplo 7.2 (Ejercicio 5, relación tema 7)
Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área
geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una
muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y
liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta
que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas para obtener las 15 marcadas.
Estime el tamaño total de la población de tortugas y establezca un límite de error de
estimación.
Solución
nt 160 × 100
Nˆ = =
= 1.066, 67
s
15
t 2 n(n − s ) 1002 × 160(160 − 15)
ˆ
ˆ
V N = 2
=
= 64.444, 44
s ( s + 1)
152 (15 + 1)
( )
( )
B = 2 Vˆ Nˆ = 507, 72
7.3.1 Estimación de la densidad y del tamaño de la población usando muestreo por
cuadros
Con este método se estudia el tamaño de la población contenida en un área delimitada A
conocida. Los pasos a seguir son:
1. Dividir a la población en N cuadros de igual área a . Sea
mi = número de elementos en el cuadro i -ésimo
2. Tomar una muestra de n cuadros entre los N existentes. Se observa el número total
de elementos que contiene la muestra:
n
m = ∑ mi
i =1
3. Calcular la densidad de elementos en la muestra (densidad muestral):
λ̂ =
nº elementos en la muestra m
=
área de la muestra
na
4. La densidad poblacional es
λ=
nº elementos en la población M M
=
=
área de la población
Na A
entonces M = Aλ . Por tanto:
•
110
ESTIMADOR DE LA DENSIDAD:
λ̂ =
m
na
•
VARIANZA ESTIMADA DE λ̂ :
m
1
Vˆ (λˆ ) = 2 2 = λˆ
na
a n
•
ESTIMADOR DEL TAMAÑO POBLACIONAL:
m Nm
Mˆ = Aλˆ = A
=
na
n
•
VARIANZA ESTIMADA DE M̂ :
A2 m N 2 m
Vˆ ( Mˆ ) = A2Vˆ (λˆ ) = 2 2 = 2
an
n
Ejemplo 7.3 (Ejercicio 3, práctica 7)
La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en
torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con este dato se puede
conocer la cuantía de medios materiales y humanos (policía, protección civil, personal
sanitario, etc.) necesaria para atender futuras concentraciones. Para estimar el número de
aficionados se toma una fotografía aérea de la zona ocupada por éstos, tras lo cual se traza
sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada
uno. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por
último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados,
obteniéndose los resultados de la tabla:
Nº del cuadro
Número de aficionados
en el cuadro
Nº del cuadro
Número de aficionados
en el cuadro
1
193
11
160
2
216
12
220
3
250
13
163
4
163
14
306
5
209
15
319
6
195
16
289
7
232
17
205
8
174
18
210
9
215
19
209
10
198
20
198
a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo
de confianza.
b) Estime el número total de aficionados concentrados en la plaza de Neptuno y
obtenga su intervalo de confianza.
111
Solución:
a) a = 10 ×10 = 100
λˆ =
m
4324
=
= 2,162
na 20 × 100
λˆ 2,162
Vˆ (λˆ ) =
=
= 0, 001081 ⇒ B = 2 0, 001081 = 0, 066
na 2000
λɵ = 2,162 aficionados m 2
(2, 096 , 2, 228)
b) A = 300 × 100 = 30.000 m 2
Mˆ = Aλˆ = 30.000 × 2,162 = 64.860 aficionados
B = ABλ = 30.000 × 0, 066 = 1.980
(62.880 , 66.840)
7.3.2 Muestreo en el espacio temporal
En determinadas ocasiones podemos tomar los cuadros como intervalos temporales. Veámoslo
con un ejemplo.
Ejemplo 7.4 (Ejercicio 7, relación tema 7)
Se desea estimar el número total de personas que diariamente solicitan información en una
oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos de
5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la
oficina. Estime el total de personas que visitan la oficina diariamente y calcule la cota del
error de estimación.
Solución
A = 8 horas= 480 minutos
λɵ =
n =12 intervalos
114
= 1,9 personas / minuto
5 ×12
a = 5 minutos
m =114 personas
m
Mˆ = A
= 912 personas
na
A2 m
Vˆ ( Mˆ ) = 2 2 = 7.296 ⇒ B = 170,8
an
7.3.3 Cuadros cargados
En este tipo de muestreo también se divide a la población en cuadros, pero el método se utiliza
cuando después de hecha la división son muchos los cuadros que no contienen elementos y
otros contienen pocos, es decir, la densidad de elementos por unidad de superficie es muy
pequeña.
Este tipo de muestreo se basa en la identificación de la presencia o ausencia de elementos en
cada uno de los cuadros de la muestra. Un cuadro se dice cargado cuando contiene al menos
un elemento objeto de estudio.
112
Los pasos a seguir son:
1. Se divide a la población en N cuadros de igual área a .
2. Se toma una muestra de n cuadros entre los N existentes. Se observa el número total
de cuadros no cargados de la muestra, a este número de cuadros sin presencia de
elementos se le designa por y . Es importante tener en cuenta que y no puede ser cero
ni n ( 0 < y < n ). Si una vez observada la muestra y = 0 ó y = n , ampliaremos el
tamaño muestral
3. La densidad poblacional se estima como
1
 y
λˆ = − ln  
a n
y su varianza como
1 n− y
Vˆ (λˆ ) = 2
a ny
Dado que M = Aλ obtenemos
•
ESTIMADOR DEL TAMAÑO POBLACIONAL:
A  y
Mˆ = Aλˆ = − ln 
a n
•
VARIANZA ESTIMADA DE M̂ :
A2 n − y
Vˆ ( Mˆ ) = 2
a ny
Ejemplo 7.5 (Ejercicio 4, práctica 7)
Se desea estimar el número total de autobuses que, entre las 6 y las 24 horas del domingo,
circulan por un determinado punto kilométrico de una carretera. La observación se realiza
mediante 40 intervalos, de 10 minutos cada uno, repartidos a lo largo del periodo en estudio.
En 18 ocasiones, de las cuarenta que se estableció el control, no circuló por el punto en
cuestión ningún autobús. Estimar el número total de autobuses que circularon entre las 6 y las
24 horas. Dar un límite de error de estimación.
Solución
A = 24-6=18 horas=1.080 minutos
y =18 intervalos sin autobuses
n = 40 intervalos
a =10 minutos
A  y
1.080  18 
Mˆ = − ln   = −
ln   = 86, 24
a n
10
 40 
A2 n − y 1.0802 40 − 18
Vˆ ( M ) = 2
=
= 356, 4 ⇒ B = 37,8
a ny
102 40 ⋅18
113
EJERCICIOS RESUELTOS
1. (Ejercicio 6, relación tema 7) En una plantación de pinos de 200 acres, se va a estimar la
densidad de árboles que presentan hongos parásitos. Se toma una muestra de 10 cuadros
de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 árboles
infectados por cuadro.
a) Estime la densidad de árboles infectados y establezca un límite de error de
estimación.
b) Estime el total de árboles infectados en los 200 acres de la plantación y
establezca un límite de error de estimación.
SOLUCIÓN:
m 2,8 × 10
a) λˆ =
=
= 5, 6 arb. infectados / acre ;
na 10 × 0,5
1
1
Vˆ (λˆ ) = λˆ
= 5, 6
= 1,12 ⇒ B = 2,1
na
10 × 0,5
b) Mˆ = Aλˆ = 200 × 5, 6 = 1.120;
B = ABλ = 200 × 2,1 = 423,32
2. (Como ejercicio 12, relación tema 7) Se desea estimar el número de vehículos de un
modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real.
Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de
duración cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes
resultados:
Número de vehículos de ese
modelo que usan el
aparcamiento
1
0
2
1
3
2
4
0
5
3
Estime el número total de vehículos del modelo en estudio que utilizaron el aparcamiento.
Control
Dé el límite del error de estimación.
SOLUCIÓN:
A = 720 h a = 1 h n = 5 contr. m = 0 + 1 + 2 + 0 + 3 = 6 veh. m =
M = λɵ A = 1.2 × 720 = 864 veh.
114
6
m
= 1.2 λɵ = = 1.2 veh./ h
5
a
( )
V M =
A2 λɵ
= 124416
an
B = 2 124416 = 705.45 veh.
3. (Como ejercicio 9, relación tema 7) El hermano de un alumno de T.A.M. está pensando en
abrir una farmacia de 24 horas. Para saber si los ingresos compensarían los gastos de esta
inversión deciden observar un establecimiento similar. Este asiduo alumno de T.A.M.
conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de
clientes las 24 horas del día por lo que decide observar la afluencia de clientes en distintos
periodos de igual duración, obteniendo los datos de la siguiente tabla
clientes
10:00-10:30
15
14:00-14:30
13
18:00-18:30
18
22:00-22:30
8
02:00-02:30
2
06:00-06:30
4
Estime el número de clientes diarios de la farmacia observada y el correspondiente límite
para el error de estimación.
SOLUCIÓN:
A = 24h a = 0.5h
M = λɵ A =
N = 48 n = 6 m = 60 m = 10
m
A2 λɵ A2 m
A = 480 clientes V M =
= 2 = 3840
a
an
an
( )
( )
2 V M = 123,94 clientes
4. (Como ejercicio 13, relación tema 7) El ayuntamiento de Barcelona está interesado en
conocer el número de aficionados que acudieron al aeropuerto para vitorear al equipo
campeón. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por
40 metros de ancho, en 100 cuadros de igual tamaño y seleccionaron 20, observando que
el número de personas era 1.100.
Estime el número total de asistentes y el límite para el error de estimación.
SOLUCIÓN:
A = 4000 a = 40 N = 100 n = 20 m = 1100 m = 55
M = λɵ A =
m
A = 5500
a
( )
V M =
A2 λɵ A2 m
= 2 = 27500
an
an
( )
2 V M = 331, 66
5. (Ejercicio 8, relación tema 7) Un alumno de A.T.C. desea estimar el número de alumnos
que una determinada mañana han ido a la Facultad. Para ello se basa en que dicho día una
conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la
115
Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide
contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue
necesario contar hasta 382 alumnos.
Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la
Facultad.
SOLUCIÓN: muestreo inverso
t = 500 n = 382 s = 100
N=
t
p
( )
=
V N =
nt
= 1910 alumnos
s
t 2 n(n − s )
= 26664,35643
s 2 ( s + 1)
(1910 ∓ 326,58)
116
( )
2 V N = 326,58 alumnos
8. Análisis cluster.
8.1 Introducción.
8.2 Medidas de similaridad.
8.2.1 Medidas de similaridad para variables métricas
8.2.2 Medidas de similaridad para datos binarios
8.3 Estandarización de datos.
8.4 Formación de grupos: Clusters jerárquicos y clusters no jerárquicos.
8.4.1 Clusters jerárquicos.
8.4.2 Clusters no jerárquicos.
8.5 Elección entre los distintos tipos de análisis cluster.
8.1 Introducción
Supongamos que el responsable de marketing de una empresa tiene una base de datos con las
características sociodemográficas de sus clientes: edad, nivel educativo, nivel de ingresos,
estado civil, tipo de ocupación, número de hijos, etc. Este directivo se plantea si puede dividir
a sus clientes en subgrupos con características sociodemográficas similares entre sí, pero lo
más diferente posible unos subgrupos de otros. Si esto fuera así, el directivo podría, por
ejemplo, diseñar campañas de publicidad distintas para cada grupo, con creatividades
diferentes.□
El término análisis cluster se utiliza para definir una serie de técnicas que tienen por objeto la
búsqueda de grupos similares de individuos o de variables. Dada una muestra de individuos,
de cada uno de los cuales se dispone de una serie de observaciones, el análisis cluster sirve
para clasificarlos en grupos de tal forma que:
o Cada grupo (cluster o conglomerado) sea lo más homogéneo posible en base a las
variables observadas, es decir, cada observación contenida en él sea parecida a todas
las que estén incluidas en ese grupo.
o Los grupos sean lo más distintos posible unos de otros respecto a las variables
consideradas.
Los grupos no son conocidos de antemano pero serán sugeridos por la propia esencia de los
datos (a partir de las observaciones).
Además de encontrar agrupaciones “naturales” entre los elementos de la muestra, el análisis
cluster es útil para reducir la información e, incluso, si el análisis genera agrupaciones
inesperadas, nos puede sugerir nuevas relaciones a investigar entre los elementos.
117
Inicialmente, el investigador dispone de n observaciones (individuos, empresas, etc.) de los
que tiene información sobre k variables (edad, estado civil, etc.). Los pasos lógicos que se
efectúan al realizar un análisis cluster son:
1. Establecer un indicador que nos diga en que medida cada par de observaciones se
parecen entre sí. A esta medida se le denomina distancia o similaridad.
2. El siguiente paso consiste en crear grupos, de forma que cada grupo contenga aquellas
observaciones que más se parezcan entre sí, de acuerdo con la medida de similaridad
calculada antes.
3. Finalmente, el investigador debe describir los grupos que ha obtenido y compararlos
unos con otros. Para ello es útil ver qué valores promedio toman las variables
utilizadas en cada uno de los grupos creados.
La única información requerida en el análisis cluster es una medida cuantitativa con la que se
pueda medir la asociación o similitud entre elementos.
Para llevar a cabo el paso 2, existen dos tipos de técnicas para realizar este análisis:
Técnicas jerárquicas. Configuran grupos con estructura arborescente, de forma
que clusters de niveles más bajos van siendo englobados en otros niveles
superiores.
Técnicas no jerárquicas. Asignan los casos a un número de grupos que se fijan
inicialmente.
A su vez, en cada técnica se pueden utilizar distintos métodos de agrupación.
8.2 Medidas de similaridad
Ejemplo 8.1 (Ejercicio 1, Relación Tema 8)
Un investigador tiene información sobre el presupuesto que un conjunto de empresas ha
destinado a publicidad en el último año y de las ventas que han logrado en ese mismo
ejercicio:
Nombre Empresa Inversión en publicidad Ventas
E1
16
10
E2
12
14
E3
10
22
E4
12
25
E5
45
10
E6
50
15
E7
45
25
E8
50
27
Estudie si estas empresas pueden agruparse en función de la rentabilidad en términos de
ventas que han sido capaces de generar con su inversión publicitaria.
118
Solución
La siguiente figura ilustra gráficamente los datos anteriores
30,00
E8
E4
E7
25,00
Ventas
E3
20,00
E6
15,00
E2
E1
E5
10,00
10
20
30
40
50
Inversion
Al haber utilizado solo dos variables se pueden distinguir de forma clara cuatro grupos de
empresa:
o Grupo E1-E2: Con una pequeña inversión han obtenido pocas ventas
o Grupo E3-E4: Pese haber invertido tan poco como las empresas anteriores, han
obtenido una gran rentabilidad, en términos de ventas, a estas inversiones.
o Grupo E5-E6: Pese a haber realizado un gran esfuerzo publicitario no han sido capaz
de obtener unas ventas razonables.
o Grupo E7-E8: Con inversiones elevadas han rentabilizado su inversión en términos de
ventas.□
¿Cómo se han obtenido los grupos anteriores? De forma intuitiva hemos visto que la empresa
E1 está a una distancia menor de E2 que de E3 o de cualquiera de las empresas restantes, y las
hemos puesto en el mismo grupo. De manera análoga hemos procedido con las demás
empresas. Pero ¿qué hubiera ocurrido si en vez de tener dos variables tuviésemos 5 o 50? En
estos casos, debemos formalizar la expresión “más cerca” y traducirla en alguna medida de
proximidad o similaridad entre cada par de observaciones. En función del tipo de variables
que se utilicen, las medidas adecuadas serán diferentes.
119
8.2.1 Medidas de similaridad para variables métricas
En el caso en que las variables que se utilicen para caracterizar las observaciones sean
métricas se pueden utilizar algunas de las siguientes medidas.
(A) Distancia euclídea
Si consideramos dos observaciones i y j de las n posibles y si llamamos xip y x jp al valor
que toma la variable x p de las k existentes, la distancia euclídea entre ambas se calcula del
siguiente modo:
Dij =
∑( x
k
ip
p =1
− x jp )
2
Ejemplo 8.2 (continuando con los datos del ejemplo 8.1)
La distancia euclídea entre E1 y E2 toma el siguiente valor:
D12 =
(16 − 12 ) + (10 − 14 )
2
2
= 5, 66
El programa SPSS calcula las distancias entre todos los pares de observaciones como paso
inicial del análisis cluster:
Matriz de distancias euclideas
distancia euclídea
Caso
1:E1
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
,00
5,66
13,42
15,52
29,00
34,37
32,65
38,01
2:E2
5,66
,00
8,25
11,00
33,24
38,01
34,79
40,16
3:E3
13,42
8,25
,00
3,61
37,00
40,61
35,13
40,31
4:E4
15,52
11,00
3,61
,00
36,25
39,29
33,00
38,05
5:E5
29,00
33,24
37,00
36,25
,00
7,07
15,00
17,72
6:E6
34,37
38,01
40,61
39,29
7,07
,00
11,18
12,00
7:E7
32,65
34,79
35,13
33,00
15,00
11,18
,00
5,39
40,31
38,05
17,72
12,00
5,39
,00
8:E8
38,01
40,16
Esta es una matriz de disimilaridades
(B) Distancia euclídea al cuadrado
El cálculo de la raíz cuadrada al que obliga la aplicación de la distancia euclídea puede ser
demasiado exigente en términos de capacidad de computo del ordenador. Una forma de
reducir los cálculos consiste en tomar como medida de similaridad el cuadrado de la distancia
euclídea:
Dij = ∑ ( xip − x jp )
k
p =1
120
2
(C) Distancia de Minskowski
La distancia euclídea es un caso particular de la distancia de Minskowski:
1
 k
n n
Dij =  ∑ xip − x jp 
 p =1

Tomando n = 2 se obtiene la distancia euclídea.
8.2.2 Medidas de similaridad para datos binarios
En algunas ocasiones, las variables utilizadas son dicotómicas, tomando valores 0 y 1.
Ejemplo 8.3
Consideremos una base de datos formada por 5 observaciones de 4 variables dicotómicas:
Observaciones
Variables
X1 X2 X3 X4
E1
1
1
0
0
E2
0
1
1
1
E3
1
1
0
1
E4
0
0
0
1
E5
1
1
1
0
Para calcular las medidas de similaridad se construye en primer lugar una matriz 2×2 para
cada par de observaciones. En ella se recogen las coincidencias y las divergencias entre las
distintas variables correspondientes a las dos observaciones comparadas. Por ejemplo, para las
observaciones E1 y E2:
E1
1 0
1 1 2
E2
0 1 0
E1
1 0
1 a b
E2
0 c d
Dado que la observación E1 presenta un 1 a la vez que E2 en una sola ocasión (para la
variable X2), la celda a que recoge este hecho aparece como 1. Como para las variables X3 y
X4 el atributo está presente en E2 y ausente en E1, en la casilla b aparece un 2.
Análogamente se calculan c y d . De este modo calcula el SPSS distintas medidas de
similitud.□
121
Las medidas de similitud más utilizadas, para dos observaciones i y j cualquiera, son las
siguientes:
(A) Distancia euclídea al cuadrado
Dij = b + c
(B) Distancia euclídea
Dij = b + c
(C) Diferencia de tamaño
Dij =
(b − c )
2
(a + b + c + d )
2
Ejemplo 8.4
Con los datos del ejemplo 8.3, calculamos la distancia “diferencia de tamaño” entre las
observaciones E1 y E2:
D12 =
( 2 − 1)
2
(1 + 2 + 1 + 0 )
2
= 0, 0625
La salida del SPSS para un análisis cluster que utiliza como distancia la diferencia de tamaño
es la siguiente:
Matriz de distancias
diferencia de tamaño
Caso
1:E1
1:E1
2:E2
3:E3
4:E4
5:E5
,000
,063
,063
,063
,063
2:E2
,063
,000
,000
,250
,000
3:E3
,063
,000
,000
,250
,000
4:E4
,063
,250
,250
,000
,250
5:E5
,063
,000
,000
,250
,000
Esta es una matriz de disimilaridades□
8.3 Estandarización de los datos
Si se analizan las medidas de distancia presentadas en la pregunta anterior, se puede
comprobar que todas ellas están basadas en la sustracción, para cada par de observaciones, de
los valores de las variables utilizadas en su caracterización. Por ello, se puede esperar que las
medidas de similaridad sean muy sensibles a las unidades en que estén medidas dichas
variables. Si pretendemos agrupar empresas en función de dos variables como el tamaño de su
activo y el número de trabajadores, la primera variable contribuirá mucho más a establecer los
122
grupos que la segunda. Y esto no se debe a que, conceptualmente, una es mucho más
importante que la otra, sino a que, con esas unidades, su valor absoluto será siempre muy
superior.
Ejemplo 8.5
En el siguiente cuadro se recoge el tamaño de los activos y el número de trabajadores de 8
empresas:
Nombre Empresa
Activos
Trabajadores
E1
10.000.000.000
100
E2
10.050.000.000
90
E3
10.000.000.000
200
E4
10.050.000.000
190
E5
20.000.000.000
200
E6
20.050.000.000
190
E7
20.000.000.000
100
E8
20.050.000.000
90
Si efectuamos un análisis cluster con estos datos, la matriz de distancias que se obtiene es:
Matriz de distancias
Caso
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
,000
5,0E+07
100,000
5,0E+07
1,0E+10
1,0E+10
1,0E+10
1,0E+10
2:E2
5,0E+07
,000
5,0E+07
100,000
1,0E+10
1,0E+10
1,0E+10
1,0E+10
3:E3
100,000
5,0E+07
,000
5,0E+07
1,0E+10
1,0E+10
1,0E+10
1,0E+10
distancia euclídea
4:E4
5:E5
5,0E+07
1,0E+10
100,000
1,0E+10
5,0E+07
1,0E+10
,000
1,0E+10
1,0E+10
,000
1,0E+10
5,0E+07
1,0E+10
100,000
1,0E+10
5,0E+07
6:E6
1,0E+10
1,0E+10
1,0E+10
1,0E+10
5,0E+07
,000
5,0E+07
100,000
7:E7
1,0E+10
1,0E+10
1,0E+10
1,0E+10
100,000
5,0E+07
,000
5,0E+07
8:E8
1,0E+10
1,0E+10
1,0E+10
1,0E+10
5,0E+07
100,000
5,0E+07
,000
Esta es una matriz de disimilaridades
Este matriz muestra que los dos grupos obtenidos responden exclusivamente a la variable
“activos” puesto que sitúa en un mismo grupo a aquellas con cifras que rondan los 10.000
millones (E1, E2, E3, E4) y en otro grupo a las que tienen activos en torno a los 20.000
millones (E5, E6, E7, E8). Es decir, la influencia del número de trabajadores es prácticamente
nula.□
Para evitar esta influencia no deseable de una variable debida exclusivamente a la unidad en
que viene medida, es necesario corregir el efecto de los datos recurriendo a un proceso de
estandarización. El programa SPSS ofrece distintas posibilidades, de las que detallamos las de
uso más frecuente:
123
o Puntuaciones Z. Los datos son estandarizados restando al valor de cada observación la
media del conjunto de observaciones y dividiendo el resultado por su desviación típica.
De esta forma, la variable estandarizada tiene media 0 y varianza 1.
o Rango 1. El valor de la variable en cada observación es dividido por el rango de esa
variable para el conjunto de observaciones. De esta manera, el rango de variación de la
variable así estandarizada queda reducido a un intervalo de valor 1.
o Rango 0 a 1. El valor de una variable para cada observación es estandarizado
sustrayéndole el valor mínimo que toma esa variable en el conjunto de las
observaciones y a continuación se divide por el rango. De esta forma, el valor mínimo
de la variable será 0 y el máximo 1.
Ejemplo 8.6
Estandarizamos los datos del ejemplo 8.5 utilizando el procedimiento de las puntuaciones Z:
Nombre Empresa
Activos
Trabajadores Valores estand. Valores estand.
(Pesetas)
Activos
Trabajadores
E1
10.000.000.000
100
-1,00
-0,90
E2
10.050.000.000
90
-0,99
-1,09
E3
10.000.000.000
200
-1,00
1,09
E4
10.050.000.000
190
-0,99
0,90
E5
20.000.000.000
200
0,99
1,09
E6
20.050.000.000
190
1,00
0,90
E7
20.000.000.000
100
0,99
-0,90
E8
20.050.000.000
90
1,00
-1,09
Media
15.025.000.000
145
0
0
Desv. Típica
5.000.062.499
50,24
1
1
Si efectuamos un análisis cluster con los datos tipificados, la matriz de distancias es:
Matriz de distancias
distancia euclídea
Caso
1:E1
1:E1
,000
2:E2
,186
3:E3
1,862
4:E4
1,675
5:E5
2,639
6:E6
2,518
7:E7
1,871
8:E8
1,889
2:E2
,186
,000
2,048
1,862
2,767
2,639
1,871
1,871
3:E3
1,862
2,048
,000
,186
1,871
1,889
2,639
2,780
4:E4
1,675
1,862
,186
,000
1,871
1,871
2,504
2,639
5:E5
2,639
2,767
1,871
1,871
,000
,186
1,862
2,048
6:E6
2,518
2,639
1,889
1,871
,186
,000
1,675
1,862
7:E7
1,871
1,871
2,639
2,504
1,862
1,675
,000
,186
8:E8
1,889
1,871
2,780
2,639
2,048
1,862
,186
,000
Esta es una matriz de disimilaridades
Esta matriz muestra cómo ahora aparecen 4 grupos. Por ejemplo, E1 y E2. Tiene activos en
torno a los 10.000 millones pero los separa del grupo formado por E3 y E4 porque estas
últimas les doblan en términos de número de trabajadores.□
124
8.4 Formación de los grupos: Clusters jerárquicos y clusters no jerárquicos
Una vez que, mediante el cálculo de la matriz de distancias, se sabe qué observaciones están
más próximas entre si, es necesario formar los grupos. Esto implica tomar dos decisiones:
o Seleccionar el algoritmo de agrupación.
o Determinar un número de grupos razonables.
Adoptar estas decisiones no es sencillo dado que existen decenas de algoritmos de agrupación.
La mayoría de los autores aconsejan utilizar diversos procedimientos y comparar resultados.
Si distintos métodos aportan agrupaciones similares será razonable suponer que existe una
agrupación natural objetiva. Si no fuera así, habría que examinar las distintas agrupaciones a
la luz de un marco teórico o de trabajos precedentes para elegir el resultado más razonable.
Los algoritmos de agrupación se clasifican, como se adelantaba en la introducción, en dos
clases:
Técnicas jerárquicas.
Técnicas no jerárquicas.
8.4.1 Clusters jerárquicos
Los principales algoritmos de agrupamiento jerárquico son:
(A) Método de agrupación de centroides
Este método comienza uniendo las dos observaciones que estén más cercanas. A continuación,
el grupo formado es sustituido por una observación que lo representa y en la que las variables
toman los valores medios de todas las observaciones que constituyen el grupo representado
(centroide). En ese momento se recalcula la matriz de distancias, se unen entonces las dos
observaciones más cercanas y se repite el proceso. Éste termina cuando todas las
observaciones están en un solo grupo
Ejemplo 8.7
Utilizando los datos sobre las 8 empresas del ejemplo 8.1, calculamos la matriz de distancias,
en este caso euclídea al cuadrado:
125
Matriz de distancias
distancia euclídea al cuadrado
Caso
1:E1
1:E1
2:E2
0
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
32
180
241
841
1181
1066
1445
2:E2
32
0
68
121
1105
1445
1210
1613
3:E3
180
68
0
13
1369
1649
1234
1625
4:E4
241
121
13
0
1314
1544
1089
1448
5:E5
841
1105
1369
1314
0
50
225
314
6:E6
1181
1445
1649
1544
50
0
125
144
7:E7
1066
1210
1234
1089
225
125
0
29
1625
1448
314
144
29
0
8:E8
1445
1613
Esta es una matriz de disimilaridades
El método de agrupación de centroides comienza uniendo las observaciones más cercana, en
este caso E3 y E4 (13). A continuación, el grupo formado es sustituido por una observación
que lo representa y en la que las variables toman los valores medios de todas las
observaciones que forman el grupo representado (centroide). En este caso, E3 y E4 se
sustituyen por una empresa promedio que llamaremos E3-4 para la que el gasto en publicidad
y las ventas toman los siguientes valores:
Publicidad de E3-4 =
Ventas de E3-4 =
10 + 12
= 11
2
22 + 25
= 23,5
2
Por tanto, los datos actualizados son:
Nombre Empresa Inversión en publicidad Ventas
E1
16
10
E2
12
14
E3-4
11
23,5
E5
45
10
E6
50
15
E7
45
25
E8
50
27
La matriz de distancias, ahora es
Matriz de distancias
Caso
distancia euclídea al cuadrado
1:E1
2:E2
3:E3-4
5:E5
6:E6
7:E7
8:E8
1:E1
,0
32,0
207,3
841,0
1181,0
1066,0
1445,0
2:E2
32,0
,0
91,3
1105,0
1445,0
1210,0
1613,0
3:E3-4
207,3
91,3
,0
1338,3
1593,3
1158,3
1533,3
5:E5
841,0
1105,0
1338,3
,0
50,0
225,0
314,0
6:E6
1181,0
1445,0
1593,3
50,0
,0
125,0
144,0
7:E7
1066,0
1210,0
1158,3
225,0
125,0
,0
29,0
8:E8
1445,0
1613,0
1533,3
314,0
144,0
29,0
,0
Esta es una matriz de disimilaridades
Donde, por ejemplo, la distancia entre E1 y E3-4 se ha calculado sobre el centroide de éste
último grupo:
126
DE1, E 3− 4 = (16 − 11) + (10 − 23,5 ) = 207,3
2
2
El programa SPSS recoge el historial de conglomeración:
Historial de conglomeración
Etapa
Conglomerado que se combina
1
Conglomerado
1
3
Conglomerado
2
4
2
7
3
1
4
Coeficientes
Etapa en la que el conglomerado
aparece por primera vez
Próxima
etapa
13,000
Conglomerado
1
0
Conglomerado
2
0
5
8
29,000
0
0
6
2
32,000
0
0
5
5
6
50,000
0
0
6
5
1
3
141,250
3
1
7
6
5
7
182,250
4
2
7
7
1
5
1227,250
5
6
0
En las cuatro primeras etapas se fusionan empresas individuales. En la etapa 5 se fusionan dos
grupos E1-2 y E3-4, aunque estos aparecen etiquetados con el nombre de uno solo de sus
integrantes (E1-2 se representa por 1, E3-4 se representa por 3). La columna de coeficientes
refleja las distancias a las que estaban los grupos que se van fusionando en cada etapa.
El historial de agrupación tiene una traducción gráfica que es de gran utilidad para determinar
el número razonable de grupos que debe retenerse. A este grafico se le denomina
dendograma:
* * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * *
Dendrogram using Centroid Method
Rescaled Distance Cluster Combine
C A S E
Label Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
E3
E4
3
4
òûòòòø
ò÷
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø
E1
1
òûòòò÷
ó
E2
E7
2
7
ò÷
òûòòòòòø
ó
ó
E8
8
ò÷
E5
5
òûòòòòò÷
E6
6
ò÷
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
¿Cómo sirve el dendograma para determinar el número razonable de grupos que debe
retenerse? Como hemos señalado, el análisis de conglomerados jerárquicos comienza
127
considerando a cada individuo como un grupo independiente y sucesivamente se van
fusionando a los más cercanos hasta que todos forman un solo grupo. Pero cada etapa une
individuos más distantes, es decir, más diferentes, menos susceptibles de formar un grupo.
En nuestro ejemplo, en la primera etapa se fusionan observaciones que distan 13 unidades y
en la etapa 5 observaciones que distan 141 unidades. ¿Dónde cortar y dejar de fusionar? En
aquel momento en que la fusión siguiente va a unir individuos muy distintos, es decir, donde
el dendograma dé un gran salto. Por tanto, en este ejemplo, formaríamos dos grupos: (E3,
E4, E1, E2) (E7, E8, E5, E6) o cuatros: (E3, E4), (E1, E2), (E7, E8), (E5, E6).
□
(B) Método del vecino más cercano (vinculación simple)
En este método la distancia entre dos grupos es la distancia entre los miembros más cercanos
de ese grupo.
Ejemplo 8.8
Con el ejemplo anterior, la distancia entre los grupos E1-2 y E3-4 estará representada por la
distancia entre E2 y E3, que son los más cercanos. El historial de conglomeración que
proporciona el SPSS es el siguiente:
Historial de conglomeración
Etapa
Conglomerado que se combina
1
Conglomerado
1
3
Conglomerado
2
4
2
7
8
3
1
4
5
5
1
6
5
7
1
Coeficientes
Etapa en la que el conglomerado
aparece por primera vez
Próxima
etapa
13,000
Conglomerado
1
0
Conglomerado
2
0
5
29,000
0
0
6
2
32,000
0
0
5
6
50,000
0
0
6
3
68,000
3
1
7
7
125,000
4
2
7
5
841,000
5
6
0
En la etapa 5 el coeficiente es 68 que se corresponde con la distancia entre E2 y E3 que son
los vecinos más cercanos de sus respectivos grupos. En la etapa 6 el coeficiente es 125 que se
corresponde con la distancia entre E6 y E7 que son los vecinos más cercanos de sus
respectivos grupos...□
128
30,00
E8
2
1
E4
25,00
E7
Ventas
E3
20,00
6
5
E6
15,00
4
E2
7
3
E1
E5
10,00
10
20
30
40
50
Inversion
(C) Método del vecino más lejano (vinculación completa)
En este método la distancia entre grupos se mide por la distancia entre sus miembros más
alejados.
Ejemplo 8.9
El historial de conglomeración, utilizando SPSS, es:
Historial de conglomeración
Etapa
Conglomerado que se combina
Conglomerado
1
Conglomerado
2
1
3
4
2
7
8
3
1
4
5
5
Coeficientes
Etapa en la que el conglomerado
aparece por primera vez
Próxima
etapa
Conglomerado
1
Conglomerado
2
13,000
0
0
5
29,000
0
0
6
2
32,000
0
0
5
6
50,000
0
0
6
1
3
241,000
3
1
7
6
5
7
314,000
4
2
7
7
1
5
1649,000
5
6
0
El coeficiente de la etapa 5 es 241, que corresponde con la distancia entre las empresas E1 y
E4.
129
30,00
E8
2
1
E4
25,00
E7
Ventas
E3
20,00
6
5
7
E6
15,00
4
E2
3
E1
E5
10,00
10
20
30
40
50
Inversion
(D) Método de la vinculación promedio (vinculación inter-grupos)
En este procedimiento, la distancia entre dos grupos se obtiene calculando la distancia
promedio entre todos los pares de observaciones que pueden formarse tomando un miembro
de un grupo y otro miembro del otro grupo.
Ejemplo 8.10
El historial de conglomeración con este procedimiento es:
Historial de conglomeración
Etapa
Conglomerado que se combina
1
Conglomerado
1
3
Conglomerado
2
4
2
7
3
1
4
5
5
1
6
7
Coeficientes
Etapa en la que el conglomerado
aparece por primera vez
Próxima
etapa
13,000
Conglomerado
1
0
Conglomerado
2
0
5
8
29,000
0
0
6
2
32,000
0
0
5
6
50,000
0
0
6
3
152,500
3
1
7
5
7
202,000
4
2
7
1
5
1323,625
5
6
0
Podemos observar como en la etapa 5 se fusiona el grupo formado por las empresas E1 y E2
(etiquetado por 1) con el formado por las empresas E3 y E4 (etiquetado por 3). El coeficiente,
es decir, la distancia entre ambos grupos es 152’5, que se obtiene de la siguiente manera.
130
Todas las posibles combinaciones entre pares de puntos de estos dos grupos, su distancia y la
distancia promedio son:
Pares de observaciones Distancia Promedio
E1, E3
180
E1, E4
241
152,5
E2, E3
68
E2, E4
121
Aunque en nuestro ejemplo los cuatro métodos de agrupación nos han conducido al mismo
historial de conglomeración (salvo los coeficientes) esto no ocurre siempre, pudiéndose
presentar distintas jerarquías de agrupación para los diferentes métodos.
Selección del número de conglomerados de la solución
Como hemos visto, el análisis cluster jerárquico ofrece al investigador la posibilidad de elegir
entre muchas opciones que difieren en cuanto al número de conglomerados finales que las
conforman: desde un grupo por cada observación, hasta un único grupo que integraría todas
las observaciones. Debemos decidir, entonces, cuál es el número de conglomerados que
conforman una solución razonable.
El SPSS solo ofrece el dendograma como herramienta de apoyo para tomar esta decisión.
Debe detenerse el proceso cuando los grupos que se han de unir están a una distancia
significativamente mayor que los que previamente se han fusionado. Algunos autores
proponen realizar el cálculo de las tasas de variación entre los coeficientes de
conglomeración obtenidos en etapas sucesivas. Así, cuando una tasa sea drásticamente
superior a la anterior, será el momento de detener las fusiones. Esta tasa no es calculada por el
SPSS, pero es fácil obtener a partir de la información de sus salidas.
Ejemplo 8.11
A partir de los coeficientes que se obtienen utilizando el método de la vinculación promedio
(véase ejemplo 8.10), las tasas de variación son:
Etapa
Observaciones
que se fusionan
Grupos
Resultantes
1
2
3
[E3,E4]
[E7,E8]
[E1,E2]
[E3,E4],E1,E2,E5,E6,E7,E8
[E3,E4][E7,E8],E1,E2,E5,E6
[E1,E2][E3,E4][E7,E8],E5,E6
Número
de
grupos
7
6
5
4
[E5,E6]
[E1,E2][E3,E4][E5,E6][E7,E8]
5
[E1,E2][E3,E4]
[E1,E2,E3,E4][E5,E6][E7,E8]
6
[E5,E6][E7,E8]
7
[E1,E2,E3,E4][E5,E6,E7,E8]
Coeficiente
Tasa de
Variación
13
29
32
1,23
0,10
0,56
4
50
2,05
3
152,5
0,32
[E1,E2,E3,E4][E5,E6,E7,E8]
2
202
5,55
[E1,E2,E3,E4,E5,E6,E7,E8]
1
1323,625
-
131
Cálculo de la primera tasa de variación:
T1 =
29 − 13
= 1, 23
13
Hay dos opciones razonables: no ejecutar la séptima etapa del análisis jerárquico, dado que el
coeficiente
da
un
salto
del
555%,
y
dividir
las
empresas
en
dos
grupos
[E1,E2,E3,E4][E5,E6,E7,E8] o no ejecutar la quinta etapa del análisis, pues el coeficiente da
un salto del 205% y dividir las empresas en cuatro grupos [E1,E2][E3,E4][E5,E6][E7,E8].
8.4.2 Clusters no jerárquicos
El análisis cluster no jerárquico se caracteriza porque, a diferencia del jerárquico, se conoce a
priori el número h de grupos que se desea, y las observaciones son entonces asignadas a cada
uno de esos h conglomerados de tal forma que se maximiza la homogeneidad de los sujetos
asignados a un mismo grupo y la heterogeneidad entre los distintos conglomerados.
En la realización de un análisis no jerárquico debemos dar estos pasos:
1. Determinar los centroides iniciales de los h grupos, esto es, los valores de las
variables que caracterizan las observaciones en cada uno de esos grupos. Estos
centroides iniciales, que se conocen como semillas, pueden ser fijados por el
investigador de acuerdo con información previa (por ejemplo, el resultado de un
cluster jerárquico) o dejar que sea el ordenador quien decida sus valores.
2. Una vez establecidas las semillas, cada observación se asigna a aquel conglomerado,
de entre los h existentes, cuyo centroide esté más cercano a esa observación.
3. Se recalculan entonces los centroides de los h grupos de acuerdo con las
observaciones que han sido clasificadas en cada uno de ellos. Si el cambio en los
centroides (distancia entre nuevos y viejos centroides) es mayor que un criterio de
convergencia preestablecido, entonces se vuelve al paso 2, finalizando el proceso
cuando se cumpla el criterio de convergencia o se supere un número prefijado de
iteraciones.
Formación de los grupos
El programa SPSS utiliza el método de las K-medias para formar los grupos. A continuación
se detallan los pasos para su desarrollo incluyendo a lo largo de la exposición su aplicación
para los datos del ejemplo 8.1.
1. Calcular la distancia de cada observación a los h centroides iniciales (E6, E4). Cada
observación se asigna al conglomerado al que esté más cercano (utilizando distancias
euclideas)
132
Ejemplo 8.12
Observación Inversión Ventas
E1
E2
E3
E4
E5
E6
E7
E8
16
12
10
12
45
50
45
50
10
14
22
25
10
15
25
27
Distancias Distancias Conglomerado
Centroide 1 Centroide 2
asignado
34,37
2
15,52
38,01
2
11
40,61
2
3,61
39,29
0
2
36,25
1
7,07
0
39,29
1
33
1
11,18
38,05
1
12
2. Una vez efectuada la asignación de observaciones a conglomerados, se recalculan los
centroides
Ejemplo 8.13
45 + 50 + 45 + 50
= 47,5
4
10 + 15 + 25 + 27
= 19, 25
4
16 + 12 + 10 + 12
= 12,5
4
10 + 14 + 22 + 25
= 17, 75
4
Centroides iniciales Centroides finales
Conglomerado Publicidad Ventas Publicidad Ventas
1
50
15
47,5
19,25
2
12
25
12,5
17,75
3. Se repite el paso 1 clasificando cada observación en el conglomerado del que dista
menos. El proceso se detiene cuando no se produce ninguna reasignación de
observaciones a conglomerados o hasta que se alcance un determinado número de
iteraciones que se puede establecer como opción al ejecutar el análisis.
Ejemplo 8.14
Observación Inversión Ventas
Distancias Distancias Conglomerado
Centroide 1 Centroide 2
asignado
E1
16
10
32,83
2
8,50
E2
12
14
35,89
2
3,78
E3
10
22
37,60
2
4,93
E4
12
25
35,96
2
7,27
E5
45
10
33,41
1
9,58
E6
50
15
37,60
1
4,93
E7
45
25
33,30
1
6,27
E8
50
27
38,62
1
8,14
En este caso, no se produce ninguna reasignación, por lo que el proceso se detiene. El
conglomerado 1 estará formado por [E5,E6,E7,E8] y el segundo por [E1,E2,E3,E4]. □
En el siguiente ejemplo comentamos algunas de las salidas que ofrece el SPSS.
133
Ejemplo 8.15
Además de mostrar los centroides iniciales:
Centros iniciales de los conglomerados
Conglomerado
1
2
Inversión
50
12
Ventas
15
25
También indica qué cambios, en términos de distancia euclídea entre los centroides iniciales y
finales, se producen en cada una de las etapas
Historial de iteraciones(a)
Cambio en los centros
de los conglomerados
Iteración
1
2
1
2
4,931
7,267
,000
,000
a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o
éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de ,000. La iteración
actual es 2. La distancia mínima entre los centros iniciales es de 39,294.
Podemos observar que, en la primera etapa, el centroide final del conglomerado 1 dista del
inicial 4,931 unidades:
d = (47, 5 − 50) 2 + (19, 25 − 15) 2 = 4, 931
donde
45 + 50 + 45 + 50
4
10 + 15 + 25 + 27
19, 25 =
4
47,5 =
En la segunda iteración, como no ha habido reasignación, los centroides no cambian y las
distancias son 0, por lo que el proceso se detiene. En la salida también se indica cuál es la
distancia entre las observaciones más cercanas (en este caso solo hay 2) que conformaban el
grupo de centroides iniciales:
d = (50 − 12) 2 + (15 − 25) 2 = 39, 29
La salida del programa indica también a qué conglomerado se ha asignado cada observación,
señalando además lo que dista cada observación del centro de ese conglomerado:
134
Pertenencia a los conglomerados
Número de caso
1
VAR00001
Conglomerado
Distancia
E1
2
8,504
2
E2
2
3,783
3
E3
2
4,931
4
E4
2
7,267
5
E5
1
9,582
6
E6
1
4,931
7
E7
1
6,270
8
E8
1
8,143
También se obtiene la salida con los centroides finales:
Centros de los conglomerados finales
Conglomerado
Inversión
Ventas
1
47,50
2
12,50
19,25
17,75
Esta información es fundamental para caracterizar a los grupos obtenidos, ya que la misión del
analista no es sólo determinar qué observaciones van a cada conglomerado, sino obtener las
características de los mismos. El cuadro anterior nos indica que hay dos tipos de empresas que
se diferencian porque unas, las del conglomerado 1 necesitan mucha más inversión
publicitaria para alcanzar niveles similares de ventas, es decir, obtienen mucha menor
rentabilidad de su inversión que las del conglomerado 2.
El SPSS ofrece también una serie de ANOVAS donde el factor es la pertenencia al
conglomerado y las variables dependientes son, sucesivamente, cada una de las utilizadas para
caracterizar a los grupos:
ANOVA
Conglomerado
Media
cuadrática
gl
Inversión
Ventas
Error
Media
cuadrática
Gl
F
Sig.
2450,000
1
7,333
6
334,091
,000
4,500
1
56,917
6
,079
,788
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido
elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son
corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los
conglomerados son iguales.
Por las razones expuestas al pie de la tabla, estas pruebas solo deben utilizarse con finalidad
descriptiva. Se puede observar que las diferencias entre las inversiones publicitarias de los dos
grupos son muy grandes, pero no así las ventas. Esto confirma la interpretación de los
conglomerados expuesta anteriormente.□
Nota: En el ejemplo que hemos utilizado, el número de observaciones en cada conglomerado
es pequeño y la media de cada variable en los dos conglomerados es información suficiente
135
para caracterizarlos. Sin embargo, si contásemos con muchas más observaciones tendría
interés tratar de determinar qué variables toman valores medios claramente distintos en los
diferentes conglomerados y utilizar sólo esas variables para efectuar la caracterización.□
8.5 Elección entre los distintos tipos de análisis cluster.
Como se ha comentado a lo largo del capítulo, existen dos grandes enfoques en el análisis
cluster (jerárquicos y no jerárquicos) y, dentro de los jerárquicos existen distintos métodos de
conglomeración, pero ¿cuál ofrece mejores resultados?¿cuál es más adecuado para los
objetivos de una investigación determinada? Responder a estas preguntas no es sencillo y no
existe respuestas categóricas, ya que ésta depende de los objetivos del estudio y de las
propiedades de los distintos métodos. Sin embargo, se pueden dar algunas indicaciones
Elección entre análisis cluster jerárquico y no jerárquico
La decisión entre ambos tipos de análisis no debe ser disyuntiva, pues un enfoque
complementa al otro. Si el investigador sospecha de cuál puede ser el número de grupos
naturales en los que se unen sus observaciones, el análisis no jerárquico sería una buena
opción. Sin embargo, este enfoque requiere que se suministren los centroides iniciales de esos
grupos y éstos rara vez están disponibles. Existen varios trabajos que demuestran que el
resultado final de un análisis cluster no jerárquico depende de lo cercana a la realidad que sea
la semilla inicial, no siendo siempre recomendable que el ordenador la elija aleatoriamente.
La mejor forma de obtener una buena aproximación de cuál es el número razonable de
conglomerados (si el investigador no tiene ninguna opción a priori) y de conseguir
simultáneamente una semilla fiable, pasa por efectuar en primer lugar un análisis jerárquico,
utilizar las herramientas que éste nos ofrece para seleccionar el número de grupos y alimentar
con esta información la realización de un análisis no jerárquico que nos permitirá maximizar
la homogeneidad dentro de cada grupo y la heterogeneidad entre grupos.
Elección entre los distintos métodos de agrupación en el análisis jerárquico
Aunque se han realizado numerosos estudios comparando los distintos procedimientos de
agrupación, los resultados a los que se han llegado no son concluyentes. Esto nos lleva a ser
partidarios de probar varios métodos en un mismo estudio. Si los resultados son coherentes,
habremos dado con agrupaciones naturales, si no es así, habrá que elegir entre los distintos
resultados reteniendo aquel que le parezca más razonable al investigador o esté de acuerdo
con trabajos previos.
136
9. Componentes principales.
9.1 Introducción.
9.2 Componentes principales.
9.2.1 Componentes principales a partir de variables estandarizadas.
9.1 Introducción.
El análisis de componentes principales (ACP) es un método estadístico multivariante de
simplificación o reducción de la dimensión de una tabla de variables cuantitativas, obteniendo
otra de menor número de variables, combinación lineal de las primitivas, que se denominan
componentes principales. Su aplicación es directa sobre cualquier conjunto de variables sin
que el investigador haya previamente establecido jerarquías entre ellas (var. dependientes o
independientes), normalidad de su distribución, ...
Podría decirse que el objetivo principal que persigue el ACP es la representación de las
medidas numéricas de varias variables en un espacio de pocas dimensiones donde nuestros
sentidos puedan percibir relaciones que de otra manera permanecerían ocultas en dimensiones
superiores. Dicha representación debe ser tal que al desechar dimensiones superiores la
pérdida de información sea mínima.
La utilidad de la técnica de componentes principales es doble:
1. Por un lado, el análisis de componentes principales permite resumir de forma óptima la
información proporcionada por las variables originales mediante las componentes.
El número total de posibles componentes coincide con el número total de variables.
Quedarse con todas las componentes no simplificaría el problema, por lo que el
investigador deberá seleccionar el número de ellas que expliquen una proporción aceptable
de la información global (o varianza de la nube de puntos).
2. Permite transformar las variables originales, en general correladas (solapamiento en la
información), en nuevas variables incorreladas, facilitando la interpretación de los
datos. Un análisis de componentes principales a menudo revela relaciones que
previamente no se sospechaban y permiten interpretaciones que no resultan de forma
ordinaria.
La reducción de muchas variables a pocas componentes puede simplificar la aplicación sobre
estas últimas de otras técnicas multivariantes (regresión, clusters,…)
137
9.2 Componentes principales.
En el análisis de componentes principales se dispone de una muestra de tamaño n acerca de
p variables numéricas aleatorias X 1 , X 2 ,..., X p inicialmente correladas, para posteriormente
obtener a partir de ellas un número q ≤ p de variables incorreladas Yi .
Como veremos, las componentes principales dependen sólo de la matriz de covarianza S (o
de la matriz de correlación, R ) de X 1 , X 2 ,..., X p . Su desarrollo no requiere una hipótesis de
normalidad multivariante.
[
]
Sea un vector aleatorio X ' = X 1 , X 2 ,..., X p con matriz de covarianzas S con valores propios
λ1 ≥ λ2 ≥ ⋯ ≥ λ p ≥ 0 y vectores propios φ1 , φ2 ,⋯ , φ p φi′ = (φi1 ,..., φip ) . Habitualmente, para
evitar el peso excesivo de alguna de las variables en el análisis, se trabaja con variables
tipificadas (o estandarizadas), y por tanto S = R .
Consideremos las combinaciones lineales
Y1 = φ1' X = φ11 X 1 + φ12 X 2 + ⋯ + φ1 p X p
Y2 = φ2' X = φ21 X 1 + φ22 X 2 + ⋯ + φ2 p X p
⋮
Yp = φ p' X = φ p1 X 1 + φ p 2 X 2 + ⋯ + φ pp X p
Se puede demostrar que
Var (Yi ) = φi' Sφi = λi , i = 1, 2,..., p
(9-1)
Cov(Yi , Yk ) = φi' Sφk = 0, i, k = 1, 2,..., p
Las componentes principales son aquellas combinaciones lineales incorreladas Y1 , Y2 ,..., Y p
cuyas varianzas en (9-1) son las mayores posibles, es decir, reúnen la máxima cantidad de
información posible.
Por tanto, definimos:
•
Primera
componente
principal
=
combinación
lineal
φ1' X
que
maximiza
φ2' X que
maximiza
Var (φ1' X ) sujeta a φ1'φ1 = 1.
•
Segunda
componente
principal
=
combinación
Var (φ2' X ) sujeta a φ2' φ2 = 1 y Cov(φ1' X , φ2' X ) = 0 .
138
lineal
Y en el paso i-ésimo: i-ésima componente principal = combinación lineal φi' X que
•
maximiza Var (φi' X ) sujeta a φi'φi = 1 y Cov(φi' X , φk' X ) = 0 k < i .
Resultado 9.1 Sea
[
]
la matriz de covarianza asociada con el vector aleatorio
S
X ' = X 1 , X 2 ,..., X p . Supongamos que S tiene pares de valores y vectores propios
( λ1 , φ1 ) , ( λ2 , φ2 ) ,..., ( λ p , φ p )
donde λ1 ≥ λ2 ≥ ⋯ ≥ λ p ≥ 0. La i-ésima componente principal está
dada por
Yi = φi' X = φi1 X 1 + φi 2 X 2 + ⋯ + φip X p , i = 1, 2,..., p
con esta elección
Var (Yi ) = φi' Sφi = λi , i = 1, 2,..., p
Cov(Yi , Yk ) = φi' Sφk = 0, i ≠ k
•
NOTA: Si hay λi iguales, la elección de los correspondientes vectores de coeficientes φi , y
por tanto las Yi no son únicos.
[
]
Resultado 9.2 Sea X ' = X 1 , X 2 ,..., X p con matriz de covarianzas S , con pares de valores y
( λ1 , φ1 ) , ( λ2 , φ2 ) ,..., ( λ p , φ p )
vectores
propios
Y1 = φ1' X ,
Y2 = φ2' X , ...,
donde
λ1 ≥ λ2 ≥ ⋯ ≥ λ p ≥ 0.
Sean
Yp = φ p' X las componentes principales. Entonces
p
p
i =1
i =1
s11 + s22 + ⋯ + s pp = ∑ Var ( X i ) = λ1 + λ2 + ⋯ + λ p = ∑ Var (Yi ) .
La proporción de la varianza total explicada por la k -esima componente principal es
λk
λ1 + ⋯ + λ p
, k = 1,2,..., p
Si mucha (por ejemplo, 80% o 90%) de la varianza total, puede ser atribuida a la primera, a las
dos primeras o a las tres primeras de las componentes, entonces estas componentes pueden
“reemplazar” las p variables originales sin mucha perdida de información (varianza).
Cada componente del vector de coeficientes φi' = (φi1 ,..., φik ,..., φip ) también merece atención.
La magnitud de φik mide la importancia de la k -esima variable en la i -ésima componente. En
particular, si las variables X i están tipificadas, φik es proporcional al coeficiente de
correlación entre Yi y X k .
139
Resultado 9.3 Si
Y1 = φ1' X , Y2 = φ2' X ,..., Yp = φ p' X
son las componentes principales
obtenidas a partir de la matriz de covarianza S , entonces
rYi , X k =
φik λi
skk
, i, k = 1, 2,..., p
es el coeficiente de correlación entre la componente Yi y la variable X k . •
Ejemplo 9.1
Veamos cómo se aplica la transformación de componentes principales a un conjunto de datos
que presentan cierta correlación. En la siguiente figura mostramos los datos sobre los que se
va a efectuar la transformación. Como se observa, las variables X 1 y X 2 presentan una
correlación positiva.
Calculamos el vector medio y de la matriz de covarianza de los datos.
 3.50 
1.9 1.1
x =
; S = 

 3.50 
 1.1 1.1
Calculamos los valores propios de S . Como p = 2 habrá dos valores propios asociados a la
matriz de covarianza ( λ1 , λ2 ), que serán las soluciones de la ecuación S − λ I = 0 . En
particular,
1.9 − λ
1.1
1.9 1.1
1 0
=0
 1.1 1.1 − λ  0 1  = 0 ⇔ 1.1
1.1 − λ




o lo que es igual,
λ 2 − 3λ + 0.88 = 0
y las soluciones son: λ1 = 2.67 y λ2 = 0.33
140
Calculamos los vectores propios asociados a esos valores. El vector
propio φ1 ,
correspondiente a λ1 = 2.67 se calcula como sigue. El vector propio φ1 es la solución a
( S − λ1 I ) φ1 = 0. Esto es,
 1.9 1.1
 1 0    φ11 
 −0.77 1.1   φ11 
− 2.67 

  = 0 ⇔ 


  = 0
 0 1    φ12 
 1.1 −1.57   φ12 
  1.1 1.1
o lo que es igual,
−0.77φ11 + 1.10φ12 = 0
1.10φ11 − 1.57φ12 = 0
Tomando cualquiera de ellas se deduce que φ11 = 1.43φ12 .
Como nos hemos restringidos a vectores con longitud 1 (φ1′ φ1 = 1) , imponemos también que
φ112 + φ122 = 1 , por lo que el sistema de ecuaciones a resolver es:
φ11 = 1.43φ12 .
φ112 + φ122 = 1
 0.82 
y su solución φ1 = 

 0.57 
 −0.57 
El vector propio φ2 , correspondiente a λ2 = 0.33 se calcula de manera similar: φ2 = 
.
 0.82 
Como hemos impuesto, los vectores propios son de longitud 1. Efectivamente,
φ112 + φ122 = 0.822 + 0.57 2 = 1
φ212 + φ222 = (−0.57)2 + 0.822 = 1
Las componentes de un vector propio indican la dirección de los nuevos ejes respecto al
sistema de coordenadas original. La interpretación geométrica del nuevo sistema de
coordenadas (Y1 , Y2 ) respecto al original ( X 1 , X 2 ) en base a los vectores propios φ1 y φ2 se
detalla en la siguiente figura
141
Calculamos las componentes principales.
X 
X 
Y1 = φ '1  1  = ( 0.82 0.57 )  1  = 0.82 X 1 + 0.57 X 2
 X2 
 X2 
X 
Y2 = ( −0.57 0.82 )  1  = −0.57 X 1 + 0.82 X 2
 X2 
Aplicamos esta transformación a los datos. El resultado se muestra en la siguiente figura.
Por último, observemos que la matriz de covarianza SY es diagonal y contiene los valores
propios asociados a S .
0 
 2.67
SY = 

0.33 
 0
Al comparar las dos matrices de covarianza:
observamos que:
142
0 
1.9 1.1
 2.67
S =
 ; SY = 

0.33 
 1.1 1.1
 0
a) Las variables Y1 e Y2 están incorreladas ( ry1 y2 = 0 ) mientras que las variables X 1 y X 2
están (fuertemente) correladas:
s12 ( X )
1.1
=
= 0.76
s11 ( X ) s22 ( X )
1.9 1.1
rx1 x2 =
b) La transformación aplicada ha tenido el efecto de maximizar la varianza. La varianza
en el primer eje principal, Y1 , es 2.67, bastante mayor que en X 1 , 1.9. Además, no
existe ningún otro eje en el que haya una varianza mayor.
De manera gráfica puede verse como en la componente se maximiza la variabilidad.
Aunque servirían cualquier par de puntos, en la siguiente figura, hemos proyectado los
datos con menor y mayor valor de la variable X1 sobre los ejes X1 e Y1.
c) La transformación realizada preserva la varianza global:
2
∑Var ( X ) =tr ( S ) = 1.9 + 1.1 = 3
i =1
i
x
2
2
i =1
i =1
∑Var (Yi ) =tr ( SY ) = ∑ λi = 2.67 + 0.33 = 3
d) La proporción de la varianza total explicada por la primera componente es
λ1
λ1 + λ2
=
2.67
= 0.89
3
En este caso la primera componente podría reemplazar a las dos variables originales con
una pequeña perdida de información.
Además, dado que
rY1 , X1 =
rY1 , X 2 =
φ11 λ1
s11
φ12 λ1
s22
=
0.82 2.67
= 0.97
1.9
=
0.57 2.67
= 0.89
1.1
143
concluimos que X 1 y X 2 son importantes en la primera componente principal. Las
correlaciones con la segunda componente no se calculan porque ésta componente no es
importante •
Para la obtención de las componentes principales mediante el paquete estadístico SPSS se
realiza con los comandos del análisis factorial. Los pasos a seguir son:
1. Elije en los menús Analizar→Reducción de datos→Analisis factorial y selecciona las
variables y las especificaciones para el análisis.
2. En el botón Descriptivos podemos:
a. Elegir los Estadísticos: Descriptivos univariados
b. Elegir en Matriz de correlaciones, la opción Coeficientes.
3. En el botón Extracción:
a. En Método elegimos Componentes principales
b. En Analizar elegimos la Matriz de correlaciones o la Matriz de covarianza
c. En Mostrar elegimos Solución factorial sin rotar
Una vez realizadas las especificaciones se pulsa en el botón Aceptar.
Ejemplo 9.2
Las salidas que nos interesan del SPSS con los datos del ejemplo anterior son las siguientes:
Estadísticos descriptivos
Media
Desviación
típica
N del análisis
VAR00001
3,5000
1,37840
6
VAR00002
3,5000
1,04881
6
Varianza total explicada
Componente
Autovalores iniciales(a)
Total
Bruta
% de la
varianza
% acumulado
1
2,670
89,016
89,016
2
,330
10,984
100,000
Método de extracción: Análisis de Componentes principales.
En la tabla anterior encontraremos los valores propios de la matriz de covarianza y el
porcentaje de varianza total explicado por las dos componentes.
144
Matriz de componentes(a)
Bruta
Reescalada
Componente
Componente
1
1
VAR00001
1,338
,971
VAR00002
,938
,894
Método de extracción: Análisis de componentes principales.
a 1 componentes extraídos
Para obtener los coeficientes de la primera componente φik (que es la que explica el 89,016%
de la varianza) hay que dividir los números de la tabla de Matriz de componentes, columna
Bruta, entre la raiz cuadrada del valor propio de la componente, dado que la componente bruta
es igual a φik λi . En nuestro caso:
φ11 =
1, 338
= 0,82
2, 67
φ12 =
0, 938
= 0,57
2, 67
La columna Reescalada nos da las correlaciones entre la primera componente y las variables
originales, rY1 , X k =
φ1k λ1
skk
, por tanto es igual a la columna Bruta dividida por la desviación
típica de las variables X k . Por ejemplo, 1.338/1.378=0,971.
NOTA: Cuando trabajamos con la matriz de correlación de las variables X k , SPSS sólo da
una columna por componente. La Bruta y la Reescalada coinciden y los coeficientes dados
son las correlaciones entre las componentes y las variables originales.
9.2.1 Componentes principales a partir de variables estandarizadas
Las componentes principales pueden ser obtenidas a partir de variables estandarizadas
Z1 =
Z2 =
( X 1 − µ1 )
s11
( X 2 − µ2 )
s22
⋮
Zp =
(X
p
− µp )
s pp
145
Se puede demostrar que E [ Z ] = 0 y Cov( Z ) = R . Las componentes principales de Z pueden
ser obtenidas a partir de los vectores propios de la matriz de correlación R de X . Todos los
resultados previos se pueden aplicar, con algunas simplificaciones ya que la varianza de cada
Z i es la unidad. Denotaremos las componentes principales muestrales de igual manera que
antes ( Yi ), sin distinguir si es obtenida a partir de S o de R . Las componentes construidas a
partir de S y R no son las mismas, pero será claro, según el contexto, la matriz usada.
También es conveniente etiquetar los valores y vectores propios por
( λi , φi )
para ambas
situaciones.
Resultado 9.4 La i-esima componente principal de las variables estandarizadas Z ' = (Z1,..., Z p )
con Cov( Z ) = R , está dada por
Yi = φi1Z1 + φi 2 Z 2 + ⋯ + φip Z p , i = 1,..., p
Además,
p
p
i =1
i =1
∑ Var (Yi ) = ∑Var ( Zi ) = p
y
rYi , Zk = φik λi , i, k = 1,..., p
En este caso ( λ1 , φ1 ) ,..., ( λ p , φ p ) son los pares de valores y vectores propios para R con
λ1 ≥ ⋯ ≥ λ p ≥ 0 . •
La varianza total es p , la suma de los elementos diagonales de la matriz R . En este caso, la
proporción de varianza total explicada por la k -esima componente principal de Z es
para k = 1,..., p , donde λk son los valores propios de R .
Ejemplo 9.3
Consideremos la matriz de covarianzas
1 4 
S =

 4 100 
y la matriz de correlación derivada de ella
 1 0.4 
R=
.
 0.4 1 
Se van a obtener las componentes principales utilizando estas dos matrices.
146
λk
p
,
Los valores y vectores propios de S son
λ1 = 100.16 φ1' = ( 0.040, 0.999 )
λ2 = 0.84 φ2' = ( 0.999, −0.040 )
Por tanto, las componentes principales son:
S:
Y1 = 0.040 X 1 + 0.999 X 2
Y2 = 0.999 X 1 − 0.040 X 2
Ya que su varianza es mayor, X 2 domina completamente la primera componente determinada
por S . Además la primera componente explica una proporción de
λ1
λ1 + λ2
=
100.16
= 0.992
101
de la varianza total.
Veamos la correlación de las componentes y las variables originales:
rY1 , X1 =
rY1 , X 2 =
φ11 λ1
s11
φ12 λ1
s22
= 0.4
=
0.999 100.16
= 0.999
100
Los valores y vectores propios de R son
λ1 = 1.4 φ1' = ( 0.707, 0.707 )
λ2 = 0.6 φ2' = ( 0.707, −0.707 )
y las componentes principales utilizando la matriz de correlación son:
R:
 X − µ1 
 X 2 − µ2 
Y1 = 0.707 Z1 + 0.707 Z 2 = 0.707  1
 + 0.707 

 1 
 10 
= 0.707 ( X 1 − µ1 ) + 0.0707 ( X 2 − µ 2 )
 X −µ 
 X − µ2 
Y2 = 0.707 Z1 − 0.707 Z 2 = 0.707  1 1  − 0.707  2

 1 
 10 
= 0.707 ( X 1 − µ1 ) − 0.0707 ( X 2 − µ2 )
Cuando las variables están estandarizadas, sin embargo, las variables resultantes contribuyen
de igual forma a las componentes principales determinadas a partir de R . Veámoslo:
rY1 , Z1 = φ11 λ1 = 0.707 1.4 = 0.837
rY1 , Z2 = φ12 λ1 = 0.707 1.4 = 0.837
147
En este caso, la primera componente explica una proporción de
λ1
p
=
1.4
= 0.7 de la varianza
2
total.
Vemos entonces que la importancia relativa de las variables sobre, por ejemplo, la primera
componente principal está muy afectada por la estandarización. Cuando la primera
componente obtenida a partir de R se expresa en términos de X 1 y X 2 , las magnitudes
relativas de las ponderaciones 0.707 y 0.0707 están en directa oposición con las ponderaciones
0.040 y 0.999 conseguidas en las componentes principales de S •
El ejemplo anterior demuestra que las componentes principales derivadas de S son diferentes
de las derivadas de R . Esto sugiere que la estandarización no es intrascendente.
Las variables deberían ser estandarizadas si son medidas en escalas con rangos muy diferentes
o si las unidades de medidas no son proporcionadas. Por ejemplo, si X 1 representa las ventas
anuales en el rango 10.000€ y 350.000€ y X 2 es la razón ingresos anuales netos / valores
totales, que caen en el rango 0.01 y 0.6, entonces la variación total será dada casi
exclusivamente por los euros de las ventas. En este caso, podríamos esperar una única
componente principal con una ponderación muy fuerte de X 1 . Alternativamente, si las dos
variables están estandarizadas, sus magnitudes subsecuentes estarán en el mismo orden y X 2
(o Z 2 ) jugará un papel importante en la construcción de las componentes. Este
comportamiento fue observado en el ejemplo 9.3.
Ejemplo 9.4
Un censo reciente proporciona información sobre 5 variables socio-económicas. Los datos
sobre 14 regiones están dados en la siguiente tabla:
Regiones Población
total
(miles)
1
5,935
2
1,523
3
2,599
4
4,009
5
4,687
6
8,044
7
2,766
8
6,538
9
6,451
10
3,314
11
3,777
148
Años
medios
en escuela
14,2
13,1
12,7
15,2
14,7
15,6
13,3
17,0
12,9
12,2
13,0
Empleo
total
(miles)
2,265
0,597
1,237
1,649
2,312
3,641
1,244
2,618
3,147
1,606
2,119
Empleo en
Sanidad
(cientos)
2,27
0,75
1,11
0,81
2,50
4,51
1,03
2,39
5,52
2,18
2,83
Ingresos medios en
hogar
(10.000€)
2,91
2,62
1,72
3,02
2,22
2,36
1,97
1,85
2,01
1,82
1,80
12
13
14
1,530
2,768
6.585
13,8
13,6
14.9
0,798
1,336
2.763
0,84
1,75
1.91
4,25
2,64
3.17
Estos datos proporcionan los siguientes estadísticos:
x ' = [ 4.32 14.01 1.95 2.17 2.45]
 4.308

 1.683
S =  1.803

 2.155
 −0.253

1.683
1.768
0.588
0.177
0.176
−0.253 

0.588 0.177
0.176 
0.801 1.065 −0.158 

1.065 1.970 −0.357 
−0.158 −0.357 0.504 
1.803
2.155
¿Se puede resumir la variación muestral mediante una o dos componentes principales?
Como los valores de las variables se mueven en un rango parecido, utilizaremos la matriz de
covarianzas.
COEFICIENTES PARA LAS COMPONENTES PRINCIPALES
(Coeficiente correlación entre paréntesis)
Variable
φ1
φ2
φ3
φ4
Población Total
0.781 (0.99)
-0.71 (-0.04)
Años medios Escuela
0.306 (0.61)
-0.764 (-0.76) -0.162 -0.545 -0.010
Empleo Total
0.334 (0.98)
0.083 (0.12)
0.015
0.050
Empleo Sanidad
0.426 (0.80)
0.579 (0.55)
0.220
-0.636 -0.173
0.962
-0.051
0.024
Ingresos Medios
-0.054 (-0.20) -0.262 (-0.49)
0.004
0.542
φ5
-0.302
0.937
Varianza ( λi )
6.931
1.786
0.390
0.230
0.014
Porcentaje acumulado
de la varianza total
74.1
93.2
97.4
99.9
100
La primera componente principal explica el 74.1% de la varianza muestral total. Las dos
primeras componentes explican el 93.2%. En consecuencia, la variación muestral se resume
muy bien mediante dos componentes y la reducción en los datos va de 14 observaciones de 5
variables a 14 observaciones de dos componentes.
Fijándonos en los coeficientes, la 1ª componente es una media ponderada de las 4 primeras
variables. En la 2ª componente aparece contraste entre el empleo en sanidad y una media
ponderada de la población total, los años medios en el colegio y los ingresos medios.
Las salidas del SPSS, utilizando la matriz de covarianza, son las siguientes:
149
Matriz de componentes(a)
Bruta
Reescalada
Componente
Componente
1
1
PobTotal
AñosMedios
EmpleoTotal
EmpleoSanidad
2,057
,991
,805
,605
,881
,984
1,122
,799
IngresosMedios
-,143
-,201
Método de extracción: Análisis de componentes principales.
a 1 componentes extraídos
Dividiendo estas cantidades entre la raíz cuadrada de primer valor propio (6,931) obtenemos
los coeficientes de la primera componente principal. La correlación entre la primera
componente y las variables originales la podemos leer en la columna denominada
“reescalada”. El porcentaje de varianza que explica esta variable es el siguiente:
Varianza total explicada
Sumas de las saturaciones al cuadrado
de la extracción
% de la
Total
varianza
% acumulado
Bruta
6,931
74,133
74,133
Método de extracción: Análisis de Componentes principales.
Componente
1
•
Si centramos la atención en una interpretación de las componentes principales, las
correlaciones ryi , xk pueden ser una guía más fiable que los coeficientes de las componentes.
Por ejemplo, en el ejemplo 9.3 el coeficiente de Z 2 en Y1 es muy pequeño 0,0707 pero sin
embargo el coeficiente de correlación lineal entre ambas variables es 0,837.
Ejemplo 9.5
En un estudio de tortugas se les mide la longitud, la anchura y la altura del caparazón (en
milímetros). Los datos son los siguientes:
Longitud Anchura Altura
98
81
38
103
84
38
103
86
42
105
86
42
109
88
44
123
92
50
123
95
46
133
99
51
133
102
51
133
102
51
134
100
48
136
102
49
150
138
98
51
138
99
51
141
105
53
147
108
57
149
107
55
153
107
56
155
115
63
155
117
60
158
115
62
159
118
63
162
124
61
177
132
67
Los datos sugieren un análisis en términos de logaritmos (suaviza la serie).
Las salidas del SPSS son:
Estadísticos descriptivos
Desviación
típica
Media
N del análisis
lnLONGITUD
4,9007
,16250
24
lnANCHURA
4,6229
,12724
24
3,9403
Varianza total explicada
,15792
24
lnALTURA
Componente
Bruta
Autovalores iniciales(a)
1
Total
,066
% de la
varianza
98,060
% acumulado
98,060
2
,001
1,134
99,194
3
,001
,806
Método de extracción: Análisis de Componentes principales.
Matriz de componentes(a)
100,000
Bruta
Reescalada
Componente
Componente
1
2
1
2
lnLONGITUD
,161
,015
,992
,094
lnANCHURA
,126
,008
,987
,059
lnALTURA
,156
-,022
,990
Método de extracción: Análisis de componentes principales.
-,138
Resumimos a continuación los resultados para la primera componente:
COEFICIENTES DE LAS COMPONENTES PRINCIPALES
(Entre paréntesis los coeficientes de correlación)
Variable
φ1 ( rY1 X i )
Ln(longitud)
0.627 (0.99)
Ln(anchura)
0.490 (0.99)
Ln(altura)
0.607 (0.99)
0,066
Varianza ( λi )
Porcentaje acumulado
98.06
de la varianza total
151
La 1ª componente principal, que explica el 98,06% de la varianza total, tiene una interesante
interpretación:
y1 = 0.627 ln(long ) + 0.490 ln(anchura ) + 0.603ln(altura )
= ln ( long 0.627 anchura 0.490 altura 0.603 )
La primera componente principal puede ser vista como el ln(volumen) de una caja con
dimensiones ajustadas. Por ejemplo, la altura ajustada es altura 0.607 , lo cual tiene en cuenta,
en algún sentido, la forma redondeada del caparazón. •
Es muy frecuente que la primera componente haga referencia al tamaño (todos los coeficientes
de la combinación lineal son posistivos) y la segunda a la forma (se enfrentan coeficientes
negativos y positivos en la combinación lineal, como ocurre aquí con la segunda componente).
Un inusual valor pequeño en el último valor propio para la matriz de covarianzas o la matriz
de correlación puede indicar una dependencia lineal no anunciada en el conjunto de los datos.
Si esto ocurre, una o más de las variables son redundantes y pueden ser eliminadas.
Consideremos una situación donde x1 , x2 y x3 son puntuaciones de test y la puntuación total
x4 es la suma x1 + x2 + x3 . Entonces, aunque la combinación lineal x1 + x2 + x3 − x4 es siempre
cero, errores de redondeo en los cálculos pueden dar valores pequeños distintos de cero. Si la
expresión lineal que relaciona x4 con ( x1 , x2 , x3 ) se obvió inicialmente, el valor propio menor
podría dar una pista de su existencia.
Por ello, aunque los valores propios grandes y sus vectores son importantes en un análisis de
componentes principales, los valores propios muy cercanos a cero no deben ser ignorados. Los
vectores propios asociados a estos valores cercanos a cero pueden reflejar dependencias
lineales en el conjunto de datos que pueden causar problemas computacionales e
interpretativos en análisis posteriores.
Ejemplo 9.6
Veamos un caso en el que uno de los autovalores es cero y estudiaremos sus consecuencias.
Supongamos que la matriz de covarianza ya está calculada, y es:
 4.5 1.5 
S =

 1.5 0.5 
Sus valores propios son λ1 = 5 y λ2 = 0 . Los vectores propios asociados a estos valores son:
 0.95 
 0.32 
 φ2 = 

 0.32 
 −0.95 
φ1 = 
152
La interpretación geométrica del nuevo sistema de coordenadas ( Y1 , Y2 ) respecto al original
( X 1 , X 2 ) en base a los vectores propios se detalla en la siguiente figura
Calculamos las componentes principales:
Y1 = 0.95 X 1 + 0.32 X 2
Y2 = 0.32 X 1 − 0.95 X 2
Observemos que la matriz de covarianza de Y es diagonal y contiene los valores propios
asociados a S :
5 0
SY = 

0 0
Las componentes principales preservan la varianza global:
tr ( S ) = 4.5 + 0.5 = 5
tr ( SY ) = 5 + 0 = 5
Observe que en este caso, al ser λ2 = 0 significa que la varianza de los datos en Y2 es cero lo
que se interpreta como que los datos están perfectamente alineados en la dirección de Y1 . En
otras palabras, el eje Y2 es innecesario.
153
154
EJERCICIOS
155
2. Muestreo Aleatorio Simple
1. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga
que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas
fue y = 1.040€ y la varianza muestral (“cuasivarianza”) es S2=45.000€2. Estime el
promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con
un intervalo de confianza al 95%.
Solución: µ ∈ (1.040 ∓ 20, 49 ) = (1.019,51 , 1.060, 49 )
τ ∈ (1.040.000 ∓ 20.490 ) = (1.019.510 , 1.060.490 )
2. Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes
para estimar
•
La proporción que votarán a un determinado representante de centro.
•
La proporción de ellos que tienen algún tipo de trabajo.
Sean yi , zi
(i = 1,...,100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0
cuando responden NO, yi = 1 cuando responden SI, análogamente para zi ).
100
Según la muestra
100
∑ yi = 70
∑z
i =1
i =1
i
= 25
Usando los datos de la muestra, estime p1 (proporción de estudiantes que votarán a un
determinado representante) p2 (proporción y número de estudiantes con algún tipo de
trabajo) y los límites para los errores de estimación correspondientes.
100
Solución p1 =
∑y
i =1
i
100
100
= 0, 70 (70%)
p2 =
∑z
i =1
i
100
= 0, 25 (25%)
2 V ( p1 ) = 0, 0868 (8, 68%)
2 V ( p 2 ) = 0, 0821 (8, 21%)
τɵ 2 = N p 2 = 900 × 0, 25 = 225
2 V (τɵ 2 ) = 900 × 0, 0821 = 73,89
3. Encuentre el tamaño de muestra necesario para estimar el valor total de 1.000 cuentas por
cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con
datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las
cuentas caen dentro del intervalo (600, 1.400).
Solución: n = 615, 62 ≈ 616
4. Los alumnos de TAM de una facultad con 3.000 estudiantes desean realizar una encuesta
para determinar la proporción de estudiantes que están a favor de hacer exámenes en
156
sábado con un límite para error de estimación del 10%. La información previa disponible
indica que el 60% preferían los exámenes en sábado. También se quiere estimar la
proporción de estudiantes que apoyan al equipo decanal con un error máximo de
estimación del 5%. Determinar el tamaño muestral que se requiere para estimar ambas
proporciones con los límites de error especificados.
Solución: n = 353,04 ≅ 354
5. Un dentista está interesado en la efectividad de una nueva pasta dental. Un grupo de 1.000
niños de escuela participó en el estudio. Los registros de un estudio anterior mostraron que
había un promedio de 2,2 caries cada seis meses para el grupo. Después de un año de
iniciado el estudio, el dentista muestreó 10 niños para determinar cuánto habían
progresado con la nueva pasta dental. Usando los datos de la siguiente tabla:
Número de caries
en seis meses
1
0
2
4
3
2
4
3
5
2
6
0
7
3
8
4
9
1
10
1
¿Se puede decir que la incidencia media de las caries ha disminuido?
Niño
Solución: 2,2 ∈ (1,06, 2,94) ⇒ No
6. Un psicólogo desea estimar el tiempo de reacción medio para un estímulo en 200
pacientes de un hospital especializado en trastornos nerviosos. Una muestra aleatoria
simple de 20 pacientes fue seleccionada, y fueron medidos sus tiempos de reacción, con
los resultados siguientes: y = 2,1 segundos y S = 0,4 segundos. Estime la media poblacional
y establezca un límite para el error de estimación.
Solución: µˆ = 2,1; B = 0,1697
7. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas
telefónicas para estimar la proporción de hogares donde habita por lo menos una persona
mayor de 65 años de edad. La ciudad tiene 621 hogares, según la guía de teléfonos más
reciente. Una muestra aleatoria simple de 60 hogares fue seleccionada de la guía. Al
terminar la investigación de campo, de los 60 hogares muestreados, en 11 habita al menos
una persona mayor de 65 años. Estime la proporción poblacional y establezca un límite
para el error de estimación.
157
Solución: pˆ = 0,1833; B = 0,0958
8. El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un
operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron
aleatoriamente 5 operadores y se les tomó el tiempo. Los resultados obtenidos son los
siguientes:
Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3
¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del
taller para terminar dicha tarea es inferior a 6 minutos?
Solución: INTERV . CONF .: ( 3,91 min ., 6, 61 min.) Valores mayores e igual a 6 minutos
pertenecen al intervalo de confianza, por tanto no podemos aceptar esa hipótesis.
9. Un investigador está interesado en estimar el número total de árboles mayores de un cierto
tamaño específico en una plantación de 1.500 acres. Esta información se utiliza para
estimar el volumen total de madera en la plantación. Una muestra aleatoria simple de 100
parcelas de 1 acre fue seleccionada, y cada parcela fue examinada en relación con el
número de árboles de tamaño grande. La media muestral para las 100 parcelas de 1 acre
fue y = 25,2 árboles, con una varianza muestral de S 2 = 136 . Estime el número total de
árboles de tamaño grande en la plantación. Establezca un límite para el error de
estimación.
Solución: τˆ = 37.800; B = 3.379,9408
10. Usando los datos del ejercicio anterior, determine el tamaño de muestra requerido para
estimar el número total de árboles grandes en la plantación, con un límite para el error de
estimación de 1.500 árboles.
Solución: n = 399,413 ≅ 400
11. Con objetivos benéficos, una asociación filantrópica ha solicitado firmas para una petición
en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las
hojas se ha obtenido un número menor. Contando el número de firmas por hoja en una
muestra aleatoria de 50 hojas se han observado los siguientes resultados:
50
50
∑ Y = 1.450; ∑ Y
i =1
i
i =1
i
2
= 54.496
¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de
firmas recogidas para la petición?
Solución:
( 20.300 ∓ 3.040, 66 ) = (17.259,34 , 23.340, 66 )
Previsión más optimista: 23.340 ; previsión más pesimista: 17.259
158
12. Una muestra aleatoria de 30 familias fue extraída de una zona de cierta ciudad que
contiene 14.848 familias. El número de personas por familia en la muestra obtenida fue el
siguiente:
5 6 3 3 2 3 3 3 4 4 3 2 7 4 3
5 4 4 3 3 4 3 3 1 2 4 3 4 2 4
Estimar el número total de personas en la zona, construyendo un intervalo de confianza al
95%.
Solución: (44.842,09, 58.104,04 )
13. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su
“Tarjeta de Compras”. Durante una semana observaron al azar 200 compras de las cuales
35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta.
b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la
proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una
muestra previa)
c) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas
con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total
de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza de los datos
625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación
asociado.
Solución: a) p ∈ (12,11% , 22,89% ) . b) n =
c) y =
⌢
pq
= 641, 6 ≈ 642 .
D
1 n
5600
yi =
= 160€ B = 2 V ( y ) = 8, 45€
∑
n i =1
35
14. Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000
préstamos hipotecarios. Existen razones para pensar que el préstamo hipotecario de menor
cuantía es de algo más de 1200 euros, siendo de casi 11000 euros el de mayor cuantía.
¿cuál es el tamaño muestral necesario para estimar estos dos parámetros:
-
la cuantía media de los prestamos cometiendo un error de estimación menor de 400
euros y
-
la proporción de préstamos pendientes de amortizar más de la mitad de la deuda
cometiendo un error máximo del 5%?
Solución: n = 139, 65 ≈ 140
n = 333, 47 ≈ 334
159
15. Se desea estimar el salario medio entre los empleados de una empresa y la proporción de
empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que
el salario está comprendido entre los 1500 y 1800 euros mensuales. ¿Cuál debe ser el
tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y
al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido
sea del 2%?
Solución: n = 74,1 ≈ 75
n = 105, 4 ≈ 106
16. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las
empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en
el registro mercantil. El número de bajas en el último año, el número de empleados y la
respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo
temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1
1
7
Si
2
2
15
No
3
9
85
Si
4
0
3
No
5
2
12
No
a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule
el límite para el error de estimación.
b) Estime el número de empresas que usarían los servicios ofertados. Calcule el
límite para el error de estimación.
Solución: a) τɵ = N y = 70 B = 2 V (τɵ ) = 71, 2741
b) τɵ = N p = 10 B = 2 V (τɵ ) = 10,9545
17. Se han entrevistado 1.000 vecinos, elegidos aleatoriamente de entre los más de cien mil
habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales.
655 manifestaron su opinión desfavorable. Estime la proporción de vecinos que están en
contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Se
puede afirmar que la mayoría de los habitantes están en contra?
Solución: p ∈ (62, 49% , 68, 51%) ⇒ p > 50% ⇒ si se puede afirmar ...
18. El Centro de Estadística desea estimar el salario medio de los trabajadores de los
invernaderos de una región. Se decide clasificarlos en dos estratos, los que poseen contrato
fijo y los que tienen un contrato temporal. El salario de los contratos fijos está
comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos
temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser el tamaño
muestral total y su asignación para que se estime el salario medio de los contratos fijos con
160
un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior
a 120€?
Solución: n1 = 25 n2 = 25 n = n1 + n2 = 50
19. Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el
valor medio de las compras por cliente.
VALOR en €
33,5 32
52
43
40
41
45
42,5
39
a) Obtener un intervalo de confianza para el valor medio de las compras.
b) ¿Podemos aceptar que la compra media es de 45€?
c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€?
Solución: a) ( 40,89 − 3,98 ; 40,89 + 3,98 ) = ( 36,91; 44,87 )
b) No porque 45 ∉ ( 36,91; 44,87 )
c) n = 35, 67 ≈ 36 compras
20. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas
telefónicas para estimar la proporción de hogares donde habita por lo menos una persona
mayor de 65 años de edad. La ciudad tiene 5000 hogares, según la guía de teléfonos más
reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Al
terminar la investigación de campo, de los 300 hogares muestreados, en 51 habita al
menos una persona mayor de 65 años. Contraste la hipótesis de que en el 25% de los
hogares de esa ciudad habita al menos una persona mayor de 65 años.
Solución: 25% ∉ (17% ∓ 4, 21% ) = (12, 79%, 21, 21% ) luego se rechaza la hipótesis de
que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65
años.
21. El consumo medio de combustible de los taxis de una ciudad es 5,6 litros cada 100 Km.
Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un
dispositivo para disminuirlo. Pasado cierto tiempo se toma una muestra aleatoria de 20
taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de
combustible por cada 100 Km se recoge en la siguiente tabla
Taxi nºConsumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo
1
5,4
6
6,3
11
3,6
16
5,4
2
5,5
7
5,4
12
6,7
17
4,8
3
6,9
8
5
13
5,2
18
4,7
4
3,9
9
4,5
14
5,1
19
5,8
5
4,5
10
4,4
15
5,4
20
6,2
a) Estímese mediante un intervalo de confianza la proporción de taxis con un
consumo inferior a 5,6 litros/100 Km.
b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error
menor o igual que un 10%?
161
Solución: (a) ( 55'47%, 94 '53% ) (b) n = 66, 77 ≅ 67
3. Muestreo Aleatorio Estratificado
1. Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un
año de un determinado producto en una comarca formada por cuatro municipios. Para
estimar de paso también el consumo en cada municipio decide usar muestreo estratificado
tomando cada municipio como un estrato. Se sabe que el 20% de la población de la
comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el
25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y
obtener datos sobre el consumo anual de 20 hogares.
Dado que no tiene información previa respecto a las varianzas de los estratos y porque el
coste del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual
conduce a
N1
= 20 × 0, 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 .
N
Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros).
n1 = n
Estrato 1
Estrato 2
Estrato 3
Estrato 4
470
510
500
550
490
500
470
520
550
500
y 2 = 505 S22 = 750
540
480
500
470
470
450
560
460
440
580
y1 = 507,5 S12 = 1091,67
y 3 = 492 S32 = 870 y 4 = 498 S42 = 4420
Estime el consumo anual medio por hogar y fije un límite para el error de estimación.
4
Solución:
y st = ∑
i =1
Ni
y i = 500, 5€
N
2 V ( y st ) = 18, 79 €
2. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al
por menor. Sin embargo, identificar las facturas individuales sin consultar un archivo es
complicado. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio
de las facturas de la empresa (Nota para estimar el total necesitaríamos conocer N). Una
muestra aleatoria simple presentó 70 facturas al por mayor y 30 al por menor. Los datos
162
son separados en facturas al por mayor y al por menor después del muestreo, con los
siguientes resultados en €:
Por mayor
Por menor
Valor total facturas=36400€
Valor total facturas=8400€
n1 = 70
y1 = 520€ S1 = 210€
n2 = 30
y 2 = 280€ S2 = 90€
Estime el valor medio de las facturas de la empresa, y fije un límite para el error de
estimación.
Solución:
yst = 376€; B = 28,14€
3. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de
ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella
sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la
operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria
de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la
operación B. De entre los circuitos integrados muestreados de la operación A, 2 son
defectuosos. De entre las piezas muestreadas de la operación B, 16 son defectuosas.
a) Considerando únicamente la muestra aleatoria simple de 100 circuitos
integrados, estime la proporción de los defectuosos en el lote, y establezca un
límite para el error de estimación.
b) Estratifique la muestra, después de la selección, en circuitos integrados
provenientes de la operación A y B, estime la proporción de los defectuosos en
la población, y fije un límite para el error de estimación.
c) ¿Qué respuesta encuentra más aceptable? ¿Por qué?
Solución:
a. p =
18
= 0,18 (18%)
100
b. p st =
1
N
L
L
i =1
i =1
∑ Ni pi = ∑
2 V ( p ) = 0, 0772
( 7, 72% )
Ni
2  
16 

p i =  0, 60  +  0, 40  = 0,14
N
20  
80 

2 V ( p st ) = 0, 0901
(14% )
( 9, 01% )
c) Aunque en el conjunto de la población hay más elementos que proceden de A (60%)
que de B (40%), la muestra global no representa adecuadamente este hecho,
predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el
apartado a. la estimación esté sesgada hacia el valor de B ( p 2 = 0, 20 ) frente al de A
163
( p1 = 0,10 ). En el apartado b.
este hecho se corrige dando a p1 y p 2 las
ponderaciones 0,60 y 0,40 respectivamente para estimar p.
4. Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30
en Sevilla. La dirección está considerando añadir un nuevo producto en el menú. Para
contrastar la posible demanda de este producto, lo introdujo en el menú de muestras
aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los índice
1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las
desviaciones típicas muestrales del número de pedidos de este producto recibidos por
restaurante en las tres ciudades durante una semana fueron:
y1 = 21, 2
S1 = 12
y2 = 13, 3
S 2 = 11
y3 = 26,1
S3 = 9
a) Estimar el número medio de pedidos semanales por restaurante para los
restaurantes de la cadena. Dar un límite del error de estimación.
b) Determinar el tamaño muestral y la asignación para repetir el estudio anterior
cometiendo un error inferior a 3 pedidos.
Solución:
a. y st =
L
1
N
∑N y
i =1
i
i
=
3834
= 19,17 pedidos / semana
200
2 V ( y st ) = 5, 02 pedidos / semana
2
(∑ N σ )
L
b. D =
2
B
9
= = 2, 25
4 4
n=
i =1
i
i
= 43,52
L
N D + ∑ N iσ
2
i =1
n1 = 23,31 ≈ 24 n2 = 14,96 ≈ 15
2
i
n3 = 5, 24 ≈ 6 n = 45
5. De las 1.395 universidades de Estados Unidos, 364 imparten estudios universitarios de
dos años y 1.031 estudios universitarios de cuatro años. Se recogieron de manera
independiente, una muestra aleatoria simple de 40 universidades con estudios de dos años
y otra de 60 con estudios de 4 años. Las medias muestrales y las desviaciones típicas del
número de estudiantes matriculados el pasado año en asignaturas de estadística aparecen a
continuación.
Carreras de 2 años Carreras de 4 años
164
Media
154,3
411,8
Desviación típica
87,3
219,9
a) Estimar el número total de estudiantes matriculados en asignaturas de estadísticas. Dar
un límite de error de estimación.
b) En el estudio del ejercicio anterior, se investigó también en qué proporción de las
universidades la asignatura de estadística para economistas era impartida por
miembros del departamento de economía. En la muestra se halló que en 7 de las
universidades con carreras de dos años y en 13 de las que tienen carreras de cuatro
años sucedía esto. Estimar la proporción de universidades en las que esta asignatura es
impartida por profesores del departamento de economía. Dar un límite de error de
estimación.
Solución:
(a) τˆst = 480.731; B = 57.594,84 (b) pˆ st = 0,2058; B = 0,0826
6. Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro
barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los
miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5
(totalmente a favor) su opinión sobre el servicio propuesto. Los resultados se resumen en
la tabla adjunta:
Barrio
1
2
3
4
N i 240 190 350 220
ni
25 25 25 25
y i 3,5 3,6 3,9 3,8
S i 0,8 0,9 1,2 0,7
a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán
del nuevo servicio.
b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos
pertenecerían al barrio 3. (Suponga iguales los costes de observación)
Solución:
(a) yst = 3, 725; B = 0,1973; (3,5277 ; 3, 9223) (b) n3 = 44,82 ≈ 45
7. Una universidad tiene 152 profesores ayudantes, 127 profesores asociados y 208
profesores titulares. Una reportera del periódico de los estudiantes quiere averiguar si los
profesores están realmente en sus despachos durante las horas de tutorías. Decide
investigar muestras de 40 profesores ayudantes, 40 asociados y 50 titulares. Algunos
estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus
horas de tutorías. Se halló que 31 de los profesores ayudantes, 29 de los asociados y 34 de
los titulares se encontraban realmente en sus despachos. Hallar un intervalo de confianza
para la proporción de profesores que permanecen en sus despachos durante las horas de
tutorías.
Solución:
pˆ st = 0,7214; B = 0,0685
165
8. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compañía. La
población se divide en cuatro estratos que contienen 500, 400, 300 y 200 facturas,
respectivamente. Basándose en una experiencia previa, se estima que las desviaciones
típicas en estos estratos son de 15, 20, 30 y 40 euros, respectivamente. Determinar el
tamaño muestral y la asignación para estimar el valor medio de las facturas por cobrar
cometiendo un error de como mucho 5 euros.
Solución:
n1 = 18,59; n 2 = 19,83; n3 = 22,31; n 4 = 19,83; n = 80,55
9. Un ayuntamiento está interesado en ampliar las instalaciones de un centro de atención
diurna para niños. Se va a realizar una encuesta para estimar la proporción de familias con
niños que utilizarán las instalaciones ampliadas. Las familias están dividas en aquellas que
en la actualidad usan las instalaciones y las que aún no la usan. Aproximadamente el 90%
de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas
instalaciones. Los costos por efectuar la observación de un cliente actual es de 4€ y de 8€
para uno que no lo es. Registros existentes nos dan que existen 97 familias que en la
actualidad utilizan las instalaciones y 145 que no lo hacen.
a) Encuentre el tamaño muestral aproximado y la asignación necesaria para estimar la
proporción poblacional con un límite de 0,05 para el error de estimación.
b) Suponga que el costo total de muestreo se fija en 400 € . Elija el tamaño de la
muestra y la asignación que minimiza la varianza del estimador para este costo fijo.
Solución: (a) n1 = 47; n2 = 83; n = 130 (b) n1 = 22;
n2 = 39; n = 61
10. De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefacción eléctrica. Al
realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los
siguientes resultados:
Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral
Eléctrica
24
972
202,396
No eléctrica
36
463
96,721
a) Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad.
Dé un límite para el error de estimación.
b) Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas
que no tienen calefacción eléctrica. Dé un límite para el error de estimación.
Solución:
a. y st = 701,50
2 2,19 = 2,96
b.
y 2 = 463
2 2,17 = 2, 94
11. Un analista de la opinión pública tiene un presupuesto de 20.000 euros para realizar una
encuesta sobre el número medio de coches por hogar. Se sabe que de los 10.000 hogares
de la ciudad, 9.000 tienen teléfono. Las entrevistas por teléfono cuestan 10 euros por
hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga
166
que las varianzas en los estratos con y sin teléfono son iguales. Con el objetivo de
minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en
cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por
teléfono y los hogares sin teléfono son entrevistados personalmente?
n1 = 1677, 2 ≈ 1677 n2 = 107,59 ≈ 107 n = n1 + n2 = 1784
12. Se desea conocer el número de fines de semana que las familias de una gran ciudad salen
Solución:
fuera de ella. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos, el 30% tienen de
3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un muestreo según el número de
hijos y se preguntó a las familias sobre los fines de semana que pasan fuera, obteniéndose
los siguientes datos:
Número de hijos ni
n
∑ yi
S i2
i =1
0-2
25 239 60’76
3-5
19 174 63’01
Mas de 5
16 78
78’24
Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y
dar el límite de error de estimación. Omitir el corrector por población finita. Solución:
y st = 8,15
2 1,107 = 2,1
13. En una población compuesta por aproximadamente igual número de hombres que de
mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la
encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono
del citado municipio. Después de obtenidos los datos se observa que sólo 100 de los
encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una
estratificación después de seleccionar la muestra obteniéndose los siguientes datos
Ni
HOMBRES
2.500
MUJERES
2.700
ni
100
400
yi
120
250
9.000
16.000
Si2
Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante
muestreo aleatorio estratificado después de seleccionar la muestra.
Solución:
y st = 187,5
2 29,16 = 10,8
14. En una población compuesta por aproximadamente igual número de hombres que de
mujeres se desea estimar la proporción de individuos que ven un determinado programa
de televisión. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria
simple de 300 números de teléfono. Después de obtenidos los datos se observa que sólo
167
50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo
una estratificación después de seleccionar la muestra obteniéndose los siguientes datos
HOMBRES
MUJERES
Encuestados
50
250
Ven el programa
12
130
Estime la proporción de la población que ven el programa de televisión y su cota de error,
mediante muestreo aleatorio estratificado después de seleccionar la muestra.
Solución:
p st = 0, 38 ⇒ p st = 38%
2 V ( p st ) = 0, 0687 ⇒ 6,87%
15. Una corporación desea estimar el número total de horas perdidas debido a accidentes de
sus empleados, en un determinado mes. Ya que los obreros, técnicos y administrativos
tienen diferentes tasas de accidentes, la corporación decide usar muestreo estratificado,
formando con cada grupo un estrato. Datos de años previos sugieren las cuasivarianzas
mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres
grupos, y de datos actuales se obtienen los tamaños de los estratos. No habiendo
diferencia entre los costes de observación de cada grupo, determine la mejor asignación
para una muestra de 40 empleados.
Obreros
Técnicos
Administrativos
Si2
36
25
9
Ni
132
92
27
Solución:
n1 = 40 × 0,5941 = 23,8 ≈ 24 n2 = 40 × 0,3451 = 13,8 ≈ 14 n3 = 40 × 0, 0608 = 2, 4 ≈ 2
16. Se dispone de la siguiente información sobre tamaños poblacionales de los estratos, costes
de observación y estimaciones de las proporciones
Tamaño del estrato Coste de observación Proporciones en %
ESTRATO 1
5000
9
90
ESTRATO 2
2000
25
55
ESTRATO 3
3000
16
70
Determine la mejor asignación para una muestra de 200 observaciones.
Solución:
n1 = 200 × 0, 4795 = 95, 9 ≈ 96 n2 = 200 × 0,1909 = 38, 2 ≈ 38 n3 = 200 × 0,3296 = 65, 9 ≈ 66
17. En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar
una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se
obtuvieron los siguientes resultados:
Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral
Eléctrica
60
5730
200
No eléctrica
40
2080
90
168
Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un
límite para el error de estimación.
Solución:
y st =
1
N
2
2
Ni
∑N y =∑ N
i =1
i
i
2 V ( y st ) = 25,24€
y i = 65, 05€
i =1
18. Para la comercialización de un producto se le clasifica, atendiendo al calibre, en tres
categorías: pequeña, mediana y grande. Un establecimiento dispone de 300 piezas
pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto
almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las
categorías, resultando
Categoría Nº de piezas Peso en gramos
Pequeña 5
12, 14, 12, 15, 12
Mediana 6
16, 22, 24, 20, 20, 18
Grande
4
30, 33, 31, 34
Considerando los anteriores datos como una muestra previa, obtenga el número de
unidades que cada categoría debe aportar a la muestra para que el error en la estimación
del peso total no supere el medio kilo.
Solución:
2
(∑ N σ )
L
D=
B2
250.000
=
= 0, 0625
2
4N
4.000.000
n=
i =1
i
i
= 71, 66
L
N D + ∑ N iσ
2
i =1
2
i
n1 = 13, 79 ≈ 14 n2 = 45,99 ≈ 46 n3 = 11,87 ≈ 12 n = 72
19. La producción de piezas de una factoría se realiza en dos máquinas. El 40% de las piezas
las produce la máquina A y el 60% restante la máquina B. Se les pasó control de calidad a
200 piezas; 67 producidas por la máquina A y dos de ellas resultaron defectuosas; las 133
restantes procedían de la máquina B, siendo 6 de ellas defectuosas. Estime la proporción
de piezas defectuosas de la factoría y dé el límite del error de estimación. Omita el
coeficiente corrector por población finita.
Solución: pˆ = 3,9%; B = 2,74%
20. Una empresa especializada en seguros está pensando en ofrecer sus servicios a las
empresas de los polígonos industriales de una ciudad. Para ajustar sus tarifas desea
estimar el gasto de dichas empresas en pequeñas reparaciones de mantenimiento (objeto
del seguro). Se clasifican las empresas en función de su tamaño. El número de empresas
de cada tipo, el coste de obtención de esta información en cada empresa así como los
valores mínimos, medios y máximos de un estudio similar hecho hace dos años se
expresan en la siguiente tabla (los costes y gastos están expresados en euros)
169
Tipo de
Número de
Costes de
Gastos de reparación
empresa
empresas
observación Mínimo
Media
Máximo
A
100
16
400
500
600
B
500
9
240
300
360
C
700
4
70
100
130
Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas
empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de
estimación asociado?
Solución: n1 = 8; n 2 = 34; n3 = 36; n = 78 (8 x6 + 34 x9 + 36 x 4 = 578€)
21. En un centro escolar se quiere realizar una encuesta para conocer la proporción de padres
que estarían dispuestos a participar en actividades. Se quiere estimar la proporción de
padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se
decide estratificar según la edad de los alumnos. A partir de la información proporcionada
por la siguiente tabla, obtener el número óptimo de padres que, de cada estrato, hay que
encuestar para que la proporción de participación de los padres con hijos de edades entre 6
y 8 años sea estimada con un error menor o igual al 10%. (Suponemos que cada padre
tiene un solo hijo en el centro)
Años
Alumnos
matriculados
150
130
120
100
Porcentaje de participación en años
anteriores
40%
30%
25%
20%
Coste de encuestar a un
elemento
4
9
16
25
4-6
6-8
8-12
12-14
Sol. n = 200,3; n1 = 94,84 ≅ 95; n 2 = 51,27 ≅ 52; n3 = 33,53 ≅ 34; n 4 = 20,65 ≅ 21 ⇒ n = 202
22. El coste de transportar mercancías en avión depende del peso. Un determinado embarque
de una fábrica consistía en las máquinas producidas por la citada fábrica a lo largo de las
dos últimas semanas. Se decide estratificar basándose en las semanas, con el fin de
observar si existe variación semanal en la cantidad producida. Las muestras aleatorias
simples de los pesos (en kilos) de las máquinas transportadas en el embarque, para las dos
semanas, mostraron las siguientes mediciones:
Semana A Semana B
170
58,3
59,2
60,4
60,1
59,3
59,6
58,7
59,2
59,1
58,8
59,6
60,5
a. Estimar el peso total del embarque de maquinaria, sabiendo que el número total de
máquinas producidas ha sido de 162 en la semana A y de 170 en la semana B.
b. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria.
c. Determinar el tamaño de la muestra y su asignación, en el caso de que se quiera
estimar el peso total del embarque, con un límite para el error de estimación de 50
kg. Las dispersiones en los pesos se suponen diferentes de una semana a otra.
Considere las muestras anteriores como muestras previas para estimar los
parámetros necesarios.
Solución: (a) τˆ = 19.722,13
(b) (19.593'71, 19.850'56)
(c) n = 65,67; n1 = 34,37 ≅ 35; n 2 = 31,30 ≅ 32 ⇒ n = 67
23. Una cadena de almacenes está interesada en estimar la proporción de cuentas no cobradas.
La cadena está formada por 4 almacenes, siendo el coste de muestreo igual para todos. Se
usa muestreo aleatorio estratificado, con cada tienda como un estrato.
Estrato I Estrato II Estrato III Estrato IV
Nº cuentas por cobrar
N 1 = 65
N 2 = 42
N 3 = 93
N 4 = 25
Tamaño muestra
n1 = 14
n2 = 9
n3 = 21
n4 = 6
2
8
1
Nº cuentas no cobradas 4
a. Estime la proporción de cuentas no cobradas para la cadena y fije un límite para el
error de estimación.
b. Utilice los datos anteriores para determinar la asignación y el tamaño de la muestra
necesarios para estimar la proporción de cuentas no cobradas, con un límite del
error de estimación del 5%.
Solución: (a) pˆ = 0,30; B = 0,1173
(b) n = 132,30; n1 = 38,35 ≅ 39; n 2 = 22,80 ≅ 23; n3 = 58,98 ≅ 59; n 4 = 12,17 ≅ 13 ⇒ n = 134
24. Una escuela desea estimar la calificación media que puede obtener en el examen final de
matemáticas en este curso. Los estudiantes de la escuela se agrupan en tres estratos según
el tipo de aprendizaje, clasificado como N=Normal, A=Avanzado, L=Lento. En el
presente curso, la distribución de los alumnos según el tipo de aprendizaje es 50 normal,
30 avanzado y 20 lento, la calificación media de los estudiantes según el tipo de
aprendizaje fue en el primer examen parcial: 75 para el normal, 89 para el avanzado y 70
para el lento, con unas cuasivarianzas de 80, 30 y 40 respectivamente.
Para actualizar esta información, se tomó una muestra aleatoria de estudiantes, se les hizo
el examen final de matemáticas y se obtuvieron las siguientes calificaciones (entre
paréntesis, el tipo de aprendizaje de cada estudiante):
171
70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A)
91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L)
Se pide:
a. Estime la calificación media en el examen final de matemáticas. De una medida del
error de estimación.
b. ¿Qué ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados
de ambos métodos de estimación, así como determine la ganancia en precisión.
c. Se desea mejorar la estimación de la nota media del examen final en matemáticas,
teniendo en cuenta más información. Usando estos resultados como muestra
previa, qué tamaños muestrales en cada estrato son necesarios para un error
máximo admisible de 2 puntos, utilizando asignación proporcional.
d. Estime, con un intervalo de confianza, el número de estudiantes con aprendizaje
normal que han superado los 80 puntos. Si se pudiera planificar de nuevo la
muestra, ¿qué tamaño de muestra sería necesario para que esta misma estimación
tuviera un error máximo admisible de 10 estudiantes?
Solución: (a) µˆ = 78,59; B = 3, 21
(b) µˆ = 77,53; B = 4,25
(c) n = 36,31; n1 = 18,15 ≅ 19; n 2 = 10,89 ≅ 11; n3 = 7,26 ≅ 8 ⇒ n = 38
(d) (11,87, 43,69); n = 16,8 ≅ 17
25. Se desea estimar el salario medio de los empleados de una empresa. Se decide
clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato
temporal. Los primeros son 143 y su salario varía entre 1500 y 2500 euros mensuales. Los
contratos temporales son 320 y su salario está comprendido entre 700 y 1800 euros
mensuales. ¿Cuál debe ser el tamaño de la muestra y su asignación para que al estimar el
salario medio mensual el error de estimación sea inferior a 100 euros?
Solución: Neyman n = 26,91
172
n1 = 7, 77 ≅ 8
n2 = 19,14 ≅ 20 ⇒ n = 28
4. Estimación de Razón, Regresión y Diferencia
1. Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha
ciudad, vía declaración de la renta, ascienden a 1.502.530 euros mensuales. Se realiza una
encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen
en esta tabla.
Renta Consumo
1.702,44
1.204
1.339,56
1.000
981,06
800
2.537,04
1.800
1.519,85
1.200
3.080,19
2.600
1.502,53
1.080
1.702,87
1.240
1.402,36
1.000
1.803,04
1.400
2.053,46
1.484
3.005,06
2.000
Estime el consumo total mensual para todos los hogares de la ciudad mediante el
estimador de razón. De el LEE.
Solución:
τˆy = 1.116.002, 07€; B = 59.053,37€
2. Mediante una tasación previa se desea estimar la producción media y la producción total
de los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada
es de 3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los
que se les preguntó por la superficie plantada y se les tasó su producción. Los resultados
fueron:
Superficie Producción
3,7
12
4,3
14
4,1
11
5
15
5,5
16
3,8
12
8
24
5,1
15
5,7
18
6
20
3
8
7
20
5,4
16
4,4
14
173
5,5
18
5
15
5,9
18
5,6
17
5
15
7,2
22
a) Estimar la producción media y total mediante los estimadores de razón y m.a.s. Dar
sus respectivos LEE y compararlos.
b) Supongamos que queremos reducir el LEE de la media a 0,25 toneladas y el LEE del
total no debe superar las 200 toneladas ¿a cuántos socios se les debe tasar su
producción antes de realizar una nueva estimación?
Solución:
(a) razón : µˆ y = 15,57 tm; Bµ = 0, 37 tm; τˆy = 11.680, 61 tm; Bτ = 278,14 tm
m.a.s.: µˆ = y = 16 tm; Bµ = 1, 69 tm; τˆ = 12.000 tm; Bτ = 1.265, 76 tm
(b) 43 socios para estimar la media, 38 socios para estimar el total, se toma el máximo
n=43.
3. Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre la
media y el total de ventas diarias. Se tiene información de que, por término medio, el
gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se
les toma dato de su gasto en publicidad diaria y sus ventas diarias. Los resultados son:
Gastos Ventas
3,7
120
4,3
140
4,1
135
5
150
5,5
160
3,8
120
8
160
5,1
150
5,7
125
6
130
0
80
7
150
5,4
150
4,4
120
5,5
140
5
150
5,9
150
6,6
170
a) Estimar la media y el total de ventas diarias utilizando estimadores de
regresión. Dar LEE.
174
b) Se quiere repetir el estudio anterior de forma que la estimación del total no
supere los 1.000 euros ¿cuál debe ser el tamaño muestral?
Solución: (a) µˆ yL = 138,31€; B µ = 5,56€; τˆ yL = 138.314,38€; Bτ = 5.559,76€
(b) n = 361,67 ≅ 362 establecimientos
4. Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario.
Se tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar
una muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose:
Ingresos Gastos
470
405
650
585
710
650
300
240
475
410
505
435
610
550
380
320
540
480
520
460
a) Estime el gasto medio y el gasto total diario para los 200 establecimientos
utilizando muestreo aleatorio simple, estimadores de razón, regresión y
diferencia. Obtenga el LEE en cada caso.
b) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y
cometiendo un error máximo de 300 euros al estimar el total ¿cuál debe ser el
tamaño muestral?
Solución: (a)
Muestreo aleatorio simple
µˆ = y = 453, 5€
τˆ = Ny = 90.700€
ˆ µˆ ) = 75,20€
Bµ = 2 V(
Bτ = 200 × Bµ =15.040,97€
Estimadores de razón
r=
y
= 0,879
x
Bµ = 9, 3€
τˆy = rτ x = 87.900€
µˆ y = r µ x = 439, 5€
Bτ = 1.860,46€
Estimadores de regresión
µˆ yL = 437,515€
Bµ = 2,3104€
τˆyL = N µˆ yL = 87.503€
Bτ = NBµ = 462, 09€
Estimadores de diferencia
µˆ yD = 437, 5€
τˆyD = N µˆ yD = 87.500€
175
Bµ = 2 Vˆ ( µˆ yD ) = 2,179
Bτ = NBµ = 435,8899
(b) 20 establecimientos
5. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en
alimentos sobre el ingreso por año, para las familias de una pequeña comunidad. Una
muestra aleatoria de 14 familias fue seleccionada de entre 150. Los datos de la muestra se
presentan en la siguiente tabla:
Familia Ingreso Total Gasto en alimentos
1
25100
3800
2
32200
5100
3
29600
4200
4
35000
6200
5
34400
5800
6
26500
4100
7
28700
3900
8
28200
3600
9
34600
3800
10
32700
4100
11
31500
4500
12
30600
5100
13
27700
4200
14
28500
4000
Estime la razón poblacional, y establezca un límite para el error de estimación.
Solución: r = 0,1467; B = 0,0102
6. Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las
ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de
ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses
correspondiente al año anterior, ese total es de 128.200 €. Una muestra aleatoria simple de
5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la
siguiente tabla:
Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual
1
550
610
2
720
780
3
1500
1600
4
1020
1030
5
620
600
a) Usando un estimador de razón, estime el total de ganancias con un intervalo de
confianza.
b)
Utilizando un estimador de regresión y un estimador de diferencia, estime las
ganancias medias y establezca un límite para el error de estimación.
Solución: a) τ y ∈ (129940, 67 , 138668,85 )
176
b) µˆYL = 1.094, 53; B = 40, 46 ; µˆYD = 1.084, 28; B = 41, 28 .
7. Una agencia de publicidad está interesada en el efecto de una nueva campaña de
promoción regional sobre las ventas totales de un producto en particular. Una muestra
aleatoria simple de 20 tiendas es seleccionada de 452 tiendas regionales en las cuales se
vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo
actual de tres meses y para el periodo de tres meses previo a la nueva campaña.
Tienda Ventas antes de Ventas Tienda Ventas antes de Ventas
la campaña
actuales
la campaña
Actuales
1
208
239
11
599
626
2
400
428
12
510
538
3
440
472
13
828
888
4
259
276
14
473
510
5
351
363
15
924
998
6
880
942
16
110
171
7
273
294
17
829
889
8
487
514
18
257
265
9
183
195
19
388
419
10
863
897
20
244
257
a. Use los siguientes datos para estimar el total de ventas para el periodo actual y
establezca un límite para el error de estimación. Supóngase que las ventas totales
en el periodo previo a la campaña de promoción fueran de 216.256 €. Use los tres
métodos de estimación con información auxiliar.
b. Determinar el tamaño requerido de muestra para estimar τˆY con un límite para el
error de estimación igual a 2.000€.
Solución: (a) τˆY = 231.611,86; B = 3.073,83 ; τˆYL = 231.581,66; B = 2.950,85 ;
τˆYD = 231.511,00; B = 3.849,01
(b) Razón: n = 44,56 ≅ 45 ; Regresión: n = 41,38 ≅ 42 ; Diferencia: n = 66,16 ≅ 67
8. El ingreso nacional para 1981 será estimado con base en una muestra de 10 sectores
industriales que declaran sus ingresos de 1981 antes que las 35 restantes. (Existen 45
sectores industriales que se utilizan para determinar el ingreso nacional total). Se dispone
de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2.174,2
(en miles de millones). Los datos se presentan en la tabla adjunta:
Industria
Producto de fábricas textiles
Productos químicos y relacionados
Madera aserrada y leña
Equipo eléctrico y electrónico
Vehículos y equipo
Transporte y almacenaje
Banca
1980
13,6
37,7
15,2
48,4
19,6
33,5
44,4
1981
14,5
42,7
15,1
53,6
25,4
35,9
48,5
177
Bienes Raíces
198,3
Servicios de Salud
99,2
Servicios de Educación
15,4
(a) Encuentre el estimador de razón del ingreso total de
221,2
114,0
17,0
1981, y establezca un límite
para el error de estimación.
(b) Encuentre el estimador de regresión del ingreso total de 1981, y establezca un
límite para el error de estimación.
(c) Encuentre el estimador de diferencia del ingreso total de 1981, y establezca un
límite para el error de estimación.
(d) ¿Cuál de los tres métodos es el más apropiado en este caso?¿Por qué?
Solución: (a) τˆY = 2.433,30; B = 45,95 (b) τˆYL = 2.432,91; B = 48,64
(c) τˆY = 2.455,90; B = 180,07
9. En una población de 500 hogares, para la que es conocido que el gasto total general
durante un año es de 15.000.000 €, se quiere estimar el gasto total en alimentación durante
un año, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona
los siguientes valores anuales en €:
Gasto en alimentación 12.500 15.000 10.000 17.500
Gasto general
24.000 31.000 20.000 36.000
Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?,
justifíquese. Estime con un estimador de razón el total de gasto en alimentación mediante
un intervalo de confianza.
Solución: τ y ∈ ( 7.205.693€ ; 7.659.172€ )
10. Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una
agencia de seguros, en el presente mes, han sido (en euros)
570
721
650
650
569
Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros,
estime el total de ingresos y el límite para el error de estimación.
Solución: τɵ yD = N µ yD = 3349000 €
N − n S D2
S2
V (τɵ yD ) = N 2
= N ( N − n ) D = 50169875 € 2
N n
n
2 V (τɵ yD ) = 14166,14 €
11. Se desea conocer las ventas medias (en euros / habitante) en este año de un determinado
producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con
200 habitantes. Se sabe que las ventas medias en ese municipio el año pasado fueron de
170 euros / habitante. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra
de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio
(expresado en euros), este año (Y) y el año pasado (X):
178
Pueblo A Pueblo B
xi yi xi yi
204 210 137 150
143 160 189 200
82 75 119 125
256 280
a. Sin hacer distinción entre pueblos, estime las ventas medias para este año
utilizando un estimador de razón. Dé un límite para el error de estimación.
b. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado pero si el
pueblo?
c. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado ni se hace
distinción entre pueblos?
d. Compare los estimadores que se obtienen en cada caso justificadamente.
Solución: (a) µˆ = 180,53; B = 5,69 (b) µˆ = 171,91; B = 53,81 (c) µˆ = 171,43; B = 49,53
(d) La mejor estimación es en la que se usa el estimador de razón, por la fuerte relación
entre las variables. El muestreo estratificado se comporta mal porque los estratos no son
homogéneos.
12. Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego
constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamaño y litros
utilizados en riego aparecen en la siguiente tabla
Litros
600
1800
750
900
1100
1400
950
700
1000
720
Hectáreas
50
150
60
70
100
120
80
60
90
60
Estime la media de litros/hectárea que utiliza la comunidad de regantes y la cota del error
de dicha estimación.
2 V (r ) = 0 '3392
Solución: r = 11'81 litros / hectarea
13. Se está investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos.
Los investigadores piensan que hay razones para creer que el comportamiento es diferente
dependiendo de la zona de crianza. Por este motivo, deciden formar estratos observándose
el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de
un mes de tratamiento (Y). Se obtuvieron los siguientes resultados:
N 1 = 80;
N 2 = 60;
N 3 = 40; n1 = 10; n 2 = 8; n3 = 6
Zona A Zona B Zona C
X
Y
X
Y
X
Y
3,2 4,1 3,1 3,9 2,8 3,8
3,0 4,0 3,0 4,0 2,9 3,7
179
2,9 4,1 3,1 3,8 2,9 3,8
2,8 3,9 3,2 4,0 3,0 3,6
3,1 3,7 3,0 3,8 3,1 3,8
3,2 4,1 3,2 4,1 3,0 3,7
2,9 4,2 2,9 3,7
2,8 4,0 3,0 3,8
3,1 3,9
2,8 3,8
a. Estimar el peso medio estratificado de los conejos al principio y al final del
tratamiento. Dar una estimación del error.
b. Si se le permite un error de estimación de 0,01 para estimar el peso medio
estratificado al final del tratamiento, ¿cuáles deben ser los nuevos tamaños
muestrales? Usar asignación proporcional.
c. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de
3,2 kilogramos, estimar el peso medio de los conejos al final del tratamiento
utilizando un estimador de razón. Dar el límite de error de estimación.
d. Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo
aleatorio simple. Comentar los resultados.
Solución: (a) µˆ x = 3,0008; B = 0,0516; µˆ y = 3,8944; B = 0,0523
(b) n = 144,4; n1 = 64,2 ≅ 65; n 2 = 48,15 ≅ 49; n3 = 32,1 ≅ 33 ⇒ n = 147
(c) µˆ y = 4,1467; B = 0,0793
(d) µˆ = 3,8875; B = 0,0617
14. En una escuela de 560 alumnos, se desea estimar la calificación media que puede
obtenerse en el examen final de matemáticas en el curso 00/01. Se toma como información
auxiliar la calificación de los mismos alumnos en el examen final de matemáticas del
curso 99/00 con una nota media de 75. A partir de una muestra aleatoria de estudiantes
para los cuales se observó la nota del examen final en el curso 00/01 y la calificación de
dicho alumno en la prueba correspondiente al curso 99/00. Los resultados fueron los
siguientes:
180
Nota curso
99/00
Nota curso
00/01
80
87
78
65
98
86
45
47
61
67
83
94
79
67
56
67
Estimar la calificación media del curso 00/01 utilizando como información auxiliar la
calificación obtenida en el curso 99/00 mediante un estimador de razón. Dar una
estimación del error de muestreo.
Solución: µˆ y = 75; B = 7,45
15. Un director de recursos forestales está interesado en estimar el número de abetos muertos
por una plaga en una zona de 300 hectáreas. Usando una fotografía aérea, el director
divide la zona en 200 parcelas de hectárea y media. Se toma una muestra aleatoria de 10
parcelas. El número total de abetos muertos, obtenidos según la cantidad en fotografía es
4200.
Parcela
1
2
3
4
5
6
7
8
Cantidad en fotografía 12 30 24 24 18 30 12 6
Cantidad en terreno
9
10
36 42
18 42 24 36 24 36 14 10 48 54
a. Estime la razón poblacional y obtenga su intervalo de confianza.
b. Estime el número total de abetos muertos en el área de 300 hectáreas y fije un
límite para el error de estimación.
c. ¿Cuál ha de ser el tamaño de la muestra necesario para estimar el total de abetos
muertos, con un límite de error de estimación de 200 abetos?
Solución: (a) r = 1,3077; (1'2057, 1'4097) (b) τˆ y = 5.492,31; B = 428,44 ) (c) n = 38,9 ≅ 39
16. De una población de 40 hogares, para la que es conocido que el gasto total general durante
un periodo de un año, en general, es de 12.000.000 um., se obtiene una muestra aleatoria
simple de tamaño 4 que proporciona los siguientes valores anuales (en um):
Gasto en alimentación 125000 150000 100000 175000
a. Estimar el gasto total en alimentación para los 40 hogares mediante un intervalo de
confianza.
b. Supongamos que de esos 4 hogares tenemos también los valores anuales de su
gasto general (en um):
Gasto General 250000 300000 200000 350000
Antes de calcular otro estimador, ¿obtendríamos mejores resultados si
utilizamos esta información auxiliar?¿Por qué?
181
c. Estimar mediante un estimador de razón el total de gasto en alimentación,
utilizando la información auxiliar del apartado b.
d. Corroborar la respuesta del apartado b indicando qué estimador es mejor, el del
apartado a o el del apartado c.
Solución: (a) (4.275.255, 6.724.744) (b) ρ = 1 (c) τˆ y = 6.000.000 (d) B = 0 (límite del error de
estimación del apartado (c)
17. Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio.
El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del
barrio. Sea x el número de personas en cada vivienda e y el número de habitaciones por
vivienda. A partir de los datos siguientes:
x = 9,1
y = 2,6
25
∑ xi2 = 2240
i =1
25
∑ yi2 = 169
i =1
25
xi yi = 522
∑
i =1
estime la razón personas/habitación en el barrio y establezca el límite para el error de
estimación con una confianza del 95%.
Solución: r = 3,5
B = 0,767
18. En una universidad se realizó una prueba de conocimientos matemáticos antes del ingreso
a 486 estudiantes. Se consideraron dichas calificaciones como una variable auxiliar de la
variable “calificación final en cálculo”. Teniendo en cuenta que 291 eran chicos y las
calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas,
a partir de los datos de la tabla siguiente, se pide:
CHICOS
CHICAS
Examen previo Examen de cálculo Examen previo Examen de cálculo
39
65
57
92
43
78
47
89
21
52
28
73
64
82
75
98
34
56
52
75
a. Sin tener en cuenta el sexo, estima la calificación media en el examen final de
cálculo utilizando un estimador de razón. De una medida del error de estimación.
b. ¿Qué ocurre si no se tiene en cuenta la información auxiliar pero si el sexo?
c. ¿Qué ocurre si no se tiene en cuenta la información auxiliar ni el sexo?
d. Compare los estimadores que se obtienen en cada caso justificadamente.
182
Solución: (a) µˆ y = 80,97; B = 10,54 (b) µˆ = 73,76; B = 9,5 (c) µˆ = 76; B = 9,46
5. Muestreo Sistemático
1. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar
la cantidad media de llenado en latas de 12 onzas que sale de una línea de producción. Los
datos de la tabla adjunta representan una muestra sistemática 1 en 50 de la producción de
un día.
Cantidad de llenado (en onzas)
12,00 11,97 12,01 12,03 12,01 11,80
11,91 11,98 12,03 11,98 12,00 11,83
11,87 12,01 11,98 11,87 11,90 11,88
12,05 11,87 11,91 11,93 11,94 11,89
11,72 11,93 11,95 11,97 11,93 12,05
11,85 11,98 11,87 12,05 12,02 12,04
a. Estime µ , y establezca un límite para el error de estimación. Suponga que N=1.800.
b. Determinar el tamaño de muestra requerido para estimar µ dentro de 0,01 unidades.
Solución: (a) µˆ sy = 11,94; B = 0,0259 (b) n = 217,1 ≅ 218
2. La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan
el permiso de conducir. Se instala un puesto de control en una carretera nacional y se
detiene un conductor de cada siete.
a. Use los datos de la tabla adjunta para estimar la proporción de conductores que portan
su licencia. Establezca un límite para el error de estimación. Suponga que 2.800 autos
pasan por el puesto de verificación durante el periodo de muestreo.
Automóvil
1
8
15
Respuesta
1
1
0
⋮
⋮
2794
1
400
∑ y i = 324
i =1
b. En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000
automóviles por el puesto de verificación. Determine el tamaño de muestra y k para
estimar p con un error inferior al 2%.
183
Solución: (a) pˆ sy = 0,8100; B = 0,0364 (b) n = 1.176, 97 ≅ 1177 k = 4
3. Los funcionarios de un museo están interesados en el número total de personas que visitan
el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades está
en exhibición. Puesto que el control de visitantes en el museo cada día es muy costosa, los
funcionarios deciden obtener estos datos cada décimo día. La información de esta muestra
sistemática de 1 en 10 se resume en esta tabla
Día
3
13
23
Nº personas que visitan el museo
160
350
225
⋮
⋮
173 290
18
18
i =1
i =1
∑ y i = 4.868;
2
∑ y i = 1.321.450
Use estos datos para estimar el número total de personas que visitan el museo durante el
periodo específico. Establezca un límite para el error de estimación.
Solución: τˆ sy = 48680; B = 1.370,34
4. Los funcionarios de cierta sociedad profesional desean determinar la proporción de
miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los
funcionarios toman una muestra sistemática de 1 en 10, a partir de una lista en orden
alfabético de los 650 miembros registrados. Sea y i = 1 si la i-ésima persona muestreada
favorece los cambios propuestos e y i = 0 si se opone a los cambios. Use los siguientes
datos de la muestra para estimar la proporción de miembros en favor de los cambios
propuestos. Establezca un límite para el error de estimación.
65
∑ y i = 48
i =1
Solución: pˆ sy = 0,7385; B = 0,1042
5. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000
individuos para Estados Unidos durante seis años seleccionados sistemáticamente.
(a) Estime el número medio de varones nacidos por año para el periodo 1955-1980, y
establezca un límite para el error de estimación.
(b) Estime la tasa media anual de natalidad para el periodo 1955-1980, y establezca un
límite para el error de estimación.
(c) ¿Cree usted que el muestreo sistemático es mejor que el muestreo aleatorio simple
para los problemas de los apartados (a) y (b)?¿Por qué?
184
Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad
1955 2.073.719
1.973.576
4.047.295
26,0
1960 2.179.708
2.078.142
4.257.850
23,7
1965 1.927.054
1.833.304
3.760.358
19,4
1970 1.915.378
1.816.008
3.731.386
18,4
1975 1.613.135
1.531.063
3.144.198
14,6
1980 1.852.616
1.759.642
3.612.258
15,9
Solución: (a) µˆ sy = 1.926.935; B = 139.437,35 ; (b) µˆ sy = 19,67; B = 3,17 ;
(c) Si. Observando la tendencia de las muestras se puede decir que las poblaciones en
estudio están “ordenadas” de forma decreciente.
6. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000
personas) en Estados Unidos para una muestra sistemática de los años de 1900-1980.
Estime la tasa media anual de divorcios para tal periodo y establezca un límite para el
error de estimación. ¿Es en este caso el muestreo sistemático mejor o peor que el muestreo
aleatorio simple?¿Por qué?
Solución: µˆ sy
Año Tasa Año Tasa
1900 0,7 1945 3,5
1905 0,8 1950 2,6
1910 0,9 1955 2,3
1915 1,0 1960 2,2
1920 1,6 1965 2,5
1925 1,5 1970 3,5
1930 1,6 1975 4,8
1935 1,7 1980 5,2
1940 2,0
= 2,26; B = 0,57 . Mejor, se observa, en general, una tendencia creciente en
los datos de la muestra, aunque se rompa ese orden parcial en los años 1945-1955.
7. La gerencia de una compañía privada con 2.000 empleados está interesada en estimar la
proporción de empleados que favorecen una nueva política de inversión. Una muestra
sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día
de trabajo (las respuestas a favor se han representado como 1)
Empleado Respuesta
muestreado
3
1
13
0
23
1
⋮
⋮
1993
1
200
∑y
i =1
i
= 110
185
Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando
la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué
tipo de muestra sistemática deberá obtenerse? (indique n y k).
Solución: n = 330, 7 ≈ 331
k = 6, 04 ⇒ k = 6
8. Un auditor se enfrenta a una larga lista de 1.000 cuentas por cobrar de una empresa. El
valor de cada una de estas cuentas no suele superar los 21.000 €. El auditor quiere estimar
el valor total de las deudas por cobrar con un error inferior a 1.000.000 € con una
confianza del 95%. Para ello decide tomar una muestra sistemática de 1 en k . Determine
el valor de k.
Solución:
k = 10
9. Los funcionarios de cierta sociedad profesional desean determinar la proporción de
miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los
funcionarios tomaron una muestra sistemática de 1 en 10, a partir de una lista en orden
alfabético de los 650 miembros registrados, obteniendo que 47 estaban a favor de los
cambios propuestos. Se quiere repetir el estudio anterior con un error de estimación
inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los
parámetros necesarios, ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k).
Solución: n =
Npq
= 214,8 ≈ 215
( N − 1) D + pq
k≤
625
= 3, 02
215
k =3
6. Muestreo por Conglomerados.
(Se recomienda realizar con el ordenador los ejercicios 1, 2, 3, 5 y 7 dado el elevado número
de datos y resolver a mano, verificando la solución con el ordenador, una versión con menos
datos)
1. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las
sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de
reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el
número de sierras que tiene cada industria. Entonces decide usar muestreo por
conglomerados, con cada industria como un conglomerado. El fabricante selecciona una
muestra aleatoria simple de 20 de 96 industrias a las que da servicio. Los datos sobre coste
total de reparaciones por industria y el número de sierras son:
186
Industria Nº sierras Costo total de reparación
para el mes pasado (€)
1
3
50
2
7
110
3
11
230
4
9
140
5
2
60
6
12
280
7
14
240
8
3
45
9
5
60
10
9
230
11
8
140
12
6
130
13
3
70
14
2
50
15
1
10
16
4
60
17
12
280
18
6
150
19
5
110
20
8
120
a. Estime el costo medio de reparación por sierra para el mes pasado, y establezca un
límite para el error de estimación.
b. Estime la cantidad total gastada por las 96 industrias en la reparación de sierras.
Establezca un límite para el error de estimación.
c. Después de verificar sus registros de ventas, el fabricante se percata de que ha vendido
un total de 710 sierras a esas industrias. Usando esta información adicional, estime la
cantidad total gastada en reparación de sierras por estas industrias, y establezca un
límite para el error de estimación.
Solución: (a) µˆ = 19,73; B = 1,78 (b) τˆ = 12.312; B = 3.175,07
(c) τˆ = 14.008,85; B = 1.110,78
2. Una industria está considerando la revisión de su política de jubilación y quiere estimar la
proporción de empleados que apoyan la nueva política. La industria consiste en 87 plantas
separadas localizadas en todo Estados Unidos. Ya que los resultados deber ser obtenidos
rápidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con
cada planta como un conglomerado. Se selecciona una muestra aleatoria simple de 15
plantas y se obtienen las opiniones de los empleados en estas plantas a través de un
cuestionario. Los resultados se presentan en esta tabla:
Planta Nº empleados Nº empleados que apoyan la nueva política
1
51
42
2
62
53
187
3
49
40
4
73
45
5
101
63
6
48
31
7
65
38
8
49
30
9
73
54
10
61
45
11
58
51
12
52
29
13
65
46
14
49
37
15
55
42
a) Estime la proporción de empleados en la industria que apoyan la nueva política de
jubilación y establezca un límite para el error de estimación.
b) La industria modificó su política de jubilación después de obtener los resultados de
la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la
política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del
2% para el error de estimación? Use los datos anteriores para aproximar los
resultados de la nueva encuesta.
Solución: (a) pˆ = 70,91%; B = 4,81% ) (b) n = 47,6 ≅ 48
3. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios
para los hogares en una ciudad. Ya que no se encuentra disponible una lista de hogares, se
usa muestreo por conglomerados, con barrios formando los conglomerados. Se selecciona
una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los entrevistadores
obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales
se muestran en esta tabla:
Barrio Nº hogares Cantidad total gastada en servicios (€)
1
55
2210
2
60
2390
3
63
2430
4
58
2380
5
71
2760
6
78
3110
7
69
2780
8
58
2370
9
52
1990
10
71
2810
11
73
2930
12
64
2470
13
69
2830
14
58
2370
15
63
2390
16
75
2870
188
17
78
3210
18
51
2430
19
67
2730
20
70
2880
a. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un
límite para el error de estimación.
b. En la encuesta anterior se desconoce el número de hogares en la ciudad. Estime la
cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un
límite para el error de estimación.
c. La encuesta económica se va a llevar a cabo en una ciudad vecina de estructura
similar. El objetivo es estimar la cantidad total gastada en servicios por los hogares de
la ciudad, con un límite de 5.000€ para el error de estimación. Use los datos anteriores
para encontrar el número aproximado de conglomerados que se necesitan para obtener
ese límite.
Solución: (a) µˆ = 40,17; B = 0,64 (b) τˆ = 157.020; B = 6.927,88 (c) n = 29,4 ≅ 30
4. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas
en una fábrica. El cereal está en paquetes que contienen 12 cajas cada uno. El inspector
selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes
muestreados, con los resultados (en onzas) que se muestran:
Paquete
Onzas de llenado
1
16,1 15,9 16,1 16,2 15,9 15,8 16,1 16,2 16,0 15,9 15,8 16,0
2
15,9 16,2 15,8 16,0 16,3 16,1 15,8 15,9 16,0 16,1 16,1 15,9
3
16,2 16,0 15,7 16,3 15,8 16,0 15,9 16,0 16,1 16,0 15,9 16,1
4
15,9 16,1 16,2 16,1 16,1 16,3 15,9 16,1 15,9 15,9 16,0 16,0
5
16,0 15,8 16,3 15,7 16,1 15,9 16,0 16,1 15,8 16,0 16,1 15,9
Estime el peso medio de llenado para las cajas empaquetadas por esta fábrica, y establezca
un límite para el error de estimación. Suponga que el número total de cajas empaquetadas
por la fábrica es lo suficientemente grande para que no se tome en cuenta la corrección por
población finita.
Solución: µˆ = 16,0050; B = 0,0215
5. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A en
una elección estatal. La selección y entrevista de una muestra aleatoria simple de votantes
registrados es muy costosa por lo que se utiliza muestreo por conglomerados. Se
selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que
tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de
que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados
a los lugares de votación de cada distrito en la muestra, para obtener la información
pertinente directamente de los votantes. Los resultados se muestran en esta tabla:
189
Nº votantes Nº votantes A Nº votantes Nº votantes A Nº votantes Nº votantes A
1290
680
1893
1143
843
321
1170
631
1942
1187
1066
487
840
475
971
542
1171
596
1620
935
1143
973
1213
782
1381
472
2041
1541
1741
980
1492
820
2530
1679
983
693
1785
933
1567
982
1865
1033
2010
1171
1493
863
1888
987
974
542
1271
742
1947
872
832
457
1873
1010
2021
1093
1247
983
2142
1092
2001
1461
1896
1462
2380
1242
1493
1301
1943
873
1693
973
1783
1167
798
372
1661
652
1461
932
1020
621
1555
523
1237
481
1141
642
1492
831
1843
999
1820
975
1957
932
a. Estime la proporción de votantes que apoyan al candidato A, y establezca un límite
para el error de estimación.
b. El periódico quiere realizar una encuesta similar durante la siguiente elección. ¿Cómo
de grande debe ser la muestra para estimar la proporción de votantes a favor de un
candidato similar con un límite del 5% para el error de estimación?
Solución: pˆ = 0,5701; B = 0,0307 (b) n = 20,1 ≅ 21
6. Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el
número de libros comprados cada mes en una localidad. Se selecciona una localidad con
6.200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la
cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias,
obteniéndose los siguientes resultados:
manzana libros comprados cada mes por familia
1
1 2 1 0 3 2 1 0 1 2
2
1 0 2 2 0 0 1 3
3
2 1 1 1 1 0 2 1 2 2 2
4
1 1 0 2 1 0 3
Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva
muestra si se quiere estimar los libros comprados cada mes con un error de estimación
inferior a 140 unidades.
Solución: n = 96,92 ≈ 97
7. Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde
no existe una lista disponible de adultos residentes. Por esta razón para el diseño de la
190
encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares
y el sociólogo decide que cada bloque rectangular va a ser considerado como un
conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene
tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a
cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se
realizan las entrevistas, obteniéndose estos datos:
Conglomerado (i) Nº de residentes (mi)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
8
12
4
5
6
6
7
5
8
3
2
6
5
10
9
3
6
5
5
4
6
8
7
3
8
151 residentes
Ingreso total por
conglomerado en € (yi)
96000
121000
42000
65000
52000
40000
75000
65000
45000
50000
85000
43000
54000
49000
53000
50000
32000
22000
45000
37000
51000
30000
39000
47000
41000
1329000 €
a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error
de estimación.
b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de
estimación, suponiendo que M es desconocido.
c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de
todos los residentes de la ciudad mediante un intervalo de confianza.
NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 6 ∀i ,
supongamos conocido M = 6 × 415 = 2.490 ) y estime el total por los dos métodos
191
(
)
estudiados τɵ = M y τɵ t = N y t . Observe como coinciden las dos estimaciones así como
la varianza del estimador y el límite para el error de estimación.
d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la
muestra en una encuesta futura para estimar el ingreso promedio por persona con un
límite para el error de estimación de 500€.
Solución: a) µ = 8.801,32 € / residente
B = 1.617,14€
b) τɵ t = 22.061.400 €
B = 3.505.584, 04 €
c) (17.949.791,34€ , 26.056.831,18€ )
d) n = 166, 58 ≈ 167
8. Un empresario quiere estimar el número de tubos de dentífrico usados por mes en una
comunidad de 4000 hogares divididos en 400 bloques. Se selecciona una muestra aleatoria
simple de 4 bloques que proporciona los siguientes resultados:
Bloque
tubos gastados por hogar
1
1 2 1 3 3 2 1 4
2
1 3 2 2 3 1 4 1 1
3
2 1 1 1 3 2 2
4
1 1 3 2 1 5 1 3
Estime de distintas formas el número total de tubos gastados, obtenga el límite para el
error de estimación en cada caso y comente los resultados.
Solución:
Muestreo por conglomerados τˆ = 8000; B = 562,85 Muestreo aleatorio simple
τˆ = 6400; B = 1077,78
9. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 5 de
los 40 paquetes que tiene la fábrica, cada uno de los cuales contiene 4 envases, y se mide
el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta:
Paquete nº Volumen envasado en cm3
1
33
32,5 31,7 34,2
2
32
32,6 33,8 32,5
3
30,9 33,1 33
33,4
4
34,1 33,1 32,5 33,2
5
32
32,1 32,6 33,6
Estime el volumen medio por envase y dar la cota de error de estimación.
Solución: µˆ = 32,80; B = 0,22
10. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las
empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas
en el registro mercantil. El número de bajas en el último año, el número de empleados y la
respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo
temporal fueron los siguientes:
192
Empresa
1
2
3
4
5
6
7
8
9
10
a. Estime el número de
Bajas Empleados Respuesta
1
7
Si
2
15
No
9
85
Si
0
3
No
2
12
No
0
8
No
1
21
Si
0
4
No
4
35
No
6
92
Si
bajas en el último año en las empresas del pueblo. Dé el
límite del error de estimación.
b. Estime la proporción de empresas que usarían los servicios ofertados. Dé el
límite del error de estimación.
Solución: (a) τˆ = 212,5; B = 151,02 (b) pˆ = 40%; B = 30,68%
11. Cierto tipo de tableros posee 12 microcircuitos cada uno. De un pedido de 50 tableros se
seleccionan 10 de ellos para su estudio. El número de microcircuitos defectuosos por
tablero fue
2 0 1 3 2 0 0 1 3 4
Estime la proporción de microcircuitos defectuosos en la población y establezca una cota
para el error de estimación.
Solución: pˆ = 0,1333; B = 0,0674
12. En una pequeña ciudad se quiere estimar el número total de horas diarias que sus
residentes dedican a ver el programa ``Gran Hermano'', emitido las 24 horas del día por un
canal Digital. Dicha ciudad está dividida en 200 manzanas de viviendas. Se extrae una
muestra aleatoria simple de 10 manzanas, y se interroga a cada familia acerca de si están
conectados a Vía Digital y cuántas horas ven el programa. Los datos de la encuesta se
encuentran en la siguiente tabla:
Manzana Nº hogares con
canal Digital
Nº total horas que
ven programa
1
8
13
2
7
13
3
9
14
4
6
13
5
5
0
6
9
10
7
6
6
193
8
8
14
9
9
16
10
6
4
a. Estimar el número total de horas que se ve el programa ``Gran Hermano'' a través
de Canal Digital.
b. Obtener un intervalo de confianza para el número total de horas.
c. Determinar cuántas manzanas se deberían muestrear para estimar el total
poblacional, con un límite para el error de estimación de magnitud 20. Considere la
muestra anterior como una muestra previa para estimar los parámetros necesarios.
Solución: (a) τˆ = 2060 ; (b) (1415,30, 2704,70) (c) n = 196,4 ≅ 197
13. En una urbanización se quiere estimar la proporción de hogares interesados en contratar el
sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas
de viviendas. Se extrae una muestra aleatoria simple de 10 manzanas y se interroga a cada
familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la
encuesta se encuentran en la tabla:
Manzana Nº hogares en la Nº hogares
manzana
interesados
1
8
3
2
7
3
3
9
4
4
6
3
5
5
2
6
9
4
7
6
3
8
8
3
9
9
4
10
6
2
a. Estimar la proporción de hogares interesados en contratar la televisión digital.
b. Obtenga un intervalo de confianza para la citada proporción.
c. Determinar cuántas manzanas se deberían muestrear para estimar la proporción
poblacional con un límite para el error de estimación del 1%. Considere la muestra
anterior como una muestra previa para estimar los parámetros necesarios.
Solución: (a) pˆ = 0,4247 (b) (0'3947, 0'4547) (c) n = 64,28 ≅ 65
14. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen
ordenador. Se consideran 1000 conglomerados de 5 familias cada uno, y se elige una
194
muestra aleatoria de 10 conglomerados, en los que el número de familias con ordenador
es:
2 1 5 3 0 1 4 3 5 0
Estimar la proporción de familias que poseen ordenador y la varianza del estimador usado
para estimar dicha proporción.
Solución: pˆ = 0,48; Vˆ ( pˆ ) = 0,0143
15. Se desea conocer la proporción de empleados de una empresa que no están dispuestos a
trasladarse a una nueva planta de producción. Realizada una encuesta a los empleados de 5
factorías elegidas al azar entre las 50 que tiene la empresa, los resultados han sido:
Factoría Nº empleados Dispuestos
1
250
225
2
190
175
3
210
190
4
400
350
5
150
120
Estimar la proporción de empleados que no están dispuestos a trasladarse a la nueva
factoría. Obtenga una estimación de la varianza del estimador empleado.
Solución: pˆ = 0,1167; Vˆ ( pˆ ) = 0,0002
16. Un gran embarque de mariscos congelados es empaquetado en cajas, conteniendo cada
una 24 paquetes de 5 kilos. Hay 100 cajas en el embarque. Un inspector del gobierno
determina el peso total de mariscos dañados para cada una de las 5 cajas muestreadas. Los
datos son:
9
6
3
10 2
a. Estime el peso total de mariscos dañados en el embarque y establezca un límite
para el error de estimación.
b. Determine el tamaño de la muestra necesario para estimar el peso total de mariscos
dañados en el embarque, con un límite de error de 275.
Solución: (a) τˆ = 600; B = 308, 22 (b) n = 6, 20 ≅ 7
195
7. Estimación del Tamaño de la Población.
1. Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un
periodo de varios días, sea atrapan 100 truchas, se marcan y se devuelven al arroyo.
Obsérvese que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado
en esos días, que ya había sido marcado, se devolvía inmediatamente. Varias semanas
después se atrapó una muestra de 120 peces y se observó el número de peces marcados.
Supongamos que este número fue de 27 en la segunda muestra. Estime el tamaño total de
la población de truchas y dé un límite de error de estimación.
Solución: Nˆ = 444,4; B = 150,60
2. Ciertos biólogos de poblaciones salvajes desean estimar el tamaño total de la población de
codorniz común en una sección del sur de Florida. Se usa una serie de 50 trampas. En la
primera muestra se atrapan 320 codornices. Después de ser capturadas, cada ave es
retirada de la trampa y marcada con una banda de metal en su pata izquierda. Luego se
sueltan todas las aves. Varios meses después se obtiene una segunda muestra de 515
codornices. Suponga que 91 de estos pájaros están marcados. Estimar el tamaño total de la
población de codornices y dar un límite de error de estimación.
Solución: Nˆ = 1810,99; B = 344,51
3. Expertos en pesca están interesados en estimar el número de salmones de una reserva. Se
atrapa una muestra aleatoria de 2876 salmones. Cada uno es marcado y soltado. Un mes
después se atrapa una segunda muestra de 2562. Supongamos que 678 tienen marcas en la
segunda muestra. Estime el tamaño de la población total y establezca un límite del error de
estimación.
Solución: Nˆ = 10.867,72; B = 715,82
4. Los regentes de una ciudad están preocupados por las molestias que causan las palomas
alrededor del ayuntamiento. A fin de cuantificar el problema contratan un equipo de
investigadores para que estime el número de palomas que ocupan el edificio. Con varias
trampas se captura una muestra de 60 palomas, se marcan y se sueltan. Un mes después se
repite el proceso, usando 60 palomas, de las que 18 están marcadas. Estimar el tamaño
total de la población de palomas y dar un límite de error de estimación.
Solución: Nˆ = 200; B = 78,88
5. Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área
geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una
196
muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y
liberadas. Toma una segunda muestra un mes después y decide continuar muestreando
hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas antes de obtener las 15
marcadas. Estime el tamaño total de la población de tortugas y establezca un límite de
error de estimación.
Solución: Nˆ = 1.066,67; B = 507,72
6. En una plantación de pinos de 200 acres, se va a estimar la densidad de árboles que
presentan hongos parásitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las
diez parcelas muestreadas tuvieron una media de 2,8 árboles infectados por cuadro.
a) Estime la densidad de árboles infectados y establezca un límite de error de
estimación.
b) Estime el total de árboles infectados en los 200 acres de la plantación y
establezca un límite de error de estimación.
Solución: (a) λˆ = 5,6; B = 2,1 (b) Mˆ = 1.120; B = 423,32
7. Se desea estimar el número total de personas que diariamente solicitan información en una
oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos
de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta
la oficina. Estimar el total de personas que visitan la oficina diariamente y dar la cota de
error de estimación.
Solución: Mˆ = 912; B = 170,8
8. Un alumno de A.T.C. desea estimar el número de alumnos que una determinada mañana
han ido a la Facultad. Para ello se basa en que dicho día una conocida marca comercial ha
repartido a primeras horas de la mañana en la entrada de la Facultad 500 carpetas. En un
intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan
hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382
alumnos.
Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la
Facultad.
Solución: muestreo inverso (1910 ∓ 326,58 )
9. El hermano de un alumno de T.A.M. está pensando en abrir una farmacia de 24 horas.
Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un
establecimiento similar para estimar los ingresos diarios. Este asiduo alumno de T.A.M.
conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de
197
clientes las 24 horas del día por lo que decide observar de forma sistemática media hora
cada 3 horas, obteniendo los datos de la siguiente tabla
clientes
10:00-10:30
35
13:00-13:30
20
16:00-16:30
19
19:00-19:30
30
22:00-22:30
25
01:00-01:30
9
04:00-04:30
12
07:00-07:30
18
Sabiendo que el gasto medio por cliente es de 20∈, estime los ingresos diarios de la
farmacia observada y el correspondiente límite para el error de estimación utilizando
diferentes métodos.
Solución:
Muestreo por cuadros Ingresos = 20.160; B = 3.110,76 ; Muestreo aleatorio
simple Ingresos = 20.160; B = 5.402,22
10. Se desea estimar el número total de palomas en la glorieta de una ciudad. Se capturan 80
palomas, se marcan y se devuelven a la población. Se realiza una segunda muestra hasta
encontrar 30 palomas marcadas, se han tenido que capturar para ello 300 aves. Estimar el
tamaño total y el límite de error de estimación.
Solución: Nˆ = 800; B = 272,62
11. Se desea estimar el número total de pingüinos en una determinada zona. Se obtiene una
muestra de tamaño 60, se marcan y se devuelven a la población. Al día siguiente se elige
otra muestra de tamaño 400 y en ella se encuentran 12 marcados. Estimar el número total
de pingüinos y dar la cota de error de estimación.
Solución: Nˆ = 2.000; B = 1.137,25
12. Se desea estimar el número de vehículos de un modelo determinado que el mes próximo
utilizarán el aparcamiento de Puerta Real. Durante las 720 horas del mes se van a
establecer 5 controles aleatorios de 1 hora de duración cada uno. Transcurrido el mes, se
ha observado en los 5 controles los siguientes resultados:
Control
Número de vehículos de ese
modelo que usan el aparcamiento
1
1
2
1
3
2
4
1
5
3
Estimar el número total de vehículos del modelo en estudio que utilizaron el aparcamiento.
198
Solución: Mˆ = 1152; B = 814,59
13. El ayuntamiento de Madrid está interesado en conocer el número de aficionados que
acudieron al aeropuerto a vitorear al equipo campeón de la Champion League. Para ello,
dividieron la sala de espera, de dimensiones 100 metros de largo por 35 metros de ancho,
en 100 cuadros de igual tamaño y seleccionaron 40, observando que el número de
personas era 2100.
a. Estime la densidad de asistentes por metro cuadrado mediante un intervalo de
confianza del 95%.
b. Estime el número total de asistentes, y fije un límite para el error de
estimación.
Solución: (a) (1,4, 1,6) (b) Mˆ = 5.250; B = 229,13 ≅ 229
14. Se toman periódicamente muestras del aire en un área industrial de la ciudad. La densidad
de cierto tipo de partículas dañinas es el parámetro de interés para el sector industrial. A
partir de 15 muestras de 1 cm 3 , se obtuvo un promedio de 210 partículas/ cm 3 . Estimar la
densidad de las partículas dañinas en dicha zona, así como dar una estimación del error de
dicha estimación.
Solución: λˆ = 210 part / cm 3 ; B = 7,48
15. Se desea conocer cuántas personas asistieron a la inauguración del pabellón de Portugal en
la Expo de Lisboa. Se sabe que el pabellón tiene forma cuadrada de 35 metros de lado y se
traza una malla que divide el área total en 100 cuadros de igual tamaño. Se selecciona una
muestra aleatoria de 40 cuadros, observando que el número de personas es de 750.
a. Estime la densidad de asistentes por metro cuadrado y obtenga su intervalo de
confianza.
b. Estime el número total de asistentes a la inauguración y fije un límite para el error
de estimación.
Solución: (a) λˆ = 1,5306; (1'4188, 1'6424) (b) Mˆ = 1875; B = 136,9
16. Un equipo de ecólogos quiere medir la efectividad de un fármaco para controlar el
crecimiento de la población de palomas. Se quiere conocer el tamaño de la población de
este año para compararlo con el del año pasado. Se atrapa una muestra inicial de 600
palomas y se les da el fármaco, a la vez que se aprovecha para marcarlas en una pata. En
fechas posteriores se atrapa otra muestra de 100 palomas de las cuales 48 tienen marca.
a. Estime el tamaño de la población con un intervalo del 95% de confianza.
199
b. Para reducir el límite de error de estimación a la mitad, ¿en qué proporción deben
ser mayores las cantidades 100 y 48 observadas en la segunda muestra?, ¿se
deberían observar el doble de las cantidades anteriores, es decir, 200 y 96?, ¿el
triple?, ¿el cuádruplo?,...
Solución: (a) ( 989 '79, 1510 '21) (b) el cuádruplo
8. Análisis cluster
1.
Un investigador tiene información sobre el presupuesto que un conjunto de empresas ha
destinado a publicidad en el último año y de las ventas que han logrado en ese mismo
ejercicio:
Nombre Empresa Inversión en publicidad Ventas
E1
16
10
E2
12
14
E3
10
22
E4
12
25
E5
45
10
E6
50
15
E7
45
25
E8
50
27
Estudie si estas empresas pueden agruparse en función de la rentabilidad en términos de
ventas que han sido capaces de generar con su inversión publicitaria.
2.
El director de ventas de una cadena de electrodomésticos con implantación nacional está
estudiando el plan de incentivos de sus vendedores. Considera que los incentivos deben
estar ajustados a las dificultades de las distintas zonas de ventas, siendo necesario fijar
incentivos más altos en aquellas zonas geográficas en que las condiciones de vida de sus
habitantes hacen más difícil las ventas. Por este motivo quiere determinar si las
comunidades autónomas se pueden segmentar en grupos homogéneos respecto al
equipamiento de los hogares. Para ello dispone de los siguientes datos:
CC.AA.
España
Andalucía
Aragón
Asturias
Baleares
200
Automóvil
69,0
66,7
67,2
63,7
71,9
Porcentaje de hogares que poseen
TV color Vídeo Microondas Lavavajillas Teléfono
97,6
62,4
32,3
17,0
85,2
98,0
62,7
24,1
12,7
74,7
97,5
56,8
43,4
20,6
88,4
95,2
52,1
24,4
13,3
88,1
98,8
62,4
29,8
10,1
87,9
Canarias
72,7
96,8
68,4
Cantabria
63,4
94,9
48,9
Cast. Y Leon
65,8
97,1
47,7
C. La Mancha
61,5
97,3
53,6
Cataluña
70,4
98,1
71,1
Com. Valenciana
72,7
98,4
68,2
Extremadura
60,5
97,7
43,7
Galicia
65,5
91,3
42,7
Madrid
74,0
99,4
76,3
Murcia
69,0
98,7
59,3
Navarra
76,4
99,3
60,6
País Vasco
71,3
98,3
61,6
La Rioja
64,9
98,6
54,4
Fuente: Panel de hogares de la Unión Europea. INE.
3.
27,9
36,5
28,1
21,7
36,8
26,6
20,7
13,5
53,9
19,5
44,0
45,7
44,4
5,80
11,2
14,0
7,10
19,8
12,1
11,7
14,6
32,3
12,1
20,6
23,7
17,6
75,4
80,5
85,0
72,9
92,2
84,4
67,1
85,9
95,7
81,4
87,4
94,3
83,4
Con el archivo Mundo 95.sav clasifica a los paises según las siguientes variables:
a. Esperanza de vida femenina
b. Mortalidad infantil
c. Ingesta diaría de calorias
d. Tasa de mortalidad
e. Casos SIDA por cada 100.000 habitantes.
Para ello, realiza los siguientes pasos:
i.
Realiza un análisis jerárquico utilizando el método del vecino más
lejano. No olvides tipificar las variables (Puntuaciones Z)
ii.
Realiza un análisis no jerarquico imponiendo el número de grupos
aconsejado por el método anterior. No olvides tipificar las variables.
4.
Con el archivo Europa.sav clasifica los paises según las siguientes variables:
a. Habitantes por Km2
b. Personas alfabetizadas
c. Producto Interior Bruto
d. Tasa natalidad
e. Fertilidad
5.
Teniendo en cuenta los siguientes datos
Ciudadanos Ingresos Edad
Pepe
175
44
Juan
182
55
Pedro
184
41
Pablo
186
32
Maria
185
35
Juana
198
41
Toñi
194
32
Tere
183
32
Carmen
125
23
201
Elena
Luisa
Belén
Nicolás
César
Alberto
Carlos
Divide los ciudadanos según ingresos y edad.
107
97
88
116
121
100
175
22
24
27
28
33
29
21
9. Componentes principales.
1. Con el archivo Mundo 95.sav realiza un análisis de componentes principales con las
siguientes variables:
•
Esperanza de vida femenina
•
Mortalidad infantil (muertes por 1000 nacimientos vivos)
•
Personas Alfabetizadas (%)
•
Tasa de natalidad (por 1.000 habitantes)
•
Fertilidad: número promedio de hijos
•
Habitantes en ciudades (%)
•
Log(10) de PIB_CAP
•
Tasa de mortalidad (por 1.000 habitantes)
2. Con el archivo Europa.sav realiza un análisis de componentes principales con las
siguientes variables:
• Habitantes por Km2
202
•
Personas alfabetizadas
•
Producto Interior Bruto
•
Tasa natalidad
•
Fertilidad
PRÁCTICAS
203
INTRODUCCIÓN AL SPSS
1.- INTRODUCCIÓN
El SPSS (Statistical Package for the Social Sciences) es un conjunto de programas orientados a
la realización de análisis estadísticos aplicados a las ciencias sociales. Con más de 30 años de
existencia es, en la actualidad, el paquete estadístico con más difusión a nivel mundial.
El SPSS implementa una gran variedad de temas estadísticos en los distintos módulos del
programa. Nosotros utilizaremos solo el módulo SPSS base.
En los siguientes apartados se hace una breve introducción a los conceptos básicos de este
programa. Para una mejor exposición de los mismos puede consultarse la “Guía breve de
SPSS” o el “Tutorial” en el menú de ayudas (?) – muy recomendable esta última opción.
1.1.- PASOS BÁSICOS EN EL ANÁLISIS
1. Introducir los datos en SPSS.
Es posible:
o
Abrir un archivo creado anteriormente o
o
Introducir nuevos datos (se verá más adelante en “1.3- Editor de datos”).
Los archivos de datos con formato SPSS tienen extensión *.sav. Para abrir un archivo de datos
de este formato, seleccione en el menú principal: Archivo/Abrir/Datos. Por defecto, SPSS dará
una relación de los archivos en su directorio con extensión *.sav. Busque y seleccione el
archivo que se desee abrir. Además de los archivos con este formato, SPSS puede abrir
204
archivos de EXCEL, LOTUS 1-2-3, dBASE,… sin necesidad de convertirlos a un formato
intermedio ni de introducir información sobre la definición de los datos.
Desde aplicaciones como Microsoft Excel también puede leer los encabezados de las columnas
como nombres de variables. Para ello elija en los menús: Archivo/Abrir/Datos y seleccione
Excel(*.xls) en la lista desplegable Tipo
Tras seleccionar el fichero Excel que queremos abrir, aparecerá el cuadro de diálogo Apertura
de origen de datos de Excel, que permite especificar si se incluyen los nombres de las variables
en la primera fila de la hoja de cálculo ( □ Leer nombres de variables de la primera fila de
datos), así como las casillas que se desean importar (Rango). En Excel 5 o posterior, también
se pueden especificar la “Hoja de trabajo” que se desea importar. Si los encabezados de las
columnas no cumplen las normas de denominación de variables de SPSS, se convertirán en
nombres de variables válidos y los encabezados originales de las columnas se guardarán como
etiquetas de variable (véase más adelante en “1.3.-Editor de datos”).
205
2. Seleccionar un procedimiento estadístico para analizar los datos con el sistema de menús.
3. Seleccionar las variables para el análisis.
Las variables que podemos usar en cada procedimiento se muestran en un cuadro de diálogo
del que se seleccionan.
4. Ejecutar el procedimiento y ver resultados.
Los resultados aparecen en una ventana de resultados y se pueden guardar como archivos de
extensión *.spo. Los gráficos se pueden modificar en la ventana del editor de gráficos.
206
1.2.- ENTORNO DE TRABAJO
Existen diversos tipos de ventanas en SPSS. Nosotros, principalmente, utilizaremos dos:
•
Editor de datos. Es la ventana que se abre automáticamente cuando se inicia una sesión de
SPSS. Muestra el contenido del archivo de datos actual. Con él, se pueden crear nuevos
archivos o modificar los ya existentes.
•
Visor de resultados. Todas las tablas, gráficos y los resultados estadísticos se muestran en el
visor. Puede editar resultados y guardarlos. Esta ventana se abre automáticamente la primera
vez que se ejecuta un procedimiento.
Además de las distintas ventanas, existen un conjunto de elementos, comunes a todas ellas que
configuran la apariencia general del SPSS:
• Barra de títulos. Muestra el icono de SPSS, sigue con el nombre del fichero que estamos
utilizando y el nombre de la ventana activa y termina con los botones de minimizar, maximizar
y cerrar ventana.
207
• Barra de menús. Recoge las denominaciones de los menús de SPSS a través de los cuales se
pueden ejecutar todos los posibles comandos que proporciona el paquete.
• Barra de herramientas. Proporciona un acceso rápido y fácil a las tareas más comunes de cada
ventana de SPSS. El significado de cada icono puede verse situando el ratón sobre el propio
icono.
• Barra de estado. Suministra información sobre el estado en que se encuentra SPSS.
Ejemplo 1.-
Abrir archivo de datos “Datos de empleados.sav”
-
Realizar el procedimiento:
Analizar/ Estadísticos Descriptivos/ Descriptivos con la variable “Salario Actual”
-
Realizar lo mismo con la variable “Meses desde el contrato”.
1.3.- EDITOR DE DATOS
El editor de datos proporciona dos vistas:
• Vista de datos. Muestra los valores de datos reales o las etiquetas de valor definidas. Las
funciones de la vista de datos son similares a las que se encuentran en aplicaciones de hojas de
cálculo, sin embargo, existen algunas diferencias:
o
Cada fila representa un caso u observación (atención en ejercicio 1).
o
Las columnas son variables.
o
Las casillas contienen valores numéricos o de cadena. A diferencia de una hoja de
cálculo, las casillas del editor de datos no pueden contener fórmulas.
• Vista de variables. Contiene descripciones de los atributos de cada variable del archivo de
datos. Aquí:
o
Las filas son variables.
o
Las columnas son características de las variables.
208
Ejemplo 2.- Abrir “vista de datos” y “vista de variables” en el archivo de datos:
“Datos de Empleados.sav”.
Una vez que nos encontramos en la ventana “Editor de datos” podemos abrir un archivo de
datos creado con anterioridad (como vimos en “1.1.- Pasos básicos en el análisis”) o crear un
nuevo archivo. En el caso en que queramos crear un archivo de datos nuevo, el primer paso
es el de definir las variables que formarán el archivo. Para definir una variable se pueden
seguir dos procedimientos:
•
En vista de datos, haciendo doble clic con el botón izquierdo del ratón cuando el puntero del
mismo se encuentra situado en la palabra var del extremo superior de la columna o
•
Pulsando en la pestaña de vista de variables y escribiendo las especificaciones de la variable
cuyos datos vamos a introducir según las indicaciones que siguen:
Para la especificación del nombre de las variables se debe tener en cuenta:
•
El nombre debe comenzar por una letra. Los demás caracteres pueden ser letras, dígitos, puntos
o los símbolos @, #, _ o $.
•
Los nombres de variable no pueden terminar en punto.
•
Se debe evitar acabar los nombres de variable con subrayado (para evitar conflictos con las
variables creadas automáticamente por algunos procedimientos).
•
La longitud del nombre no debe exceder los 64 bytes. Normalmente, 64 bytes suelen equivaler
a 64 caracteres en idiomas de un solo byte (por ejemplo, inglés, francés, alemán, español,
209
italiano, hebreo, ruso, griego, árabe, tailandés) y a 32 caracteres en los idiomas de dos bytes
(por ejemplo, japonés, chino, coreano).
•
No se pueden utilizar espacios en blanco ni caracteres especiales (por ejemplo, !, ?, ’ y *).
•
Cada nombre de variable debe ser único; no se permiten duplicados.
•
Las palabras reservadas no se pueden utilizar como nombres de variable. Las palabras
reservadas son: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH.
•
Los nombres de variable se pueden definir combinando de cualquier manera caracteres en
mayúsculas y en minúsculas, esta distinción entre mayúsculas y minúsculas se conserva en lo
que se refiere a la presentación.
•
Cuando es necesario dividir los nombres largos de variable en varias líneas en los resultados,
SPSS intenta dividir las líneas aprovechando los subrayados, los puntos y los cambios de
minúsculas a mayúsculas.
Una vez que se haya determinado el nombre de la variable, hay que definir sus
especificaciones:
• Tipo. Especifica el tipo de datos que contiene la variable. Si se pulsa el botón tipo y luego los
puntos suspensivos que aparecen en la casilla aparece un cuadro de dialogo. Los tipos más
usuales son numérico y cadena.
Tipo de variable especifica los tipos de datos de cada variable. Por defecto se asume que todas
las variables nuevas son numéricas. Se puede utilizar Tipo de variable para cambiar el tipo de
datos. El contenido del cuadro de diálogo Tipo de variable depende del tipo de datos
seleccionado. Para algunos tipos de datos, hay cuadros de texto para la anchura y el número de
decimales; para otros tipos de datos, simplemente puede seleccionar un formato de una lista
desplegable de ejemplos.
Los tipos de datos disponibles son los siguientes:
•
Numérico. Una variable cuyos valores son números. Los valores se muestran en formato
numérico estándar. El Editor de datos acepta valores numéricos en formato estándar o en
notación científica.
•
Coma. Una variable numérica cuyos valores se muestran con comas que delimitan cada tres
posiciones y con el punto como delimitador decimal. El Editor de datos acepta valores
numéricos para este tipo de variables con o sin comas, o bien en notación científica. Los
valores no pueden contener comas a la derecha del indicador decimal.
210
•
Punto. Una variable numérica cuyos valores se muestran con puntos que delimitan cada tres
posiciones y con la coma como delimitador decimal. El Editor de datos acepta valores
numéricos para este tipo de variables con o sin puntos, o bien en notación científica. Los
valores no pueden contener puntos a la derecha del indicador decimal.
•
Notación científica. Una variable numérica cuyos valores se muestran con una E intercalada y
un exponente con signo que representa una potencia de base diez. El Editor de datos acepta
para estas variables valores numéricos con o sin el exponente. El exponente puede aparecer
precedido por una E o una D con un signo opcional, o bien sólo por el signo (por ejemplo, 123,
1,23E2, 1,23D2, 1,23E+2 y 1,23+2).
•
Fecha. Una variable numérica cuyos valores se muestran en uno de los diferentes formatos de
fecha-calendario u hora-reloj. Seleccione un formato de la lista. Puede introducir las fechas
utilizando como delimitadores: barras, guiones, puntos, comas o espacios. El rango de siglo
para los valores de año de dos dígitos está determinado por la configuración de las opciones
(en el menú Edición, seleccione Opciones y, a continuación, pulse en la pestaña Datos).
•
Dólar. Una variable numérica que se muestra con un signo dólar inicial ($), comas que
delimitan cada tres posiciones y un punto como delimitador decimal. Se pueden introducir
valores de datos con o sin el signo dólar inicial.
•
Moneda personalizada. Una variable numérica cuyos valores se muestran en uno de los
formatos de moneda personalizados que se hayan definido previamente en la pestaña Moneda
del cuadro de diálogo Edición/Opciones. Los caracteres definidos en la moneda personalizada
no se pueden emplear en la introducción de datos pero sí se mostrarán en el Editor de datos.
211
•
Cadena. Una variable cuyos valores no son numéricos y, por lo tanto, no se utilizan en los
cálculos. Los valores pueden contener cualquier carácter siempre que no se exceda la longitud
definida. Las mayúsculas y las minúsculas se consideran diferentes. Este tipo también se
conoce como variable alfanumérica.
• Nivel de medida. Puede especificar el nivel de medida como Escala (datos numéricos de una
escala de intervalo o de razón), Ordinal o Nominal. Los datos nominales y ordinales pueden ser
de cadena (alfanuméricos) o numéricos.
•
nominal. Una variable puede ser tratada como nominal cuando sus valores representan
categorías que no obedecen a una ordenación intrínseca. Por ejemplo, el departamento de la
compañía en el que trabaja un empleado. Son ejemplos de variables nominales: la región, el
código postal o la confesión religiosa.
•
ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan
categorías con alguna ordenación intrínseca. Por ejemplo los niveles de satisfacción con un
servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables
ordinales: las puntuaciones de actitud que representan el nivel de satisfacción o confianza y las
puntuaciones de evaluación de la preferencia.
•
escala. Una variable puede ser tratada como de escala cuando sus valores representan
categorías ordenadas con una métrica con significado, por lo que son adecuadas las
comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en años
y los ingresos en dólares.
Nota: Para variables de cadena ordinales, se asume que el orden alfabético de los valores de
cadena indica el orden correcto de las categorías. Por ejemplo, en una variable de cadena cuyos
valores sean bajo, medio, alto, se interpreta el orden de las categorías como alto, bajo, medio
(orden que no es el correcto). Por norma general, se puede indicar que es más fiable utilizar
códigos numéricos para representar datos ordinales.
• Anchura. Número de dígitos de los valores de esa variable.
212
• Columnas. Anchura de las columnas. Se puede especificar un número de caracteres para el
ancho de la columna. Los anchos de columna también se pueden cambiar en la Vista de datos
pulsando y arrastrando los bordes de las columnas.
Los formatos de columna afectan sólo a la presentación de valores en el Editor de datos. Al
cambiar el ancho de columna no se cambia el ancho definido de una variable. Si el ancho real y
definido de un valor es más ancho que la columna, aparecerán asteriscos (*) en la ventana
Vista de datos.
• Decimales. Nº de decimales de los datos.
• Etiqueta. Puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud
(128 caracteres en los idiomas de doble byte). Las etiquetas de variable pueden contener
espacios y caracteres reservados que no se admiten en los nombres de variable.
• Valores. Puede asignar etiquetas de valor descriptivas a cada valor de una variable. Este
proceso es especialmente útil si el archivo de datos utiliza códigos numéricos para representar
categorías que no son numéricas (por ejemplo, códigos 1 y 2 para hombre y mujer). Las
etiquetas de valor se guardan con el archivo de datos. No es necesario volver a definir las
etiquetas de valor cada vez que se abre un archivo de datos. Las etiquetas de valor pueden
ocupar hasta 120 bytes. Las etiquetas de valor no están disponibles para las variables de cadena
larga (variables de cadena de más de 8 caracteres).
• Perdidos. Valores perdidos define los valores de los datos definidos como perdidos por el
usuario. Por ejemplo, es posible que quiera distinguir los datos perdidos porque un encuestado
se niegue a responder de los datos perdidos porque la pregunta no afecta a dicho encuestado.
Los valores de datos que se especifican como perdidos por el usuario aparecen marcados para
un tratamiento especial y se excluyen de la mayoría de los cálculos.
•
Las especificaciones de valores perdidos definidos por el usuario se guardan junto con el
archivo de datos. No es necesario volver a definir los valores definidos como perdidos por el
usuario cada vez que se abre un archivo de datos.
•
Se pueden introducir hasta tres valores perdidos (individuales) de tipo discreto, un rango de
valores perdidos o un rango más un valor de tipo discreto.
213
•
Sólo pueden especificarse rangos para las variables numéricas.
•
No se pueden definir valores perdidos para variables de cadena larga (variables de cadena de
más de ocho caracteres).
•
Se considera que son válidos todos los valores de cadena, incluidos los valores vacíos o nulos,
a no ser que se definan explícitamente como perdidos. Para definir como perdidos los valores
nulos o vacíos de una variable de cadena, escriba un espacio en blanco en uno de los campos
debajo de la selección Valores perdidos discretos.
• Alineación. Alineación de los datos (Izquierda, derecha o centro)
Una vez definidas las variables, para la introducción de los datos (en la pestaña vista de datos)
habrá que situar el cursor en la primera celda de la columna y comenzar a escribir los distintos
valores, pulsando ENTER o moviéndonos con el cursor.
También podemos modificar datos ya creados:
• Insertar un nuevo caso entre los casos existentes.
Seleccionar en la vista de datos, cualquier casilla debajo de la posición donde se desea insertar
el nuevo caso y
-
Elija en la barra de menús: Datos/Insertar Caso o
-
El correspondiente botón de la barra de herramientas o
-
Con el botón derecho del ratón elija Insertar caso.
• Insertar una nueva variable entre las variables existentes.
Seleccionar en la vista de datos, una casilla de la variable a la derecha de la posición donde se
desea insertar la nueva variable y
-
Elegir los menús: Datos/Insertar variable o
-
El correspondiente botón de la barra de herramientas o
-
Con el botón derecho del ratón elija Insertar variable
• Mover variables.
Si queremos mover una variable que está entre otras dos, en la vista de datos, podemos insertar
un nueva variable en el lugar donde la queramos copiar, luego cortar de donde estaba y por
último pegar en la nueva variable insertada.
214
• Borrar algún caso o variable.
Seleccionar previamente en la vista de datos las filas, las columnas o el área a borrar y pulsar
SUPR o Edición/Borrar o con el botón derecho del ratón elegir Eliminar.
• Ir a un caso en el editor de datos.
Elegir en la barra de menús: Edición/Ir al caso e introducir el número de fila o con el
correspondiente botón de la barra de herramientas.
Para guardar un archivo de datos creado tendremos que seleccionar en la barra de menús
Archivo/Guardar como. Nos aparecerá un cuadro de diálogo en el cual debemos indicar el
nombre del archivo y el lugar donde queremos guardarlo. En el caso de que se trate de
cambios en un archivo que ya ha sido guardado con anterioridad, solo tendremos que
seleccionar Archivo/Guardar o con el correspondiente botón de la barra de herramientas y el
archivo se guardará con el mismo nombre y ubicación que tenía con anterioridad.
215
EJERCICIOS
1. La siguiente tabla nos muestra la edad de 16 clientes que compraron un determinado
producto en una semana determinada. La variable edad es cuantitativa y mostramos sus
valores, la variable sexo es cualitativa y utilizamos una variable numérica (escala nominal:
1, hombre; 2, mujer). Los datos son los siguientes:
Hombres
Mujeres
32
50
32
80
42
61
55
49
37
30
61
21
48 43
37 34
Se pide:
a. Crea un archivo con la definición anterior de las variables y los datos y guárdalo con el
nombre Edad.sav
b. Crea una nueva variable denominada Unidades compradas y dale los siguientes valores
Hombres
1
Mujeres
1
Sitúala entre las variables anteriores.
1
5
1
1
2
1
1
2
1
2
2
1
1
1
2. La siguiente tabla nos muestra los datos de los representantes de 16 empresas:
SEXO
Hombre
Mujer
Mujer
Hombre
Mujer
Mujer
Hombre
Hombre
Hombre
Mujer
Hombre
Mujer
Mujer
Hombre
Hombre
Hombre
REGION DE
PROCEDENCIA
Andalucía (1)
Cataluña (2)
Madrid (3)
País Valenciano (4)
Galicia (5)
Cataluña (2)
País Vasco (6)
Andalucía (1)
Madrid (3)
Andalucía (1)
País Vasco (6)
Madrid (3)
Galicia (5)
Cataluña (2)
Andalucía (1)
Galicia (5)
MESES COMO
REPRESENTANTE
60
72
48
36
60
24
36
48
84
84
48
36
24
12
16
10
INGRESOS
MENSUALES en €
1950
1235
2251
3581
1500
2500
5890
3510
2456
2474
3000
2958
1354
1100
3581
2456
Se pide:
a. Crear un archivo de datos con el nombre Representantes, en el que debes incluir los datos
de la tabla anterior, definiendo las variables de forma adecuada.
b. Inserta una nueva variable que será el estado civil de los representantes con los siguientes
valores.
216
soltero
soltero
casado
soltero
divorciado
casado
casado
casado
soltero
soltero
viudo
casado
casado
casado
soltero
soltero
c. Inserta un nuevo caso entre los existentes con estos valores:
SEXO
Hombre
REGION DE
PROCEDENCIA
Cataluña
MESES COMO
INGRESOS
ESTADO CIVIL
REPRESENTANTE MENSUALES en €
48
1500
divorciado
d. Obtenga el número medio de meses como representante y los valores máximo, mínimo y
mediano de los ingresos.
3. Crear un archivo con los siguientes datos y llamarlo salarios.sav
SALARIOS
0-700
700-1000
1000-1500
1500-3000
más de 3000
EMPLEADOS
40
120
250
90
50
Nota: Introducir los valores de los salarios con códigos numéricos (por ejemplo, 1 a 5) y en
Vista de variables en la columna Valores etiquetarlos como “0-700”,…
Cuando se introducen las frecuencias de las observaciones de una variable hay que indicárselo
al SPSS. Seleccionaremos en la barra de menús Datos/Ponderar casos… marcando en la
ventana que nos aparece Ponderar casos mediante y seleccionando la Variable de ponderación
(variable que contiene los valores de las frecuencias) de la lista de variables del fichero. Otra
opción es seleccionar el correspondiente icono de la barra de herramientas que representa a una
balanza.
217
PRÁCTICA 8
Análisis Cluster
1.- ANÁLISIS JERÁRQUICOS
Los pasos para realizar un análisis jerárquico con el SPSS son los siguientes:
1. Elige en los menús: Analizar → Clasificar → Conglomerados jerárquicos y selecciona las
variables y las especificaciones para el análisis. En la ventana Variables situamos las
variables clasificadoras y en Etiquetar los casos mediante situamos la variable que
etiqueta a los individuos que se van a clasificar (la variable que se sitúe en esta casilla
tienen que estar definida como cadena no como numérica).
2. El botón Estadísticos nos lleva a una pantalla cuya opción Historial de conglomeración
muestra los casos o conglomerados combinados en cada etapa, las distancias entre los
casos o conglomerados que se combinan, así como el último nivel del proceso en el que
cada caso se unió a su conglomerado correspondiente. La opción Matriz de proximidades
proporciona las distancias entre los elementos. El campo Conglomerado de pertenencia
muestra el conglomerado al cual se asigna cada caso en una o varias de las etapas de
combinación de los conglomerados. Las opciones son: Solución única y Rango de
soluciones
3. El botón Gráficos abre una pantalla cuya opción Dendograma realiza el dendograma
correspondiente. Los dendogramas pueden emplearse para evaluar la cohesión de los
conglomerados que se han formado y proporcionar información sobre el número adecuado
de conglomerados que deben conservarse. El dendograma constituye la representación
visual de los pasos de una solución de conglomeración jerárquica que muestra, para cada
paso, los conglomerados que se combinan y los valores de los coeficientes de distancia.
Las líneas horizontales conectadas por otras verticales designan casos combinados. El
dendograma re-escala las distancias reales a valores entre 0 y 25, preservando la razón de
las distancias entre los pasos. El cuadro Témpanos muestra otro tipo de diagrama que
incluye todos los conglomerados o un rango especificado. Los diagramas de témpanos
muestran información sobre cómo se combinan los casos en los conglomerados, en cada
iteración del análisis. En la base de este diagrama completo no hay casos unidos todavía y
a medida que se recorre hacia arriba el diagrama los casos que se unen se marcan con una
X en la columna situada entre ellos, mientras que los conglomerados separados se indican
con un espacio en blanco. La orientación permite seleccionar un diagrama vertical u
horizontal.
218
4. El botón Método nos lleva a una ventana cuya opción Método de conglomeración permite
elegir dicho método. El cuadro Medida permite especificar la medida de distancia que será
empleada. Hay que seleccionar el tipo de dato (intervalo, frecuencias y binaria) y la
medida de distancia adecuada. El cuadro Transformar valores permite estandarizar los
valores de los datos, para los casos o las variables, antes de calcular las distancias entre
casos. El cuadro Transformar medidas permite transformar los valores generados por la
medida de distancia, las opciones disponibles son: Valores absolutos, Cambiar el signo y
Cambiar la escala al rango 0-1.
5. El botón Guardar permite guardar información sobre la solución en nuevas variables.
Estas variables (Conglomerado de pertenencia) permiten guardar los conglomerados de
pertenencia para una solución única o un rango de soluciones. Las variables guardadas
pueden emplearse en análisis posteriores para explorar otras diferencias entre los grupos.
6. En todas las figuras el botón Restablecer permite restablecer todas las opciones por
defecto del sistema y elimina del cuadro de dialogo todas las asignaciones hechas con las
variables.
7. Una vez hechas las selecciones especificadas se pulsa el botón Aceptar.
Ejemplo 1
(Ejercicio 5 Relación del Tema 8. Fichero de datos Ej5RelT8.sav)
Ciudadanos Ingresos Edad
Pepe
175
44
Juan
182
55
Pedro
184
41
Pablo
186
32
Maria
185
35
Juana
198
41
Toñi
194
32
Tere
183
32
Carmen
125
23
Elena
107
22
Luisa
97
24
Belén
88
27
Nicolás
116
28
César
121
33
Alberto
100
29
Carlos
175
21
Divide los ciudadanos según ingresos y edad utilizando un análisis jerárquico.
219
Los pasos en el SPSS serían:
1. Elige en los menús Analizar → Clasificar → Conglomerados jerárquicos. En la ventana
Variables situamos Ingresos
y Edad. En Etiquetar los casos mediante situamos la
variable Individuo (la variable que se sitúe en esta casilla tiene que estar definida como
cadena no como numérica).
2. El botón Estadísticos nos lleva a una pantalla en la que señalamos Historial de
conglomeración y Matriz de proximidades.
3. El botón Gráficos señalamos la opción Dendograma. En el cuadro Témpanos elegimos
Todos los conglomerados. Señalamos la orientación vertical.
4. En la pantalla a la que nos lleva el botón Método, como Método de conglomeración
elegimos, por ejemplo, el Vecino más próximo. En el cuadro Medida seleccionamos la
primera (Distancia Euclídea al cuadrado). En el cuadro Transformar valores
estandarizamos por variables y mediante Puntuaciones Z. En el cuadro Transformar
medidas no seleccionamos nada.
Las salidas proporcionadas por el SPSS son las siguientes:
220
Matriz de distancias
distancia euclídea al cuadrado
Caso
1:Pepe
1:Pepe
,000
2:Juan
3:Pedro
2:Juan
3:Pedro
4:Pablo
5:Maria
6:Juana
7:Toñi
8:Tere
9:Carmen
10:Elena
11:Luisa
12:Belen
13:Nicolas
14:César
15:Alberto
16:Carlos
1,472
,156
1,790
1,026
,426
1,935
1,756
6,765
8,558
8,437
8,008
5,151
3,200
6,073
6,308
1,472
,000
2,340
6,318
4,775
2,491
6,395
6,309
14,169
16,376
15,814
14,674
11,318
8,014
12,113
13,814
,156
2,340
,000
,968
,430
,118
1,026
,966
5,961
7,878
8,008
7,892
4,802
3,155
5,970
4,819
4:Pablo
1,790
6,318
,968
,000
,108
1,053
,039
,005
3,209
4,954
5,537
6,086
3,144
2,558
4,565
1,516
5:Maria
1,026
4,775
,430
,108
,000
,531
,156
,110
3,887
5,682
6,110
6,434
3,454
2,516
4,784
2,397
6:Juana
,426
2,491
,118
1,053
,531
,000
,976
1,101
7,075
9,296
9,594
9,630
6,068
4,337
7,505
5,089
7:Toñi
1,935
6,395
1,026
,039
,156
,976
,000
,073
3,835
5,754
6,434
7,070
3,858
3,224
5,433
1,660
8:Tere
1,756
6,309
,966
,005
,110
1,101
,073
,000
2,993
4,674
5,221
5,737
2,896
2,329
4,259
1,481
9:Carmen
6,765
14,169
5,961
3,209
3,887
7,075
3,835
2,993
,000
,207
,484
1,016
,347
1,202
,806
1,554
10:Elena
8,558
16,376
7,878
4,954
5,682
9,296
5,754
4,674
,207
,000
,108
,516
,478
1,561
,614
2,799
11:Luisa
8,437
15,814
8,008
5,537
6,110
9,594
6,434
5,221
,484
,108
,000
,156
,408
1,313
,304
3,774
12:Belen
8,008
14,674
7,892
6,086
6,434
9,630
7,070
5,737
1,016
,516
,156
,000
,484
1,086
,134
4,991
13:Nicolas
5,151
11,318
4,802
3,144
3,454
6,068
3,858
2,896
,347
,478
,408
,484
,000
,313
,166
2,682
14:César
3,200
8,014
3,155
2,558
2,516
4,337
3,224
2,329
1,202
1,561
1,313
1,086
,313
,000
,457
3,475
15:Alberto
6,073
12,113
5,970
4,565
4,784
7,505
5,433
4,259
,806
,614
,304
,134
,166
,457
,000
4,153
16:Carlos
6,308
13,814
4,819
1,516
2,397
5,089
1,660
1,481
1,554
2,799
3,774
4,991
2,682
3,475
4,153
,000
Esta es una matriz de disimilaridades
Los valores de esta tabla son las distancia euclídea al cuadrado de las puntuaciones tipificadas.
221
Historial de conglomeración
Etapa en la que el conglomerado
aparece por primera vez
Conglomerado que se combina
Conglomerado
1
4
Conglomerado
2
8
Coeficientes
,005
Conglomerado
1
0
Conglomerado
2
0
2
4
7
,039
1
0
3
3
4
5
,108
2
0
12
4
10
11
,108
0
0
8
5
3
6
,118
0
0
7
6
12
15
,134
0
0
8
Etapa
1
Próxima
etapa
2
7
1
3
,156
0
5
12
8
10
12
,156
4
6
9
9
10
13
,166
8
0
10
10
9
10
,207
0
9
11
11
9
14
,313
10
0
15
12
1
4
,430
7
3
13
13
1
2
1,472
12
0
14
14
1
16
1,481
13
0
15
15
1
9
1,554
14
11
0
* H I E R A R C H I C A L C L U S T E R
Dendrogram using Single Linkage
A N A L Y S I S *
Rescaled Distance Cluster Combine
C A S E
Label
Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
Pablo
4
òø
Tere
8
òôòø
Toñi
7
ò÷ ùòòòòòòòòòø
Maria
5
òòò÷
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø
Pedro
3
òòòûòø
ó
Juana
6
òòò÷ ùòòòòòòò÷
ó
Pepe
1
òòòòò÷
ùòø
Juan
2
òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòú ó
Carlos
16
òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó
Elena
10
òòòûòø
ó
Luisa
11
òòò÷ ó
ó
Belen
12
òòòòòôòø
ó
Alberto
15
òòòòòú ùòø
ó
Nicolas
13
òòòòò÷ ó ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
Carmen
César
222
9
òòòòòòò÷ ó
14
òòòòòòòòò÷
ó
En el dendograma las líneas verticales conectadas designan casos combinados y las líneas
horizontales miden las distancias reales re-escaladas entre 0 y 25.
Diagrama de témpanos vertical
Número de
conglomerados
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X
1:Pepe
3:Pedro
6:Juana
4:Pablo
8:Tere
7:Toñi
5:Maria
2:Juan
16:Carlos
9:Carmen
10:Elena
11:Luisa
12:Belen
15:Alberto
14:César
13:Nicolas
Caso
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
El diagrama de témpanos nos indica gráficamente el orden de las distintas agrupaciones.
Dependiendo del número de agrupaciones que se quiera, se mira en la fila adecuada y las X
que estén contiguas, sin ningún espacio en blanco, indican agrupaciones.□
2.- ANÁLISIS NO JERÁRQUICOS (ALGORITMO DE LAS K-MEDIAS)
Los pasos para llevar a cabo este algoritmo en SPSS son los siguientes:
1. Elige en los menús Analizar → Clasificar → Conglomerado de k medias y selecciona las
variables y las especificaciones para el análisis.
La estandarización previa (procedimiento Descriptivos) de las variables puede ser
importante, si las variables utilizan diferentes escalas (euros, años,..) los resultados
podrían ser equívocos.
2. El algoritmo requiere especificar el número de conglomerados, para ello siempre es útil
realizar un análisis jerárquico previo. Este procedimiento supone que se ha seleccionado el
número apropiado de conglomerados y que se han incluido todas las variables relevantes.
Si no es así, los resultados podrían ser erróneos.
223
3. En Etiquetar los casos mediante se puede especificar una variable cuyos valores sean
utilizados para etiquetar los resultados por casos.
4. En Método se puede elegir uno de los dos métodos disponibles para clasificar:
a. Iterar y clasificar. Actualiza los centroides de forma iterativa.
b. Sólo clasificar. El algoritmo corre solo una vez.
5. En Centros de los conglomerados se permite al usuario especificar sus propios centros
iniciales para los conglomerados (Leer iniciales) o guardar los centros finales para análisis
subsiguientes (Escribir finales).
6. En el botón Opciones podemos:
a. Elegir los Estadísticos más relevantes relativos a las variables que ofrecerá el
análisis:
i. Centros de conglomerados iniciales
ii. Tabla de ANOVA. Aunque los resultados serán oportunistas (el
procedimiento trata de formar grupos que, de hecho, difieran), el
tamaño relativo de los estadísticos proporciona información acerca de la
contribución de cada variable a la separación de los grupos.
iii. Información del conglomerado para cada caso
b. En valores perdidos se elige la forma de su exclusión:
i. Excluir casos según lista
ii. Excluir casos según pareja
7. El botón Iterar (sólo disponible si se ha seleccionado el método Iterar y clasificar en el
cuadro de dialogo principal) nos permite elegir:
a. El número máximo de iteraciones limita el número de iteraciones en el
algoritmo, de modo que el proceso se detiene después de ese número de
iteraciones, incluso si no se ha satisfecho el criterio de convergencia. Este
número debe estar entre 1 y 999.
b. El criterio de convergencia determina cuándo cesa la iteración y representa una
proporción de la distancia mínima entre los centros iniciales de los
conglomerados, por lo que debe ser mayor que 0 y menor que 1. Por ejemplo,
si el criterio es igual a 0.02, la iteración cesará si una iteración completa no
mueve ninguno de los centros de los conglomerados en una distancia superior
al dos por ciento de la distancia menor entre cualquiera de los centros iniciales.
c. La opción Usar medias actualizadas permite solicitar la actualización de los
centros de los conglomerados tras la asignación de cada caso. Si no se
224
selecciona esta opción, los nuevos centros de los conglomerados se calcularán
después de la asignación de todos los casos.
8. El botón Guardar permite guardar información sobre la solución como nuevas variables
para que puedan ser utilizadas en análisis subsiguientes. Estas variables son:
a. Conglomerado de pertenencia. Se crea una nueva variable que indica el
conglomerado final al que pertenece cada caso.
b. Distancia desde centro del conglomerado. Indica la distancia euclídea entre
cada caso y su centro de clasificación.
9. El botón Pegar genera la sintaxis del comando a partir de las selecciones del cuadro de
diálogo y pega dicha sintaxis en la ventana de sintaxis designada. Para poder pulsar en
Pegar, debe seleccionar al menos una variable.
10. En todos los cuadros de dialogo, el botón Restablecer permite restablecer todas las
opciones por defecto del sistema y elimina del cuadro de dialogo todas las asignaciones
hechas con las variables.
11. Una vez hechas las opciones especificadas se pulsa el botón Aceptar.
A continuación veremos el procedimiento con los mismos datos del ejemplo anterior.
Ejemplo 2
(Ejercicio 5 de la relación del tema 8. Fichero de datos Ej5RelT8.sav)
Con los datos del ejemplo anterior divide los ciudadanos según ingresos y edad utilizando un
análisis no jerárquico.
Seguimos el siguiente procedimiento:
1. Las variables de interés son Ingreso y Edad, pero previamente vamos a estandarizarlas.
Para ello elegimos en el menú Analizar → Estadísticos Descriptivos → Descriptivos y
elegimos la opción Guardar los valores tipificados como variables. Con ello se generan
las
variables
Zingresos
y
Zedad.
A
continuación
se
elige
en
el
menú
Analizar → Clasificar → Conglomerado de k medias y se seleccionan estas dos nuevas
variables.
2. La mejor forma de elegir el número de conglomerados, si no se tiene información a priori,
es realizar previamente un análisis jerárquico como el realizado en el ejemplo 1. Vamos a
dividir la población en dos grupos. En este caso como sólo tenemos dos variables también
nos podemos ayudar del gráfico de dispersión. Para ello en el menú elijo:
Gráficos → Dispersión/Puntos → Dispersión Simple. En el eje X situamos Zedad y en el Y
225
Zingresos. En Etiquetar casos mediante situamos la variable Individuos y en el botón
Opciones marcamos Mostrar el gráfico con las etiquetas de caso. El gráfico resultante es
el siguiente:
Juana
Toñi
1,00000
Pablo
Tere
Maria
Carlos
Puntua(ingresos)
Juan
Pedro
Pepe
0,00000
Carmen
César
Nicolas
-1,00000
Elena
Luisa
Alberto
Belen
-2,00000
-1,00000
0,00000
1,00000
2,00000
Puntua(edad)
Se ve que los datos se pueden agrupar en dos grupos.
3. En Etiquetar los casos mediante seleccionamos la variable Individuos
4. En Método elegimos Iterar y clasificar.
5. En Centros de los conglomerados no seleccionamos ninguna opción.
6. En el botón opciones marcamos las tres opciones de Estadísticos.
7. El botón Iterar seleccionamos como número máximo de iteraciones 99 y como criterio de
convergencia 0.02. Esto significa que la iteración cesará si una iteración completa no
mueve ninguno de los centros en una distancia superior al 2% de la distancia menor entre
cualquiera de los centros iniciales. También señalamos la opción de usar medias
actualizadas.
8. Con el botón Guardar vamos a guardar información sobre Conglomerado de pertenencia.
9. Una vez hechas las opciones especificadas se pulsa el botón Aceptar.
226
Las salidas obtenidas con el SPSS son las siguientes:
Centros iniciales de los conglomerados
Conglomerado
Puntua(ingresos)
1
-1,08020
2
,76105
Puntua(edad)
-1,13976
2,46379
En el conglomerado 1 el centro es Elena y en el conglomerado 2 el centro es Juan. La
distancia euclídea entre los centros iniciales es:
( 0, 76105 − (−1,08020) ) + ( 2, 46379 − (−1,13976) )
2
2
= 4, 047
Como solo hay dos conglomerados, la distancia menor entre los centros iniciales es 4’047. Las
iteraciones pararán cuando no se mueva ninguno de los centros en una distancia superior al
2% de 4’047, es decir, 0’08094.
227
Historial de iteraciones(a)
Cambio en los centros
de los conglomerados
Iteración
1
2
1
,426
2
1,555
,047
,173
3
,005
,019
a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o
éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de ,019. La iteración
actual es 3. La distancia mínima entre los centros iniciales es de 4,047.
Las cantidades que se dan en la tabla anterior son las distancias euclideas entre los centros
elegidos en las sucesivas iteraciones. Observemos que en la segunda iteración el centro del
primer conglomerado varía una distancia de 0,047 respecto del centro en la primera iteración.
Esta cantidad es menor que 0,08094. Pero no ocurre lo mismo con el centro del segundo
conglomerado que respecto a la primera iteración varía 0,173. Por tanto, las iteraciones deben
continuar. En la tercera, ambas distancias son menores que 0,08094.
Pertenencia a los conglomerados
Número de caso
1
Individuo
Conglomer
ado
Distancia
Pepe
2
,606
2
Juan
2
1,747
3
Pedro
2
,221
4
Pablo
2
,767
5
Maria
2
,440
6
Juana
2
,368
7
Toñi
2
,792
8
Tere
2
,770
9
Carmen
1
,382
10
Elena
1
,478
11
Luisa
1
,512
12
Belén
1
,701
13
Nicolás
1
,233
14
César
1
,788
15
Alberto
1
,523
16
Carlos
1
1,540
Vamos a calcular las distancias euclideas de Carlos y los dos centros finales de los
conglomerados (en la siguiente tabla). Así comprobaremos que efectivamente es más pequeña
la existente entre Carlos y el conglomerado 1, aunque en el gráfico parezca lo contrario.
Carlos: (0.58920, -1.24896)
Centro conglomerado 1: (-0.85618, -0.71661)
Centro conglomerado 2: (0.85618, 0.71661)
228
Distancia euclídea entre Carlos y el primer centro:
( 0,58920 − (−0,85618) ) + ( −1, 24896 − (−0, 71661) )
2
2
= 1,540
Distancia entre Carlos y el segundo centro:
( 0,58920 − 0,85618) + ( −1, 24896 − 0,71661)
2
2
= 1,984
Por tanto, Carlos es asignado al primer conglomerado.
Centros de los conglomerados finales
Conglomerado
Puntua(ingresos)
1
-,85618
2
,85618
Puntua(edad)
-,71661
,71661
Sería interesante dibujar los centros finales en el gráfico de dispersión
Distancias entre los centros de los conglomerados finales
Conglomerado
1
1
2
2
2,233
2,233
Son las distancias euclideas entre los centros finales de los dos conglomerados
ANOVA
Conglomerado
Media
cuadrática
gl
Puntua(ingresos)
Puntua(edad)
Error
Media
cuadrática
gl
F
Sig.
11,729
1
,234
14
50,195
,000
8,217
1
,485
14
16,958
,001
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido
elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son
corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los
conglomerados son iguales.
Observando los estadísticos del ANOVA, vemos que los ingresos participan más en la
separación de los conglomerados. .□
Nota. Realizar el análisis cluster de nuevo pero con 4 conglomerados y ver como Carlos y
Juan forman cada uno un conglomerado (Mirar gráfico de dispersión).
Nota En los casos donde existe un gran tamaño muestral, para obtener la máxima eficacia,
tome una muestra de casos y utilice el método Iterar y clasificar para determinar los centros de
los conglomerados. Seleccione Escribir finales en Archivo. Después restaure el archivo de
datos completo y seleccione el método Sólo clasificar. Pulse en Centros y pulse en Leer
iniciales de Archivo para clasificar el archivo completo utilizando los centros estimados a
partir de la muestra.
229
PRÁCTICA 9
Componentes Principales
El análisis de componentes principales es un método de estimación (extracción) de los
factores comunes de un análisis factorial, por lo que en el programa SPSS aparece dentro del
Análisis factorial. En todo lo que sigue el término factor (salvo un cambio de escala) coincide
con el de componente principal.
Elija en los menús de SPSS:
Analizar → Reducción de datos → Análisis factorial
Seleccione las variables para el análisis factorial. Las variables deben ser cuantitativas. Los
datos categóricos (como la religión o el país de origen) no son adecuados para el análisis
factorial. Los datos para los cuales razonablemente se pueden calcular los coeficientes de
correlación de Pearson, deberían ser los adecuados para el análisis factorial. Para seleccionar
casos para el análisis: Seleccione una variable de selección. Pulse en Valor para introducir un
número entero como valor de selección. En el análisis, sólo se usarán los casos con ese valor
para la variable de selección.
En el cuadro de diálogo Análisis factorial, pulse en Extracción:
Método: Permite especificar el método de extracción factorial. Nosotros utilizaremos el de
Componentes principales (Método para la extracción de factores utilizado para formar
combinaciones lineales independientes de las variables observadas. La primera componente
tiene la varianza máxima. Las componentes sucesivas explican progresivamente proporciones
menores de la varianza y no están correlacionadas las unas con las otras. El análisis de
componentes principales se utiliza para obtener la solución factorial inicial. Puede utilizarse
cuando una matriz de correlaciones es singular).
Analizar: Permite especificar matriz de correlaciones o matriz de covarianzas.
•
Matriz de correlaciones. Es útil si las variables del análisis se miden sobre escalas
distintas.
•
230
Matriz de covarianzas. Se usará en caso contrario.
Extraer: Se pueden retener todos los factores cuyos autovalores excedan un valor especificado
o retener un número específico de factores.
Mostrar: Permite solicitar la solución factorial sin rotar y el gráfico de sedimentación de los
autovalores.
Nº máximo de iteraciones para convergencia: Permite especificar el número máximo de pasos
que el algoritmo puede seguir para estimar la solución.
En el cuadro de diálogo Análisis factorial, pulse en Descriptivos:
Estadísticos: Los descriptivos univariados incluyen la media, la desviación típica y el número
de casos válidos para cada variable. La solución inicial muestra las comunalidades iniciales
(iguales a 1 en un análisis de componentes principales), los autovalores y el porcentaje de
varianza explicada.
Matriz de correlaciones: De las opciones disponibles usaremos: coeficientes, niveles de
significación y determinante.
En el cuadro de diálogo Análisis factorial, pulse en Rotación:
Método: Seleccionaremos ninguno, pues estamos realizando un análisis de componentes
principales.
Mostrar: Si seleccionamos Gráficos de saturaciones obtenemos el diagrama de las
saturaciones factoriales que es una representación tridimensional de las saturaciones
factoriales para los tres primeros factores. Para una solución de dos factores, se representa un
diagrama bidimensional. No se muestra el gráfico si sólo se extrae un factor.
En el cuadro de diálogo Análisis factorial, pulse en Puntuaciones:
Guardar como variables: Crea una nueva variable para cada factor en la solución final.
Nosotros utilizaremos el método de regresión. En el caso de componentes principales
(tipificadas) la varianza es siempre igual a 1 y las puntuaciones (componentes principales)
están incorrelacionadas.
Mostrar matriz de coeficientes de las puntuaciones factoriales: Muestra los coeficientes por
los cuales se multiplican las variables para obtener puntuaciones factoriales. También muestra
las correlaciones entre las puntuaciones factoriales.
231
En el cuadro de diálogo Análisis factorial, pulse en Opciones:
Valores perdidos: Permite especificar el tratamiento que reciben los valores perdidos. Las
selecciones disponibles son: excluir casos según lista, excluir casos según pareja y
reemplazar por la media.
•
Excluir según lista excluye los casos que tienen valores perdidos en cualquiera de las
variables utilizadas en cualquiera de los análisis.
•
Excluir según pareja excluye del análisis los casos que tengan valores perdidos en
cualquiera (o en ambas) de las variables de una pareja implicada en el cálculo de un
estadístico específico.
Formato de presentación de los coeficientes: Permite controlar aspectos de las matrices de
resultados. Los coeficientes se ordenan por tamaño y se suprimen aquellos cuyos valores
absolutos sean menores que el valor especificado.
Ejemplo 1
Vamos a resolver el ejercicio 1 de la relación del capítulo 9 con ayuda del SPSS.
Con el archivo Mundo 95.sav realiza un análisis de componentes principales con las
siguientes variables:
•
Esperanza de vida femenina
•
Mortalidad infantil (muertes por 1000 nacimientos vivos)
•
Personas Alfabetizadas (%)
•
Tasa de natalidad (por 1.000 habitantes)
•
Fertilidad: número promedio de hijos
•
Habitantes en ciudades (%)
•
Log(10) de PIB_CAP
•
Tasa de mortalidad (por 1.000 habitantes)
En primer lugar elegimos en los menús del SPSS: Analizar → Reducción de datos →
Análisis factorial y seleccionamos las variables: espvidaf, mortinf, alfabet, tasa_nat, fertilid,
urbana, log_pib y tasa_mor.
232
En el botón Descriptivos: en estadísticos seleccionamos descriptivos univariados y solución
inicial, en matriz de correlaciones marcamos coeficientes, niveles de significación y
determinante.
En el botón Extracción seleccionamos: el método de componentes principales, en Analizar
elegimos matriz de correlaciones, en Extraer→número de factores = 2 y en Mostrar
marcamos solución factorial sin rotar y gráfico de sedimentación.
En el botón Rotación marcamos: el Método ninguno y en Mostrar seleccionamos gráfico de
saturaciones.
En el botón Puntuaciones: señalamos la opción mostrar matriz de coeficientes de las
puntuaciones factoriales.
Por último en el botón Opciones marcamos excluir casos según lista.
Se obtiene la siguiente salida del programa SPSS para las opciones marcadas:
233
Matriz de correlaciones(a)
Esperanza de
vida femenina
Correlación
Tasa de
natalidad (por
1.000
habitantes)
Fertilidad:
número
promedio de
hijos
Habitantes en
ciudades (%)
Log(10) de
PIB_CAP
Tasa de
mortalidad
(por 1.000
habitantes)
1,000
-,962
,865
-,865
-,847
,766
,833
-,703
Mortalidad infantil
(muertes por 1000
nacimientos vivos)
-,962
1,000
-,901
,870
,844
-,744
-,824
,636
Personas Alfabetizadas
(%)
,865
-,901
1,000
-,870
-,866
,654
,731
-,485
Tasa de natalidad (por
1.000 habitantes)
-,865
,870
-,870
1,000
,975
-,635
-,783
,384
Fertilidad: número
promedio de hijos
-,847
,844
-,866
,975
1,000
-,608
-,713
,424
Habitantes en ciudades
(%)
,766
-,744
,654
-,635
-,608
1,000
,785
-,523
Log(10) de PIB_CAP
,833
-,824
,731
-,783
-,713
,785
1,000
-,401
-,703
,636
-,485
,384
,424
-,523
-,401
1,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
Esperanza de vida
femenina
Mortalidad infantil
(muertes por 1000
nacimientos vivos)
,000
Personas Alfabetizadas
(%)
,000
,000
Tasa de natalidad (por
1.000 habitantes)
,000
,000
,000
Fertilidad: número
promedio de hijos
,000
,000
,000
,000
Habitantes en ciudades
(%)
,000
,000
,000
,000
,000
Log(10) de PIB_CAP
,000
,000
,000
,000
,000
,000
Tasa de mortalidad (por
1.000 habitantes)
,000
,000
,000
,000
,000
,000
a Determinante = 2,07E-006
234
Personas
Alfabetizadas
(%)
Esperanza de vida
femenina
Tasa de mortalidad (por
1.000 habitantes)
Sig. (Unilateral)
Mortalidad
infantil
(muertes por
1000
nacimientos
vivos)
,000
,000
Estadísticos descriptivos
Esperanza de vida femenina
Mortalidad infantil (muertes por 1000 nacimientos vivos)
Personas Alfabetizadas (%)
Tasa de natalidad (por 1.000 habitantes)
Media
69,94
Desviación
típica
10,695
N del análisis
105
43,317
38,3699
105
78,14
23,056
105
26,124
12,3582
105
Fertilidad: número promedio de hijos
3,551
1,8909
105
Habitantes en ciudades (%)
57,02
24,010
105
3,4086
,62725
105
9,62
4,277
105
Log(10) de PIB_CAP
Tasa de mortalidad (por 1.000 habitantes)
Comunalidades
Inicial
1,000
Extracción
,965
Mortalidad infantil (muertes por 1000 nacimientos vivos)
1,000
,942
Personas Alfabetizadas (%)
1,000
,862
Tasa de natalidad (por 1.000 habitantes)
1,000
,952
Fertilidad: número promedio de hijos
1,000
,899
Habitantes en ciudades (%)
1,000
,688
Log(10) de PIB_CAP
1,000
,769
Tasa de mortalidad (por 1.000 habitantes)
1,000
,935
Esperanza de vida femenina
Método de extracción: Análisis de Componentes principales.
Varianza total explicada
Sumas de las saturaciones al cuadrado
de la extracción
Autovalores iniciales
Total
6,208
% de la
varianza
77,596
% acumulado
77,596
Total
6,208
% de la
varianza
77,596
% acumulado
77,596
2
,804
10,056
87,652
,804
10,056
87,652
3
,523
6,534
94,186
4
,194
2,425
96,610
5
,167
2,085
98,695
6
,063
,789
99,485
7
,027
,333
99,818
8
,015
,182
100,000
Componente
1
Método de extracción: Análisis de Componentes principales.
La columna Total de Autovalores iniciales contiene los valores propios λi ordenados de
mayor a menor. Cada uno de ellos representa la varianza de la correspondiente componente.
En la columna % de la varianza aparece el porcentaje de la varianza total de los datos
tipificados
77, 6 =
( 1× 8 variables = 8 )
recogida
por
dicha
componente,
por
ejemplo
6, 208
100 .
8
235
Gráfico de sedimentación
7
6
Autovalor
5
4
3
2
1
0
1
2
3
4
5
6
7
8
Número de componente
Matriz de componentes(a)
Componente
1
Esperanza de vida femenina
Mortalidad infantil (muertes por 1000 nacimientos vivos)
Personas Alfabetizadas (%)
2
,975
-,122
-,970
,046
,917
,147
Tasa de natalidad (por 1.000 habitantes)
-,923
-,318
Fertilidad: número promedio de hijos
-,906
-,281
Habitantes en ciudades (%)
,809
-,181
Log(10) de PIB_CAP
,871
,100
-,625
,737
Tasa de mortalidad (por 1.000 habitantes)
Método de extracción: Análisis de componentes principales.
a 2 componentes extraídos
La tabla Matriz de componentes incluye los coeficientes de correlación, ryi xk , entre las
componentes, Yi i=1,2 , y las variable originales, X i .
236
Gráfico de componentes
0,9
tasa_mor
Componente 2
0,6
0,3
alfabet
mortinf
log_pib
espvidaf
0,0
urbana
fertilid
-0,3
tasa_nat
-0,6
-0,9
-0,9
-0,6
-0,3
0,0
0,3
0,6
0,9
Componente 1
Matriz de coeficientes para el cálculo de las puntuaciones en las componentes
Componente
1
Esperanza de vida femenina
Mortalidad infantil (muertes por 1000 nacimientos vivos)
Personas Alfabetizadas (%)
2
,157
-,151
-,156
,057
,148
,183
Tasa de natalidad (por 1.000 habitantes)
-,149
-,395
Fertilidad: número promedio de hijos
-,146
-,349
,130
-,224
,140
,125
-,101
,916
Habitantes en ciudades (%)
Log(10) de PIB_CAP
Tasa de mortalidad (por 1.000 habitantes)
Método de extracción: Análisis de componentes principales.
La Matriz de coeficientes para el cálculo de las puntuaciones en las componentes recoge los
coeficientes de las combinaciones lineales que definen a las componentes principales
tipificadas, es decir,
φik
, que pueden obtenerse a partir de la Matriz de componentes, ry x , y
λi
i k
de los valores propios, λi , como
ryi xk
λi
=
φik
0, 975
−0,122
. Por ejemplo, 0,157 =
, −0,151 =
.
6, 208
0,804
λi
Matriz de covarianza de las puntuaciones de las componentes
Componente
1
1
1,000
2
,000
2
,000
1,000
Método de extracción: Análisis de componentes principales.
237
Como puede verse en la Matriz de covarianzas se trabaja con componentes principales
tipificadas que además están incorreladas.
238
FORMULARIOS
239
MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS
(O CON REEMPLAZAMIENTO)
PROPORCION
MEDIA
1 n
y = ∑ yi
n i =1
ESTIMADOR
S2 =
CUASIVARIANZA
MUESTRAL
VARIANZA DEL
ESTIMADOR
(
1 n
∑ yi − y
n − 1 i =1
)
 n

 ∑ yi 
n
yi2 −  i =1 
∑
n
S 2 = i =1
n −1
V ( y) =
LIMITE DEL ERROR DE
ESTIMACIÓN = B
σ2
2
n
TAMAÑO MUESTRAL
n=
σ2
B2
4
=
σ2
D
σ2
n
S2
n
V ( p) =
pq
n
2 V ( p) = 2
=B
, D=
=
n pqɵ
n −1
V ( p) =
pqɵ
n −1
(
1 n
∑ yi − y
n − 1 i =1
)
2
qɵ = 1 − p
S
n
S
S 

, y+2
 y−2

n
n

2 V ( y) = 2
S2 =
yi = 0, 1
2
V ( y) =
2 V ( y) = 2
INTERVALO DE
CONFIANZA
240
1 n
p = ∑ yi ,
n i =1
B2
4
pqɵ
n −1

pqɵ
pqɵ 
 p−2

, p+2

n −1
n −1 


2 V ( p) = 2
n=
pq pq
=
B2
D
4
pq
=B
n
, D=
B2
4
MUESTREO ALEATORIO SIMPLE EN POBLACIONES FINITAS
SIN REEMPLAZAMIENTO
PROPORCION
TOTAL
MEDIA
TOTAL
1 n
y = ∑ yi
n i =1
ESTIMADOR
τɵ = N y =
V ( y) =
VARIANZA DEL
ESTIMADOR
LIMITE DEL ERROR
DE ESTIMACIÓN = B
∑y
i =1
i
S2 N − n
n N
2 V ( p)
2 V (τɵ ) = N 2 V ( y )
2 V (τɵ ) = N 2 V ( p)
)
(τɵ − 2 V (τɵ ) , τɵ + 2 V (τɵ ) ) =
= ( N ( y − 2 V ( y ) ) , N ( y + 2 V ( y ) ))
B2
D=
(media )
4
B2
D=
(total )
4N 2
pqɵ N − n
n −1 N
pqɵ
V (τɵ ) = V ( N p ) = N 2 V ( p ) = N ( N − n)
n −1
2 V ( y)
Nσ 2
n=
( N − 1) D + σ 2
TAMAÑO MUESTRAL
V ( p) =
2
V ( y) , y + 2 V ( y)
yi = 0, 1
τɵ = N p
n
S
V (τɵ ) = V ( N y ) = N 2 V ( y ) = N ( N − n)
n
(y − 2
INTERVALO DE
CONFIANZA
N
n
1 n
p = ∑ yi ,
n i =1
(p −2
(τɵ − 2
= (N ( p − 2
n=
D=
V ( p) , p + 2 V ( p)
)
)
V (τɵ ) , τɵ + 2 V (τɵ ) =
) (
V ( p) , N p + 2 V ( p)
Npq
( N − 1) D + pq
B2
4
( proporcion)
B2
D=
4N 2
(total )
241
))
MUESTREO ALEATORIO ESTRATIFICADO
PROPORCION
TOTAL
MEDIA
TOTAL
y st =
ESTIMADOR
L
1
N
∑ Ni y i
p st =
i =1
L
VARIANZA DEL
ESTIMADOR
=
1
N2
L
∑ Ni2 V ( y i ) =
i =1
L
∑ Ni2
i =1
Si2 N i − ni
ni N i
L
S2 N − n
V (τɵ st ) = N 2 V ( y st ) = ∑ N i2 i i i
ni N i
i =1
TAMAÑO
MUESTRAL
FORMULACIÓN
GENERAL
∑
n=
i =1
L
N 2 D + ∑ N iσ i2
i =1
242
V ( p st ) =
=
1
N2
i
pi
1
N2
∑N
L
∑N
i =1
L
2
i
i =1
2
i
V ( pi ) =
p i qɵ i N i − ni
ni − 1 N i
L
p qɵ N − n
V (τɵ st ) = N 2 V ( p st ) = ∑ N i2 i i i i
ni − 1 N i
i =1
PROPORCION
TOTAL
N i2σ i2
ωi
i =1
i =1
MEDIA
TOTAL
L
∑N
τɵ st = N p st = ∑ N i pi
i =1
1
N2
L
L
τɵ st = N y st = ∑ N i y i
V ( y st ) =
1
N
L
∑
n=
i =1
N i2 pi qi
ωi
L
N 2 D + ∑ N i pi qi
i =1
MUESTREO ALEATORIO ESTRATIFICADO
TAMAÑO
MUESTRAL
MEDIA
TOTAL
PROPORCION
TOTAL
L
∑N σ
i
i =1
(error fijo B) n =
L
∑
ci
i
i =1
L
Ni σ i
ci
N 2 D + ∑ N iσ i2
L
n=
N iσ i
ci
L
C∑
(coste fijo C ) n =
i =1
i
i =1
N 2 D + ∑ N i pi qi
i =1
L
L
∑N
i =1
N jσ j
ωj =
i =1
2
i
i =1
n=
L
N D + ∑ N iσ
i =1
ωj =
2
i
N jσ j
i
i =1
ASIGNACIÓN
PROPORCIONAL
i =1
i =1
ωj =
D
L
∑ Niσ i2
)
L
i =1
N j pjqj
L
∑N
pi qi
i
L
∑N pq
n=
i
i =1
ND +
i =1
Nj
1
N
ωj =
N
B2
(media )
4
B2
D=
(total )
4N 2
D=
2
pi qi
i
i =1
1
N
pi qi
ci
i
N 2 D + ∑ N i pi qi
i
∑ Ni σ i2
ND +
∑N
(∑ N
L
n=
L
ωj =
L
∑Nσ
cj
L
i
2
ASIGNACIÓN DE
NEYMAN
pjq j
i =1
(∑ N σ )
L
n=
ωj =
N iσ i
ci
∑
pi qi ci
i
Nj
cj
L
pi qi
ci
i =1
n=
ci
i
i =1
i
L
C ∑ Ni
L
∑Nσ
∑N
pi qi ci
i =1
i =1
ASIGNACIÓN
ÓPTIMA
L
∑ Ni
D=
B2
4
D=
i i
L
∑N pq
i =1
i
i i
Nj
N
( proporcion)
B2
4N 2
(total )
243
pi qi
ci
ESTIMACIÓN DE RAZÓN
MEDIA
TOTAL
RAZÓN
µ y = rµx
n
ESTIMADOR
r=
∑y
i =1
n
i
∑x
i =1
y
=
x
i
τɵ y = rτ x
S r2 =
VARIANZA RESIDUAL
1 n
2
( yi − rxi )
∑
n − 1 i =1
V ( µ y ) = µ x2 V (r ) =
VARIANZA DEL
ESTIMADOR
V (r ) =
n=
1 N − n S r2
µ x2 N n
Nσ r2
ND + σ r2
DETERMINACIÓN DEL
TAMAÑO MUESTRAL
244
B2
4
N − n S r2
V (τɵ y ) = τ x2 V (r ) = N 2
N n
2
σ r = Sr2 de una muestra previa
D=
D=
N − n S r2
N n
B 2 µ x2
4
( para estimar R )
( para estimar µ y )
D=
B2
4N 2
( para estimar τ y )
ESTIMACIÓN DE REGRESIÓN
S x2 =
(
1 n
∑ xi − x
n − 1 i =1
VARIANZA, COVARIANZA
1 n
Y COEF. DE
S xy =
∑ xi − x
n − 1 i =1
CORRELACIÓN
MUESTRALES
(
)
MEDIA
TOTAL
1 n
sx2 = ∑ xi − x
n i =1
(
2
)( y − y )
rxy2 =
S xy2
S x2 S y2
2
(
(n − 1) S x2 = nsx2
)(
)
1 n
1 n
x
−
x
y
−
y
=
∑ i
∑ xi yi − x y
i
n i =1
n i =1
sxy =
i
)
=
sxy2
sx2 s 2y
∑ ( x − x )( y − y )
n
µ yL = y + b( µ x − x)
b=
ESTIMADOR
S xy
S x2
=
sxy
s x2
=
i =1
i
i
∑ ( x − x)
n
i =1
2
i
τɵ yL = N µ yL
VARIANZA RESIDUAL
( (
1 n
S =
∑ yi − y + b( xi − x)
n − 2 i =1
2
L
ERROR TÍPICO DE
ESTIMACIÓN
))
2
2
n  2 sxy
=
 sy − 2
n − 2 
sx

n 2
s y (1 − rxy2 )
 =
 n−2
S L2 = S L
V ( µ yL ) =
VARIANZA DEL
ESTIMADOR
N − n S L2
N n
V (τɵ yL ) = N 2 V ( µ yL )
n=
DETERMINACIÓN DEL
TAMAÑO MUESTRAL
D=
Nσ L2
ND + σ L2
B2
4
2
σ L = S L2 de una muestra previa
( para estimar µ y )
D=
B2
4N 2
( para estimar τ y )
245
ESTIMACIÓN DE DIFERENCIA
MEDIA
TOTAL
µ yD = y + ( µ x − x) = µ x + d
d = y−x
ESTIMADOR
τɵ yD = N µ yD
VARIANZA RESIDUAL
S D2 =
(
1 n
∑ yi − ( xi + d )
n − 1 i =1
)
2
=
(
1 n
∑ di − d
n − 1 i =1
V ( µ yD ) =
VARIANZA DEL ESTIMADOR
)
2
di = yi − xi
N − n S D2
N n
V (τɵ yD ) = N 2 V ( µ yD )
DETERMINACIÓN DEL
TAMAÑO MUESTRAL
Nσ D2
n=
ND + σ D2
B2
D=
4
246
2
σ D = S D2
( para estimar µ y )
de una muestra previa
B2
D=
4N 2
( para estimar τ y )
MUESTREO POR CONGLOMERADOS
TOTAL
MEDIA o PROPORCIÓN
TOTAL (M conocido)
N = conglomerados en la población
mi = elementos en el conglomerado i
n = conglomerados en la muestra
yi = suma de las observaciones del conglomerado i
N
n
M = ∑ mi = elementos en la población
m = ∑ mi = elementos en la muestra
i =1
NOTACIÓN
M=
1
N
N
∑m
i =1
i
i =1
= tamaño medio de los conglomerados de la población
m=
1 n
∑ mi = tamaño medio de los conglomerados de la muestra
n i =1
n
µ=y=
ESTIMADOR
∑y
i =1
n
i
yt =
∑m
i =1
i
τɵ t = N y t
τɵ = M y
Sc2 =
VARIANZA
DEL
ESTIMADOR
(
1 n
∑ yi − ymi
n − 1 i =1
)
2
St2 =
1 N − n S c2
V ( y) = 2
N n
M
TAMAÑO
MUESTRAL
2
σ c = Sc2
)
2
2
S
V (τɵ t ) = N 2 V ( y t ) = N ( N − n) t
n
2
Nσ c2
ND + σ c2
(
1 n
∑ yi − y t
n − 1 i =1
N − n St2
V ( yt ) =
N n
S
V (τɵ ) = M 2 V ( y ) = N ( N − n) c
n
n=
1 n
∑ yi
n i =1
de una muestra previa
n=
Nσ t2
ND + σ t2
2
σ t = St2
de una muestra previa
2
B2 M
D=
4
B2
D=
4N 2
(media )
D=
B2
4N 2
(total )
(total )
247
ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN
MUESTREO DIRECTO
NOTACIÓN
ESTIMADOR
t = elementos marcados
n = total de elementos en la muestra de recaptura
s = elementos marcados en la muestra de recaptura
N=
( )
t
p
E N =N+
PROPIEDADES DEL
ESTIMADOR
248
MUESTREO INVERSO
( )
=
nt
s
N (N − t)
nt
t 2 n( n − s )
V N =
s3
N=
t
p
=
nt
s
( )
E N =N
( )
t 2 n( n − s )
V N = 2
s ( s + 1)
ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN
MUESTREO POR CUADROS
DENSIDAD
NOTACIÓN
TOTAL
A = área total
a = área de cada cuadro
n = número de cuadros en la muestra
m = número medio de elementos por cuadro en la muestra
ESTIMADOR
VARIANZA DEL
ESTIMADOR
λɵ =
M = λɵ A
m
a
λɵ
V λɵ =
an
A2 λɵ
ɵ
V M =AV λ =
an
( )
()
2
()
CUADROS CARGADOS
DENSIDAD
NOTACIÓN
TOTAL
A = área total
a = área de cada cuadro
n = número de cuadros en la muestra
y = número total de cuadros no cargados
1
 y
ESTIMADOR
λɵ = − ln  
a n
VARIANZA DEL
ESTIMADOR
1 n− y
V λɵ = 2
a ny
()
A  y
M = Aλɵ = − ln  
a n
( )
()
A2 n − y
V M = A2 V λɵ = 2
a ny
249
Descargar