VENTAJAS MUESTREO Vs. CENSO.

Anuncio
UNIVERSIDAD DE LOS ANDES
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA
CURSO DE MUESTREO
Prof. Elizabeth Torres Rivas
Mérida, Junio 2004
INDICE
INTRODUCCIÓN
3
TEMA 1. ORGANIZACIÓN DE UNA INVESTIGACIÓN POR MUESTREO DE
ENCUESTA
4
VENTAJAS MUESTREO VS. CENSO. (VENTAJAS MUESTREO VS. CENSO)
TIPOS DE ENCUESTA POR MUESTREO
DISEÑO DE ENCUESTAS
DISEÑO DE CUESTIONARIOS
CONCEPTUALIZACION Y DISEÑO DEL INSTRUMENTO
FORMATO DE PRESENTACIÓN DEL CUESTIONARIO
SECUENCIA Y ORDENAMIENTO DE LAS PREGUNTAS
REPRODUCCIÓN DEL CUESTIONARIO
TIPOS DE MUESTREO
TIPOS DE MUESTREO PROBABILÍSTICO
5
5
6
6
7
8
10
10
13
14
TEMA 2. MUESTREO ALEATORIO SIMPLE
16
PROBABILIDAD QUE TIENE UNA UNIDAD DE PERTENECER A LA MUESTRA
17
ESTIMACIÓN DE LA MEDIA Y EL TOTAL
19
ESTIMACIÓN DE LA MEDIA POBLACIONAL
21
ESTIMACION DEL TOTAL POBLACIONAL
23

FORMAS DE CALCULAR ESTIMACIONES DE 
ESTIMACIÓN DE LA PROPORCIÓN P
VENTAJAS DEL MUESTREO ALEATORIO SIMPLE
DESVENTAJAS DEL MUESTREO ALEATORIO SIMPLE
25
25
29
29
TEMA 3.
29
2
MUESTREO ESTRATIFICADO
RAZONES PARA ESTRATIFICAR
¿CÓMO SELECCIONAR UNA MUESTRA ALEATORIA ESTRATIFICADA?
ESTIMACIÓN DE LA MEDIA
ESTIMACIÓN DEL TOTAL
ASIGNACIÓN DE LA MUESTRA
TIPOS DE ASIGNACIÓN.
29
30
30
33
38
38
TEMA 4. MUESTREO POR CONGLOMERADOS
47
¿CÓMO SELECCIONAR UNA MUESTRA POR CONGLOMERADOS?
ESTIMACIÓN DE LA MEDIA POBLACIONAL
ESTIMACIÓN DEL TOTAL POBLACIONAL
ESTIMADOR DE LA PROPORCIÓN
48
49
50
53
BIBLIOGRAFÍA
55
2
INTRODUCCIÓN
En toda investigación estadística existe un conjunto de elementos sobre los que se toma
información. Este conjunto de elementos es lo que se denota con el nombre de población o
universo estadístico. Cuando se toma información de todos y cada uno de los elementos de
dicha población, decimos que se realiza un censo. Sin embargo, esto no siempre es posible,
ya sea porque es costoso, requiere mucho tiempo, o bien porque la toma de información
lleve consigo la destrucción de los elementos en cuestión, o que la población tenga infinitos
elementos. Este problema hace que el investigador tome la información de una parte de la
población, proceso que recibe el nombre de muestreo.
Toda sociedad requiere INFORMACIÓN  toma de decisiones. Ya que la información
cuesta dinero, el investigador debe determinar que tanta información debe comprar.
Demasiado poca información le impide realizar buenas estimaciones, mientras que mucha
información ocasiona un despilfarro de dinero.
CARACTERÍSTICAS DE LA INFORMACIÓN
Suficiente
1. Calidad
Confiable
2. Oportuna (tiempo)
3. Bajo costo.
El objetivo de la mayoría de las investigaciones estadísticas consiste en hacer
generalizaciones válidas, con información muestral, acerca de poblaciones de las cuales
provienen las muestras.
Estadística moderna es una teoría de la información con la inferencia como su objetivo. El
medio para la inferencia es la MUESTRA.
Censo
Método de búsqueda de información
Muestreo
¿Qué es el muestreo?. Es una técnica inductiva para estimar totales o promedios. La
estimación puede ser tan exacta como queramos al incrementar el tamaño de la muestra.
Puede ser acompañada por un límite de error de estimación o bien expresada como un
intervalo de confianza.
3
¿Qué se pretende con el curso muestreo?
Objetivos del Curso:
1.
2.
3.
4.
Diseñar los instrumentos o cuestionarios de la encuesta.
Economía de adquirir una cantidad específica de información.
Tipos de muestreo  para científicos, sociales, comercio, administración, economía,
ciencias forestales. Los físicos realizan EXPERIMENTOS, los otros realizan
ENCUESTAS.
Determinación de tamaños de muestra con error especificado. El muestreo abarca 3
grandes áreas.
4.1. Diseño de la muestra.
4.2. Determinación de tamaño de muestra.
4.3. Inferencias.
Con la investigación por muestreo se persigue encontrar perfiles de la población (medidas,
resumen, comportamientos del colectivo). No se persigue encontrar características
personales.
Justificación
Se presenta de forma intuitiva una introducción general a los métodos de muestreo y
gradualmente, se va haciendo especial énfasis en los aspectos conceptuales y analíticos.
Este curso es de particular interés para los alumnos de la Licenciatura de Estadística, sobre
todo requisito fundamental para las asignaturas de Análisis de Datos y Análisis
Multivariante.
TEMA 1.
ORGANIZACIÓN DE UNA INVESTIGACIÓN POR MUESTREO DE
ENCUESTA
La encuesta por muestreo es una metodología que abarca más allá del muestreo
propiamente dicho, el cual consiste en el método de selección de la muestra, determinación
del tamaño de muestra y la inferencia estadística. La finalidad de una encuesta por
muestreo es obtener información para satisfacer una necesidad definida. La necesidad de
recopilar datos surge en todo campo de la actividad humana.
Ejemplo:
Población.
Mano de obra.
Agricultura.
Industria.
Comercio Interno.
4
Una investigación por muestreo se puede dividir en 3 etapas básicas:
1.
Planificación.
2.
Recolección de la Información.
3.
Análisis de los resultados.
VENTAJAS MUESTREO Vs. CENSO.
a.
b.
c.
d.
Costo reducido (Los gastos son menores que los que se realizarían si le lleva a cabo
un censo).
Mayor rapidez (El muestreo emplea menos tiempo en recopilar y procesar los datos
que el censo).
Mayor exactitud. Se espera que una encuesta bien empleada produzca resultados más
exactos que el censo. En el censo surgen más errores por la complejidad y magnitud
del trabajo. El muestreo emplea personas de mayor calibre, es posible capacitarlos
mejor y supervisar su trabajo.
Estimar validamente el margen de error y decidir si los resultados son
suficientemente exactos. Un censo completo no revela el margen de incertidumbre al
cual está sometido. En poblaciones pequeñas  censo.
TIPOS DE ENCUESTA POR MUESTREO
Según el objetivo que se persiga en la investigación por muestreo, las encuestas se
clasifican en:
1.
2.
3.
Descriptivas.
Analíticas.
Exploratorias.
OBJETIVOS
Descriptivas: Permiten describir el comportamiento del fenómeno en estudio, es decir, con
ellas se puede conocer cierta información sobre grandes grupos. Ejemplo: número de
hombres que ven televisión.
Analíticas: aquellas que permiten hacer comparaciones entre subgrupos de una población
para averiguar si existen ciertas diferencias entre ellos y formular o verificar hipótesis sobre
sus causas. Se emplean técnicas multivariantes.
Exploratorias: proporcionan un mecanismo de búsqueda cuando se está comenzando a
indagar sobre un tema particular. Sirven de base para estudios posteriores y requieren un
análisis descriptivo.
5
DISEÑO DE ENCUESTAS
Formulación del problema de investigación.
Se refiere al planteamiento del problema a investigar, es decir, definir el qué, por qué, para
qué y cómo.
Definición de Objetivos.
La primera tarea es fijar en términos concretos los objetivos de la encuesta.
Cobertura: población que se cubrirá. Los objetivos de la encuesta deben definir la
población que se quiere cubrir.
VARIABLES Y ATRIBUTOS INVOLUCRADOS EN LAS HIPÓTESIS.
Variable: función real valorada. Característica que puede tomar diferentes valores.
Atributos: De acuerdo a los atributos la variable se clasifica en:
Cuantitativas
Discretas
Continuas
Tipos de Variables
Cualitativas
o Categóricas
Nominal
Ordinal
Escalas de Medición.
-
Nominal.
Ordinal.
Intervalo.
Razón o proporción.
DISEÑO DE CUESTIONARIOS
El cuestionario es una parte muy importante de la encuesta por muestreo. Habiendo
decidido cuál es la información que se desea obtener, el problema de su presentación
requiere considerable habilidad. Las preguntas deben ser claras, sin ambigüedades y al
punto. Las preguntas vagas no proporcionan respuestas claras. Deben evitarse las
preguntas que orientes respuestas. Como éstas podrían depender en alguna medida del
6
ORDEN en que se hacen la preguntas, debe considerarse también su orden. Una pequeña
prueba previa siempre es útil para decidir sobre un método efectivo para plantear las
preguntas. Todos términos técnicos que se utilizan deberán ser definidos adecuadamente.
(Des Raj, 39).
Tipos de cuestionarios

Autoadministrado

Entrevistas

Por teléfono, correo, personal —> inspección
Tipos de Preguntas

Abiertas

Cerradas

Selección Múltiple

Selección dicotómica
Redacción de las Preguntas
Debe ser clara, sin ambigüedades. Es importante cuidar el lenguaje en relación al público
que está dirigido la encuesta.
Debe ser en positivo la redacción de la pregunta. Se recomienda que no contenga más de 20
palabras. El número de preguntas esta asociado inversamente a la tasa de respuesta.
Preguntas referentes a temas sensibles.
Se debe evitar preguntas que induzcan respuestas y también, se debe tener cuidado si el
orden de la preguntas induce a las respuestas.
Prueba Piloto.
El objetivo fundamental de realizar una encuesta piloto es probar la validez, confiabilidad y
precisión del cuestionario o instrumento de medición. También, tiene como propósito,
determinar costos y tamaño de muestra de la encuesta. Una vez probado el instrumento, se
determina la composición final del cuestionario.
CONCEPTUALIZACION Y DISEÑO DEL INSTRUMENTO
En la investigación por muestreo, esos conceptos deben ser convertidos en preguntas en un
cuestionario que permite la recolección de los datos empíricos relevantes para analizar.
7
Lógica de Conceptualización.
Ejemplo: Estatus social puede ser definido por varios elementos: ingreso, prestigio
ocupacional, educación, riqueza, poder, estatus familiar y valores morales.
Para permitir rigurosa investigación, sin embargo, tales conceptos generales deben ser
especificados, esto es, deben ser reducidos para especificar, indicadores empíricos.
Operacionalización.
Los conceptos son codificados generales de la experiencia y observaciones.
En ciencias tales conceptos toman la forma de variables que traen una colección de
atributos relacionados.
- Operacionalización es el proceso mediante el cual los investigadores especifican
observaciones empíricas que pueden ser tomados como atributos contenidos dentro de un
concepto dado.
CALIDAD DE LA MEDICIÓN
Los elementos siguientes deben ser considerados en el diseño de la encuesta, a fin de
garantizar la adquisición de información de calidad.
- Precisión
- Confiabilidad
- Validez:

Validez de Contenido

Validez de Constructo
FORMATO DE PRESENTACIÓN DEL CUESTIONARIO
El formato del cuestionario debe ser tan importante como la naturaleza y redacción de las
preguntas. Una inapropiada presentación del cuestionario puede conducir a respuestas
erróneas.
Se debe evitar:

Cuestionarios demasiados largos, ya que el N° de preguntas está asociado
inversamente a la tasa de repuesta.

Varias preguntas en una sola línea.

Preguntas abreviadas.

Demasiadas páginas del cuestionario —> que el entrevistado sienta que gasta poco
tiempo en responder el cuestionario.

Cuestionario muy comprimido en espacio son desastrosos.
8
Formatos para respuestas
[ ] Si
( ) Si
1. Si
[ ] No
( ) No
2. No
[ ] No sabe
( ) No sabe
3. No sabe
Preguntas Contingencia
A menudo en una encuesta, ciertas preguntas serán claramente relevantes solo para un
subconjunto de respondientes.
Pregunta de Contingencia: significa que la segunda pregunta es un contingente, cuya
respuesta depende de la primera.
El uso apropiado de estas preguntas puede facilitarle al respondiente la tarea de responder
el cuestionario y también puede mejorar la calidad de los datos producidos.
La segunda pregunta se debe evitar que comience ¿ Si..... condicionalmente porque puede
inducir a respuesta.
Estas segundas preguntas deben ser indentadas sobre el cuestionario, encerradas en cajas y
conectadas con la pregunta base a través de flechas.
Preguntas Matriz.
Típico caso es el de escala Likert.
A menudo, Ud. deseará preguntar varias cuestiones que tengan el mismo conjunto de
categorías de respuesta.
Ejemplo:
17. Al lado de cada afirmación que se presenta más abajo, indique si Ud. está
completamente de Acuerdo (CA), Acuerdo (A), en Desacuerdo (D), Completamente en
Desacuerdo (CD) o Indeciso (I).
CA A D CD I
a.
b.
c.
Este país necesita más leyes y orden [ ] [ ] [ ] [ ] [ ]
La política debe ser el desarme.
[] [] [] [] []
Durante los disturbios se deben
[] [] [] [] []
disparar perdigones a los saqueadores.
9
Existen algunos peligros inherentes al uso de este formato como: Los respondientes pueden
desarrollar algún patrón de respuesta.
Preguntas referentes a temas sensibles.
Se deben evitar las preguntas directas que comprometan la integridad física, emocional,
moral o espiritual del encuestado.
SECUENCIA Y ORDENAMIENTO DE LAS PREGUNTAS
El orden en el cual las preguntas son presentadas pueden afectar las respuestas, así como
toda la actividad de recolección. Por ejemplo, la presencia de una pregunta puede afectar
las respuestas dadas en las siguientes preguntas.
Algunos investigadores intentan este efecto "aleatorizando" el orden de las preguntas.
La solución más segura es la sensibilidad del problema. Se debe construir más de una
versión del cuestionario que contenga diferentes ordenamientos de las preguntas.
El orden de las preguntas depende el tipo de cuestionario, si es autoadministrado o
entrevista. En el primer caso, usualmente es mejor comenzar el cuestionario con el conjunto
de preguntas más interesantes. Las preguntas iniciales no deben ser amenazantes. Las
preguntas de identificación se deben dejar por el final de la encuesta.
REPRODUCCIÓN DEL CUESTIONARIO
El método de reproducción del cuestionario es importante para el logro de éxito del estudio,
un cuestionario nítidamente reproducido indicará a una alta tasa de respuesta y así,
proporcionara mejores datos.
Varios métodos están disponibles, y los cuales dependerán de los recursos disponibles,
facilidades locales y tiempo.
INSTRUCCIONES
Cada cuestionario, si es autoadministrado o si es administrado por el encuestador, debe
contener instrucciones claras y comentarios introductorios donde sean apropiados.
Instrucciones Generales
Cada cuestionario autoadministrado debe comenzar con instrucciones básicas para seguir su
completación.
10
Introducciones
Si el cuestionario esta organizado de acuerdo al contenido de subsecciones, es útil
introducir cada sección oraciones cortas relacionadas con el contenido y propósito.
Instrucciones Específicas.
Algunas preguntas pueden requerir instrucciones específicas para facilitar la respuesta
apropiada. Caso de respuestas múltiples.
Instrucciones para el entrevistador
Proporcionar instrucciones claras en el lugar apropiado para los entrevistadores.
ETAPAS PRINCIPALES INVESTIGACIÓN POR MUESTREO

a.
b.
PLANEACIÓN Y EJECUCIÓN DE UNA ENCUESTA
Objetivos de la encuesta. Fijar en términos concretos los objetivos de la encuesta. No
aclarar la finalidad de la encuesta disminuirá su valor en última instancia.
Población bajo muestreo: los objetivos de la encuesta deben definir la población que
se quiere cubrir. La palabra población se emplea para denominar el conjunto del que
se elige la muestra. Implica la definición de lo que es población y de sus elementos.
Evitar ambigüedades. El encuestador debe ser capaz de decidir en el campo sin
demasiados titubeos si un caso dudosos pertenece o no a la población.
La población que se procura cubrir será por lo general diferente de la que en realidad
es objeto de muestreo. Los resultados que se obtengan serán aplicados a la población
muestreada.
Población objetivo

Población muestreada
Pueden coincidir
c.
d.
e.
f.
g.
(es más restringida)
El marco. Lista, mapa, que sirve como guía al universo que se cubrirá, debe
examinarse que esté libre de defecto y actualizada.
Unidad de muestreo. Para los propósitos de la selección de la muestra debe ser
posible dividir a la población en unidades de muestreo.
Selección de la muestra  objetivo del curso.
Información que se recopilará. Qué información se busca obtener debe ser
considerada en una de la primeras etapas de planeación de a encuesta. Sólo deben de
tenerse datos de interés para los propósitos de la encuesta. Un cuestionario demasiado
largo produce una baja general en la calidad de los resultados. Lo práctico es preparar
BOSQUEJOS de los cuadros que debe producir la encuesta, a sí se eliminará
información no pertinente.
Grado de precisión deseado.
11
Resultados  incertidumbre 
Muestra
Errores en las mediciones deseadas.
La falta de certeza se reduce al tomar muestras grandes y emplear mejores
dispositivos. Implica costos y tiempo. Es mejor especificar el grado de precisión
deseado.
h.
Método de obtener la información.
- Encuesta que emplea un cuestionario autoadministrado.
- Entrevistas.
- Encuestas con preguntas abiertas y/o cerradas.
- Encuestas por teléfono, correo o visitas personales.
i.
Referencia de tiempo y período de referencia.
- Referencia de tiempo (período al que pertenecerán los resultados de la encuesta).
- Período de referencia: período para el cual se obtiene la información de las
unidades de muestreo.
j.
Cuestionario u hoja de encuesta. Con función de la información a obtener  definir
presentación encuesta. Las preguntas deben ser claras y sin ambigüedades y al punto.
Deben evitarse preguntas que orienten las respuestas. Orden de preguntas. Preguntas
control. Prueba piloto. Definir los términos técnicos adecuadamente. Cuestionarios
precodificados.
La capacitación de los entrevistadores y supervisión, instrucciones detalladas en los
métodos que se emplearán las mediciones.
Inspección de la información entregada. Control de calidad de la información.
Personas que se rehúsan responder. Elaborarse procedimientos para tratar con quienes
no respondan.
k.
l.
m.

PRESENTACIÓN Y ANÁLISIS DE DATOS. Dicho análisis se realiza según el
plan de tabulaciones diseñado y las técnicas estadísticas propuestas para cumplir con
los objetivos previstos en la investigación.

INFORME Y PUBLICACIÓN DE RESULTADOS. En esta última etapa se
redacta el informe contentivo de los resultados de la investigación por muestreo y se
ejecuta el plan de publicación de los mismos.
CONCEPTOS GENERALES
Población: es una colección de objetos acerca de los cuales deseamos hacer alguna
inferencia. Un conjunto finito o infinito de elementos.
12
Elemento o unidad elemental o unidad de observación: objeto sobre el cual se realizan las
mediciones de la característica. Es un objeto en el cual se toman las mediciones.
Unidades de muestreo: son colecciones no traslapadas de elementos de la población que
cubran la población completa. Otra definición es: colecciones o grupos no solapados de
unidades elementales. También es la unidad donde realizamos la muestra.
Ejemplo:
Encuesta de Viviendas  Unidad de muestreo: manzanas definidas de tal manera
que cada vivienda no pueda ser muestreada más de una vez y que cada vivienda tenga
una oportunidad de ser seleccionada en la muestra.
Encuesta sobre Ingreso Familiar  Unidad de muestreo: vivienda.
Proporción de votantes que favorecieron la emisión de bonos  Unidad de
muestreo: hogares. Unidad elemental: votantes.
En el muestreo de elementos cada unidad de muestreo contiene un solo elemento, por tanto,
la Unidad de muestreo = Unidad elemental.
Marco muestral: es una lista de todas las unidades de muestreo.
Muestra: es un subconjunto de la población. Es una colección de unidades seleccionadas de
un marco o de varios marcos. En una población infinita, una muestra aleatoria es una
sucesión de variables aleatorias independientes e idénticamente distribuidas.
POBLACIÓN OBJETIVO
Población que se pretende cubrir. Definida
por los objetivos de la encuesta. Es la
colección completa de observaciones que
deseamos estudiar.
POBLACIÓN MUESTREADA
Es la población de donde se extrae la
muestra, es más restringida. Los
resultados que se obtengan serán
aplicados a la población muestreada.
TIPOS DE MUESTREO
1.
Muestreo Probabilístico: Cuando de antemano se conoce la probabilidad asociada a
cada muestra posible.
2.
Muestreo No Probabilístico:
- Intencional u opinático
(representatividad subjetiva)
- Sin norma circunstancial o errático
- a capricho o comodidad.
- por cuotas: a conveniencia adminis-trativa o
económica.
- Juicio: el investigador emplea su propio juicio
para elegir la muestra.
13
Muestreo Aleatorio: Consiste en asignar a cada elemento poblacional una probabilidad no
nula, de ser seleccionado. Con este muestreo podemos hacer estimaciones de las
magnitudes de los errores de muestreo (valor estimado  Valor poblacional ). Controlar la
precisión de las estimaciones muestrales dentro de ciertos límites fijados con anticipación y
con cierto grado de confianza.
TIPOS DE MUESTREO PROBABILÍSTICO
1)
2)
3)
4)
5)
6)
7)
Muestreo Irrestricto Aleatorio.
Muestreo Estratificado.
Muestreo Sistemático.
Muestreo por Conglomerados o por Áreas.
Muestreo Bietápico.
Muestreo Polietápico.
Muestreo Mixto.
¿CÓMO SELECCIONAR LA MUESTRA?. El objetivo del muestreo es estimar
parámetros de la población, tales como media, el total y proporción basándose en la
información contenida en la muestra.
Muestra
Muestreo
Inferencia
Estimaciones Y , Y, total
Población
Tamaño de muestra
información a extraer
controla
la
cantidad
de
ˆ : Estimador. Medida estadística que describe cierta característica numérica
de una muestra, siendo una magnitud variable de una muestra a otra.
 : Parámetro. Medida estadística que describe cierta característica numérica
de una población y que se considera constante y desconocida.
¿Cómo podemos determinar cual procedimiento usar y el número de observaciones a
incluir en la muestra?. La respuesta depende de cuanta información se desee obtener. La
14
cantidad de información obtenida en la muestra depende del número de elementos
muestreados y de la cantidad de variación en los datos. Debemos fijar un límite para el
error de estimación menor que B.
Error de estimación = ˆ    B = errores en el muestreo.
B  e  límite de error de estimación.


Pr ˆ    e  1  
El límite de error de estimación viene generalmente expresado en unidades de ˆ
e  t ˆ = error máximo admisible. t es dado a función 1-  ; 1-  = coeficiente
confidencial.
El error de estimación se debe a que una muestra no proporciona información completa
sobre una población. Esta clase de error se llama error de muestreo, el cual puede ser
controlado por un diseño cuidadoso de la encuesta.
El margen de error dado en las encuestas es un expresión del error de muestreo, el cual
resulta al considerar una muestra y no al examinar toda la población (Lohr, 2000, p. 15)
ERRORES AJENOS AL MUESTREO
Son aquellos que no se deben al muestreo, los cuales no se pueden atribuir a la variabilidad
entre las muestras (Lohr, 2000) e influyen en la validez y confiabilidad de las estimaciones.
Se pueden clasificar en:
a)
Sesgos de estimación: debido al uso inadecuado de un estimador. Cuando se utilizan
estimadores sesgados. Mal uso por parte del investigador.
b)
Sesgos de selección: errores cometidos cuando el proceso de selección de la muestra
no es totalmente aleatorio; pues incluye elementos opináticos y erráticos. Este ocurre
cuando alguna parte de la población objetivo no está en la población muestreada.
c)
Sesgo de medición: ocurre cuando el instrumento con el que se mide tiene una
tendencia a diferir del valor verdadero en alguna dirección. Este debe ser minimizado
en la etapa de diseño de la encuesta (Lohr, 2000).
d)
Errores de observación o de medida: son el resultado de la interacción entre el
observador, el instrumento y el individuo medido (sustituciones fortuitas pueden
sesgar los resultados).
e)
Errores por omisión: se refiere a la no respuesta, inaccesibilidad del elemento, o
pérdida del dato.
f)
Equivocaciones en el diseño de la encuesta.
Exactitud: se refiere a la magnitud de las desviaciones respecto a la media verdadera .
Precisión: se refiere a la magnitud de las desviaciones respecto a la media Y muestral.
15
TEMA 2.
MUESTREO ALEATORIO SIMPLE
En una muestra aleatoria simple cada unidad o elemento de la población tiene una
probabilidad de selección conocida; se emplea un método aleatorio para elegir las unidades
a incluir en la muestra (Lohr, 2000). Los elementos o unidades podrán ser seleccionados de
dos formas: con o sin reposición.
En el muestreo aleatorio simple con reemplazo o con reposición una unidad o elemento se
puede incluir más de una vez en la muestra; mientras en el muestreo sin reemplazo o sin
reposición, todas las unidades en la muestra son distintas.
Una muestra aleatoria con reposición, de tamaño n obtenida de una población de N
unidades, se puede pensar como la extracción de n muestras independientes de tamaño 1.
Cada unidad se extrae de la población al azar, por ser la primera unidad muestreada, con
una probabilidad de 1/N, la cual se reemplaza en la población, y siguiente unidad se
selecciona al azar con una probabilidad de 1/N. Este procedimiento se repite hasta que la
muestra contenga las n unidades y puede tener duplicados.
El muestreo aleatorio sin reemplazo o sin reposición de poblaciones finitas se conoce con el
nombre de muestreo irrestricto aleatorio, el cual consiste en la selección de n elementos
sacados de una población con N unidades, de modo que todas las muestras posibles
N
(distintas)   de tamaño n tengan la misma probabilidad de ser seleccionada
n 
1
n!N  n!
. PS  es la probabilidad de elegir cualquier muestra individual
P( S ) 

N!
N
 
n 
S de n unidades.
La probabilidad de la muestra también puede calcularse utilizando el cálulo de
probabilidades:
1ª selección probabilidad
2ª selección probabilidad
n
N
n 1
N 1
Luego, la probabilidad de selección de una muestra PS  es:
P( S ) 
n!( N  n)!
n (n  1) (n  2)
1
1
.
.
...


N ( N  1) ( N  2) ( N  n  1)
N!
N
 
n 
16
Otra forma de calcularla es la que se presenta a continuación. Sea la muestra
S  u1 , u 2 ,...,u n , luego su probabilidad es una probabilidad condicional,
PS   Pu1 , u 2 ,...,u n   n! Pu1 , u 2 ,...,u n   n! Pu1 Pu 2 / u1 Pu3 / u1u 2 ...Pu n / u1u 2 ...u n1 
PS   n!
1 1
1
1

 n!
N N 1 N  2
N  n  1
1
n!N  n !
1
1



N!
N!
N!
N
 
N  n!
n!N  n !  n 
En el cálculo anterior hemos supuesto que al no intervenir el orden en la colocación de los
elementos, la muestra S  u1 , u 2 ,...,u n  contiene las n! posibles ordenaciones de dicho
conjunto.
PROBABILIDAD QUE TIENE UNA UNIDAD DE PERTENECER A LA
MUESTRA
Se mencionó que los elementos que formarán la muestra pueden ser seleccionados de dos
maneras:
1.
Con reposición: en este procedimiento los elementos pueden ser seleccionados varias
veces, y cada una de las n selecciones son independientes unas de otras, luego, la
probabilidad de que un elemento forme parte de la muestra es 1/N. Por lo tanto, la
probabilidad final de forme parte de la muestra de tamaño n es:
1 1
1
n
       . Este tipo de selección coincide con el muestreo de
N N
N N
poblaciones infinitas.
2.
Sin reposición: las unidades pueden ser seleccionadas una sola vez. Recibe el
nombre muestreo irrestrictamente aleatorio, y la probabilidad que un elemento sea
escogido en la i-ésima extracción estará condicionada a la probabilidad de que no
haya sido escogido en los (i-1) sorteos anteriores, así cada selección y probabilidad
es:
1ª selección probabilidad
1
N
2ª selección probabilidad
1  N  1 1


N 1
N
N
17
3ª selección probabilidad
N  2  N  1  1
1

N  2 N 1
N
N
nª selección probabilidad
1
N  n  1
N 1 1



N  n  1 N  n  2
N
N
De allí que la probabilidad de que un elemento sea seleccionado en cualquiera de las n
1
elecciones será igual a
y la probabilidad final de que un elemento sea incluido en la
N
n
muestra es  i  , aquí se aplica la sumatoria de las probabilidades de cada una de n
N
selecciones en las que puede ser elegido el elemento i en la muestra.
N
 N  1
 contienen un
También podemos decir que de las   muestras posibles, de ellas 
n 
 n 1 
elemento particular, por tanto, su probabilidad es:
 N  1


No. muestrasfavorables  n  1  n
i 


No. muestrasposibles
N
N
 
n
Todo diseño muestral comprende las siguientes partes:
1.
2.
3.
4.
Método de selección de la muestra.
Estimadores a utilizar y propiedades.
Determinación del tamaño de muestra.
Modificaciones al diseño básico.
Forma de seleccionar una muestra irrestricta aleatoria
-
La selección aleatoria garantiza:
a.
Inferencias estadísticas válidas.
b.
Mejoramientos acumulativos a través de la separación y evaluación objetivo de
sus fuentes de error.
-
Tablas de número aleatorios.
Computadora
Este método de muestreo se usa en poblaciones suficientemente homogéneas, es decir, cuya
varianza poblacional tienda a cero, exige disponer una lista enumerada de 1 a N y de allí
mediante un experimento aleatorio seleccionar a cada uno de los n elementos de la muestra.
18
Dos factores afectan la cantidad de información contenida en la muestra y por tanto, la
precisión (tamaño muestra y cantidad de variación que se controla por el tipo de muestreo).
ESTIMACIÓN DE LA MEDIA Y EL TOTAL
Simbología básica:
yi = i - ésimo elemento de la muestra
N = total
ui = elemento genérico de la población
n
y
i 1
yi
media muestral
n
Suponga que y1, y2, ... , yn es una muestra irrestricta aleatoria (m.i.a) de una población de
valores u1, u2, ... , uN,, (considere que yi la muestra aleatoria es de tamaño uno).
N
yi
1
  E ( yi )      media poblacional E ( yi )     ui  
N
i 1 N
i 1
n
2 varianza poblacional
V Yi   EYi   
2
2

Yi  
1
1 1 N 2

2
2
  2
  Yi        Yi  N   Yi 
N 
 N  N  i 1
 N 

La varianza muestral es:
S
2
 y

i
y

n 1
2
2


2
2
 1 
 1  n 2
2

 y i  2 y i y  y  
  y i  n y 
 n 1
 n  1  i 1

 yi 2 
 1 
2
S 
  yi 
n 
 n  1 

2
La Covarianza poblacional en el m.i.a. es  0

 
 

Cov( yi , y j )  E ( yi  )( y j  )  E yi y j  yi  y j   2  E yi y j   2


1
1  N 
  2   u i 
  u i u j 
i j
 N ( N  1)  N  i 1 
N
2
19
 N

2
  ui u j
1  i j
1 N
 

   ui 
N  N 1
N  i 1  




Como
 u 
2
i
N
  ui   ui ui
2
i 1
i j
2
N
 N

2
ui ui    ui    ui

i j
i 1
 i 1 
N
Entonces
Sustituyendo en la covarianza se tiene
 N 2
2
   ui    ui
1
1
Cov( y i , y j )    i 1 

N
N 1
N


1

N


2
 ui  


2

1
1   ui
2
 
 u i  
N 1
 N 1 N 

1 
 u i

N 



 ui
1


 N ( N  1)   N  1


2
2








1
N
 1
1
2
2
 N  1  u i  N ( N  1)  u i  



1
N
 1
N 2 
2
u

 i N  1

 N 1

En definitiva, la covarianza queda igual,
Cov( y i , y j )  
1
N ( N  1)
 u
2
i

 N 2  
1
u i   2   1  2

N ( N  1)
N 1
20
ESTIMACIÓN DE LA MEDIA POBLACIONAL
El estimador de la media  es
̂  y 
y
i
n
Por definición la varianza muestral es:
S
2
y

2
i
 ny
n 1
2
entonces S
2
 y

 y
2
i
n 1
Consideremos que:
1) La media muestra es un estimador insesgado, es decir
2) La varianza de la media es
V ( y) 
E ( y)  
 2  N n

 y su estimador es
n  N 1 
S  N n
Vˆ ( y ) 

 que también es insesgado.
n  N 
2
Por definición, el límite de error de estimación es e  B  t Vˆ ( y )
Ahora vamos a demostrar los 2 puntos anteriores:
1. La media muestra es un estimador insesgado, es decir
E(y)  
Considere que yi es una muestra aleatoria es de tamaño uno.
Por definición la media muestral es y 
 n
  yi
E  y   E  i 1
 n


y
i
n
al aplicar operador esperanza se tiene


n
n
N
  1 E  y   1  u 1   1 n   
 j
i
 n
n i 1  j 1 N  n
i 1


V ( y) 
2. La varianza de la media es


insesgado, es decir que E Vˆ  y   V  y  .
2  N n

 y su estimador es también
n  N 1 
21
A continuación vamos a realizar un ejercicio para estimar la media y determinar el error de
estimación.
Ejercicio 4.7: Una muestra irrestricta aleatoria de n = 100 medidores de agua es controlada
dentro de una comunidad para estimar el promedio de consumo de agua diario por casa,
durante un periodo estacional seco. La media y la varianza muéstrales fueron y  12.5 y
S 2  1252Si suponemos que hay N = 10.000 casas dentro de la comunidad, estime μ, el
promedio de consumo diario verdadero, y establezca un límite para el error de estimación.
(Mendenhall, pag. 68.)
Datos
n = 100, y  12.5 , S 2  1252,
Se pide estimar 
N = 10000
y B
Sˆ 2  N  n 
1252  10000  100 
B  2 Vˆ  y   2

2

  2 * 3.52
n  N 
100  10000 
El error de estimación es B = 7.04
El intervalo de confianza para la Media Poblacional es:
y  B   y  B; y  B
Sustituyendo los valores obtenidos se tiene que el intervalo es:
12.5  7.04 ; 12.5  7.04  5.46 ; 19.54
Se puede interpretar los resultados de la siguiente manera: “Se tiene por lo menos un 75 % de
confianza que el verdadero valor del promedio diario de consumo de agua se encuentre entre
5.46 y 19.54”.
Como el tamaño de la muestra es grande se puede emplear el teorema central del limite y
asumir que la media se aproxima a una normal. En este ejemplo, el error de estimación es igual
a: B = 1.96 * 3.52 =6.8992; y el intervalo es (5.40 ; 19.60) el cual indica que tenemos un 95%
de confianza que el verdadero valor del consumo de agua promedio poblacional se encuentra
entre 5.40 y 19.60.
A continuación vamos a estudiar la estimación del total poblacional, sus varianzas y la
determinación del tamaño de muestra.
22
ESTIMACION DEL TOTAL POBLACIONAL

n
Ya sabemos que su estimador es ˆ  Ny 
N  yi
i
n
La varianza poblacional del total estimado ˆ se obtiene al aplicar el operador varianza a la
definición de dicho estimador, el cual queda igual a:
V ˆ   N 2
2
 N n
2 S
1  f  , donde f  n / N es la fracción de muestreo

N
n
 N 
S2
n
La varianza estimada del total estimado
ˆ es:
ˆ2
S N n
2 S
1  f 
V ˆ   N

N
n  N 
n
2
ˆ2
El limite para error de estimación es B = e = 2 V̂ ˆ 
o B  tk
V̂ ˆ 
Ejemplo 4.8: Usando los datos del ejercicio 4.7, estime el número total de galones de agua,
τ, usado diariamente durante el periodo seco. Establezca un límite para el error de
estimación. (Mendenhall, pag. 68.)
Solución:
n =100 medidores, N=10000, y  12.5 ,
S2=1252
Tˆ  Ny  10000*12.5  125000

S2  N  n
Vˆ Tˆ  Vˆ Ny   N 2Vˆ  yˆ   N 2


n  N 
2 1252  10000 100
2
Vˆ Tˆ  10000

  1239.48* 10000  1.239.480.000
100 
100


Vˆ (Tˆ )  123948 * 10 4  35206 .25
B  t k Vˆ (Tˆ )  2 Vˆ (Tˆ )  2 * 35206 .25  70412 .5
Intervalo de confianza para el total de galones de agua usado durante el periodo seco.
Tˆ  B, Tˆ  B  54587.5,195412.5


23
TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA
Para determinar el tamaño de la muestra se despeja n de B con varianza poblacional (4) o
varianza estimada (5)
2  N n
e  B  t Vˆ  y   t


n  N 1 
Sˆ 2  N  n 
e  B  t Vˆ  y   t


n  N 1 
(4)
(5)
despejando n de (4) se tiene que:
2
 e2 
2
2   N n
2
2
e  t

  n 2 N  1  N  n
n  N 1 
 t 
 e2
n 2
 t

N  1  n 2  N 2


Finalmente, el tamaño de muestra queda igual a:
N 2
N 2
n 2
n
D  N  1   2
e 
 2  N  1   2
t 
  
TAMAÑO DE LA MUESTRA PARA ESTIMAR EL TOTAL
Por un procedimiento similar al de la media se determina el tamaño de muestra para estimar
el total.
n
D
N 3 2 t2
N 2
N 2


2
2
2 2
2
2
N  1 2e 2   2 N  1e   t N N  1D  
t N
e2
B2

t2 N 2 t2 N 2
t2  4
24
Tanto en el caso de muestras para estimar el total o la media se supone que el investigador
debe conocer  2
FORMAS DE CALCULAR ESTIMACIONES DE
2
La estimación de la varianza poblacional σ2 para calcular el tamaño de muestra se puede
realizar a través de:
1.
2.
3.
4.
Estudios anteriores.
Muestra piloto.
Usando el rango de la variable (dos desviaciones de la media)
rango de Y
 
4
Consideraciones prácticas acerca de la estructura poblacional.
ESTIMACIÓN DE LA PROPORCIÓN P
El investigador que realiza una encuesta por muestreo frecuentemente esta interesado en
estimar la proporción de la población que posee una característica.
Ejemplo: proporción de personas que opinan que el servicio de BIECI es bueno.
Las propiedades de ̂ son equivalentes a las de y en el muestreo irrestricto aleatorio.
Sea yi = 0 si el i-ésimo elemento seleccionado no posee la característica especifica, y yi = 1
si las posee.
pˆ 
y i
 y es el estimador de p
n
La varianza poblacional de la proporción es: V  p  
PQ  N  n 


n  N 1 
pˆ qˆ  N  n 
Varianza estimada de p̂ es: Vˆ  pˆ  


n 1 N 
A continuación vamos a demostrar: la varianza estimada de la proporción Vˆ  pˆ  :
Sabemos que y 
y i
 pˆ  y i  np
n
25
Sea la cuasivarianza:
2
2
yi  y 
yi  ny 2 np  np2
n
n
2
pq
S 



p(1  p) =
n 1
n 1
n 1
n 1
n 1
n
S2  N n
2
pq se tiene
Vˆ  y  

 , sustituyendo S 
n 1
n  N 
y además
pq
pq  N  n 
 N n
Vˆ  y   n  1 


  V  pˆ  esto es lo que queríamos demostrar.
n  N  n 1 N 
pˆ qˆ
n
pˆ qˆ  N  n  ˆ
 N n
Vˆ  y   n  1 


  V  pˆ  es la varianza estimada de la proporción.
n  N  n 1 N 
n
El error de estimación es:
e  B  t V ( pˆ )
Ejercicio 4.5: Las autoridades de un parque estatal están interesadas en la proporción de
personas que acampan y que consideran que el espacio del área disponible para acampar en
un terreno en particular es adecuado. Las autoridades decidieron tomar una muestra
irrestricta aleatoria de n = 30 de los primeros N = 300 grupos acampados que visitan el
campo. Sea yi  0 si jefe del i-ésimo grupo muestreado considera que el espacio del área
disponible para acampar no es adecuado, y yi  1 si considera que es adecuado
(i=1,2,...,30). Use los datos de la tabla adjunta para estimar p, la proporción de personas que
acampan y que consideran que el espacio del área disponible para acampar es adecuado.
Establezca un limite para el error de estimación (Mendenhall, pag. 67-68.)
Persona Muestreada Respuesta yi
1
1
2
0
3
1
.
.
.
.
.
.
29
1
30
1
30
y
i 1
i
 25
26
Solución:
y
pˆ 
i
 25
n = 30
N=300
yi 25

 0.8333 y qˆ  1  pˆ  0.1667
30 30
pˆ qˆ  N  n  0.83330.1667  300  30 
Vˆ  pˆ  



  0.00431103
n 1 N 
30  1
 300 
El error de estimación resulta igual a: B=2*0.065658=0.1313. Al calcular el intervalo de
confianza queda igual a (0.702 ; 0.9646).
TAMAÑO DE LA MUESTRA PARA ESTIMAR p
Sabemos que el tamaño de muestra para estimar la media en el muestreo irrestricto
aleatorio es:
N 2
N 2
n

DN  1   2
 e2 
 2 N  1   2
t k 
Haciendo la varianza poblacional igual a  2  PQ y sustituyéndola se tiene:
n
NPQ
2
e
N  1  PQ
t 2k
e  t k Vˆ  p 
pˆ qˆ  N  n 
Vˆ  pˆ  


n 1 N 
n
n0
;
n0
1
N
n0 
t 2 pq
e2
Ejemplo 4.6: Use los datos del Ejercicio 4.5 para determinar el tamaño de muestra
requerido para estimar p con un límite para el error de estimación de magnitud B = 0.05.
(Mendenhall, Pag 68.)
27
Solución:
y
pˆ 
n
i
 25
N = 300
n=?
B = 0.05 = e
t=2
yi 25

 0.8333 y qˆ  1  pˆ  0.1667
30 30
NPQ
3000.833330.1667

 127.90  128
2
 e2 


0
.
05
  0.830.17
N  1 2   PQ2 300  1
t 
 4 
MUESTREO CON PROBABILIDADES PROPORCIONALES
AL TAMAÑO
Sea  i  la probabilidad de que yi aparezca en la muestra.
1 n y
El Estimador del total T es: Tˆpp    i
n i 1   i
 
Varianza estimada del Tˆpp es: Vˆ Tˆpp 



n
 yi ˆ 
1
  T pp 

nn  1 i 1   i

2
El limite para el error de estimación es: t k Vˆ (Tˆpp )
Estimador de la media poblacional  :
ˆ pp 
Varianza estimada de ̂ pp
1 ˆ
1 n  yi
T pp 

Nn
Nn i 1   i
es: Vˆ ˆ pp  



n
 yi

1
  T pp 

2
N nn  1 i 1   i

2
El limite para el error de estimación es t k Vˆ ̂ pp 
28
VENTAJAS DEL MUESTREO ALEATORIO SIMPLE
1)
2)
3)
Las ventajas derivadas de realizar muestreo.
Es relativamente simple determinar la precisión de las estimaciones que se hacen a
partir de las observaciones muestrales.
Tiende a reflejar todas las características del universo, esto es, cuando el tamaño de la
muestra crece, ésta se hace cada vez más representativa del universo o población.
DESVENTAJAS DEL MUESTREO ALEATORIO SIMPLE
1)
2)
3)
4)
Suponemos un listado completo.
Si la población es muy grande la numeración demanda tiempo y trabajos que pueden
ser ahorrados si se emplea otro diseño muestral.
El tamaño de n estratificado es mejor que el tamaño de n aleatorio para el mismo
nivel de confiabilidad.
Costos mayores con la dispersión espacial de las unidades muestreadas.
TEMA 3.
MUESTREO ESTRATIFICADO
En el muestreo aleatorio simple la varianza del estimador depende del tamaño de la
muestra y de la dispersión de la variable en estudio. Si la población es muy heterogénea y
las consideraciones de costos limitan el tamaño de la muestra, podría ser imposible obtener
una estimación lo suficientemente precisa tomando una muestra aleatoria simple. Es decir,
el tamaño de la muestra aumenta para una precisión dada. Pero, si podemos clasificar los
elementos de la población en grupos (estratos)de manera que se reduzca la variación de la
variable Y dentro de cada estrato, por tanto, puede hacerse una mejor estimación.
Ejemplo: Cargos vacantes en las empresas.
Criterio de estratificación: tamaño de la empresa.
DEFINICIÓN: Una muestra aleatoria estratificada es la obtenida mediante la división de
la población en subpoblaciones denominadas estratos, en la cual, dentro de cada estrato se
selecciona en forma independiente una muestra irrestricta aleatoria. Calculándose para cada
estrato sus estimadores y el estimador de la población se calcula como una ponderación
adecuada de las estimaciones por estrato.
RAZONES PARA ESTRATIFICAR
1)
Aumentar la precisión de las estimaciones al disminuir la variación dentro de los
estratos. La estratificación puede producir un limite más pequeño para el error de
estimación que el que se produciría con un muestreo aleatorio simple.
29
2)
3)
Disminuir los costos al estratificar y variar las fracciones de muestreo dentro de los
estratos.
Permitir definir los estratos como dominios de estudio y obtener estimaciones con
precisión conocida para los estratos.
¿CÓMO SELECCIONAR UNA MUESTRA ALEATORIA ESTRATIFICADA?
Dividir la población en estratos de acuerdo a las razones para estratificar, ubicar cada
unidad muestral en su respectivo estrato, asignar el tamaño muestral de cada estrato ni (de
L
modo que si los L estratos y n es el tamaño de la muestra
n
i 1
i
 n y seleccionar muestras
aleatorias simples en cada estrato de forma independiente.
La estratificación se realiza de acuerdo a la distribución de la variable en estudio o de
acuerdo a una variable X altamente correlacionada con la variable en estudio o de acuerdo a
un criterio de disminución de los costos.
En general, la precisión aumenta con el número de estratos si estos están bien elegidos,
pero no es conveniente aumentar mucho el número de estratos si tal aumento no compensa
las complicaciones de cálculo y la disminución del tamaño de la muestra dentro de los
estratos.
NOTACIÓN
N = tamaño de la población.
L = número de estratos.
Ni = tamaño del i-ésimo estrato i = 1,2,...,L
N = tamaño de la muestra.
L
 Ni  N
i
L
n
i 1
i
n
W 1
proporción de la muestra en el estrato i  w  1
Wi = Ni/N tamaño proporcional del estrato i
Wi = ni/n
i
i
ESTIMACIÓN DE LA MEDIA
Para estimar la media poblacional  el estimador es: y st 
1 L
 N i yi
N i
30
Sea
ni
yij
j 1
ni
yi  
la media muestral del i-ésimo estrato
La Varianza poblacional de y st es:
1 L
1 L
1 L


2
2  N  ni
V  y st   V   N i yi   2  N i V  yi   2  N i  i
 N i 1
 N  i 1
 N  i 1
 Ni
2
 S i 


 ni 
La Varianza estimada de y st es:
1 L
1 L
1 L


2
2  N  ni
Vˆ  y st   V   N i yi   2  N i V  yi   2  N i  i
 N i 1
 N  i 1
 N  i 1
 Ni
2
 Sˆi 


 ni 
Vamos a demostrar que la media es un estimador insesgado, es decir, E  y st   
El estimador y st es un estimador insesgado puesto que los yi son insesgados.
y st  
1 L
1
1
T
N i  yi    N i Yi  Ti   Y  

N i 1
N
N
N
Tarea: Demostrar que la varianza estimada de y st es un estimador insesgado de V  y st 
Si las fracciones de muestreo ni/Ni son despreciables   en todos los estratos entonces
2
2
1 L N Sˆ
Vˆ  y st   2  i i
N i 1 ni
Ejemplo 5.4: Se forma una comisión de Zonificación para estimar el valor promedio de
avalúo en un suburbio residencial de una ciudad. El uso de ambos distritos de votantes en el
suburbio como los estratos es conveniente porque se tienen disponibles listas separadas de
las viviendas en cada distritos. De los datos presentados en la tabla acompañante, estime el
valor promedio de avalúo para todas las casas en el suburbio, y establezca un límite para el
error de estimación (nótese que se utilizó la asignación proporcional). (Mendenhall, pag.
113-114.)
ESTRATO I
ESTRATO II
N1  110
N 2  168
n1  20
n2  30
n1
 yi  240.000
i 1
n1
 yi2  2.980.000.000
i 1
n2
y
i 1
n2
y
i 1
i
2
i
 420.000
 6.010.000.000
31
Se pide determinar la media y el error de estimación, es decir, y st  ? y B  ?
y st 
L
1
N
N y
i 1
i
i
ni
Sabemos que: y i 
Sˆ 
y1 
y
j 1
j 1
ij
ni
 y 

2
ni
2
i
y
ij 2
 ny
ni  1
2
i

y
2
ij
ij
ni
ni  1
240 .000
 12 .000
20
2.980.000.000  20  12.000
S 
 5.263.157,895
19
2
2
1
y2 
420 .000
 14.000
30
6.010.000.000 30 14.000
S 
 4.482.758,62
29
2
2
2
1
110 12.000  168 14000   13.208,63
278
todas las casas del suburbio.
y st 
es el valor promedio de valúo para
 N  ni
1 L
La varianza estimada es: Vˆ  y st   2  N i 2  i
N  i 1
 Ni

respectivos tenemos:
Vˆ  y  
2
 Sˆi 
 al sustituir los valores



n
 i 

.895
.62 
2  110  20  526157
2  168  30  4482758
  168 


110  110 
20
30
278 



 168 

1
2
Vˆ  y   7853.52
El error de estimación es: B  t k Vˆ  y   2 7853 .52  560 .48
32
Los límites de confianza son:
yB
y  B luego, en este ejemplo,
(13208.63-560.48; 13208.63+560.48)
El intervalo resultante es: (12648.15; 13769.11). Es decir que se estima que con por lo
menos un 75% de confianza el valor promedio de avalúo para todas las casas en el suburbio
oscile entre 12648.15 y 13769.11$.
Como en este tipo de muestreo, las muestras en cada estrato son independientes, entonces
se puede realizar estimaciones separadas, así:
Estrato 1
y1  t k
Estrato 2
 N1  n1  sˆ


N
1

 n1
2
1
12000  928 .03
(11071.97, 2928.03)
y2  tk
 N 2  n2

 N2
 sˆ22

 n2
14000  700 .69
(13299.31, 14700.69)
ESTIMACIÓN DEL TOTAL
L
L
1 L
El estimador del total es: Tˆst  Ny st  N Wi yi  N  N i yi  N i yi
N i
i
i
La Varianza poblacional de Tˆst :
 
L
 N  ni
V Tˆst  Vˆ Ny st   N 2Vˆ  y st    N i2  i
i
 Ni
 S i2 
 
 ni 
La Varianza estimada de Tˆst :
 
L
 N  ni
Vˆ Tˆst  Vˆ Ny st   N 2Vˆ  y st    N i2  i
i
 Ni
 Sˆ i2


 ni




Ejemplo 5.3: Para el Ejercicio 5.2 estime el número total de horas-hombre perdidas durante
el mes indicado y establezca un límite para el error de estimación. Use los datos de la tabla
acompañante, obtenida en una muestra de 18 obreros, 10 técnicos y 2 administrativos.
(Mendenhall, pag. 113.)
33
I
(Obreros)
24
16
4
5
2
8
0
7
9
18
II
(Técnicos)
0
32
4
8
0
4
0
8
3
1
III
(Administrativos)
1
8
5
24
12
2
8
Solución:
Se desea estimar el número total de horas - hombre perdidas.
I
Obreros
n1  18
II
Técnicos
n2  10
III
Administrativos
n3  2
y1  8,8333
y 2  6,7
y3  4,5
S12  81,5588
N1= 132
S 22  50,4556
N1= 92
S32  24,5
N3 = 27
L
Tˆst   N i yi  132 8,8333 92 6,7  27 4,5
i 1
Tˆst  1903,8956 1903,9 Número total de horas – hombres perdidas por accidente en un
mes determinado.
 
2
L
2  N i  ni  S i
ˆ
ˆ

V Tst   N i 
N
i 1

i
 ni
2  132 18  81,5588
 132 

  92
 132  18 
 10  50,4556
 27  2  24,5 
   9292

  27 


10
27
2
2
2






 
Vˆ Tˆst  114.515,61
B  e  t k Vˆ Tst   e  2 114.515,61  2  338,402  676,803  676,8
Intervalo de confianza del Total Tˆst
Tˆ  B
st
( 1903,9  676,8 )
34
El verdadero número total de horas perdidas por enfermedad
1227,1 ; 2580,7
está en el intervalo
2
2  S1  N1  n1 
ˆ


La estimación separada del total para el estrato 1 es: T1  t k N1 
 n1  N1 
(1165,996  2 68.183,157)
(1165,996  552,24 )
643,76;1688,23
El límite de error 552,24 es muy grande porque S12 es grande y por tanto se obtiene una
estimación deficiente.
Si se desea una estimación para un estrato particular, la muestra del estrato debe ser lo
suficientemente grande para proporcionar un límite razonable para el error de estimación.
SELECCIÓN DEL TAMAÑO DE LA MUESTRA PARA ESTIMAR μ
Prefijados el error máximo admisible (precisión mínima del estimador) indicado
por, e  t k Vˆ  y  . El coeficiente de confianza 1-α determina el valor de t (acorde a la
forma de distribución del estimador) y la variabilidad de la población (paradoja de
Friedman).
Si 1-α  t 
 x  si n 
En este diseño supones conocidos: N,N1,N2,.....,Nl,n, wi = ni/n
 N  ni
1 
e  t Vˆ  y st   t 2   N i2  i
N  i 1
 Ni
L
S

 ni
2
i




1
2
Para determinar el tamaño de muestra se fija el nivel del error de estimación que se está
dispuesto a cometer. También, se supone que wi=ni/n para poder despejar n  haciendo
ni =win y se sustituye:
e  t
2
2
1
N2
L
 N i  wi n  S i2
N i2 S i2 L
N 2e2

N 
 2 
  N i S i2

t
i
i 1 wi n
i 1
 N i  wi n
L
2
i
35
L
N 2e2
1 L N i2 S i
2
  Ni Si  
n i  wi
t2
i
2
El tamaño de la muestra aproximado para estimar
 es:
N i2 S i2
 w
n  2 i 21 L i
N e
  N i S i2
2
t
i 1
L
Como Wi = Ni/N y si dividimos ambos miembros por N2 tenemos:
2
2
L
L
1 L N i2 S i2
2 Si
2 Si
W
W
 w
 i w

i
wi
N2
i 1
i
n  2 2 i 1 L i
 2 i 1

N e
1
e
1 L
e2 1
2
2

N
S

N
S
  Wi S i2
i i
i i
2 2
2 
2
2 
2
N t N i 1
t N i 1
t N
muestra aproximado para estimar la media.
es el tamaño de
El tamaño de muestra para una población que tiende a infinito es:
 L
S2  t2
n 0    Wi 2 i  2
wi  e
 i
V = (e/t)2 es una varianza especificada en función del margen de error, también se
denomina varianza anticipada.
S i2
w

wi
i 1
n
L
1
V   N i S i2
N i 1
L
2
i
 L 2 S i2  t2
1  L 2 S i2 
   Wi

n0   Wi
wi  e 2 V  i 1
wi 
 i
luego, el tamaño de muestra es:
n0
n
1 L
1
Wi S i2

NV i 1
36
TAMAÑO DE LA MUESTRA PARA EL TOTAL
(TAMAÑO APROXIMADO)
Este tamaño de muestra se obtiene de igual forma, partiendo del error de estimación para
estimar el total:

L
 N  ni
e 2  T2Vˆ Tˆ  t2  N i2  i
i 1
 Ni
 S i2

 ni
si ni =nwi
L
S i2
e2
  N i N i  nwi 
nwi
t2 i 1
L
L
L
N i2 S i2  N i S i2 nwi
N i2 S i2
e2
2



N i Si



2
nwi
t i 1
i 1 nwi
i
L
e2
1 L N i2 S i2
2
  Ni Si  
n i 1 wi
t2 i 1
Despejando n se obtiene el tamaño de muestra aproximado para estimar el total:
N i2 S i2

wi
i 1
L
n
L
e2

 N i S i2
t2 i 1
N i2 S i2

wi
i 1
L

L
V   N i S i2
i 1
Ejemplo: A continuación se realiza un ejemplo del cálculo del tamaño de muestra necesario
para determinar la Calidad de la Leche (variable: acidez). Suponga que se realizó una
muestra piloto y se obtuvo los siguientes datos:
ni
10
3
1
6
1
Estratos
Urdaneta
Valera
Escuque
Boconó
Trujillo
Ni = fincas
13
7
3
32
12
N = 67
Wi = Ni/N
0,194
0,1045
0,0445
0,4776
0,1791
Si2
1,676
2,333
0
1,14
0
Wi2Si2/wi
0,133
0,178
0
0,909
0
W
i
2
wi = ni/n
0,476
0,143
0,048
0,286
0,048
S i2 / wi  1,22
37
V
1 L Wi 2 S i2 1 L
1
1
 Wi S i2  1,22  1,113  0,041

n i 1 wi
n i 1
21
67
Wi 2 S i2

wi
1,22
i 1
n

 21 Fincas
L
1
1
2
1,113
0,041
V   Wi S i
67
N i 1
L
ASIGNACIÓN DE LA MUESTRA
Se denomina asignación o afijación al reparto o distribución del tamaño de la muestra n
entre los diferentes estratos, es decir, la determinación de los L valores ni de modo que ni +
n2 + .... + nl =n. Cada asignación puede originar una varianza diferente al estimador,
nuestro objetivo es determinar un esquema de asignación que aumente la precisión y
minimice los costos .
1)
2)
3)
4)
Los factores que influyen en la asignación son:
El número total de elementos en cada estrato.
La dispersión en cada estrato y.
El costo de observación en cada estrato.
TIPOS DE ASIGNACIÓN.
1. Igual ni 
n
L
2. Optima.
3. Proporcional.
ASIGNACIÓN OPTIMA: en el muestreo estratificado los valores de los tamaños de la
muestra por estrato puede ser asignados con la finalidad de minimizar la variabilidad del
estimador para un costo fijo o para minimizar el costo para un valor específico de la
varianza de la media Vˆ  y st  .
L
La función de costo fijo más sencilla es C  c0   ci ni . Dentro de cualquier estrato el
i 1
costo es proporcional al tamaño de la muestra, pero el costo por cada unidad ci puede variar
entre los estratos.
Por tanto, C0 representa un costo general y ci el costo por unidad encuestada en el estrato i.
38
Sabemos que la varianza estimada de la media es:
2
l
L
N i2 S i2
N i S i2
 1  L 2 N i  ni  S i
ˆ
V  y st    2  N i
  2  2
Ni
ni
 N  i 1
i 1 N ni
i 1 N
haciendo N i / N  Wi obtenemos:
W 2S 2 1
Vˆ  y st    i i  Wi S i2
N
ni
Ahora, vamos a minimizar la varianza Vˆ  y st  sujeto a la restricción c1 n1 + c2 n2 +.... +
cLnL = C - C0.
L
C 0   c1 ni  C  0
i 1
Usando el método de los multiplicadores de Lagrange debemos minimizar, la función:
L
L
W 2S 2
W 2S 2
 ni    i i   i i    ni ci  c  c0 
ni
Ni
i 1
i 1
Diferenciando con respecto a ni, en cada uno de L estratos, i = 1,2,....,L e igualando a
cero, las L ecuaciones obtenidas son:
Wi 2 S i2
W 2S 2

 ci
 i 2 i  ci  0
ni2
ni
Extrayendo la raíz cuadrada,
Wi S i
 ni  (1)
ci
Sumando (¡) sobre i se obtiene:
L
WS
WS

ni    i i
n    i i (2)

ci
ci
i 1

ni Wi S i / ci

i es un valor específico del estrato.
 L
Wi S i
n

i 1
ci
haciendo el cociente de (1) y (2) para eliminar
ni 
n 

Wi S i / c i
L
Wi S i

i 1
ci
39
Ni
S i / ci
ni
Como wi = ni /n 
 N L
Ni Si
1
n

N i 1 ci
ni N i S i / c i
 L
N i Si
n

ci
i 1
Entonces
luego ni  n
N i S i / ci
L
Ni Si

i 1
ci
Este resultado nos indica que en un estrato dado se debe tomar una muestra grande si:



El estrato es grande (Ni  ).
El estrato es más variable internamente.
El muestreo es mas barato en el estrato.
1.1 TAMAÑO DE LA MUESTRA PARA LA ASIGNACIÓN OPTIMA.
El tamaño de muestra según asignación o afijación optima, a su vez depende de:
a) Si la muestra es escogida para satisfacer un costo total C especifico, o
b) Para dar una varianza de  y st  especifica.
a) En el primer caso, Si el costo es fijo, entonces, se minimiza V  y st  . Quiere decir que
en la función de costos sustituimos el valor de ni .
L
C  c 0   c i ni
i
L
C  c0  N i S i /
i 1
L
C  c0  N i S i /
i 1





N i S i / ci 

C  c 0   ci n l


i 1
  N i S i / ci 
 i 1

L

L
ci   ci n N i S i / ci
i 1

L
c i  n N i S i c i
i 1
40
L
C  c0  N i S i /
i 1
Despejando n se tiene: n 
 N S
L
i
i 1
i
ci
ci

b) Si la varianza se fija con anticipación, al sustituir wi = ni /n en la fórmula de la varianza
w2 s 2
w2 s 2
1
de la media V  y st   V   i i   i i
o en la fórmula de tamaño
N
wi
Ni
aproximado de la muestra, tenemos:
L
n
W
i 1
2
i
1
V
N
S i / wi
donde:
L
W S
V = e2/t2 es la varianza anticipada
i
i 1
Sustituyendo
wi  ni / n 
Wi S i / ci
 W S
L
i
i 1
n
W S
i
/ ci
W S
ci
i
i
i
N i S i / ci

  N S
i
L
i 1
i
i
/ ci

nos queda

ci
1 L
 Wi S i2
N i 1
para expresarla en términos de Ni, se sustituye Wi = Ni /N
V
1
2
n N
 N S
i
V
i
ci
1
N2
 N S
i
L
N S
i 1
i
2
i
i
/ ci
  N S

i
i
ci
 N S
i
i
/ ci

L
N 2V   N i S i2
i 1
1.2 TAMAÑO DE LA MUESTRA, CASO DE COSTOS IGUALES POR ESTRATO
(ASIGNACIÓN DE NEYMANN)
En algunos problemas el costo para obtener información en cada uno de loa estratos es el
mismo, así C1 = C2 = ......= CL = C. Si los costos son conocidos se puede suponer que los
costos son iguales.
41
nNi S i
Wi S i

este tipo de asignación se conoce como asignación de
n
 Ni Si
Wi S i
Neyman (asignación óptima supuesta).
ni 
En este caso n 
 W S 
i
n
V
1
N

Ni Si 
2
N 2V   N i S i
2
V
e2
t2
2
i
L
W
i 1
i
S i2
1.3 TAMAÑO DE MUESTRA PARA COSTOS IGUALES, VARIANZAS IGUALES,
ASIGNACIÓN PROPORCIONAL.
Este método de asignación de la muestra se denomina asignación proporcional porque los
tamaños de la muestra n1 ,n 2,......,nL, se distribuyen de acuerdo al peso del estrato en la
población, por tanto:
1
Yst   N i y i   Wi y i
N
Wi 
N i ni

N
n
Sea la definición de varianza:
 N  ni
V  y st   Wi V  y i   Wi  i
 Ni
2
2
 S i2

 ni
Al sustituir en términos de los pesos de los estratos poblacionales,
2
2
2  NWi  nWi S i
2  N  n  Si
 Wi
Wi 

NWi ni
 N  nWi
V  y st  
N  n 
Nn
Wi 2
S i2 N  n

Wi S i2

Wi
Nn
Para determinar el tamaño de muestra, hacemos
ni N i

 wi  Wi y luego al sustituir en
n
N
42




N i S i / ci 

ni  n L


  N i S i / ci 
 i 1

Se tiene ni  n
S1 = S2 = ....... = SL
Ni
 Ni
N
y el valor de
y c1 = c2 = .... = cL
N
i
Empleando la formula de tamaño aproximado para estimar la media:
n


2
N i S i / wi
L
N V   N i Si
2

2
i 1
2
L
N 2V   N i S i
N S

1
NV   N S
N
2
N i S i / Wi
i
2
i 1
i
L
i
i 1
2
i
si dividimos numerador y denominador por NV.
n

Ni Si
1
NV 
N

2
N S
i
i 1
haciendo n 0 
1
V

L
2
i
1
W S
i
2
NV

L
Ni Si
2
i
1
N
N S
i 1
queda
i
2
i
1
V
1
W S
1
NV
i
2
i
L
W S
i 1
i
2
i
NV
n
n0
n
1 0
N
Esta asignación puede utilizarse también cuando los costos y las varianzas no son iguales
(pero no son tomados en cuenta al momento de fijar los tamaños de la muestra), una ventaja
al usar esta descomposición es que yS  y .
Comparación de la precisión del muestreo aleatorio estratificado con relación al
muestreo irrestricto aleatorio.
Si se usa inteligentemente la estratificación, es decir, si es el modelo de muestreo
adecuado, entonces, da como resultado una varianza más pequeña para el estimador que la
obtenida mediante muestreo aleatorio simple. Sin embargo, no es verdad que el muestreo
estratificado dé siempre una varianza menor que en el muestreo aleatorio simple.
43
Para obtener la varianza S2 en el muestreo irrestricto aleatorio (m.i.a.), asumamos que
tenemos una población estratificada y por tanto, la variación total se divide en dos fuentes
de variación: entre y dentro de los estratos.
 Y
L
L
i 1 i 1
N  1S
L
2
ij
Ni
 Y    Yij  Yi    N i Yi  Y 
i 1 j 1
asumamos que YS  Y
2
  N i  1S i   N i Yi  Y 
L
2
i 1
S2 
2
i 1
L
2
L
2
i 1
2
2
 N i  1S i   N i Yi  Y 
L
L
i 1
i 1
N  1
Sabemos que en el muestreo aleatorio simple sin reposición la varianza de la media es:
2
S2
1  f   S  N  n 
Vram 
n
n  N 
Ahora, en el muestreo estratificado la varianza de la media es:
1 L
2  N  ni
ˆ
V  y st   2  N i  i
N  i 1
 Ni

2
 Sˆi

 ni




Si en esta definición realizamos las sustituciones de acuerdo al tipo de afijación de la
muestra, obtendremos la varianza de la media según ese tipo de asignación o afijación. Es
el caso de la afijación proporcional, al sustituir los pesos de los estratos, se obtiene la
varianza proporcional, así:
Wi 
N i ni
  wi
N
n
V prop  V Yst  
1
n
 f
 W S   1Nn
N S
2
i
i
i
2
i
La varianza de la media según la asignación óptima (Neymann) es:
Vopt  V Yst  
1
n
W S 
2
i
i

1
n
W S  
i
2
i
1
nN 2
W S 
2
i
i

1
N2
W S
i
2
i
44
Expresada en términos de los tamaño de los estratos, es:
1
 N i S i 2  12  N i S i2
Vopt  V Yst  
2 
nN
N
Teorema (Cochran): Vopt  V prop  Vran (tarea demostrar)
Se puede medir la eficiencia del diseño de muestreo estratificado utilizando el siguiente
cociente: Vprop / Vran = mide el efecto del diseño. También se puede calcular con relación
a la varianza óptima, es decir, Vop / Vran. Si el resultado es menor que 1 indica que es
eficiente, si es igual a 1 es preferible usar el muestreo aleatorio simple y si es mayor que 1
no es eficiente.
ESTIMACIÓN DE LA PROPORCIÓN p
Si queremos estimar la proporción de unidades de la población que posee una
característica, la estratificación ideal es dividir la población en dos estratos, uno el de todas
las unidades que poseen la característica y el otro, las que no lo poseen. Esto es en general
imposible por ello trataremos de construir estratos que la proporción varíe tanto como sea
posible de estrato a estrato. Sabemos que la proporción p̂ es un caso particular de y , para
una variable dicotómica.
pˆ S 
1
N1 pˆ i  N 2 pˆ 2  ...  N L pˆ L   1
N
N
1
Vˆ  pˆ S   2
N
L
1
2
N i Vˆ  pˆ i   2

N
i 1
L
N
i 1
2
i
L
N
i 1
 N i  ni

 Ni
i
pˆ i
 pˆ i qˆ i

 ni  1
TAMAÑO DE LA MUESTRA PARA LA PROPORCIÓN
Las fórmulas de calculo del tamaño de la muestra para la proporción son iguales a la de la
ˆ i qˆ i
media excepto en que Si2 = p
n

 e2
N 2  2
t
2
N i pˆ i qˆ i / wi
 L
   N i pˆ i qˆ i
 i 1
es el tamaño de muestra aproximado para estimar la proporción.
45
Asignación optima: que minimiza el costo para Vˆ pˆ S  dada o minimiza Vˆ pˆ S  para el
costo dado.
ni 
pˆ i qˆ i / ci
nNi
L
N
i 1
pˆ i qˆ i / ci
i
El tamaño de la muestra para satisfacer un costo total C es:
n
c  c0  N i
L
N
i 1
pˆ i qˆ i / ci
pˆ i qˆ i / ci
i
El tamaño de muestra óptimo que minimiza la varianza es:
1
2
n N
 N
pˆ i qˆ i ci
i
V
donde V 
1
N2
 N
L
N
i 1
i
i
  N

pˆ i qˆ i / ci
i
pˆ i qˆ i
pˆ i qˆ i ci
 N
i
pˆ i qˆ i / ci

L
N 2V   N i pˆ i qˆ i
i 1
2
e
es la varianza anticipada.
t2
Si los costos son iguales, el tamaño de muestra n óptimo (Neymann) es:
2
ni 
pˆ i qˆ i
nNi
L
N
i 1
i
en este caso
pˆ i qˆ i
 L

  N i pˆ i qˆ i 
 i 1

n
2
L
e 
N 2  2    N i pˆ i qˆ i
 t  i 1
Asignación proporcional: se presenta cuando existen costos iguales y también las
varianzas de los estratos son iguales.
L
N 
n i  n i 
 N 
y
n
N
i
pˆ i qˆ i
i
 e2
N 2  2
t
 1
 
 N
L
N
i 1
i
pˆ i qˆ i
46
TEMA 4.
MUESTREO POR CONGLOMERADOS
Se caracteriza porque las unidades de muestreo contienen a dos o más unidades primarias
(últimas). La población se subdivide en subpoblaciones y algunas de ellas, que
denominaremos conglomerados, pero no todas serán incluidas en la muestra.
El muestreo por conglomerados es similar al muestreo aleatorio simple, pero se diferencian
en que la unidad de muestreo es un conjunto de unidades primarias o elementales.
A diferencia con el muestreo estratificado, donde la población también se subdivide en
subpoblaciones, pero siempre todos los estratos están representados en la muestra.
Mientras que el muestreo estratificado es diseñado y utilizado fundamentalmente con el
objeto de reducir la varianza de los estimadores, el muestreo por conglomerados es
utilizado debido a que muestrear directamente sobre las unidades primarias, el costo es
exageradamente alto.
Este muestreo es, en muchos casos, un muestreo efectivo para obtener la información
deseada a un menor costo, aunque el uso de los conglomerados conlleve en algunos casos a
una varianza mayor de los estimadores.
Los casos en los cuales se justifica la aplicación de este diseño muestral son:
1)
2)
3)
4)
Donde existe un alto costo por la movilización o traslado entre las unidades
primarias; el muestreo por conglomerado permite disminuir las distancias; pues por lo
general, los conglomerados son áreas físicas o geográficas, donde las unidades
primarias están contiguas.
Cuando no existe lista de las unidades primarias (o últimas) sobre los cuales hay que
tomar las observaciones, y el costo de levantar un marco muestral de estas unidades
es alto, en comparación con el costo de muestrear sobre conglomerados, los cuales si
pueden disponer de un marco o directorio.
Para pequeñas unidades donde puede ser difícil fijar con precisión sus limites, sin
embargo, puede ser posible y fácil, dividir con población en unidades mayores y
luego muestrear y medir aquellas unidades mayores seleccionadas. Ejemplo:
animales.
También, pueden existir consideraciones administrativos que jueguen papel
importante en la colección del diseño a utilizar.
La diferencia de objetivos entre estratificación y conglomerados conduce a diferentes
criterios para establecer los conglomerados o los estratos. En contraste, con el estratificado,
la varianza del estimador se hace pequeña al hacer el conglomerado, tanto como sea
posible, representativo de la diversidad de toda población, y todas los conglomerados
deben ser en lo posible construidos de modo que sean lo más semejante entre sí. A
diferencia del muestreo estratificado, donde los estratos deben ser homogéneos dentro de sí
y heterogéneos entre sí.
47
¿CÓMO SELECCIONAR UNA MUESTRA POR CONGLOMERADOS?

Definir el conglomerado tipo (tamaño del conglomerado). El número de elementos que
integran un conglomerado se denomina tamaño. En la mayoría de los métodos por
conglomerados, los conglomerados son de tamaños diferentes unas de otras, los
conglomerados de igual tamaño, rara vez se logran en la practica, pero se constituyen
una introducción sencilla al estudio del método por muestreo, y pueden resultar en
situaciones practicas donde las condiciones fueran las indicadas, tales como: procesos
de producción (control de calidad).
El problema de elegir un tamaño de conglomerado (mi) apropiado puede ser un proceso un
tanto complicado. El tamaño óptimo de los conglomerados no es una característica que
depende exclusivamente de la población, sino también de la estructura de costos de la
investigación. El tamaño del conglomerado óptimo es aquel para el cual la varianza del
estimador es mínimo donde el costo de la investigación o el costo de la encuesta es mínimo
dada la varianza. Así, por ejemplo, el tamaño del conglomerado se hace más pequeño
cuando aumenta la duración de la entrevista, cuando el traslado entre las unidades primarias
es barato, cuando la densidad del conglomerado es mayor y cuando el presupuesto del gasto
aumenta.


Formar el marco muestral, listando los conglomerados en los cuales se ha particionando
la población. Resolviendo las imperfecciones que el marco pueda tener y garantizando
que todos las unidades primarias que están en los conglomerados esta en uno y solo uno
de los conglomerados.
Seleccionar los conglomerados que van en la muestra utilizando un muestreo irrestricto
aleatorio.
Si hacemos un muestreo o encuestamos todas las unidades de los conglomerados
seleccionados, el muestreo se denomina muestreo por conglomerados Monoetápico.
Si en vez de entrevistar u observar a todos los individuos o unidades primarias del
conglomerado observado en la muestra a su vez tomamos muestras de estas unidades
primarias de los conglomerados seleccionados, el muestreo se denomina Bietápico, pues la
muestra se selecciona en dos etapas.
Este proceso se puede generalizar a más de dos etapas y el muestreo se denomina
Polietápico.
Notación:
N= números de conglomerados en la población
n= números de conglomerados en la muestra
mi = números de unidades elementales (primarias) en el i-ésimo conglomerado
48
N
M=  mi Total de elementos en la población.
i 1
M
Tamaño promedio del conglomerado en la población
N
yi  total del conglomerado i-ésimo
M 
n
m
m
i
i
Tamaño promedio del conglomerado en la muestra.
n
ESTIMACIÓN DE LA MEDIA POBLACIONAL
N
Por definición la media poblacional es:  =
y
i 1
N
i
m
i
i
n
Luego, la estimación de la Media Poblacional es: ̂  y 
y
i 1
n
i
m
i 1
i
Este estimador de la media tiene la forma de un estimador de razón, por lo tanto, la
varianza de la media tiene la forma de la varianza del estimador de razón, así:
n
 y
 N n
Vˆ ( y )  

 NnM 
i
 ym i 
2
i
n 1
Si se desconoce el total de elementos en la población M, entonces, M puede ser estimado
n
con m 
m
i
i
n
El límite para el error de estimación es:
(y
N n 

e  B  t k Vˆ ( y )  t k 
2 
 NnM 
i
 ym i ) 2
n 1
49
Los límites de confianza son: y  e
En el muestreo por conglomerados Monoetápico distinguiremos dos casos:
1.
2.
Todos los conglomerados son de igual tamaño.
Todos los conglomerados son de tamaño diferentes
ESTIMACIÓN DEL TOTAL POBLACIONAL
El total poblacional  puede ser determinado por M porque M denota el total de
elementos en la población. Por lo tanto, así como en el muestreo aleatorio simple, el total
puede ser estimado por:
n
ˆ  My  M
y
i 1
n
i
m
i 1
i
La varianza estimada de ˆ  My :
n
 y
 N n
Vˆ My   M 2Vˆ  y   N 2 

 Nn 
i 1
i
 ymi 
2
n 1
El límite para el error de estimación es:
n
 y
 N n
e  B  t k Vˆ ( y )  t k N 2 

 Nn 
i
 ymi 
2
i
n 1
Observe que este estimador ˆ  My es útil solo cuando se conoce M el total de elementos
de la población.
Sin embargo, a menudo ese número de elementos de la población no se conoce, por tanto se
debe utilizar otro tipo de estimador, el cual no depende de M :
ˆ  Nyt 
N
n
n
y
i 1
i
donde:
N/n =factor de expansión
50
yt 
1 n
 yi es el promedio de totales de conglomerado para la muestra seleccionada.
n i 1
La varianza estimada de ˆ  Nyt :
n
 y
 N n
Vˆ Ny t   N 2Vˆ  y t   N 2 

 Nn 
i 1
i
 yt 
2
n 1
El límite para el error de estimación es:
n
 y
 N n
e  B  t k Vˆ ( Ny t )  t k N 2 

 Nn 
i
 yt 
2
i
n 1
Este estimador ˆ tiene a menudo el inconveniente de ser poco preciso, pues por lo general,
las medias de los conglomerados varían poco y los mi varían mucho. En este caso el total
del conglomerado yi = mi yi , también varia mucho de unidad a unidad y entonces V ˆ  es
muy grande, sin embargo, este estimador es a veces utilizado, pues tiene la ventaja de que
N
no es necesario conocer el tamaño de la población. M   mi
i 1
Los estimadores de  y  poseen propiedades especiales cuando todos los tamaños de los
conglomerados son de igual tamaño, es decir, m1  m2  ...  mN  m :
1.
El estimador y es un estimador insesgado de  .
n
2.
 N n 
La varianza estimada Vˆ  y   
2 
 NnM 
 y
i
 ymi 
i
3.
es un estimador insesgado de
n 1
N
 N n 
la varianza poblacional V  y   
2 
 NnM 
2
 y
i
 ymi 
2
i
n 1
Los estimadores del Total Poblacional ˆ  My y ˆ  Nyt son equivalentes.
51
SELECCIÓN DEL TAMAÑO DE MUESTRA
1.
Para estimar la Media Poblacional:
Por definición el error de estimación es:
 N n 2
e  B  tk V y  tk 
 c  t k V  y  , donde
 Nn 
 N n  2
V y  
 es la varianza poblacional
2  c
 NnM 
estimada.
 N n  2
y Vˆ  y   
S es la varianza
2  c
 NnM 
Al despejar de la formula del error de estimación el valor de n, se tiene que el tamaño de
muestra es:
N 2 c
n
, donde
ND   2 c
 e2  2
D   2  M es la varianza anticipada
t  
2.
Para estimar el Total Poblacional. En este caso tenemos dos tipos de estimadores:
a.
ˆ  My
n
N 2 c
, donde
ND   2 c
 e2 
D   2 2 
t kN 
b.
ˆ  Nyt
n
N t
2
ND   t
 e2
D   2 2
t kN
2
, donde



52
n
 t2 , esta varianza es estimada por S t2 
  yi  yt 
i 1
n 1
2
que es la cuasivarianza de
totales de conglomerados en la muestra.
ESTIMADOR DE LA PROPORCIÓN
La proporción es un parámetro muy frecuentemente estimado en las investigaciones por
muestreo.
La proporción no es mas que la media de una población dicotómica. El estimador usual en
la proporción es el número de éxitos en la muestra entre el total de la muestra.
n
Como estimador se utiliza
pˆ 
a
i 1
n
i
m
i 1
donde ai es el total de “éxitos” en el i-ésimo
i
conglomerado. Este estimador lo podemos considerar como un estimador de razón como el
de la media, visto anteriormente.
N
N n 2
 c , donde:  c2 
Y así, su varianza es V  pˆ  
2
NnM
 ai  pˆ m 
2
i
i
N 1
N n 2
Sc
Y el estimador de la varianza de la proporción es Vˆ  pˆ  
NnM 2
Donde:
n
S c2 
 a
i
2
 pˆ mi 
i
n 1
SELECCIÓN DEL TAMAÑO DE MUESTRA PARA ESTIMAR
LA PROPORCIÓN
Para obtener el tamaño de muestra para estimar la proporción se fija el error máximo
admisible e=B y el multiplicador de confianza t k .
Por definición este error es:
B  e  t Vˆ  pˆ 
k
53
Al elevarlo al cuadrado se tiene:
 e2  ˆ
 e2
2 ˆ
2
e  t k V  pˆ    2   V  pˆ    2
 tk 
 tk
 N n 2

 NnM  c

Al despejar se encuentra el tamaño de muestra:
N c2
N c2
n 2

e
ND   c2
2
2
N
M


c
t2
D= es la varianza anticipada
La varianza  c2 puede ser estimada por S c2 o proviene de:
(a)
(b)
(c)
Muestras pilotos.
Censos anteriores, y
De otras estimaciones.
54
BIBLIOGRAFÍA
Cochran, W. (1980) Muestreo. Trillas.
Lohr, Sharon. (2000) Muestreo: Diseño y Análisis. International Thomson Editores,
México.
Pérez, César. (2000) Muestreo con aplicaciones informáticas. Madrid.
Scheaffe, R., Mendenhall, W., y Ott, L. (1991) Elementos de Muestreo. Duxbury Press,
Boston.
55
Descargar