Consideraciones para la Estimación del Tamaño de la Muestra en

Anuncio
XXV Simposio Internacional de Estadística 2015
Armenia, Colombia, 5, 6, 7 y 8 de Agosto de 2015
Consideraciones para la Estimación del Tamaño de la Muestra en
Encuestas Complejas
Considerations in Size Sample Estimation for Complex Surveys
Humberto Barrios1, a
1 Departamento de Matemáticas y Estadística, Facultad de Ciencias Básicas y Educación, Universidad
Popular del Cesar, Valledupar, Colombia
Resumen
En la práctica en una encuesta por muestreo frecuentemente se usa una o varias combinaciones
de lo siguiente métodos de muestreo: estraticado, por conglomerados en una o varias etapas y con
probabilidades desiguales. Además, con una o varias variables auxiliares. Una encuesta con estas características se denomina compleja. En raras ocasiones se usa una muestra aleatoria simple en una
sola etapa. Por otra parte, en algunas investigaciones se ve poca claridad sobre el tamaño de la muestra cuando está se realiza a través de una encuesta compleja. En consecuencias, el propósito de esta
disertación es presentar una revisión y algunas consideraciones para la estimación del tamaño de la
muestra en encuestas complejas. Finalmente, se presenta un ejemplo como ilustración.
Palabras clave : Encuestas complejas, muestreo aleatorio simple, muestreo con probabilidades desiguales, muestreo por conglomerados, muestreo estraticado, tamaño de muestra, efecto del diseño.
1. Introducción
En la determinación del tamaño de la muestra en una encuesta por muestreo estadístico es una
cuestión de suma importancia y de cuidado. Un muestra muy grande implica despilfarro de recursos y
una muy pequeña disminuye la utilidad (Cochran & Díaz 1971). Para estimar el tamaño de muestra es
necesario considerar varios aspectos, tales como la varianza, el error tolerable con la que se desea obtener
la estimación, la conanza requerida y la estrategia de muestro. Además, otras de tipo administrativo
como son tiempo y dinero, entre otras. Sin embargo, la forma de abordar el problema del tamaño de
la muestra en la mayorías de los casos presentan sólo una solución cuando el problema presenta varias
aristas. Es así, como en ciencias sociales se a tomado la formula para estimar el tamaño de muestra el de
una proporción con un muestreo aleatorio simple, siguiendo el reconocido texto (Sampieri et al. 1998), y
muchas empresas encuestadoras. Además, en raras ocasiones se usa una muestra aleatoria simple en una
sola etapa.
En consecuencias, el propósito de esta disertación es presentar una revisión y algunas consideraciones
para la estimación del tamaño de la muestra en encuestas complejas.
2. Diseño de Muestro y Estimadores
Se puede (Särndal et al. 2003), describir una encuesta por muestreo como sigue: dada una población
U que contiene N elementos o unidades distintas, identicables y etiquetadas como i = 1, 2, . . . , N .
a Profesor asociado. E-mail: [email protected]
1
Humberto Barrios
2
La característica de interés yi , posiblemente un vector de valores, asociado con el elemento o unidad
j la cual puede ser conocida mediante observación. El parámetro de interés es una función de las yi0 s,
PN
i = 1, 2, . . . , N . Por ejemplo, el total poblacional t = i=1 yi . Un muestra es un subconjunto s de U
seleccionada
Pde acuerdo a un plan de muestreo que asigna una probabilidad conocida p(s) a s tal que
p(s) ≥ 0 y s∈S p(s) = 1, donde S es el conjunto de todas las muestras posibles seleccionadas de U . Las
ventajas de tomar una muestras sobre una enumeración completa o censo es que se reducen costos, mayor
rapidez, se incrementa el alcance y mejora la calidad del estudio. Las estimaciones de los parámetros de
interés se basan en los y − valores de la muestra s, sin embargo, también se tienen estimaciones del error,
puesto que sólo se toma una fracción de elementos o unidades de la población. En consecuencias, en un
análisis estadístico de una cuesta por muestreo, se involucra cuatro etapas:
1. Escoger un diseño de muestreo (determinación de las probabilidades de cada muestra p(s)).
2. Seleccionar un estimador del parámetro de interés.
3. Determinación de un estimador del tamaño de la muestra. El tamaño de muestra puede ser aleatorio
n(s) o jo n.
4. Construcción de estimador de la varianza e intervalo.
La escogencia del estimador y del estimador de la varianza, y por lo tanto, del intervalo de conanza no
son independientes, ya que estos dependen de las probabilidades de inclusión de primer orden y segundo
orden, y estas a la vez dependen del diseño de muestreo.
Por ejemplo, para el diseño de muestreo aleatorio simple sin reemplazo en una etapa, en el cual la
probabilidad de seleccionar una muestra es:
1
p(s) = N
n
Se tiene que las probabilidades de inclusión de primer y segundo orden son:
n
; para i = 1, 2, · · · , N
N
n(n − 1)
; para i 6= j = 1, 2, · · · , N
πij =
N (N − 1)
πi =
respectivamente.
Si examinamos el π estimador para el total, bajo este diseño. El π estimador toma la forma
n
X
yi
t̂π =
= N ȳs
π
i=1 i
donde ȳs es la media muestral de y . La varianza de t̂π es
n
n
1 XX
V̂ (t̂π ) = −
2 i=1
i6=j
yi
yj
−
πi
πj
2
πij − πi πj
= N2
πij
1
1
−
n N
Ss2
Pn
1
2
donde Ss2 = n−1
i=1 (yi − ȳs ) . Cuando el tamaño de muestra es sucientemente grande, se puede
construir intervalo de conanza a un nivel de (1 − α) % para el total poblacional t
t̂π − zα/2
q
V̂ (t̂π ), t̂π + zα/2
q
V̂ (t̂π )
XXV Simposio de Estadística (2015)
Size sample for complex surveys
3
donde zα/2 es el cuantil de la variable aleatoria normal estándar.
El tamaño de muestra, para el diseño de muestreo aleatorio simple, para estimar un promedio ȳU o
un total poblacional t con una precisión
ȳs − ȳU ȳU < c
con un nivel de conanza (1 − α) %, donde c es una constante dada es:
n> h
1+
zα/2 cvyU 2
c
i
1 zα/2 cvyU 2
N
c
donde cvyU = SyU /ȳU el coeciente de variación de y en la población.
3. Efecto de Diseño y Tamaño de Muestra
En la práctica, la mayoría de las encuestas a gran escala se requiere la combinación de uno o de
varias de los diseños de muestreo conocidos: muestreo aleatorio simple, muestreo estraticado, muestro
por conglomerados en una y varias etapas y muestro con probabilidades desiguales (Lohr & Velasco 2000),
es lo que se conoce como muestras complejas. Raramente en la práctica, el muestreo aleatorio simple en
una sola etapa es utilizado. Es así, por lo que muchos esquemas de encuestas por muestreo se lleva a
cabo de la siguiente manera: un diseño de muestro estraticado multietapico. Es decir, la población en
consideración se divide en H estratos con Nh conglomerados en cada estrato h. En cada estrato h se
seleccionan nh conglomerados, de manera independiente en cada estrato.
De estas muestras complejas surge el efecto de diseño, el cual se dene como el cociente entre la varianza
de diseño más complejo con n elementos de observación entre la varianza obtenida con una muestra
aleatoria simple del mismo tamaño con el estimador de Horvitz-Thompson t̂π (Kish & Ricardo 1982). El
efecto de diseño da una medida de la ganancia si es menor que uno o perdida si es mayor que uno por el
uso del diseño más complejo en vez de una muestra aleatoria simple sin reemplazo. Se dene el efecto de
diseño (Särndal et al. 2003)
def f (p, t̂π ) =
Vp (t̂π )
Vs (N ȳs )
(1)
donde Vp (t̂π ) es la varianza de t̂π en el diseño más complejo y Vs (N ȳs ) = N 2 ( n1 − N1 )SU2 es la varianza
de t̂π en un muestreo aleatorio simple sin reemplazo de tamaño n. En el artículo de (Park & Lee 2006)
se hace una revisión de efecto de diseño bajo varios diseños complejos.
De la ecuación 1 se tiene
(2)
Vp (t̂π ) = def f (p, t̂π )Vs (N ȳs )
En consecuencias, si se conoce el efecto de diseño de cada estadística y con n sucientemente grande
(Hájek 1960) se pueden construir intervalos de conanzas para el totales y promedios, y por consiguiente
para proporciones, esto es, intervalos de conanza para el parámetro θ con una conanza 100(1 − α) %:
q
θ̂ ± Zα/2 def f (p, θ̂)Vs (N ȳs )
(3)
donde θ̂ es una función del estimador del total de Horvitz-Thompson t̂π .
Por otro lado, (Lohr & Velasco 2000) establece que para estimar el tamaño de muestra basta encontrar
una ecuación que relacione el tamaño de muestra n y los valores esperados de la muestra. Por ejemplo, la
XXV Simposio de Estadística (2015)
Humberto Barrios
4
relación que hay entre la precisión y el tamaño de la muestra se da en la ecuación a partir de los intervalos
de conanza 3. Para obtener una precisión absoluta c y encontrar un valor de n que satisfaga
q
c = Zα/2
def f (p, θ̂)Vs (N ȳs )
Por lo tanto, si se despeja n de la ecuación anterior se obtiene el tamaño de muestra para estimar un
total poblacional con una conanza de 100(1 − α) %
n=
2
Zα/2
SU2 N def f (p, t̂π )
(4)
2 S 2 def f (p, t̂ )
c2 N + Zα/2
π
U
En particular, si def f (p, t̂π ) = 1 se tiene la fórmula para la estimación del tamaño de muestra para
estimar el total con una muestra aleatoria simple sin reemplazo.
Ilustremos con el ejemplo de (Särndal et al. 2003) (4.3.2) donde V̂s (t̂π ) = 363899.6, V̂p (t̂π ) = 5172234,
def f (p, t̂π ) = 14. Para una varianza poblacional de SU2 = 70, un error c = 10 y una conanza 95 % el
tamaño de muestra para estimar un promedio o un total con un muestreo por conglomerados es necesario
tomar n = 35 elementos, para alcanzar una precisión igual al de una muestra aleatoria simple.
Referencias
Cochran, W. G. & Díaz, E. C. (1971),
, Continental.
Técnicas de muestreo
Hájek, J. (1960), `Limiting distributions in simple random sampling from a nite population', Publications
of the Mathematics Institute of the Hungarian Academy of Science 5, 36174.
Kish, L. & Ricardo, V. C. L. (1982),
Muestreo de encuestas
Lohr, S. L. & Velasco, O. A. P. (2000),
, Trillas.
Muestreo: diseño y análisis
, International Thomson México.
Park, I. & Lee, H. (2006), `Design eects for the weighted mean and total estimators under complex
survey sampling', Quality control and applied statistics 51(4), 381384.
Sampieri, R. H., Collado, C. F., Lucio, P. B. & Pérez, M. d. l. L. C. (1998), Metodología de la investigación,
McGraw-Hill.
Särndal, C.-E., Swensson, B. & Wretman, J. (2003),
Business Media.
Model assisted survey sampling
, Springer Science &
XXV Simposio de Estadística (2015)
Descargar