XXV Simposio Internacional de Estadística 2015 Armenia, Colombia, 5, 6, 7 y 8 de Agosto de 2015 Consideraciones para la Estimación del Tamaño de la Muestra en Encuestas Complejas Considerations in Size Sample Estimation for Complex Surveys Humberto Barrios1, a 1 Departamento de Matemáticas y Estadística, Facultad de Ciencias Básicas y Educación, Universidad Popular del Cesar, Valledupar, Colombia Resumen En la práctica en una encuesta por muestreo frecuentemente se usa una o varias combinaciones de lo siguiente métodos de muestreo: estraticado, por conglomerados en una o varias etapas y con probabilidades desiguales. Además, con una o varias variables auxiliares. Una encuesta con estas características se denomina compleja. En raras ocasiones se usa una muestra aleatoria simple en una sola etapa. Por otra parte, en algunas investigaciones se ve poca claridad sobre el tamaño de la muestra cuando está se realiza a través de una encuesta compleja. En consecuencias, el propósito de esta disertación es presentar una revisión y algunas consideraciones para la estimación del tamaño de la muestra en encuestas complejas. Finalmente, se presenta un ejemplo como ilustración. Palabras clave : Encuestas complejas, muestreo aleatorio simple, muestreo con probabilidades desiguales, muestreo por conglomerados, muestreo estraticado, tamaño de muestra, efecto del diseño. 1. Introducción En la determinación del tamaño de la muestra en una encuesta por muestreo estadístico es una cuestión de suma importancia y de cuidado. Un muestra muy grande implica despilfarro de recursos y una muy pequeña disminuye la utilidad (Cochran & Díaz 1971). Para estimar el tamaño de muestra es necesario considerar varios aspectos, tales como la varianza, el error tolerable con la que se desea obtener la estimación, la conanza requerida y la estrategia de muestro. Además, otras de tipo administrativo como son tiempo y dinero, entre otras. Sin embargo, la forma de abordar el problema del tamaño de la muestra en la mayorías de los casos presentan sólo una solución cuando el problema presenta varias aristas. Es así, como en ciencias sociales se a tomado la formula para estimar el tamaño de muestra el de una proporción con un muestreo aleatorio simple, siguiendo el reconocido texto (Sampieri et al. 1998), y muchas empresas encuestadoras. Además, en raras ocasiones se usa una muestra aleatoria simple en una sola etapa. En consecuencias, el propósito de esta disertación es presentar una revisión y algunas consideraciones para la estimación del tamaño de la muestra en encuestas complejas. 2. Diseño de Muestro y Estimadores Se puede (Särndal et al. 2003), describir una encuesta por muestreo como sigue: dada una población U que contiene N elementos o unidades distintas, identicables y etiquetadas como i = 1, 2, . . . , N . a Profesor asociado. E-mail: [email protected] 1 Humberto Barrios 2 La característica de interés yi , posiblemente un vector de valores, asociado con el elemento o unidad j la cual puede ser conocida mediante observación. El parámetro de interés es una función de las yi0 s, PN i = 1, 2, . . . , N . Por ejemplo, el total poblacional t = i=1 yi . Un muestra es un subconjunto s de U seleccionada Pde acuerdo a un plan de muestreo que asigna una probabilidad conocida p(s) a s tal que p(s) ≥ 0 y s∈S p(s) = 1, donde S es el conjunto de todas las muestras posibles seleccionadas de U . Las ventajas de tomar una muestras sobre una enumeración completa o censo es que se reducen costos, mayor rapidez, se incrementa el alcance y mejora la calidad del estudio. Las estimaciones de los parámetros de interés se basan en los y − valores de la muestra s, sin embargo, también se tienen estimaciones del error, puesto que sólo se toma una fracción de elementos o unidades de la población. En consecuencias, en un análisis estadístico de una cuesta por muestreo, se involucra cuatro etapas: 1. Escoger un diseño de muestreo (determinación de las probabilidades de cada muestra p(s)). 2. Seleccionar un estimador del parámetro de interés. 3. Determinación de un estimador del tamaño de la muestra. El tamaño de muestra puede ser aleatorio n(s) o jo n. 4. Construcción de estimador de la varianza e intervalo. La escogencia del estimador y del estimador de la varianza, y por lo tanto, del intervalo de conanza no son independientes, ya que estos dependen de las probabilidades de inclusión de primer orden y segundo orden, y estas a la vez dependen del diseño de muestreo. Por ejemplo, para el diseño de muestreo aleatorio simple sin reemplazo en una etapa, en el cual la probabilidad de seleccionar una muestra es: 1 p(s) = N n Se tiene que las probabilidades de inclusión de primer y segundo orden son: n ; para i = 1, 2, · · · , N N n(n − 1) ; para i 6= j = 1, 2, · · · , N πij = N (N − 1) πi = respectivamente. Si examinamos el π estimador para el total, bajo este diseño. El π estimador toma la forma n X yi t̂π = = N ȳs π i=1 i donde ȳs es la media muestral de y . La varianza de t̂π es n n 1 XX V̂ (t̂π ) = − 2 i=1 i6=j yi yj − πi πj 2 πij − πi πj = N2 πij 1 1 − n N Ss2 Pn 1 2 donde Ss2 = n−1 i=1 (yi − ȳs ) . Cuando el tamaño de muestra es sucientemente grande, se puede construir intervalo de conanza a un nivel de (1 − α) % para el total poblacional t t̂π − zα/2 q V̂ (t̂π ), t̂π + zα/2 q V̂ (t̂π ) XXV Simposio de Estadística (2015) Size sample for complex surveys 3 donde zα/2 es el cuantil de la variable aleatoria normal estándar. El tamaño de muestra, para el diseño de muestreo aleatorio simple, para estimar un promedio ȳU o un total poblacional t con una precisión ȳs − ȳU ȳU < c con un nivel de conanza (1 − α) %, donde c es una constante dada es: n> h 1+ zα/2 cvyU 2 c i 1 zα/2 cvyU 2 N c donde cvyU = SyU /ȳU el coeciente de variación de y en la población. 3. Efecto de Diseño y Tamaño de Muestra En la práctica, la mayoría de las encuestas a gran escala se requiere la combinación de uno o de varias de los diseños de muestreo conocidos: muestreo aleatorio simple, muestreo estraticado, muestro por conglomerados en una y varias etapas y muestro con probabilidades desiguales (Lohr & Velasco 2000), es lo que se conoce como muestras complejas. Raramente en la práctica, el muestreo aleatorio simple en una sola etapa es utilizado. Es así, por lo que muchos esquemas de encuestas por muestreo se lleva a cabo de la siguiente manera: un diseño de muestro estraticado multietapico. Es decir, la población en consideración se divide en H estratos con Nh conglomerados en cada estrato h. En cada estrato h se seleccionan nh conglomerados, de manera independiente en cada estrato. De estas muestras complejas surge el efecto de diseño, el cual se dene como el cociente entre la varianza de diseño más complejo con n elementos de observación entre la varianza obtenida con una muestra aleatoria simple del mismo tamaño con el estimador de Horvitz-Thompson t̂π (Kish & Ricardo 1982). El efecto de diseño da una medida de la ganancia si es menor que uno o perdida si es mayor que uno por el uso del diseño más complejo en vez de una muestra aleatoria simple sin reemplazo. Se dene el efecto de diseño (Särndal et al. 2003) def f (p, t̂π ) = Vp (t̂π ) Vs (N ȳs ) (1) donde Vp (t̂π ) es la varianza de t̂π en el diseño más complejo y Vs (N ȳs ) = N 2 ( n1 − N1 )SU2 es la varianza de t̂π en un muestreo aleatorio simple sin reemplazo de tamaño n. En el artículo de (Park & Lee 2006) se hace una revisión de efecto de diseño bajo varios diseños complejos. De la ecuación 1 se tiene (2) Vp (t̂π ) = def f (p, t̂π )Vs (N ȳs ) En consecuencias, si se conoce el efecto de diseño de cada estadística y con n sucientemente grande (Hájek 1960) se pueden construir intervalos de conanzas para el totales y promedios, y por consiguiente para proporciones, esto es, intervalos de conanza para el parámetro θ con una conanza 100(1 − α) %: q θ̂ ± Zα/2 def f (p, θ̂)Vs (N ȳs ) (3) donde θ̂ es una función del estimador del total de Horvitz-Thompson t̂π . Por otro lado, (Lohr & Velasco 2000) establece que para estimar el tamaño de muestra basta encontrar una ecuación que relacione el tamaño de muestra n y los valores esperados de la muestra. Por ejemplo, la XXV Simposio de Estadística (2015) Humberto Barrios 4 relación que hay entre la precisión y el tamaño de la muestra se da en la ecuación a partir de los intervalos de conanza 3. Para obtener una precisión absoluta c y encontrar un valor de n que satisfaga q c = Zα/2 def f (p, θ̂)Vs (N ȳs ) Por lo tanto, si se despeja n de la ecuación anterior se obtiene el tamaño de muestra para estimar un total poblacional con una conanza de 100(1 − α) % n= 2 Zα/2 SU2 N def f (p, t̂π ) (4) 2 S 2 def f (p, t̂ ) c2 N + Zα/2 π U En particular, si def f (p, t̂π ) = 1 se tiene la fórmula para la estimación del tamaño de muestra para estimar el total con una muestra aleatoria simple sin reemplazo. Ilustremos con el ejemplo de (Särndal et al. 2003) (4.3.2) donde V̂s (t̂π ) = 363899.6, V̂p (t̂π ) = 5172234, def f (p, t̂π ) = 14. Para una varianza poblacional de SU2 = 70, un error c = 10 y una conanza 95 % el tamaño de muestra para estimar un promedio o un total con un muestreo por conglomerados es necesario tomar n = 35 elementos, para alcanzar una precisión igual al de una muestra aleatoria simple. Referencias Cochran, W. G. & Díaz, E. C. (1971), , Continental. Técnicas de muestreo Hájek, J. (1960), `Limiting distributions in simple random sampling from a nite population', Publications of the Mathematics Institute of the Hungarian Academy of Science 5, 36174. Kish, L. & Ricardo, V. C. L. (1982), Muestreo de encuestas Lohr, S. L. & Velasco, O. A. P. (2000), , Trillas. Muestreo: diseño y análisis , International Thomson México. Park, I. & Lee, H. (2006), `Design eects for the weighted mean and total estimators under complex survey sampling', Quality control and applied statistics 51(4), 381384. Sampieri, R. H., Collado, C. F., Lucio, P. B. & Pérez, M. d. l. L. C. (1998), Metodología de la investigación, McGraw-Hill. Särndal, C.-E., Swensson, B. & Wretman, J. (2003), Business Media. Model assisted survey sampling , Springer Science & XXV Simposio de Estadística (2015)