1.1 MUESTREO PROBABILISTICO. DEFINICIONES

Anuncio
TÉCNICAS DE MUESTREO
TÉCNICAS DE MUESTREO
I.
CONCEPTOS GENERALES DE MUESTREO
El objetivo de la teoría de muestras es proporcionar una serie de técnicas que permitan
conocer características o valores referidas al total de unidades de un conjunto,
estudiando sólo una parte de las unidades del conjunto.
Población o Universo es el conjunto total de unidades de las que se desea información o
conjunto total de unidades objeto de estudio:
P = {u1 ,u2 ,...,u N }
Muestra es una parte de la población sobre la que se mide la información:
{
S j = u j1 ,u j2 ,...,u jn
}
Tamaño de la población es el número de unidades N que forman la población. Tamaño
de la muestra es el número de unidades n seleccionadas para la muestra.
El término muestreo se refiere al conjunto de técnicas utilizadas para seleccionar una
muestra de una población. Representamos por Yi el valor numérico de una característica
o variable en la unidad ui. Esta variable y se denomina variable de estudio.
Valor poblacional es una expresión θ = ϑ ( y) que sintetiza los valores de la variable en
estudio en las N unidades de la población completa:
N
Total Y = ∑ Yi
Media Y =
i =1
Y
N
Valor muestral es una estimación θ! ( s ) del valor poblacional θ que se calcula a partir de
las n unidades de la muestra.
El valor poblacional es una constante, en general desconocida, que depende sólo de los
N valores Yi. La estimación es un valor calculado y único en cada muestra particular,
pero el valor varía de muestra a muestra.
2
TÉCNICAS DE MUESTREO
Si dado un procedimiento de muestreo podemos definir el conjunto de muestras posibles
o espacio muestral y la selección de la muestra se hace de acuerdo a una función de
probabilidad P definida sobre el espacio muestral, diremos que el muestreo es
probabilístico. Es decir, para cada muestra posible, Sj, está definida una probabilidad
P(Sj) > 0 con
∑ P( S
j
) = 1, y la selección de la muestra respeta esta probabilidad.
j
En el muestreo probabilístico la estimación ϑ! se convierte para una muestra particular
en el valor observado de una variable aleatoria θ! ( S j ) que se llama estimador cuya
función de probabilidad corresponde a la definida en el espacio muestral, es decir
[
]
P ϑ! ( S j ) = P( S j )
Esta función de probabilidad del estimador sobre el espacio muestral se denomina
distribución de muestreo del estimador y corresponde, por tanto, al conjunto de
estimaciones de todas las muestras posibles con su probabilidad de materializarse.
En la práctica podemos asignar probabilidades de selección a las N unidades de la
población. En tal caso la probabilidad de selección de una muestra será:
P( S j ) = P( u j1 ) ⋅ P( u j2 u j1 ) ⋅⋅⋅⋅ P( u jn u j1 , u j2 ,..., u jn −1 )
De esta forma en el muestreo probabilístico, cada unidad de la población tiene una
probabilidad conocida y no nula de ser seleccionada.
El muestreo probabilístico es sin reposición o sin reemplazamiento si toda muestra Sj
está formada por n unidades distintas, es decir, las muestras con alguna unidad repetida
tienen probabilidad cero de ser seleccionadas. En caso contrario, si en la muestra puede
haber unidades repetidas, se dice que el muestreo es con reposición o con
reemplazamiento.
La selección con reposición responde al hecho físico de hacer n selecciones sucesivas de
elementos, restituyendo a la población cada unidad elegida antes de proceder a la
siguiente selección.En la selección sin reposición cada unidad elegida no se restituye a
la población y, por tanto, una misma unidad sólo puede estar presente en la misma
muestra una sola vez. En lo que sigue nos referiremos siempre al muestreo sin
reemplazamiento.
3
TÉCNICAS DE MUESTREO
Suele hablarse de muestra aleatoria cuando todas las unidades de la población tienen la
misma probabilidad de ser seleccionadas. En éste caso todas las posibles muestras son
también equiprobables.
Trataremos de aclarar algunos de los conceptos anteriores con un ejemplo. Sea una
población de N=6 elementos en los que la variable y , objeto de estudio, toma los
valores Yi = {8,3111
, , ,4 ,7} .La media poblacional es Y =
8 + 3 + 1 + 11 + 4 + 7
= 5,7 . En
6
una muestra aleatoria, la media muestral es un estimador de la media poblacional, así, si
nuestra muestra, de tamaño 3, estuviera formada por los valores (3,11,4) la media
muestral sería y = 6,0 . Seleccionemos todas las muestras posibles de tamaño 3
calculando para cada una la media muestral. Los resultados se muestran en el siguiente
gráfico:
media muestral vs media poblacional
9,0
8,7
8,0
7,7
7,3
7,3
7,0
7,0
6,7
6,3
6,3
6,0
6,0
media
6,0
muestra
poblac.
5,3
5,3
5,0
5,0
5,0
4,7
4,3
4,0
4,0
4,0
3,7
3,0
2,7
(11,4,7)
(1,4,7)
(1,11,7)
(1,11,4)
(3,4,7)
(3,11,7)
(3,11,4)
(3,1,7)
(3,1,4)
(3,1,11)
(8,4,7)
(8,11,7)
(8,11,4)
(8,1,7)
(8,1,4)
(8,1,11)
(8,3,7)
(8,3,4)
(8,3,11)
(8,3,1)
2,0
muestra
Sobre el eje de abscisas se señalan los componentes de cada una de las posibles 20
muestras aleatorias de tamaño 3, todas equiprobables, es decir la probabilidad de tomar
una muestra cualquiera es 1/20. En el eje de ordenadas se señala para cada una de las
muestras la media muestral correspondiente. También se indica la media poblacional
que es constante e igual a 5,7, de acuerdo al cálculo anterior.
4
TÉCNICAS DE MUESTREO
El gráfico refleja cómo el valor poblacional (la media) es una constante pero su
estimador (la media muestral) presenta valores diferentes según las unidades que
componen la muestra, es decir, el valor del estimador, estimación, varía de muestra a
muestra. Puede observarse también como las distintas estimaciones se sitúan alrededor
del verdadero valor que se quiere estimar.
Puesto que cada muestra en el ejemplo tiene una probabilidad de 1/20 de ser
seleccionada, cada uno de los 20 valores muestrales tiene también una probabilidad de
1/20 de ser obtenido, es decir, denotando por y la media muestral (el estimador) resulta
P( y = 2 ,7) = P( y = 3,7) =" P( y = 8,7) = 1 20 . Este conjunto de posibles valores del
estimador junto con la probabilidad de obtener cada valor constituye la distribución en
el muestreo del estimador. En base a esta distribución puede calcularse la probabilidad
de que el estimador tome valores en un cierto intervalo; así, el intervalo (4,5; 6,5)
comprende 9 de las 20 muestras. Es decir, la probabilidad de que la media muestral
tome valores comprendidos entre 4,5 y 6,5 es de 9/20.
Siendo el estimador una variable aleatoria pueden estudiarse distintas características del
mismo, como son su media o esperanza matemática, la varianza y su raiz cuadrada o
desviación típica, y el coeficiente de variación, esto es, el cociente entre la desviación
típica del estimador y su esperanza matemática. En particular, la desviación típica del
estimador se llama error de muestreo o error estándar.
Sobre el ejemplo anterior fácilmente podemos comprobar que el promedio de las 20
estimaciones es 5,7 que coincide con la media poblacional. Esto no es casualidad, es
debido a que en el muestreo aleatorio de unidades elementales la media muestral es un
estimador insesgado de la media poblacional, es decir, la esperanza matemática del
estimador coincide con el verdadero valor que se quiere estimar: E ( y ) = Y . En caso
contrario el estimador se dice sesgado y a la diferencia entre la esperanza matemática o
valor medio del estimador y el valor a estimar se le llama sesgo. En ocasiones puede ser
preferible la utilización de un estimador sesgado si ello implica una sensible reducción
del error de muestreo y el tamaño del sesgo es pequeño respecto al error estándar. En
5
TÉCNICAS DE MUESTREO
caso de estimadores sesgados es deseable la propiedad de consistencia que se cumple
cuando el sesgo tiende a cero al aumentar el tamaño de la muestra.
Calculemos a continuación la desviación típica del estimador en nuestro ejemplo.
Recordemos que dado un conjunto de valores x1 , x2 ," , x n , la desviación típica se
define como la raiz cuadrada de la varianza, es decir
n
σ=
donde x =
∑ xi
n
∑ ( xi − x )
2
1
n
es el valor medio. En nuestro caso xi son las 20 estimaciones del
gráfico y x es su valor medio por lo que
σ=
(2 ,7 − 5,7)2 + (3,7 − 5,7)2 +"+(8,7 − 5,7)2
20
,
= 15
Así pues, el error de muestreo en el ejemplo es 1,5 y nos da una medida de la
variabilidad de las estimaciones individuales alrededor de su media. La desviación típica
se expresa en la misma unidad de medida que la variable en estudio, por lo que,
dividiendo por la media se obtiene el coeficiente de variación, que es una medida
relativa de la variabilidad, sin unidad de medida. En nuestro caso el coeficiente de
variación de las estimaciones sería
CV =
15
,
= 0,264 → 26,4%
5,7
El coeficiente de variación del estimador se denomina error de muestreo relativo.
Veremos posteriormente que no es necesario tomar todas las posibles muestras para
calcular el error de muestreo, lo cuál en la práctica sería irrealizable.
II.
POBLACIÓN,
MARCO
Y
MUESTREO
6
MUESTRA.
UNIDADES
DE
TÉCNICAS DE MUESTREO
Conviene distinguir entre unidad elemental y unidad de muestreo. La unidad elemental
o unidad de estudio es todo elemento o individuo miembro de la población objetivo. Las
variables objeto de estudio en una investigación por muestreo se miden sobre las
unidades elementales.
Las unidades de muestreo son aquellas que forman parte del proceso de selección de la
muestra. La unidad de muestreo puede coincidir con la unidad elemental, en cuyo caso
hablamos de muestreo de unidades elementales, o puede referirse a un conjunto de
unidades elementales, que se denominan conglomerados. Así, para seleccionar una
muestra de la población española para estudiar cualquier característica, por ejemplo la
talla, podemos seleccionar la muestra a partir de una lista de todos los individuos. Aquí
la unidad de muestreo es la persona física y coincide con la unidad elemental. Pero si no
disponemos de la lista de individuos sino sólo de una lista de viviendas, podemos
seleccionar una muestra de viviendas y recoger información de todos los individuos que
habitan en las viviendas seleccionadas. En este caso la unidad elemental sigue siendo el
individuo pero la unidad de muestreo es la vivienda, formada por un conjunto de
unidades elementales.
El concepto de población establecido anteriormente como conjunto total de unidades de
las que se desea información, se refiere a la población objetivo y constituye un modelo
ideal. En la práctica, la muestra se selecciona a partir de un material soporte,
denominado marco, que coincide en mayor o menor grado con la población objetivo. En
sentido estricto, el marco de muestreo se define como la lista de unidades de muestreo a
partir de la cual se selecciona la muestra. Es decir que el marco equivale a la población
que va a ser muestreada y por tanto el marco o “población marco” será tanto mejor
cuanto mas equivalga a la población objeto de estudio. Como idea intuitiva, un marco
sería aceptable cuando obteniendo a partir de él información exhaustiva (del 100% de
las unidades del marco), ésta cubriese aceptablemente los objetivos propuestos.
En sentido amplio, el marco de muestreo comprende no solo listas de unidades de
muestreo, sino que incluye todo el material e información previa que disponemos sobre
la población y su agrupación en unidades de muestreo, y que es útil para la
estratificación y formación de estimadores.
7
TÉCNICAS DE MUESTREO
Dada la importancia del marco en una investigación por muestreo, hay que pretender
trabajar con marcos perfectos, es decir marcos en los que todas las unidades de la
población objetivo estén incluidas una sola vez y sólo incluya unidades de la población.
El muestreo de unidades elementales aunque tiene gran interés teórico, no es muy
utilizado en la práctica por dos graves inconvenientes:
a) Imposibilidad práctica en muchas ocasiones de obtener una lista de unidades
elementales en la cuál basar la selección de la muestra.
b) La selección de unidades elementales proporciona en general una muestra muy
esparcida de unidades a entrevistar con el consiguiente incremento de coste y tiempo.
Para evitar estos inconvenientes surge, de forma natural, el muestreo de conglomerados,
agrupando las unidades elementales próximas en un conglomerado que se constituye en
la nueva unidad de muestreo, más grande que la unidad elemental. Los conglomerados
deben estar perfectamente definidos, lo cuál significa que no haya solapamiento entre
ellos (una unidad elemental pertenece sólo a un conglomerado) y que el conjunto de
todos los conglomerados contiene a la población objeto de estudio.
La agrupación de unidades elementales en unidades de muestreo mas amplias tiene
ventajas e inconvenientes. Entre las ventajas podemos citar el ahorro de coste y tiempo,
y la mayor facilidad de preparar listas (sólo se necesitan para los conglomerados de la
muestra). De los inconvenientes hay que destacar la menor precisión derivada de una
mayor homogeneidad de las unidades elementales dentro de un conglomerado respecto a
la característica de estudio.
Si en el proceso de muestreo investigamos todas las unidades elementales contenidas en
los conglomerados seleccionados en la muestra, el muestreo se denomina en una etapa o
monoetápico. Ahora bien, para evitar el inconveniente apuntado (homogeneidad dentro
del conglomerado) podemos investigar no todas las unidades elementales del
conglomerado, sino seleccionar a su vez una muestra probabilística de las mismas.
Estaríamos así ante un muestreo en dos etapas: las unidades de primera etapa o
8
TÉCNICAS DE MUESTREO
unidades primarias de muestreo serían los conglomerados y las unidades de segunda
etapa serían las unidades elementales.
Este proceso puede generalizarse llevándonos así al muestreo multietápico o
polietápico. Obsérvese que en muestreo por etapas se definen distintas unidades de
muestreo y que la “lista” de unidades de muestreo en una etapa dada, sólo es necesario
disponerla para las unidades seleccionadas en la etapa inmediatamente anterior. Se
constituye así una jerarquía entre las distintas unidades de muestreo de acuerdo a las
etapas del proceso.
Para precisar mejor las ideas anteriores, consideremos la selección de una muestra de
individuos de la población española. En un muestreo de unidades elementales
necesitamos disponer de una lista de todas las personas. Podemos optar por un muestreo
de conglomerados y tomar como unidad de 1ª etapa la sección censal, con lo cual solo
necesitamos la lista de secciones. Podemos tomar como unidad de 2ª etapa las
manzanas, para lo cual necesitamos una lista de manzanas de las secciones previamente
seleccionadas. Finalmente en una 3ª etapa podemos tomar como unidad de muestreo la
vivienda, necesitando una lista de viviendas de las manzanas seleccionadas en la 2ª
etapa.
III.
MUESTREO PROBABILÍSTICO Y OTROS TIPOS DE
MUESTREO
Al estudiar una población la primera posibilidad es obtener la información necesaria de
todas y cada una de las unidades que forman la población. Estaríamos así ante un
estudio censal o censo. El censo se caracteriza por obtener información de toda la
población, mientras que en el muestreo se estudia una parte de la población.
En general hay tres principales ventajas en el muestreo respecto a la investigación total
de la población o censo:
1) Menor coste, derivado de obtener información solo de una parte de la población.
2) Mayor rapidez, por el mismo motivo anterior.
9
TÉCNICAS DE MUESTREO
3) Mayor calidad. Al reducirse el volumen de trabajo se puede emplear personal
especialista mejor preparado y entrenado. Igualmente los procesos de supervisión y
proceso de datos están mejor controlados, lo que redunda en una mejor calidad de
trabajo y una disminución de errores (no de muestreo) respecto al censo total.
Ya hemos indicado que el muestreo probabilístico se caracteriza porque cada unidad de
la población tiene una probabilidad no nula y conocida de ser seleccionada en la
muestra. El conocimiento de esta probabilidad permite calcular errores de muestreo, y
los sesgos de selección, no respuesta y estimación pueden ser virtualmente eliminados o
contenidos dentro de límites conocidos.
Un muestreo probabilístico se lleva a cabo con un plan estadístico de selección
totalmente rígido y fijado de antemano de acuerdo a esas probabilidades y donde ni los
entrevistadores ni otras personas que intervengan en el muestreo toman decisión alguna
sobre qué unidad elegir para la muestra. También hay que notar que los procedimientos
para formar estimadores están fijados de antemano como parte del diseño muestral y no
dependen de la muestra particular que se ha seleccionado.
En las muestras que denominamos intencionales o de juicio (judgment samples según
Deming), el procedimiento de selección no es probabilístico y, en consecuencia, los
errores de muestreo y posibles sesgos no pueden ser calculados, sino que son
determinados por el buen juicio y experiencia del investigador que diseña y calcula los
resultados muestrales.
En una muestra intencional las unidades muestrales se seleccionan de forma que a juicio
del diseñador las unidades sean “típicas” o “representativas” respecto a la información
que se desea obtener. Un ejemplo típico de muestreo intencional es el muestreo por
cuotas, donde se fija de antemano, de acuerdo a características poblacionales conocidas,
los porcentajes o cuotas de las unidades muestrales que deben reunir esas características.
El entrevistador deberá seleccionar las unidades de la muestra de forma que el conjunto
de unidades seleccionadas verifiquen las cuotas que se le han fijado.
10
TÉCNICAS DE MUESTREO
En una muestra por cuotas los porcentajes muestrales de las características
poblacionales fijadas como cuotas pueden corresponder exactamente a las proporciones
poblacionales, lo que lleva a decir que la muestra es perfectamente representativa
transversalmente. Sin embargo, ello no evita el riesgo de sesgos en la representación de
las características que se van a medir en la muestra, no coincidentes con las establecidas
como cuotas. Únicamente una muestra probabilística evita estos riesgos.
Si la experiencia y el conocimiento de la población a muestrear es importante en un
muestreo intencional, no lo es menos en muestreo probabilístico. Este conocimiento de
la población, particularmente en aspectos relacionados con variables objeto de estudio
deben ser utilizados de la mejor manera posible en el diseño de muestras probabilísticas.
Por ejemplo, nos puede ayudar a definir el tamaño y el tipo de las unidades de muestreo
en distintas etapas, en la formación de estratos y en el uso de variables auxiliares
conocidas en la población que ayuden a mejorar las estimaciones, en el establecimiento
de las propias probabilidades de selección de las unidades muestrales, etc. No hay límite
a la cantidad de información que puede utilizarse en un proceso probabilístico de
muestreo. El único límite que existe es que la selección sea matemática, respetando las
probabilidades asignadas.
IV.
LA HIPÓTESIS DE NORMALIDAD
Admitiremos que una población finita sigue una distribución normal si su distribución
de frecuencias se ajusta a las correspondientes frecuencias teóricas de la distribución
normal.
Si el estimador está formado por una combinación lineal de variables cuya población
base es normal, sabemos que el estimador tiene una distribución normal en el muestreo.
Si la población base no es normal, está demostrado que en condiciones muy generales,
un estimador lineal sigue una distribución convergente a la normal a medida que
aumenta el tamaño de la muestra. El error de muestreo, que indica en que forma las
estimaciones procedentes de muestras de igual tamaño y diseño se distribuyen alrededor
del verdadero valor poblacional (estimador insesgado), en el supuesto de que tuviéramos
11
TÉCNICAS DE MUESTREO
miles de tales muestras, corresponde a la desviación típica de la distribución normal del
estimador.
ϑ
ϑ!
Es importante recalcar que el error estándar no nos dice nada acerca del tamaño o
dirección de la diferencia entre nuestras estimaciones y el valor verdadero. Cuando
estamos ante una muestra en particular, no sabemos en que parte de la distribución de
frecuencias de las estimaciones nos encontramos (no sabemos si estamos cerca o lejos
del verdadero valor, que por otra parte no conocemos). Sin embargo las propiedades de
la distribución normal, nos permiten la construcción de intervalos de la forma
(ϑ! − E, ϑ! + E) dentro del cual y con un determinado nivel de confianza (probabilidad),
se encuentra el verdadero valor. E se calcula a partir del error estándar en la forma
E = k ⋅ (e. e.) . El multiplicador k del error estándar nos proporciona el nivel de confianza
que deseemos y se puede obtener a partir de unas tablas de la normal. Hay que indicar
que el e.e. está definido por el tamaño y el diseño de la encuesta. Conocido su valor, el
usuario de los datos de una encuesta puede manejarlos con el nivel de confianza que
desee. Algunos valores típicos de k y su confianza asociada son:
k
nivel de confianza
0.6745
50%
1
68.26%
1.6
89.04%
2
95.44%
3
99.73%
12
TÉCNICAS DE MUESTREO
En la práctica, es habitual encontrarse con poblaciones normales o muy simétricas en su
distribución de frecuencias, por lo que la hipótesis de normalidad de los estimadores es
razonable incluso para tamaños de muestra moderados. Pero también es muy frecuente
encontrarse con poblaciones muy asimétricas, con una gran concentración de
frecuencias en valores moderados de la variable y una marcada cola a la derecha
correspondiente a frecuencias bajas de valores muy altos de la variable. En estos casos
debe tenerse en cuenta que cuanto mayor sea la asimetría de la población, mayor es el
tamaño de la muestra requerido para admitir la distribución normal del estimador. Si el
tamaño de la muestra no es suficiente, la distribución del estimador muestra cierta
asimetría por la derecha, tanto mayor cuanto menor es el tamaño de la muestra:
ϑ!
Los tamaños muestrales que se utilizan en la práctica suelen ser lo suficientemente
grandes para admitir la hipótesis de normalidad sin mayores problemas. Además, la
práctica, muy frecuente en muestreo, de incluir con certeza en la muestra las unidades
muy grandes contribuye a facilitar la validez de la aproximación normal, ya que la
eliminación de las unidades extremas de la población a muestrear, además de reducir la
variabilidad de la muestra y aumentar la precisión de los estimadores, reduce la
asimetría y mejora la aproximación normal.
Como ejemplo de la aproximación normal a la distribución del estimador vamos a
considerar una población de N=2959 supermercados de 400 m2 y más de superficie de
venta que presentan la distribución por superficie que refleja el gráfico:
DISTRIBUCIÓN DE SUPERMERCADOS POR SUPERFICIE
DE VENTA (%)
13
TÉCNICAS DE MUESTREO
37,7
22,7
12,2
13,6
7,2
2,4
400599
600799
800999
2,5
1,7
1000- 1500- 2500- 5000- 10000
1499 2499 4999 9999 y m as
Superficie
La superficie media poblacional es de Y = 1165m 2 , con una desviación típica de
1793m2. De este Universo de supermercados se han seleccionado 100 muestras
aleatorias de tamaño n=100, calculándose la superficie media de cada muestra. El
siguiente gráfico muestra la distribución de medias muestrales obtenida:
DISTRIBUCIÓN DE MEDIAS MUESTRALES DE 100 MUESTRAS
ALEATORIAS (n=100)
14
TÉCNICAS DE MUESTREO
33
32
28
19
frec. obs.
frec. teor.
27
19
11
12
7
5
4
< 900
3
1050-1200
1350-1500
superficie m edia estim ada
Junto a la distribución observada de medias muestrales aparece la distribución teórica
que se obtendría de acuerdo a la hipótesis de distribución normal del estimador. Puede
observarse como la distribución de medias muestrales está muy próxima a la
distribución normal teórica, a pesar del alto grado de asimetría de la distribución
original de superficies de venta.
V.
PRINCIPALES FASES DEL DISEÑO DE UNA ENCUESTA
POR MUESTREO
1. Establecer los objetivos. Es clave establecer unos objetivos claros y precisos de la
encuesta. Esta fase puede incluir una revisión de la información existente en relación
con los objetivos perseguidos y un análisis de la utilidad final de la encuesta, con el fin
de revelar que la información a recoger sea realmente necesaria.
2. Definir la población a ser muestreada. Las definiciones deben ser claras de forma
que los inspectores de Campo no tengan dificultad para decidir si una unidad pertenece
o no a la población. La definición de la población incluye el marco de muestreo y la
división del mismo en unidades de muestreo.
3. Cuestionario. Se incluye aquí la lista de datos que deben ser recogidos, la forma de
medición y la estructura y organización de todo ello en un cuestionario. Establecer un
15
TÉCNICAS DE MUESTREO
primer plan de tabulación puede ser de ayuda también en el diseño del cuestionario,
sobre todo para eliminar preguntas que no se van a utilizar. Debe tenerse presente que el
cuestionario puede ser fuente de errores y sesgos y causa de falta de cooperación de los
entrevistados. Un cuestionario demasiado largo puede bajar la calidad de las respuestas,
tanto a las preguntas importantes como a las de poca importancia.
Entre los aspectos a tener en cuenta al preparar el cuestionario citaremos:
-Forma de presentar las preguntas.
-Redacción correcta de las mismas.
-Orden de las preguntas.
-Evitar preguntas tendenciosas.
4. Nivel de precisión - coste y selección de la muestra. Será útil disponer de diseños
muestrales alternativos que muestren los costes aproximados para distintos grados de
precisión, que ayuden a tomar la decisión sobre el grado de precisión y tamaños
muestrales. Debe tenerse presente que el coste de una encuesta por muestreo está muy
relacionado con el tamaño de muestra.
5. Elaboración de instrucciones de campo y planes de supervisión. Deben ser claras e
inteligibles por la gente que va a trabajar. Los objetivos de la encuesta ayudarán a
entender mejor las instrucciones. Debe incluirse el calendario de realización de la
encuesta y planes de envío a la central.
6. Encuesta piloto o prueba. Sirve para testar sobre el terreno el cuestionario y los
métodos de campo a pequeña escala. Puede resultar en mejoras del cuestionario y
soluciones de otros problemas, que descubiertos a mayor escala, podrían incluso
invalidar la encuesta.
7. Preparación de planes de inspección de resultados, análisis de datos y tabulación.
Inspección de datos, depuración de errores. Primeros resultados para datos importantes
basados en una submuestra. Planes para manejar la no respuesta. Los métodos de
control de calidad utilizados en la industria pueden aplicarse en la encuesta para
determinar la calidad del trabajo de campo y de otras operaciones realizadas en la
oficina.
16
TÉCNICAS DE MUESTREO
8. Interpretación y publicación de resultados finales. Es una buena práctica la de
informar de los errores de muestreo esperados para las estimaciones mas importantes.
VI.
MUESTREO
DE
UNIDADES
ELEMENTALES
CON
PROBABILIDADES IGUALES
También llamado muestreo aleatorio simple, corresponde al caso de seleccionar las
unidades elementales o de estudio con igual probabilidad. La probabilidad de que la
unidad ui esté en la muestra es n/N y el número de muestras posibles corresponde a las
combinaciones de N elementos tomados de n en n, siendo todas las muestras
equiprobables. Antes de entrar en el estudio de estimadores y errores de muestreo vamos
a recordar el concepto de varianza, ya apuntado anterormente.
Sea una población P = {u1 ,u2 ,...,u N } y sean {Y1 , Y2 ,..., YN } los valores de la variable en
estudio. La media y el total poblacional vienen dados por :
N
Y =
∑Y
i
N
Y = ∑ Yi
1
N
1
El promedio de los cuadrados de las desviaciones de cada valor individual a la media es
la varianza:
N
σ2 =
N
∑ (Y − Y )
∑ (Y − Y )
2
i
1
N
2
i
Su raiz cuadrada, σ =
1
N
, se denomina desviación típica o estándar y es
una medida de la dispersión o variabilidad de los valores individuales alrededor de su
media: cuanto mayor es la desviación típica mayor variabilidad, es decir, menos
concentrados estan los valores alrededor de la media. En cualquier distribución, al
menos el 75% de los valores, se encuentran comprendidos entre la media y ± dos veces
la desviación típica.
17
TÉCNICAS DE MUESTREO
Tanto la media como la desviación estándar se expresan en la misma unidad de medida
que la variable en estudio, es decir, si estamos considerando ventas de empresas,
tendremos una venta media por empresa expresada en pesetas y su correspondiente
desviación típica expresada también en pesetas. En la práctica es frecuente utilizar como
medida de dispersión el coeficiente de variación, que es el cociente entre la desviación
típica y la media: C.V =
σ
, y en el cuál la unidad de medida de la variable desaparece
Y
al dividir por la media: el CV es la desviación estandar en términos relativos (expresable
en % sin mas que multiplicar por 100) y es comparable para distintas variables y
poblaciones.
Con frecuencia estaremos interesados en conocer el número de unidades que cumplen
una condición o poseen una característica (% de votantes de un determinado partido, %
de personas que han visto un cierto programa de televisión, etc). En este caso la variable
Yi toma el valor 1 si la unidad posee la característica y el valor 0 si no la posee. Se dice
que estamos estudiando una variable cualitativa o de atributos.Llamaremos C al número
total de elementos de la población que poseen el atributo o característica en estudio. C
se denomina total de clase y P =
C
es la proporción de clase, expresable en %. En este
N
caso tenemos:
1 si ui ∈ C
Yi = 
0 si ui ∉ C
por lo que
N
N
C = ∑ Yi
P=Y =
1
∑Y
i
1
N
=
C
N
corresponden al total y la media de una variable cualitativa. Hay que indicar que todas
las fórmulas que se obtienen para varibles cuantitativas Yi son igualmente válidas para
variables cualitativas o dicotómicas.De ahí que no siempre se obtengan las fórmulas en
el caso dicotómico. Como ejemplo, para la varianza tenemos
18
TÉCNICAS DE MUESTREO
N
σ2 =
=
N
2
2
∑ (Yi − Y ) ∑ (Yi − P) ∑ (Yi 2 − 2 PYi + P 2 )
1
1
=
N
∑ Yi2 − 2 P∑ Yi + NP 2
N
=
N
N
=
= P − 2 P 2 + P 2 = P − P 2 = P(1 − P) = PQ
dónde se ha tenido en cuenta que
∑ Yi 2 = ∑ Yi
N
VI.A.
=P
N
Estimadores y varianzas
n
Designaremos por y = ∑ Yi el total muestral correspondiente a una muestra de tamaño
1
n. La media muestral
n
y
y= =
n
∑ Yi
1
n
es el estimador insesgado de la media poblacional Y , mientras que para el total
poblacional Y, el estimador insesgado es
N
Y! = N ⋅ y =
n
n
∑ Yi =
1
N
y
n
n
De la misma forma la proporción muestral p =
∑ Yi
1
n
y C! = N ⋅ p son los estimadores
insesgados de la proporción poblacional P y del total de clase C respectivamente.
La relación f =
n
se llama fracción de muestreo y expresa la relación que existe entre
N
el tamaño de la muestra y el de la población. Su inverso
N
se llama factor de
n
expansión, factor por el que se multiplica cada valor muestral para obtener la estimación
del total.
19
TÉCNICAS DE MUESTREO
La varianza de la media muestral es
V (y) =
N − n σ2 N − n S 2
S2
=
= (1 − f )
N −1 n
N n
n
dónde
∑ (Y − Y )
N
S2 =
N
σ2 =
N −1
2
i
1
N −1
es la cuasivarianza poblacional. A partir de aquí se obtiene
()
V Y! = N 2V ( y )
N − n PQ
N −1 n
V ( p) =
()
V C! = N 2V ( p)
La raiz cuadrada de las varianzas de los estimadores son su desviación típica o error de
muestreo. Puede comprobarse cómo en la población del ejemplo del epígrafe I, resulta
S2 = 13,47 y el error estándar es
(1 − 0,5)
13,47
= 1,5 , coincidente con el allí calculado
3
a partir de todas las muestras posibles.
El problema práctico con las fórmulas anteriores es que en las mismas intervienen los
parámetros poblacionales σ 2 o S2, en general desconocidos, por lo que necesitan ser
estimados. Como estimador insesgado de S2 se toma la cuasivarianza muestral
n
s =
2
∑ (Y − y )
i
1
n −1
que, para el caso de proporciones, resulta en
s2 =
n
pq
n −1
En consecuencia los estimadores insesgados de las varianzas de los estimadores son
2
s
V! ( y ) = (1 − f )
n
20
()
V! Y! = N 2V! ( y )
TÉCNICAS DE MUESTREO
()
pq
V! ( p) = (1 − f )
V! C! = N 2V! ( p)
n −1
En la práctica, si exceptuamos el caso de proporciones, suele trabajarse con errores de
muestreo relativos, que se obtienen al dividir los valores absolutos por el valor de los
estimadores. También en la práctica la fracción de muestreo n/N suele ser próxima a
cero y se prescinde del factor (1-f), llamado factor de corrección por población finita.
Con ello el error estándar en términos relativos resulta
eer =
dónde K =
K
n
s
es el coeficiente de variación estimado a partir de los datos muestrales.
y
Para calcular el tamaño de muestra necesario para obtener un determinado error estándar
no hay mas que despejar n, obteniéndose
n0 =
K2
eer2
En el caso de que la fracción de muestreo no sea próxima a cero, se tiene
eer = 1 − f
K
n
n=
En el caso de proporciones si se sustituye K por
n0
1 + (n0 N )
pq se obtiene una aproximación al
error estándar en términos absolutos. Si no se tiene ninguna idea aproximada del valor
de P, puede utilizarse p=q=0,50 ya que en éste caso pq es máximo y estamos ante el
caso mas desfavorable. Al trabajar con errores absolutos en proporciones debe tenerse
presente que, por ejemplo, 1 punto de error para P=50% es un 2% de error relativo y se
convierte en un 10% de error si P=10%.
Conviene notar que el error estándar es inversamente proporcional a la raiz cuadrada del
tamaño de muestra. Esto significa, por ejemplo, que para reducir el error estándar a la
mitad es necesario tomar un tamaño de muestra cuatro veces superior. El siguiente
21
TÉCNICAS DE MUESTREO
gráfico relaciona el coeficiente de variación de la población, el error estándar y el
tamaño de muestra:
Tamaño de muestra según CV y error estándar
2500
2025
TAMAÑO DE MUESTRA
2000
1600
err. est
1500
2%
3%
4%
1225
1111
1000
900
900
711
625
625
544
506
500
400
400
400
306
278
225
178
225
100
0
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
COEFICIENTE DE VARIACION
Ya se ha mencionado la influencia del error estándar en el tamaño de muestra. El gráfico
revela también la influencia del coeficiente de variación de la población en el tamaño de
muestra: cuanto más homogénea sea la población tanto menor será el tamaño de muestra
requerido. De ahí la importancia que tiene el conocimiento de la población a muestrear
para tratar de reducir la variabilidad original de la misma. Existen dos principales
técnicas de muestreo con éste objetivo: el muestreo estratificado y la técnica del
estimador de razón.
VII.
MUESTREO ESTRATIFICADO
VII.A.
Definición y objetivos
El muestreo estratificado consiste en :
1º) Dividir la población de N unidades en un cierto número de subpoblaciones llamadas
estratos, de forma que las unidades que componen cada estrato sean lo más homogéneas
22
TÉCNICAS DE MUESTREO
posibles en cuanto a la variable objeto de estudio. Cada unidad de la población ha de
pertenecer a uno y sólo uno de los estratos formados. El número de unidades que
pertenecen a un estrato dado es el tamaño del estrato.
L = número de estratos
N h = tamaño del estrato h.
L
∑N
h
=N
h
Wh =
Nh
= tamaño relativo del estrato h (peso del estrato h)
N
2º) Seleccionar una muestra probabilística en cada estrato. La muestra de cada estrato es
independiente de la muestra de cualquier otro estrato. Si la muestra en cada estrato es
una muestra aleatoria simple (probabilidades iguales) tenemos el muestreo aleatorio
estratificado que es el que vamos a estudiar (sin reemplazamiento).
nh = tamaño de la muestra en el estrato h
L
n = tamaño de la muestra total: n = ∑ nh
h
fh =
nh
= fracción de muestreo en el estrato h
Nh
f =
n
= fracción de muestreo global o total
N
Los principales objetivos del muestreo estratificado son:
a) Ganancia en precisión respecto al muestreo no estratificado. Es el objetivo
fundamental y en poblaciones muy asimétricas pueden conseguirse excelentes
resultados. Para precisar mas la idea vamos a considerar la población de supermercados
de 400 m2 y más de superficie de venta citada anteriormente. Tomaremos como variable
de estudio el personal empleado. Los datos del Universo son:
Número de establecimientos: N = 2959
Personal medio por establecimiento: Y = 29,8
Coeficiente de variación poblacional: CV= 2,16
23
TÉCNICAS DE MUESTREO
Vamos a dividir el Universo en tres estratos tomando como variable de estratificación la
superficie de venta, que, intuitivamente, debe estar correlacionada con el personal. Los
resultados que se obtienen son:
estrato1
estrato2
estrato3
>= 2500m2
1000-2500 m2
400-1000 m2
Núm. establ (Nh)
195
615
2149
media person. (Yh )
216.3
30.8
12.6
coefic. de variac.
0.70
0.68
0.72
Fijémonos como el coeficiente de variación del personal, que en la población global es
de 2,16, se reduce a la tercera parte, alrededor de 0,70 en cada estrato. Si recordamos la
fórmula del error estándar resulta intuitivo que éste experimentará sensibles reducciones
al tomar muestras independientes en cada estrato.
Ésta es la clave de la estratificación: formar estratos que reduzcan la variabilidad de la
población original. Cuanto más reduzcamos la variabilidad dentro de cada estrato
respecto a la variabilidad total de la población, mayor será la ganancia en precisión ( o al
revés, menor muestra necesitaremos para una precisión prefijada).
b) Posibilidad de obtener estimadores separados para cada estrato o agrupación de
estratos, lo que proporciona una información mas rica y detallada.
c) Más eficacia en la organización administrativa, al poder considerar como variables de
estratificación provincias o regiones geográficas, que permiten una mayor
descentralización de la organización de Campo y de tareas administrativas.
d) Los problemas de muestreo pueden diferir marcadamente en diferentes partes de la
población. Al ser el proceso de muestreo independiente en cada estrato, pueden
aplicarse métodos diferentes de muestreo por estrato de acuerdo a la información de que
se disponga.
Respecto a las variables o criterios de estratificación, su número y el número de estratos,
dependen de los objetivos concretos de cada caso, de la información disponible y de la
24
TÉCNICAS DE MUESTREO
estructura de la población; las variables utilizadas en la estratificación, deberán estar
correlacionadas con las variables objeto de investigación, aunque tambien pueden
incluirse criterios “administrativos” (regiones geográficas).
En general, un número moderado de variables de estratificación y de estratos es
suficiente para obtener ganacias de precisión; ésta es, en general, decreciente al
aumentar el número de estratos.
Puesto que en cada estrato vamos a seleccionar una muestra aleatoria simple de
unidades, recordemos que la media muestral y es estimador insesgado de la media
poblacional, con varianza, V ( y ) = (1 − f )
varianza relativa estimada = V!r ( x ) = (1 − f )
VII.B.
S2
n
ky
2
s
, estimada por V! ( y ) = (1 − f )
n
y
2
n
.
Estimadores insesgados y varianzas
La formación de estimadores se basa en la selección independiente de muestras
aleatorias en cada estrato. Ello lleva a elegir el correspondiente estimador insesgado en
cada estrato y, posteriormente, mediante combinaciones lineales adecuadas de los
estimadores insesgados de cada estrato, obtener el estimador insesgado global de toda la
población. Para el cálculo de varianzas de los estimadores no hay mas que tener en
cuenta la regla de aditividad de varianzas de combinaciones lineales de variables
aleatorias (en este caso estimadores) independientes.
Sean:
Yhi = valor de la variable de estudio en la unidad i del estrato h
Nh
∑Y
hi
Yh =
i
Nh
=
Yh
= media poblacional del estrato h
Nh
Yh = N h Yh = total poblacinal del estrato h
L
Y = ∑ Yh = total poblacional
h
25
TÉCNICAS DE MUESTREO
L
Y =
∑Y
h
L
=∑
h
N
h
Nh
∑ (Y
hi
Sh =
2
L
N h Yh
= ∑ Wh Yh = media poblacional
N
h
− Yh )
2
i
Nh − 1
= cuasivarianza poblacional del estrato h
Los estimadores y sus varianzas son ya inmediatos de obtener:
Media:
( )
L
L
h
h
E Y!st = ∑ Wh E ( y h ) = ∑ Wh Yh = Y
Y!st = ∑ Wh y h
( )
L
L
2
L
L
2
S
2
2
V Y!st = ∑ Wh V ( y h ) = ∑ Wh (1 − f h ) h
nh
h
h
( )
s
2
2
V! Y!st = ∑ Wh V! ( y h ) = ∑ Wh (1 − f h ) h
nh
h
h
nh
∑ (Y
hi
dónde sh =
2
− yh )
i
nh − 1
2
es la cuasivarianza muestral del estrato h.
Total:
L
L
L
h
h
h
Y!st = NY!st = N ∑ Wh y h = ∑ N h y h = ∑ Y!h
( )
( )
( )
( )
L
L
h
h
( )
2
V Y!st = N 2V Y!st = ∑ N h V ( y h ) = ∑ V Y!h
2
L
s
2
V! Y!st = N 2V! Y!st = ∑ N h (1 − f h ) h
nh
h
Proporción:
En este caso estamos ante una variable cualitativa que sólo toma los valores, Yhi = 1 si la
unidad uhi posee la característica en estudio, y Yhi = 0 si no la posee. Tenemos:
L
P!st = ∑ Wh ph
h
26
TÉCNICAS DE MUESTREO
L
L
2
2 N h − nh Ph Qh
V P!st = ∑ Wh V ( ph ) = ∑ Wh
N h − 1 nh
h
h
( )
L
L
L
pq
2
2 N h − nh ph q h
2
V! P!st = ∑ Wh V! ( ph ) = ∑ Wh
= ∑ Wh (1 − f h ) h h
N h nh − 1 h
nh − 1
h
h
( )
Total de clase:
( )
( )
V C! st = N 2V P!st
C! st = NP!st
( )
( )
V! C! st = N 2V! P!st
Debe observarse que el cálculo de estimadores de la varianza, requiere al menos dos
unidades en la muestra por cada estrato.
VII.C.
Afijación
Se denomina afijación al método de distribuir las n unidades de la muestra total entre los
diferentes estratos. Supondremos que el tamaño de muestra total, n, está dado. En
principio, el tamaño de muestra en cada estrato puede fijarlo el diseñador a su buen
juicio y criterio. Esta forma de distribución de la muestra entre estratos puede
denominarse afijación subjetiva. Sin embargo, en la práctica es habitual utilizar algún
criterio formulable para hacer la afijación. Los tipos de afijación más comunes son:
1. Afijacion proporcional. Consiste en repartir la muestra proporcionalmente a los
tamaños de los estratos:
nh = n
Nh
, h = 1,2, ...., L
N
;
nh
n
=
Nh N
; fh = f
Las fracciones de muestreo resultan idénticas en todos los estratos y cada unidad de la
población tiene la misma probabilidad de pertenecer a la muestra, originando una
muestra autoponderada en la que los factores de expansión por estrato para la
27
TÉCNICAS DE MUESTREO
estimación de totales son todos iguales. Ello se traduce en una notable simplificación en
el cálculo de estimaciones y sus varianzas.
L
2. Afijación óptima. Introducimos una función de coste de la forma C = c0 + ∑ ch nh ,
h
dónde c0 representa un costo general, mientras que ch correspondería a un coste por
unidad de muestreo en el estrato h. La afijación óptima proporciona la mínima varianza
del estimador para un coste prefijado. La fórmula que se obtiene es
nh = n
N h Sh
∑N
h
ch
Sh
ch
h
y utilizando los coeficientes de variación por estrato Kh =
Sh
Xh
→ S h = Kh X h , se
obtiene
nh = n
Yh K h
∑Y K
h
ch
h
ch
h
Resulta, pues, que la muestra en cada estrato es proporcional a la variabilidad del estrato
(Sh) e inversamente proporcional a la raiz cuadrada del coste por unidad.
Si no se consideran costes o ch es igual por estrato se obtiene
nh = n
N h Sh
YK
=n h h
∑ N h Sh ∑ Yh Kh
h
h
Si además Sh es igual por estrato se obtiene la afijación proporcional, mientras que si Kh
es igual por estrato se obtiene una afijación proporcional a la importancia que tiene en
cada estrato la variable en estudio.
Obsérvese que en las fórmulas anteriores pueden utilizarse los valores absolutos de Nh,
Yh o los relativos
N h Yh
,
(no habría mas que dividir numerador y denominador por N
N
Y
y Y respectivamente). Los valores relativos pueden utilizarse también en forma de
porcentaje. Los valores de Sh o Yh deberán ser, en la práctica, estimados a partir de la
28
TÉCNICAS DE MUESTREO
información disponible. Alguna de las variables de estratificación, correlacionada con la
de estudio puede ser de utilidad.
La eficiencia de la estratificación nos indica en qué medida la varianza del estimador se
reduce con la estratificación respecto al muestreo aleatorio simple. Ya hemos visto que
la afijación óptima coincide con la proporcional si Sh es igual por estrato; dado que la
afijación óptima produce la mínima varianza del estimador se deduce que ésta será tanto
mejor respecto a la afijación proporcional cuanto más difieran las Sh entre estratos. Al
comparar la afijación proporcional con el muestreo aleatorio simple se llega a la
conclusión de que la estratificación es tanto más eficiente cuanto mas difieran entre si
las medias por estrato Yh .
VII.D.
Ejemplo
Sigamos con la población de supermercados de 400 m2 y más de superficie de venta,
con los estratos señalados anteriormente según la superficie de venta. Nuestra variable
de estudio será el personal. El siguiente cuadro resume los valores poblacionales:
TOTAL
Estrato 1
Estrato 2
Estrato 3
UNIVERSO >=2500m2 1000-2500 400-1000
2.959
195
615
2.149
29,8
216,3
30,8
12,6
88.174
42.173
18.959
27.042
64,4
150,9
20,9
9,1
2,16
0,7
0,68
0,72
4
2
1
Nh
Yh
Y
Sh
Kh
ch
Para una muestra de tamaño 100 las dos afijaciones consideradas proporcionarían la
siguiente distribución muestral:
Afijación
Estrato 1
Proporcional
Óptima
29
Estrato 2
Estrato 3
6
21
73
34
21
45
TÉCNICAS DE MUESTREO
Con los datos anteriores estamos ya en situación de calcular el error estándar del
estimador de la media. Los resultados se resumen a continuación (se prescinde del factor
1-f):
Tipo de muestreo
Tamaño de
Varianza del
error de
error relativo
muestra
estimador
muestreo
de muestreo
muestra aleatoria
100
41,47
6,4
21,6%
m. estr. proporcional
100
17,98
4,2
14,2%
m. estr. óptima
100
4,78
2,2
7,3%
Vemos que el muestreo estratificado con afijación óptima produce una sensible
disminución del error de muestreo, a la tercera parte, respecto al muestreo aleatorio
simple, y también respecto a la afijación proporcional debido a los diferentes valores de
Sh, según se apuntó anteriormente. En forma gráfica se tiene:
COMPARACIÓN DE ERRORES ESTÁNDAR (n = 100)
21,6%
14,2%
7,3%
mtra aleat
m. estr. prop.
m. estr. ópt.
Otra forma de ver los resultados anteriores es comparar los tamaños de muestra que para
los distintos diseños muestrales proporciona el mismo nivel de error estándar, según
muestra el gráfico siguiente:
30
TÉCNICAS DE MUESTREO
TAMAÑOS DE MUESTRA PARA IGUAL ERROR ESTÁNDAR
876
350
100
mtra aleat
m. estr. prop.
m. estr. ópt.
Resulta notable el incremento de muestra necesario, casi 9 veces, para tener el mismo
nivel de error estándar con una muestra aleatoria, que con una muestra estratificada con
afijación óptima. Los dos gráficos anteriores ilustran el grado de eficiencia que se puede
conseguir con la estratificación respecto al muestreo aleatorio y, a su vez, con la
afijación óptima respecto a la proporcional, cuando estamos ante poblaciones muy
asimétricas como es la del ejemplo.
En el ejemplo se ha considerado en los tres casos un tamaño de muestra n=100, lo que
proporciona una fracción de muestreo global de 100/2959 = 3,4%. Esta es también la
fracción de muestreo en cada estrato con afijación proporcional. Sin embargo con la
afijación óptima la fracción de muestreo difiere de estrato a estrato: la muestra tiende a
concentrarse más en los estratos con mayor Sh. La fracción de muestreo es de 34/195 =
17,4% en el estrato1, de 21/615 = 3,4% en el estrato 2 y de 45/2149 = 2,1% en el estrato
3. Suponiendo que la media muestral en cada estrato es similar a la media poblacional el
total de personas empleadas en los establecimientos de la muestra sería de
34 ⋅ 216,3 + 21 ⋅ 30,8 + 45 ⋅ 12,6 = 8568
que sobre los 88174 empleados en todo el Universo supone un 9,7%. Este es el concepto
de fracción muestral ponderada: qué parte del total de la variable en estudio se mide en
31
TÉCNICAS DE MUESTREO
las unidades muestrales. Tanto en muestreo aleatorio como en muestreo estratificado
con afijación proporcional la fracción muestral ponderada es similar o igual a la fracción
de número. Pero con la afijación óptima, con un 3,4% de muestra se está “observando”
el 9,7% de la variable en estudio, siendo ésta última, con frecuencia, un mejor indicador
del tamaño de muestra que el simple número n.
Hay que destacar también que siendo el factor de expansión el inverso de la fracción de
muestreo, la afijación óptima origina factores de expansión diferentes por estrato, tanto
menores cuanto mayor es la varianza del estrato: obsérvese que el factor de expansión
más pequeño corresponde a las unidades muestrales más grandes.
VIII. ESTIMADOR DE RAZON
El estimador de razón trata de mejorar la precisión de un estimador utilizando la
información que se posee, para la población investigada, de una variable auxiliar que se
supone correlacionada con la variable de estudio. Sea Yi la variable de estudio y sea Xi
la variable auxiliar conocida para el Universo o población en estudio.
Supongamos que se desea estimar la producción de trigo mediante una muestra aleatoria
de explotaciones agrarias, y poseemos información sobre la superficie cultivada:
explotación
prod. trigo (Yi)
superf. cultivada (Xi)
1
Y1
X1
2
Y2
X2
......
.......
......
n
Yn
Xn
total muestral
y
x
El estimador insesgado lineal de la producción de trigo es
N
Y! =
n
n
∑Y
i
1
32
=
N
y
n
TÉCNICAS DE MUESTREO
Puesto que poseemos información de la superficie cultivada Xi y conocemos su total
poblacional X, podemos, además, estimarlo con los datos de la muestra
N
X! =
n
El cociente
n
∑X
i
=
1
N
x
n
X
constituye una cierta medida de la representatividad de la muestra: si
X!
X
> 1 , indicaría que en la muestra hay una mayor representación de explotaciones
X!
pequeñas, mientras que si
X
< 1 , tendríamos una mayor representación de
X!
explotaciones grandes. Habiendo correlación entre ambas variables parece lógico
utilizar la desviación
X
, cometida en la estimación de la variable conocida para
X!
corregir la estimación de Y. Esto nos lleva al estimador
X
Y!
!
Y!R = Y! =
X = RX
X!
X!
Y!
y
, se llama estimador de razón, Y!R es el estimador del total por el método
R! =
=
!
X x
de razón. Y!R lo podemos escribir como
N
X
X
Y!R =
y
=
n N
x
x
n
n
∑Y
i
1
es decir, el estimador del total por razón equivale a la expansión de los datos muestrales
mediante el factor X x , relación entre el valor poblacional y el valor muestral de la
variable auxiliar Xi , en lugar de utilizar la expansión N/n de número o expansión
simple. Al factor X x le llamamos factor-X.
Y!
X
! .
La media Y se estima por Y!R = R = R! = RX
N
N
La razón R =
Y
Y
se llama razón poblacional, y su estimador R! es sesgado, es
=
X
X
decir, la esperanza matemática de R! o media sobre todas las posibles muestras no
()
coincide con R. Una acotación para el sesgo B = E R! − R viene dada por
33
TÉCNICAS DE MUESTREO
B
≤
σx
K
σx
= Cx ≈ x
X
n
que expresa que la razón del sesgo al error estandar de x es menor o igual al coeficiente
de variación C x o error de muestreo relativo de la media muestral x . En la práctica si
C x es menor de 0,20 el sesgo puede ignorarse. También se observa que la razón del
sesgo al error de muestreo es del orden de magnitud de 1
n y, por tanto, disminuye
con el tamaño de muestra. En el caso particular de que la línea de regresión poblacional
de y respecto a x sea una recta que pasa por el origen, el estimador de razón R! es
insesgado.
La varianza del estimador de razón es
1− f 2
V R! =
S y + R 2 S x2 − 2 RS yx
2
nX
()
(
)
con
∑ (Y − Y )( X
N
S yx =
i
1
i
− X)
N −1
y se estima sustituyendo los valores poblacionales por los muestrales:
1− f 2 !2 2
!
V! R! =
s y + R s x − 2 Rs
yx
nX 2
()
(
)
! y la media Y! = RX
! , la varianza es
Para el total Y!R = RX
R
V! Y!R = X 2V! R!
V! Y!R = X 2V! R!
( )
( )
()
()
( )
Al comparar V Y!R con la varianza del total en muestreo aleatorio simple,
N 2 (1 − f ) 2
Vas Y! =
Sy
n
()
( )
()
resulta que V Y!R < Vas Y! si se verifica
ρ>
∑ (Y − Y )( X
N
dónde ρ =
i
1
i
− X)
( N − 1)S y S x
=
S yx
Sy Sx
1 Cx
2 Cy
es el coeficiente de correlación entre Yi y Xi.
34
TÉCNICAS DE MUESTREO
Se deduce entonces, que el estimador de razón puede ser más o menos preciso que el de
simple expansión dependiendo del tamaño del coeficiente de correlación entre Yi, Xi y
de la relación de sus coeficientes de variación. Si Cx > 2Cy el estimador de razón es
siempre menos preciso ya que ρ no puede ser superior a 1. Cuando Xi es el valor de Yi
en alguna ocasión previa, Cx y Cy pueden ser aproximadamente iguales y el estimador de
razón es superior si ρ > 0,5 . Siendo Xi el valor de Yi en alguna ocasión anterior, es
frcuente que R ≈ 1 y S x ≈ S y , con lo cuál tenemos
N 2 (1 − f ) 2
N 2 (1 − f ) 2
2
2
V Y!R =
S y + S y − 2ρS y =
S y ⋅ 2(1 − ρ) = Vas ⋅ 2(1 − ρ)
n
n
( )
(
)
2(1 − ρ) indica la ganacia en precisión respecto al estimador de simple expansión. Así,
si ρ = 0,8 , V (YR ) = Vas ⋅ 0,4 , V (YR ) = Vas ⋅ 0,63 . Vemos que con correlaciones altas
se obtienen reducciones importantes en el error de muestreo.
En el muestreo estratificado la variabilidad de la población se reduce por la formación
de estratos relativamente homogéneos. Con el estimador de razón la variabilidad se
reduce por medio de la correlación existente entre la variable de estudio y, y la variable
auxiliar x. Resulta entonces, que la utilización de muestreo estratificado junto con
estimador de razón puede producir importantes aumentos en la precisión de los
estimadores.
IX.
MUESTREO DE CONGLOMERADOS SIN SUBMUESTREO.
El muestreo de unidades elementales tiene dos principales inconvenientes de tipo
práctico:
a) Imposibilidad en muchas ocasiones de obtener una lista de unidades elementales en la
cuál basar la selección de la muestra.
b) La selección de unidades elementales proporciona, en general, una muestra muy
esparcida de unidades a entrevistar con el consiguiente incremento de coste y tiempo.
Para evitar estos inconvenientes surge de forma natural la idea de agrupar unidades
elementales próximas entre si en una unidad mayor que se denomina conglomerado,
35
TÉCNICAS DE MUESTREO
constituyéndose el conjunto de conglomerados en las nuevas unidades de muestreo. Los
conglomerados deben estar perfectamente definidos, lo cuál significa que no haya
solapamiento entre ellos -una unidad elemental pertenece sólo a un conglomerado- y
que el conjunto de todos los conglomerados contiene a la población objeto de estudio.
Así pues, en el muestreo de conglomerados se selecciona una muestra de
conglomerados. Si posteriormente, investigamos todas las unidades elementales
contenidas en los conglomerados seleccionados en la muestra, el muestreo se dice de
conglomerados sin submuestreo o muestreo en una etapa, que es el que vamos a estudiar
aquí.
Se denomina tamaño del conglomerado al número de unidades elementales que
contiene. Supondremos que todos los conglomerados son de igual tamaño M
.
Supondremos también que la selección de la muestra se hace con probabilidades iguales
y sin reemplazamiento (muestreo aleatorio simple):
N = número de conglomerados en la población.
M 0 = NM = número total de unidades elementales en la población.
n = número de conglomerados en la muestra.
nM = número de unidades elementales en la muestra.
Para la variable en estudio tenemos:
Yij = valor de y en la unidad j del conglomerado i.
M
Yi = ∑ Yij = total del conglomerado i.
j
N
N
M
i
i
j
Y = ∑ Yi = ∑ ∑ Yij = total general.
Yi =
Yi
= media por elemento del conglomerado i.
M
N
Y =
∑Y
i
i
N
= total medio de conglomerados, es decir, media de los totales de
conglomerados (media entre conglomerados).
36
TÉCNICAS DE MUESTREO
Y =
N
M
i
j
∑ ∑ Yij
NM
N
N
∑Y
∑ Yi
Y
=
=
= i
= media general por elemento.
NM
M
N
i
i
La media muestral por elemento puede expresarse por :
y
y=
=
nM
n
M
i
j
∑ ∑ Yij
nM
n
=
∑Y
i
i
nM
y es un estimador insesgado de la media poblacional por elemento Y con varianza
dada por
1− f 2
Sb
nM
V (y) =
dónde
∑ ∑ (Y − Y )
N
M
Sb =
2
i
j
N −1
(
N
2
i
=
M ∑ Yi − Y
i
)
2
N −1
es decir, la varianza de la media muestral por elemento proviene en su totalidad de la
varianza de las medias por elemento entre los conglomerados, lo cuál es lógico ya que
dentro de cada conglomerado de la muestra no hay submuestreo: todas las unidades
elementales del conglomerado seleccionado forman parte de la muestra. Si hubiera
submuestreo, habría que añadir un componente de variabilidad debido al submuestreo
dentro de cada conglomerado.
Si consideramos una muestra aleatoria simple de nM elementos, la varianza de la
media muestral sería:
∑ ∑ (Y
N
Vas ( y ) =
NM − nM 1
NM
nM
M
ij
i
−Y
j
NM − 1
)
2
=
1− f 2
S ≠ V (y)
nM
La relación entre ambas puede aproximarse por
[
V ( y ) ≈ Vas ( y ) 1 + ( M − 1)δ
dónde
37
]
(1)
TÉCNICAS DE MUESTREO
∑∑(
)( ) ∑ ∑ (Y − Y )(Y − Y )
δ=
=
( M − 1)( NM − 1)S
( M − 1)∑ ∑ (Y − Y )
N
M
i
j≠k
Yij − Y Yik − Y
N
M
i
j
N
M
i
j≠k
ij
2
ik
2
ij
define la correlación existente entre todos los posibles pares de unidades distintas dentro
de cada conglomerado. δ se denomina coficiente de correlación intraconglomerados y
constituye una medida de la homogeneidad existente entre las unidades elementales
dentro de cada conglomerado.
A la razón V ( y ) Vas ( y ) entre la varianza del estimador en un diseño particular y la
varianza del estimador en una muestra aleatoria simple, con el mismo tamaño muestral
en unidades elementales, se denomina efecto de diseño. En el caso de muestreo por
conglomerados, el efecto de diseño es 1 + ( M − 1)δ , y corresponde al factor por el que
hay que multiplicar la varianza del estimador por usar conglomerados en lugar de una
muestra aleatoria simple de unidades elementales.
Así pues, siempre que δ > 0 , que es lo más habitual, el muestreo por conglomerados
tiene menos prcisión que el muestreo aleatorio simple para el mismo tamaño de muestra
en unidades elmentales. Si δ < 0 , el muestreo por conglomerados es mas eficiente y si
δ = 0 , ambos son equivalentes. En el caso de M = 1, el muestreo por conglomerados
coincide con el muestreo aleatorio simple.
De (1) se obtiene una expresión aproximada para el coeficiente de correlación
intraconglomerados:
Sb − S 2
δ≈
( M − 1)S 2
2
Según el valor de Sb2 en relación a S2 el, el coeficiente de correlación
intraconglomerados podrá tomar valores positivos o negativos. Vamos a distinguir los
siguientes casos:
38
TÉCNICAS DE MUESTREO
a) Sb2 = 0 . Entonces δ = −
1
, su valor mínimo, y V ( y ) = 0 . Estamos ante el caso
M −1
ideal para la utilización de muestreo por conglomerados. Todas las Yi son iguales a Y
y por tanto, un solo conglomerado en la muestra suministra toda la información. En
otras palabras, toda la variabilidad procede de dentro de los conglomerados y todos los
conglomerados son iguales entre si. Aún cuando δ no alcance su valor mínimo, siempre
que δ < 0 , que no es usual en la práctica, resultará ventajoso utilizar muestreo por
conglomerados.
b) Sb2 = S2 . Entonces δ = 0 y Vc = Vas . La variación entre conglomerados es igual a la
variación entre unidades elementales en la población. Yi
varía de conglomerado a
conglomerado como podría esperarse si los conglomerados hubiesen sido formados
agrupando aleatoriamente las unidades elementales. Sb2 = S2 . Con δ = 0 da igual
utilizar muestreo de conglomerados o de unidades elementales en lo que a precisión se
refiere.
c) Sb2 > S2 . Entonces δ > 0 y Vc > Vas . Es el caso mas común. La varianza entre
conglomerados es mayor que la varianza de las unidades elementales en la población, es
decir, Yi
varía de conglomerado a conglomerado más que varían las unidades
elementales en la población. Esto equivale a decir que las unidades dentro de los
conglomerados son más homogéneas que lo son en la población. Cuanto mayor sea Sb2,
mayor será δ y mayor el efecto de diseño o efecto conglomerado, y mayor la varianza
del estimador respecto al muestreo aleatorio simple. El caso mas desfavorable será aquel
en que toda la variabilidad de la población procede de la variabilidad entre
conglomerados, es decir, existiese homogeneidad absoluta dentro de los conglomerados.
En este caso δ tomaría su valor máximo: δ = 1 .
X.
MUESTREO SISTEMÁTICO
Sea una población
{u1 ,u2 ,# ,u N } .
La selección sistemática de una muestra de n
unidades se realiza en la siguiente forma: sea k = N n (suponemos N divisible por n),
39
TÉCNICAS DE MUESTREO
tomamos un número i al azar 1 ≤ i ≤ k con probabilidad 1 k y la muestra sistemática
queda formada por las n unidades
{u ,u
i+k
i
, ui + 2 k ,# , ui +( n −1) k
}
Como vemos, la selección de la primera unidad determina la muestra completa. El
espacio muestral está formado por las siguientes k muestras posibles, dónde se indica el
valor de la variable en estudio en cada unidad seleccionada:
Muestra
estratos
Media
1
2
...... i
...... k
X1
X2
Xi
Xk
X1+k
X2+k
Xi+k
X2k
......
......
......
......
X1+(n-1)k
X2+(n-1)k
Xi+(n-1)k
Xnk
x1
x2
xi
xk
conglomerados
Las k muestras posibles son equiprobables (prob. = 1 k ) y la probabilidad de que la
unidad ui esté en la muestra es 1 k = n N . La media muestral
xi =
1 n
∑ X ij
n j
es el estimador insesgado de la media poblacional. Observar que al utilizar dos
subíndices, el primero i hace referencia a la muestra sistemática y el segundo j a la
unidad elemental dentro de la muestra.
El muestreo sistemático es de fácil aplicación práctica y asegura además que la muestra
se extiende a toda la población. Podemos considerar la población dividida en n estratos,
los cuales consisten de las primeras k unidades, las segundas k unidades, etc., es decir, al
contemplar el cuadro de muestras posibles en horizontal, cada fila sería un estrato. La
muestra sistemática correspondería a una muestra estratificada con una unidad por
40
TÉCNICAS DE MUESTREO
estrato, por lo que sería esperable una mayor precisión respecto al muestreo aleatorio
simple.
La diferencia con el muestreo estratificado está en que con la muestra sistemática, las
unidades seleccionadas ocupan la misma posición relativa en cada estrato, mientras que
en el muestreo estratificado la selección es independiente en cada estrato, por lo que
también es esperable que el muestreo sistemático sea menos preciso que el muestreo al
azar estratificado.
Observando el cuadro de muestras posibles, el muestreo sistemático es equivalente a
considerar la población dividida en k grupos o conglomerados (columnas del cuadro),
cada uno de n unidades, de los cuales se selecciona uno al azar. Es decir, una muestra
sistemática es una muestra aleatoria de una unidad conglomerada de una población de k
conglomerados de tamaño n.
El comportamiento del muestreo sistemático respecto al estratificado o el muestreo
aleatorio simple, depende en gran medida de las propiedades de la población. En
poblaciones en las cuales la numeración de las unidades puede considerarse al azar
respecto a la característica que se mide, cabría esperar que el muestreo sistemático fuera
equivalente al muestreo aleatorio simple y que tuviera la misma varianza.
Cuando la población presenta una tendencia lineal como en la figura que sigue,
Xi
muestra sistemática
muestra aleatoria estratif.
ui
intuitivamente se ve que la muestra sistemática es más efectiva que la muestra aleatoria
simple ya que asegura presencia en la muestra de todas las zonas de tendencia, pero es
41
TÉCNICAS DE MUESTREO
menos efectiva que la muestra estratificada ya que si la muestra sistemática es muy baja
en un estrato, es muy baja en todos, mientras que la estratificación da oportunidad para
que los errores dentro de los estratos se compensen. El comportamiento de la muestra
sistemática podría mejorarse usando una muestra centralmente ubicada.
Para una población con tendencia periódica, por ejemplo una curva sinoidal, la
efectividad de la muestra sistemática depende del valor de k, como puede verse en la
A
B
A
A
B
B
B
B
figura, dónde la altura de la curva es la observación Yi. Los puntos A de la muestra,
representan el caso menos favorable y suceden si k es igual al periodo de la curva o a un
múltiplo entero del periodo. Toda observación dentro de la muestra sistemática
proporciona la misma información y la muestra no es más precisa que una sola
observación tomada al azar de la población.
El caso más favorable (muestra B) ocurre cuando k es un múltiplo impar del medioperiodo. Toda muestra sistemática tiene una media exactamente igual a la media
verdadera. Entre estos dos casos extremos, la muestra sistemática tiene varios grados de
efectividad, dependiendo de la relación entre k y el periodo de la curva.
Poblaciones con tendencia más o menos periódica se encuentran en la práctica con
relativa frecuencia. Ejemplos son el flujo de tránsito por un punto de una carretera
durante las 24 horas del día y las ventas de una tienda durante los dias de la semana.
Para estimar un promedio sobre un periodo de tiempo, una muestra sistemática diaria a
las 6 p. m. o cada martes, no sería obviamente juicioso. La estrategia correcta es girar la
muestra sobre la curva periódica, por ejemplo, viendo que cada día de la semana esté
igualmente representado, en el caso de las ventas de una tienda.
42
TÉCNICAS DE MUESTREO
A partir de los resultados de una muestra aletoria simple podemos calcular un estimador
insesgado de la varianza de la media muestral siempre que n > 1. Este estimador es
insesgado cualquiera que sea la forma de la población. Dado que una muestra
sistemática corresponde a una muestra aleatoria simple de tamaño n = 1, seleccionada de
entre k conglomerados en la población, no resulta posible construir un estimador de la
varianza de la media muestral. En la práctica si la población está ordenada al azar puede
utilizarse la estimación de la varianza que proporcionaría una muestra aleatoria simple
del mismo tamaño.
XI.
OTROS ASPECTOS DEL MUESTREO
Habrá ocasiones en que el conocimiento previo que se dispone del Universo objeto de
estudio es muy limitado e insuficiente para proceder a una estratificación eficiente o
para la utilización de estimadores del tipo de razón que nos permitan importantes
reducciones del error estándar. En estos casos puede ser conveniente la realización de
una primera muestra, relativamente amplia, con el objeto de estimar aquellas
características básicas que nos sirvan para la utilización posterior de muestreo
estratificado o de estimadores de razón. Una vez determinadas las características del
Universo que sean de interés, se selecciona en una segunda fase una submuestra de la
primera sobre la que ya se estudian propiamente las variables objeto de estudio. Este
proceso se conoce como muestreo doble o muestreo en dos fases. El proceso se justifica
si la información obtenida en la primera fase permite una reducción de muestra en la
segunda fase que compense costes.
La muestra correspondiente a la primera fase se denomina también muestra censal,
muestra maestra o censo muestral. Estas denominaciones indican un primer proceso de
muestreo sustitutivo de un censo completo, es decir, cuyo fin es conocer características
poblacionales, incluso el propio tamaño del Universo N, necesarios para el posterior
diseño de la muestra. Este procedimiento censal en base a una muestra no debe
sorprender: es práctica habitual en grandes operaciones censales proporcionar resultados
basados en una muestra de los cuestionarios censales en lugar de utilizar la información
completa del censo total. La muestra en segunda fase puede denominarse muestra
43
TÉCNICAS DE MUESTREO
principal o muestra de estudio, ya que es la muestra sobre la que se miden las variables
objeto de estudio.
Cuando se estudia la teoría de muestras siempre se habla de la variable de estudio Yi.
Sin embargo cuando se selecciona una muestra van a ser muchas variables Yi las que se
estudien en cada unidad muestral, lo que significa que la muestra va a proporcionar
multitud de estimaciones cada una con su propio nivel de error estándar, es decir, no
puede hablarse de la calidad global de una muestra, sino que cada estimación que
proporcione, tendrá su propio error de muestreo. Previamente habrá que haber definido
un tamaño de muestra en función de un cierto error estándar. Si quisiéramos el mismo
nivel de error estándar para cada variable en estudio resultarían tamaños de muestra
diferentes para cada una, lo cuál, desde un punto de vista práctico no tiene sentido. Lo
normal será que entre las variables a estudiar haya unas pocas de mayor importancia y
sean éstas las que predominen en la determinación del tamaño de muestra, llegándose a
una solución de compromiso. Un problema similar surge al establecer la distribución
óptima de una muestra estratificada para distintas variables a estudiar: cada variable nos
puede proporcionar afijaciones diferentes y debe llegarse a una solución única.
El concepto de error de muestreo surge porque al tomar cientos o miles de muestras
independientes de una población para estimar un parámetro, las estimaciones presentan
una variabilidad aleatoria que puede aproximarse por la distribución normal. En una
forma análoga se puede pensar que cuando una muestra proporciona cientos, miles de
estimaciones se pueden aplicar las propiedades de la distribución normal y pensar que,
por ejemplo, un 5% de las estimaciones quedan fuera de su intervalo de confianza ( ± 2
veces el error estándar), es decir, alejadas de la realidad, sin que pueda saberse cuales
son: es el analista de los resultados el que con su conocimiento y experiencia puede
separar, quizá no totalmente, aquellos datos que reflejen la realidad de aquellos otros
que pueden ser debidos a variaciones extremas de muestreo o a sesgos introducidos en
la muestra, no importantes para muchas de las variables investigadas pero que sí lo son
para otras.
En la actualidad es práctica común la de utilizar muestras para recoger series de datos
sobre la misma población que se publican a intervalos regulares de tiempo. Ejemplos de
44
TÉCNICAS DE MUESTREO
ello los tenemos en las encuestas de población activa o de fuerza de trabajo que realizan
los paises desarrollados, los paneles de audiencia de televisión, muestras contínuas de
hogares o de tiendas para medir el consumo, etc.
Cuando la misma población se muestrea repetidamente en el tiempo, estamos en una
posición ideal para obtener estimadores realistas de costes y varianzas y, en
consecuencia, para aplicar técnicas que conducen a una utilización óptima del muestreo.
Una cuestión importante en muestreo repetido es con qué frecuencia y de qué manera
debe cambiarse la muestra a lo largo del tiempo. Podemos optar entre las siguientes
alternativas:
a) Utilizar la misma muestra, llamada panel, en cada repetición del muestreo o
periodo.
b) Mantener en cada periodo una proporción π c de muestra común con el
periodo anterior, renovando el resto de la muestra.
c) Utilizar en cada periodo muestras independientes.
Hay muchas consideraciones que afectan a la decisión. Los entrevistados pueden
negarse a dar la misma información una y otra vez. Los que responden pueden influirse
por la información que reciben durante las entrevistas lo que contribuye a introducir
paulatinamente sesgos en la muestra y suele decirse que la muestra se contamina con el
tiempo. Otras veces puede haber mejor cooperación en segunda y sucesivas tomas de
información. Si conseguir la colaboración de una unidad muestral implica un coste
relativamente alto respecto a la toma de información puede ser aconsejable utilizar la
misma muestra o una alta proporción de muestra común.
Con los datos de muestras sucesivas de la misma población hay tres clases de cantidades
a estimar y, en cada caso, la política de renovación de la muestra es diferente si
deseamos maximizar la precisión:
1. Si deseamos estimar el cambio en Y de un periodo al siguiente o de un año al mismo
periodo del año anterior, es mejor retener la misma muestra.
2. Para estimar el valor promedio Y sobre varios periodos, es mejor tomar muestras
independientes en cada periodo.
45
TÉCNICAS DE MUESTREO
3. Si nuestro interés se centra en el valor promedio Y para el periodo más reciente,
entonces se obtiene la misma precisión conservando la misma muestra o cambiándola
en cada periodo; el cambio parcial de parte de la muestra puede ser mejor que cualquiera
de estas alternativas.
Lo anterior es consecuencia de la correlación positiva ρ entre las medidas de la misma
unidad en dos periodos consecutivos. Al mantener la muestra constante en periodos
consecutivos, existe una alta correlación entre los datos de las unidades muestrales en
ambas ocasiones, lo que hace que los errores en las estimaciones tiendan a permanecer
en la misma dirección (es decir, si el error es + 2,5% en el primer periodo, puede ser
+1,5% en el siguiente, pero dificílmente será -3%), lo que hace que los cambios se
midan con menor error absoluto que las estimaciones individuales de cada periodo.
Si suponemos muestreo aleatorio simple y que la varianza poblacional es la misma en
los dos periodos t1, y t2 se tiene que la varianza de la media en cada periodo es
V ( y1 ) = V ( y 2 ) =
S2
n
y la varianza de la diferencia resulta ser
V ( y 2 − y1 ) =
2S 2
(1 − ρπ c )
n
obteniéndose la mayor precisión cuando la parte común de la muestra es π c = 1 ,
mientras que si el cambio se estima a partir de muestras independientes la varianza
resulta en
V ( y 2 − y1 ) =
2S 2
n
Al estimar la media de los dos periodos resulta
2
 y 2 + y1  S
V
(1 + ρπ c )
=
 2  2n
y si las muestras son independientes
2
 y + y1  S
V 2
=

 2  2n
46
TÉCNICAS DE MUESTREO
2
 y + y1  S
Hay que notar que en el caso de π c = 1 y ρ = 1, sería V  2
, es decir, igual
=
 2 
n
a la varianza de la media de cualquiera de los periodos. Significa esto que utilizando la
misma muestra en cada periodo, siempre que ρ < 1 la media de dos periodos tiene algo
más de precisión que la de un periodo individual aunque, desde luego, mayor que si se
utilizaran muestras independientes.
En muestreo repetido de la misma población puede tener total sentido la dedicación de
parte de los recursos a lo que anteriormente se ha indicado como primera fase del
muestreo o censo muestral ya que su coste se amortiza sobre varias realizaciones de la
muestra objetivo. En estudios periódicos en el tiempo esta primera fase censal se vuelve
imprescindible si el Universo que se pretende estudiar cambia en el tiempo y no se
dispone de información sobre su evolución: en estos caso resulta necesario realizar
estudios censales periódicos (cada cinco, dos años, o de forma contínua) para preservar
de sesgos a la muestra de estudio. Lógicamente, la muestra de estudio, aunque se
pretenda constante en el tiempo, estará afectada por la propia evolución del Universo y
será necesario introducir cambios paulatinos en la misma para su adaptación al carácter
cambiante y evolutivo del Universo.
Cuando se muestrean poblaciones con un alto grado de asimetría ya se vió la
importancia del muestreo estratificado para la precisión. En estos casos la varianza por
estrato suele aumentar con el valor de la variable de estudio (tamaño de la unidad) de
forma que la afijación óptima es la única garantía para que el factor de expansión de las
unidades grande o muy grandes se mantenga dentro de límites razonables. Pensemos
que en cualquier proceso de muestreo, el total poblacional se estima aplicando a cada
unidad muestral un factor de expansión Fi, de forma que el total estimado es
n
YF
Y! = ∑ Yi Fi . La cantidad i i es la contribución de la i-ésima unidad muestral a la
Y!
1
estimación y es la misma para la estimación del total que para la media. Con muestreo
aleatorio o con afijación proporcional Fi es igual para todas las unidades muestrales y la
contribución depende del valor Yi: valores muy altos van a resultar en contribuciones
muy altas y estimaciones con alto error de muestreo y, por tanto, poco fiables. Resulta
intuitivo que cuanto mayor es Yi menor debe ser Fi con el fin de preservar a la
47
TÉCNICAS DE MUESTREO
estimación final de contribuciones extremas debidas a una sola o unas pocas unidades:
no parecería muy fiable una estimación obtenida con una muestra de 100 unidades (100
sumandos) , de las cuales una sola de ellas represente el 80% del total estimado, cuando
cada sumando en promedio contribuya con un 1%. La afijación óptima es la única
garantía para evitar estos problemas.
XII. ERRORES NO DE MUESTREO
Hasta ahora hemos supuesto que 1) la población marco coincide con la población
objetivo, 2) que la muestra real alcanzada se corresponde con la muestra inicialmente
planificada y seleccionada probabilísticamente y 3) que la información obtenida en cada
unidad muestral es correcta. En estas condiciones la única fuente de error del estimador
es el error de muestreo que es la variación aleatoria que se presenta cuando se miden n
de las unidades en lugar de la población completa N. Lamentablemente esta situación
ideal no se da con frecuencia en la práctica y debemos asumir la presencia de otros
errores, que se presentan cuando no se cumple cualquiera de los tres supuestos
mencionados y que se agrupan bajo el nombre de errores no de muestreo o errores
ajenos al muestreo.
Cuando la población marco no coincide con la población objetivo tenemos los llamados
errores de cobertura. Recordemos que la población marco es la población que sirve de
base para la selección de la muestra. Podemos pensar en un listado del que se selecciona
la muestra: puede haber unidades de la población objetivo no contenidas en el listado
(omisiones) o puede haber unidades en el listado que no se corresponden con la
población objetivo (unidades vacias), incluso el listado puede contener unidades
duplicadas:
(2)
(1)
(3)
(1)+(2) = población marco
48
TÉCNICAS DE MUESTREO
(1)+(3) = población objetivo
Con la muestra seleccionada de la población marco podremos estimar la proporción de
unidades (1) y hacer que los resultados estimados se refieran al Universo (1), parte
coincidente entre la población marco y la población objetivo, pero no a la parte (3),
conjunto de unidades omitidas en el listado. Una solución para disminuir errores de
cobertura puede ser la utilización de varios listados. No obstante, si las proporciones (2)
y (3) son altas será necesario utilizar conjuntamente una muestra de la lista junto con
otro procedimiento de selección, por ejemplo áreas, que nos permita acceder a la parte
(3). Una muestra en primera fase nos puede servir para determinar estimaciones de (1) y
(3) y por tanto de la población objetivo.
Los problemas de cobertura no son exclusivos de la utilización de listas. Pensemos en
un muestreo por áreas en una ciudad en el que se parte de planos o mapas incompletos:
manzanas, urbanizaciones o barrios de reciente construcción pueden quedar omitidos
del marco.
Cuando la muestra real alcanzada no se corresponde con la muestra inicialmente
planificada, es decir, no se obtiene información en todas las unidades de la muestra,
decimos que existe falta de respuesta o no respuesta. Aparte la no respuesta por
unidades omitidas en el marco, ya mencionada, la falta de respuesta puede agruparse en
dos principales tipos:
a) No localizado o falta de contacto, que puede ser debido a:
a1) Ausencia temporal durante las horas de entrevista (no-en-casa). Es conocido que
familias en las cuales ambos padres trabajan y las familias sin niños son más difíciles de
alcanzar que familias con niños pequeños o con personas jubiladas.
a2) Viaje, vacaciones.
a3) Enfermedad.
a4) Problemas de lenguaje.
a5) Movilidad gegráfica: cambio de dirección o domicilio, cambio de ciudad.
a6) Falta de motivación o experiencia en el entrevistador para contactar con el
entrevistado. Está comprobado que las tasas de no respuesta varían por entrevistador.
49
TÉCNICAS DE MUESTREO
a7) Barrio o vecindad “dificil”.
b) Negativa a colaborar, debido a:
b1) Falta de tiempo.
b2) Falta de motivación o de interés por el tema de la encuesta.
b3) No desea que el entrevistador conozca sus respuestas u opiniones.
b4) No desea estar “registrado”.
b5) Cansancio de las entrevistas.
b6) Cuestionario demasiado largo, preguntas complicadas, preguntas que rozan la
intimidad.
b7) Los “hueso duro”. Personas que cerradamente rechazan ser entrevistadas o están
sistemáticamente fuera de casa durante el tiempo disponible para el trabajo de campo.
b8) Falta de habilidad del entrevistador para conseguir la colaboración. Vale aquí el
comentario de a6): hay entrevistadores que consiguen mejores tasa de respuesta que
otros.
b9) La colaboración es, finalmente, voluntaria: “Busque a otro que yo no puedo ahora”.
A estos dos grupos de no respuesta puede añadirse la falta de respuesta parcial: el
entrevistado no responde a parte de las preguntas porque no tiene la información o,
simplemente, no está dispuesto a facilitarla.
Para evaluar los efectos de la falta de respuesta conviene pensar en la población dividida
en dos estratos: en el primero se incluyen todas las unidades para las cuales se
obtendrían mediciones si caen en la muestra y en el segundo se incluyen las unidades
para las que no se obtendrían mediciones. La muestra no proporciona información del
estrato 2, lo cuál no sería un problema si se pudiera suponer que las características que
se miden en el muestreo son las mismas, en promedio, en el estrato 2 que en el estrato1.
Desde el momento que esto no sea así estaremos en presencia de un sesgo causado por
la falta de respuesta.
Suponiendo muestreo aleatorio simple, sean N1 y N2 el número de unidades en el
Universo en cada uno de los dos estratos y W1 = N 1 N , W2 = N 2 N , es decir, W2 es la
proporción de no respuesta en toda la población y W1 la proporción de respuesta.
50
TÉCNICAS DE MUESTREO
Terminado el trabajo de campo tenemos datos del estrato 1 pero no del estrato 2 y
siendo la media muestral y1 estimador insesgado de la media poblacional del estrato 1,
Y1 , la cantidad de sesgo en la media de la muestra es
E ( y1 ) − Y = Y1 − Y = Y1 − (W1Y1 + W2 Y2 ) = W2 (Y1 − Y2 )
es decir, el sesgo es el producto de la proporción de no respuesta y la diferencia entre las
medias de los dos estratos. Al no disponer de información de Y2 , el tamaño del sesgo es
desconocido.
La falta de respuesta no debe ignorarse o pensar que se corrige sustituyendo en la
muestra a los que no responde por otros que sí colaboren, ya que ello no va eliminar el
sesgo, simplemente nos mantiene el tamaño de muestra. Por el contrario hay que ser
conscientes de que la no respuesta va a ocurrir y asignar, en lo posible, algunos recursos
y disponer de algunas estrategias para reducir su proporción. Algunos procedimientos
para reducir la no respuesta son:
1) Cartas y llamadas telefónicas por adelantado.
2) Dar algún incentivo por la colaboración.
3) Programar visitas repetidas puede ser de gran efectividad para reducir los no-en-casa.
4) Mejora de los procedimientos de recogida de información. Si la información se
recoge por entrevista personal el entrenamiento del entrevistador es fundamental: la
interacción positiva entrevistador-entrevistado es básica para el éxito de la entrevista, lo
cuál puede requerir que el entrevistador disponga de distintas estrategias para afrontar la
entrevista en función de ciertas características observables de los encuestados. Preservar
la intimidad del entrevistado puede favorecer el dejarle el cuestionario para que lo
rellene y envíe posteriormente por correo, aunque se haya tenido un primer contacto
personal para obtener la colaboración. Otro aspecto a tener en cuenta es que cuanto más
activa (más tiempo requiere) sea la colaboración de la unidad muestral menor es su
disposición a colaborar: pensemos en un panel de audiencia de TV en el que el hogar
debe rellenar y enviar por correo un largo y tedioso cuestionario sobre qué ha visto cada
día en relación con la instalación de un audímetro conectado al televisor que registra y
transmite lo que el televisor emite en cada momento; la colaboración del hogar en el
caso del audímetro es mucho más pasiva (menos molestia), lo cuál favorece la
colaboración.
51
TÉCNICAS DE MUESTREO
En la práctica y a pesar de las medidas que se tomen será imposible, en general, reducir
la no respuesta a cero por lo que se hace imprescindible su medición y control. Un
primer aspecto en este sentido es cuantificar la tasa de no respuesta según distintas
causas. Ello puede ayudar para reducir las tasas de no respuesta en encuestas
posteriores. En ocasiones será posible recoger ciertas características observables de las
unidades no respuesta que puedan ser utilizadas posteriormente en procedimientos de
ajuste para remover los sesgos de no respuesta en las estimaciones finales.
Normalmente, además de las variables que hayan servido para la estratificación del
Universo se dispone de información poblacional de otras características que pueden
servir para controlar la “microrrepresentatividad” final de la muestra obtenida,
comparando los valores poblacionales de estas variables conocidas con los estimados
por la muestra. Éste control de microrrepresentatividad es fundamental en presencia de
falta de respuesta y nos puede ayudar a determinar ciertas características del estrato de
no respuesta Las desviaciones que se producen pueden utilizarse para modificar los
factores de expansión originales de cada unidad muestral, en un proceso iterativo, hasta
conseguir que los valores “estimados” coincidan con los conocidos en el Universo para
las distintas variables incluidas en el proceso. Este proceso iterativo de ajuste en los
factores originales de expansión se conoce también como equilibraje de la muestra y
puede contribuir a remover sesgos introducidos en la muestra final, en la medida en que
las variables objeto de investigación puedan estar correlacionadas con las variables que
intervienen en el proceso de equilibraje.
Un tercer tipo de error no de muestreo se produce por errores de medición y errores que
se introducen en la producción de los resultados de una encuesta. Estos errores suceden
cuando el valor medido Yi* (o el utilizado para la estimación) no se corresponde con el
valor real Yi. Se conocen también por errores de respuesta y pueden ser varias las
causas que los producen:
1) Instrumentos de medición inadecuados o sujetos a error.
2) Fallos de memoria. El entrevistado responde lo que él cree que hizo, pero no lo qué
realmente hizo.
52
TÉCNICAS DE MUESTREO
3) El entrevistado dá una respuesta falsa, bién inducido por el entrevistador (quizá por el
cuestionario), o bién porque no desea que “su verdad” quede registrada (“qué dirán...”).
4) Olvido. Por ejemplo en un panel de hogares el hogar colaborador olvida anotar
algunas compras en el diario o en un panel de audímetros una persona olvida
identificarse.
5) Falta de información. El informante no dispone de toda la información para contestar
y da una respuesta aproximada.
6) Errores de codificación y grabación que introducen en el proceso un valor erróneo
con independencia de que el valor original fuera correcto o no.
Si suponemos que las mediciones Yi estan sujetas a un sesgo constante B = Yi * − Yi cuya
magnitud se desconoce, entonces la media muestral está también sujeta al sesgo,
mientras que la estimación del error de muestreo no se ve afectado por el sesgo ya que
se deriva de una suma de cuadrados de los términos (Yi − y ) . Este hecho puede
2
desvirtuar los límites de confianza, al aplicar a una cantidad sesgada una variabilidad
que no contempla el sesgo. Con sesgo constante, estimadores de cambio de un periodo a
otro o de un estrato a otro permanecen sin sesgo, precísamente por la constancia del
mismo.
Si los errores de medición son independientes de unidad a unidad dentro de la muestra y
promedian cero sobre toda la población la media muestral sigue siendo estimador
insesgado y los errores de medición son tenidos en cuenta en el cálculo de errores
estándar. La precisión de las estimaciones disminuye. Si los errores de medición no son
independientes la formula usual de error estándar es un subestimador, debido a que en la
práctica la correlación intramuestra de los errores será positiva.
Una técnica útil para para el estudio de errores correlacionados es el de submuestras
mutuamente penetrantes. En forma simple consistiría en dividir una muestra aleatoria de
n unidades en k submuestras de n/k unidades cada una. El trabajo de campo y
procesamiento se planean de forma que no hay correlación entre los errores de medición
de dos unidades cualesquiera en submuestras diferentes. Por ejemplo si la correlación
que hay que tratar proviene solo de sesgos imputables a los entrevistadores se puede
53
TÉCNICAS DE MUESTREO
asignar cada submuestra a un entrevistador. Un análisis de varianza posterior “entre
submuestras” y “dentro de submuestras” ayuda a determinar el efecto del entrevistador.
Con datos cuantitativos se mencionó anteriormente el concepto de contribución de una
unidad muestral al total estimado. El análisis cuidadoso de las contribuciones puede
ayudar en la detección de datos especialmente extremos que pueden tener efectos fuertes
en las estimaciones y provenir de errores de medición.
Como comentario final hay que decir que al planear un estudio por muestreo debe
prestarse especial atención a los errores no de muestreo que pueden presentarse en
cualquier fase del trabajo y, si son importantes, incluso invalidar los resultados. Por otra
parte detectarlos y cuantificarlos no es tarea fácil. Sólo la anticipación y el análisis
cuidadoso de cada paso en el proceso de muestreo y de los resultados pueden ayudar.
Los errores de muestreo desde el momento que pueden ser evaluados y estimados dejan
de tener importancia. El error de muestreo se constituye en una medida de la calidad del
diseño teórico de la muestra pero no mide la calidad real, afectada por los errores no de
muestreo.
54
Descargar