MUESTREO EN POBLACIONES FINITAS Antonio Morillas

Anuncio
A. Morillas: Muestreo en poblaciones finitas
MUESTREO EN POBLACIONES FINITAS
Antonio Morillas1
1 Conceptos estadísticos básicos
2 Etapas en el muestreo
3 Tipos de error
4 Métodos de muestreo
5 Tamaño de la muestra e inferencia
6 Muestreo en poblaciones finitas
6.1 Muestreo aleatorio simple
6.2 Muestreo aleatorio estratificado
1
Estos apuntes de clase incorporan diversas sugerencias realizadas por los profesores M. Aguilar, A. Caparrós y
B. Díaz. En sus primeras páginas, especialmente, se recogen lugares comunes acerca del muestreo tratados en
diversos manuales.
1
A. Morillas: Muestreo en poblaciones finitas
Muestreo en poblaciones finitas
1. Conceptos estadísticos básicos
A lo largo del curso se ha estudiado como hacer inferencia acerca de la población partiendo de la
información suministrada por la muestra. Pero casi nada se ha dicho aún sobre dos aspectos
importantes del proceso de inferencia:
•
como seleccionar los elementos u observaciones de una muestra.
•
como proceder en esa selección y cuál es su tamaño adecuado, si la población no es tan grande
como se ha venido admitiendo hasta ahora (infinita).
Se ha visto a lo largo de la asignatura como la ciencia estadística es una herramienta fundamental en la
investigación económica y empresarial, dado que permite conocer las características de poblaciones
concretas, contrastar hipótesis sobre ellas o realizar predicciones sobre su evolución. Dentro de este
proceso un componente de gran ayuda para el investigador, que aún no se ha estudiado, es la
realización de encuestas. Este va a ser el objeto básico de la presente lección. No obstante, antes de
meternos en ello, es conveniente recordar algunos conceptos básicos:
a) Población.
Colectivo objeto del estudio formado por un conjunto de elementos con características similares y
sobre el que se pretenden inferir regularidades.
b) Muestra.
Subconjunto de la población o colectivo que se investiga. Debe ser representativa del conjunto de la
población.
c) Individuos.
Cada uno de los elementos que forman la población. Los individuos pueden ser:
-
Personas físicas: por ejemplo, un cliente de una empresa.
-
Personas jurídicas o sociedades: por ejemplo, una empresa hotelera.
-
Unidades familiares: por ejemplo, una familia de turistas.
d) Variables cuantitativas.
Caracteres que se observan en los individuos y que son susceptibles de tener valores numéricos: por
ejemplo, edad y gasto mensual del encuestado.
2
A. Morillas: Muestreo en poblaciones finitas
e) Atributos.
Son variables cualitativas, que no son susceptibles de tomar valores y se expresan mediante
modalidades: por ejemplo, sexo del encuestado, medio de transporte al destino, nivel de estudios.
2. Etapas en el muestreo.
Antes de preguntarnos de qué manera se toma una muestra de una población, quizás debíamos de
cuestionarnos sobre la necesidad de trabajar con muestras. La alternativa sería tratar de obtener la
información para todos y cada uno de los elementos de la población, es decir, trabajar con censos más
bien que con encuestas. Pero recordemos que hay, al menos, tres buenas razones para que una muestra
sea generalmente preferida a un censo:
•
El coste, ya que un censo será mucho más caro y, a veces, incluso, prohibitivo.
•
El tiempo disponible, cuando en muchos casos la información se necesita de forma más o
menos urgente.
•
La precisión que presumiblemente se ganaría con un censo no compensa la pérdida en tiempo
y dinero, pudiéndose alcanzar un nivel razonable de precisión con un adecuado método de
muestreo.
Los pasos a seguir dentro de un proceso de muestreo son:
1.-Definir la información que se necesita.
Esto supone en la práctica la búsqueda de un equilibrio entre las preguntas acerca de la cuestión
principal o motivo de la encuesta y lo que puede ser complementario, introducido con afán de
aprovechar el esfuerzo económico y de dedicación que supone una encuesta.
2.-Determinar la población a muestrear y comprobar si existe un listado.
Hay que definir la población de referencia de forma adecuada, pues, aunque el método seguido sea
correcto, las conclusiones no serán válidas si la población no ha sido elegida de forma adecuada. Por
ejemplo, encuestas de opinión entre los turistas procedentes de Holanda, no se pueden extrapolar para
definir la opinión del conjunto de los potenciales turistas de toda la Unión Europea.
Como se ha dicho anteriormente, el paso previo a la realización de cualquier proceso de muestro se
centra en la concreción de los objetivos del estudio, definiendo así, implícitamente, las características
y la naturaleza de la población a analizar. Esta parte de la investigación requiere una definición de las
variables a utilizar en el ámbito poblacional, sus características y su periodo de referencia. Así, por
ejemplo, si se quieren estudiar las características de la demanda turística de las familias procedentes en
un determinado país de la UE, es evidente que la población objeto de estudio es exclusivamente la
formada por las familias residentes en el mismo.
3
A. Morillas: Muestreo en poblaciones finitas
De acuerdo con los objetivos establecidos en la investigación, debe obtenerse toda la información
correspondiente a esas familias, así como los movimientos turísticos realizados por ellas. Por tanto, las
variables a las que se referirá el estudio serán una serie de características sociodemográficas,
económicas y culturales relativas a esas familias.
Del mismo modo, se debe definir la cobertura o ámbito de objeto del estudio, tanto temporal (periodo
en que es interesante el estudio), como geográfica (delimitación geográfica del trabajo). Cuando la
población está bien definida es relativamente fácil obtener una muestra representativa. El problema
surge cuando la población no está bien delimitada o no es conocida. Por ejemplo, esto ocurriría si el
objetivo del estudio fuera la población futura de visitantes a un parque temático que se acaba de
construir. En este caso es evidente que se desconoce la posible población, así como las características
que la definen. Por ello, el trabajo de obtención de la muestra resulta más complejo, y sería imposible
de realizar si no fuera con la inclusión de determinados supuestos en el análisis.
La definición de las unidades de estudio es un paso necesario en esta etapa del proceso. Las unidades
de estudio pueden ser los individuos (los turistas que llegan a un balneario) o bien grupos de
individuos con algunas características comunes (las familias u hogares de un determinado país, los
jóvenes, los matrimonios sin hijos...).
El resultado del estudio, como se ha dicho, depende en gran medida de la adecuación de la muestra a
los objetivos y al marco de la investigación. Es por ello que en esta fase se deben recoger
explícitamente todos los posibles casos poblacionales que se pretenden analizar. Por ejemplo, si lo que
se quiere estudiar son las características de la demanda potencial de un determinado destino turístico
es evidente que no se puede obtener una muestra sólo de los turistas que viajan a ese destino. Esto
supondría dejar de lado una parte importante de información que proporcionarían otros turistas que
estarían dispuestos a viajar a ese destino, si las condiciones variaran. Por el contrario, si el objeto del
estudio es analizar las circunstancias que permiten la fidelización de los turistas a un destino concreto,
la muestra debería ser tomada exclusivamente entre aquellos que hayan visitado más de una vez dicho
destino.
3.-Definición del método a seguir para tomar la muestra y su tamaño.
No hay un método óptimo de llevar a cabo la selección de los elementos de la muestra. Dependerá,
generalmente, del problema que nos ocupa y de los recursos disponibles. El más conocido es el
muestreo aleatorio simple, en el que cada uno de los n elementos de la muestra tiene la misma
probabilidad de ser elegido. Sin embargo, hay circunstancias en que pueden ser mas indicados otros
tipos de muestreo. Por ejemplo, si deseamos recabar información acerca de la opinión de los visitantes
de un destino turístico, no sería lógico hacer un muestreo aleatorio simple, sino que lo más razonable
sería hacer un muestreo por estratos, teniendo en cuenta características diferenciadoras como podrían
ser la edad, el país de origen o el nivel de renta.
4
A. Morillas: Muestreo en poblaciones finitas
Otro aspecto importante, que veremos más adelante, será el tamaño de la muestra, que dependerá del
grado de fiabilidad requerido y del coste.
4.-Diseño adecuado de la forma de obtener la información (cuestionario).
Los cuestionarios son la serie de preguntas que constituyen el tema de la encuesta. La elaboración de
un cuestionario adecuado resulta fundamental para la obtención de la información necesaria para
llevar a cabo el estudio. Las características de un buen cuestionario han de ser:
-
Objetividad: el entrevistador nunca debe influir en la opinión del entrevistado.
-
Claridad: es importante utilizar un lenguaje fácilmente asimilable por el entrevistado.
-
Precisión: hay que definir bien las cuestiones y evitar ambigüedades para obtener la
información que se busca.
-
Corrección: ha que evitar preguntas que por su contenido o su lenguaje puedan molestar al
entrevistado.
-
Duración limitada: hay que reducir el tamaño del cuestionario lo máximo posible, evitando
preguntas repetidas o excesivamente largas, para impedir el cansancio y la monotonía en las
respuestas del entrevistado.
Las tipologías de preguntas que nos podemos encontrar son:
-
Pregunta abierta: el entrevistado tiene libertad para contestar.
-
Pregunta cerrada: el entrevistado debe contestar seleccionando una o varias opciones de las
que se le proponen. La pregunta cerrada facilita la tabulación posterior de las respuestas.
-
Pregunta mixta: por ejemplo, una pregunta cerrada donde una de las opciones es una
pregunta abierta de respuesta libre.
Las diferentes formas de realizar la entrevista son:
-
Entrevista personal: el entrevistador y el entrevistado mantienen un trato directo.
-
Entrevista telefónica.
-
Entrevista postal: envío del cuestionario por correo.
-
Entrevista virtual (uso de Internet).
Desde el punto de vista de la inferencia estadística, hay que tratar de asegurar dos aspectos claves:
•
Que el número de no respuestas no sea alto, para evitar que los cuestionarios de los que
responden dejen de ser representativos del conjunto de la población. El número de preguntas y
la forma en que se realiza la encuesta (entrevista personal, correo, teléfono, etc.) tiene mucho
que ver con la tasa de no respuesta. Conviene analizar la falta de respuesta con objeto de ver la
5
A. Morillas: Muestreo en poblaciones finitas
representatividad que podemos seguir adjudicando a la muestra (características o patrón de
comportamiento de los elementos no observados por falta de respuesta).
•
Que las respuestas sean honestas y precisas. La técnica (arte) en el diseño del cuestionario y
en la realización de la entrevista, o forma de hacer la pregunta, es esencial en este punto.
5.-Uso de la muestra para hacer inferencia.
Se comienza con la preparación y análisis de los datos: codificación, depuración y análisis descriptivo
inicial. Posteriormente, se entra en la inferencia, de la que ya se han estudiado diversas formas de
realizarla. A lo largo de esta lección, no obstante, trataremos algunos métodos de inferencia para tipos
particulares de muestreo.
6.-Obtención de conclusiones acerca de la población.
Se trata de resumir y presentar la información obtenida: estimación por intervalos, tablas resumen,
presentaciones gráficas, etc. Una vez destacadas las conclusiones del estudio, puede argumentarse
como actuar y, posiblemente, sugerir la obtención posterior de nueva información de interés aparecida
a lo largo del estudio. En este sentido, muchas veces, la aparición de cuestiones importantes no
previstas en el proceso, puede servir de estímulo para posteriores estudios de la población.
3. Tipos de error
Nunca sabremos, ciertamente, cuál es el verdadero valor de cualquier parámetro poblacional. Una
fuente posible de error procede del hecho de que no observamos toda la población, y le llamamos error
de muestreo, de azar o de estimación. Este tipo de error es inevitable, ya que siempre habrá diferencia
entre los valores medios de la muestra y los valores medios de la población. La magnitud de este error
depende del tamaño de la muestra (a mayor tamaño de muestra menor error) y de la dispersión o
desviación estándar del estimador (a mayor dispersión mayor error).La Estadística estudia de qué
forma se puede tratar ese tipo de error o, al menos, cómo se puede incorporar en el proceso de
inferencia (intervalos de confianza, nivel de significación, etc.).
Sin embargo, hay otras posibles fuentes de error que no pueden ser tratadas de la misma forma. Los
llamaremos errores ajenos al muestreo y algunos de ellos son:
•
Definición incorrecta de la población de referencia.
•
Respuestas imprecisas o falsas. Normalmente proceden de falta de claridad en el cuestionario
y de la formulación de preguntas delicadas para el entrevistado.
•
Falta de respuesta. Este hecho puede producir estimaciones sesgadas, ya que los que
respondieron pueden no representar fielmente a la población. Por eso, en este caso, conviene
analizar las características de los que no lo hicieron (posible sesgo) y compararlas con los que
sí lo hicieron, para ver si son homogéneos o no ambos grupos.
6
A. Morillas: Muestreo en poblaciones finitas
•
Sesgo en la selección de los elementos de la muestra. Por ejemplo, cambio de un vecino por
otro ausente, desatendiendo el proceso de muestreo estipulado.
•
Errores de manipulación, tabulación y cálculo.
No existe un procedimiento general para evitar y analizar tales errores. Pero el investigador debe
tenerlos muy presentes para tratar de minimizarlos. Es preciso recabar toda la información disponible.
Puede hacerse una encuesta previa para detectar posibles fallos.
4. Métodos de muestreo
Los métodos de muestreo pueden ser de dos tipos: aleatorios y no aleatorios, dependiendo del método
de obtención de la muestra. En los primeros, la selección de los elementos de la muestra es aleatoria e
independiente de la opinión de cualquier persona (investigador o entrevistador). En los segundos, esta
condición no siempre se cumple. En ambos casos, pueden seleccionarse elementos de la población
(por ejemplo, empleados) o grupos de elementos (por ejemplo, familias). De esta forma, podemos
establecer la siguiente clasificación de los métodos de muestreo:
Figura 1. Principales métodos de muestreo
Muestreos
aleatorios
Unidad
muestral
elemental
Muestreo
aleatorio
simple
Muestreo
aleatorio
sistemático
Unidad
muestral
grupo
Muestreo
aleatorio
estratificado
Muestreo por
áreas y
conglomerados
Muestreo
por
etapas
Muestreos
no
aleatorios
Muestreo
por cuotas
Muestreo de
juicio
u opinión
Muestreo
intencional
Muestreo por
bola de nieve
7
A. Morillas: Muestreo en poblaciones finitas
Una clasificación general de estos métodos puede verse en la Figura 1. A continuación, vamos a
realizar un breve recorrido de los mismos, pero centrándonos fundamentalmente en los definidos como
aleatorios.
1) Muestreo aleatorio.
Muestreo aleatorio simple.
Se caracteriza porque cada elemento de la población tiene la misma probabilidad de ser elegido. Si se
dispone de una lista de los elementos de la población, la selección de una muestra aleatoria simple es
muy sencilla. Supongamos que numeramos los elementos de la población de 1 a N, una muestra
aleatoria simple puede obtenerse colocando N bolas numeradas en una caja, mezclándolas, y
extrayendo n de ella, o bien, también puede utilizarse una tabla de números aleatorios, ordenador o
simple calculadora de mano (tecla RANDOM – RND).
Muestreo aleatorio sistemático.
Si existe una lista de los elementos de la población en la que aparecen ordenados y el orden existente
no es un factor distorsionante de la aleatoriedad para el tema bajo estudio (de ser así habría sesgo en la
selección) se utiliza con mayor frecuencia el muestreo sistemático. Se trata de seleccionar un primer
elemento al azar (arranque aleatorio) entre 1 y p, siendo p=N/n, y, si este elemento es el k-ésimo, los
demás se obtienen sumándole p al inmediato anterior: k, k+p, k+2p, .......
El método garantiza que aparezcan elementos de todas las clases, por lo que genera muestras más
representativas que el aleatorio simple. Este procedimiento exige, como el anterior, numerar todos los
elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno.
El riesgo de este tipo de muestreo está en los casos en que se dan periodicidades en la población ya
que al elegir a los miembros de la muestra con una periodicidad constante (p) podemos introducir una
homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra
sobre diferentes listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres,
si empleamos un muestreo aleatorio sistemático con p=10 siempre seleccionaríamos o sólo hombres o
sólo mujeres, no podría haber una representación de los dos sexos. Otro ejemplo: si seleccionamos una
muestra de ocupación hotelera basada en una serie de datos mensuales para distintos años y p=12,
siempre se obtendría la observación correspondiente al mismo mes, por lo que la muestra estaría
afectada por el sesgo propio del factor estacional encontrado en el arranque aleatorio (al alza en meses
de alta ocupación, a la baja en el resto)
Muestreo estratificado.
Hace referencia a poblaciones con características diferentes, en las que existen estratos (grupos)
homogéneos con respecto al carácter que se investiga y que, por tanto, deben ser analizados de forma
diferente, ya que pueden obtenerse estimaciones más precisas (menos errores) tomando una muestra
8
A. Morillas: Muestreo en poblaciones finitas
aleatoria en cada estrato y, además, se garantiza que todos los estratos (subpoblaciones, en definitiva)
estén representados. Cada estrato tiene elementos que son homogéneos entre sí y heterogéneos
respecto a los demás estratos. Por ejemplo, si se quieren estudiar características de los hoteles de una
determinada provincia, se tienen como estratos los hoteles de 5 estrellas, de 4 estrellas, de 3 estrellas,
etc. y se utilizará un muestreo estratificado que nos asegure una adecuada representación de todos los
estratos.
Muestreo por conglomerados y por áreas.
En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que
forman una unidad, a la que llamamos conglomerado (familias, empresas, municipios, etc.). El
muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de
conglomerados (el necesario para alcanzar el tamaño muestral establecido) e investigar después todos
los elementos pertenecientes a los conglomerados elegidos.
En el caso particular de que los conglomerados sean áreas geográficas –bastante frecuentehablaremos de muestreo por áreas.
Muestreo polietápico o por etapas.
El muestreo polietápico es una generalización del muestreo por conglomerados en el que se intenta
reducir el coste al mínimo. En la primera etapa se selecciona un número determinado de
conglomerados (unidades primarias de muestreo), por ejemplo, provincias. En la segunda se
seleccionan conglomerados más pequeños pertenecientes a los anteriores (unidades secundarias de
muestreo), por ejemplo, municipios. Y así sucesivamente (procedimiento de “embudo”) hasta llegar a
los elementos de la población que van a ser observados (unidades últimas). Sólo necesitamos, por
tanto, contar con un listado de los elementos de esta última etapa.
Como ejemplo práctico, la Encuesta de Población Activa (EPA), una investigación por muestreo de
periodicidad trimestral realizada por el INE desde 1964 dirigida a analizar la actividad laboral, utiliza
un muestreo en dos etapas con estratificación en la primera etapa. El INE selecciona como unidades
muestrales primarias alrededor de 3.000 secciones censales de entre las más de 30.000 en que esta
dividida España2. En cada una de estas secciones censales se entrevistan un promedio de 20 viviendas
familiares (unidades muestrales secundarias), obteniéndose una muestra de aproximadamente 64.000
viviendas para las que se recoge información para todos sus miembros, lo que produce una muestra
final en torno a las 200.000 personas.
Como resumen, en términos generales, las ventajas e inconvenientes de los distintos tipos de muestreo
aleatorio se presentan en la Tabla 1:
2
Una sección censal es una unidad territorial que se establece con criterios operativos para el trabajo de campo en las
operaciones estadísticas, mediante la subdivisión de los distritos de los municipios atendiendo fundamentalmente al volumen
de población. En esta etapa el diseño de la EPA estratifica las secciones censales utilizando un doble criterio: geográfico y
socioeconómico.
9
A. Morillas: Muestreo en poblaciones finitas
Tabla 1: Ventajas e inconvenientes de los diferentes tipos de muestreo aleatorio
CARACTERISTICAS
Se selecciona una muestra de tamaño n de
Aleatorio simple una población de N unidades, cada
elemento tiene una probabilidad de
inclusión igual y conocida de n/N.
Sistemático
Estratificado
VENTAJAS
Sencillo y de fácil comprensión.
INCONVENIENTES
Requiere que se posea de
antemano un listado
completo de toda la
población. Caro.
Se necesita un listado de los N elementos de Fácil de aplicar. Cuando la
población está ordenada
la población. Tras determinar el tamaño
siguiendo una tendencia
muestral n, se define un valor p= N/n. Se
conocida, asegura una cobertura
elige un número aleatorio, k, entre 1 y p
(k= arranque aleatorio) y se seleccionan los de unidades de todos los tipos.
elementos de la lista que ocupan los lugares
k, k+p, k+2p, ....
Si la constante de muestreo
está asociada con el
fenómeno de interés, las
estimaciones obtenidas a
partir de la muestra pueden
contener sesgo de selección
En ciertas ocasiones resultará conveniente
estratificar la muestra según ciertas
variables de interés. Para ello debemos
conocer la composición estratificada de la
población.
Tiende a asegurar que la muestra
represente adecuadamente a la
población en función de las
variables seleccionadas.
Estimaciones más precisas.
Su objetivo es conseguir una
muestra lo más semejante posible
a la población en lo referente a las
variables estratificadoras.
Se ha de conocer la
distribución en la población
de las variables utilizadas
para la estratificación.
Es muy eficiente cuando la
población es muy grande y
dispersa.
No es preciso tener un listado de
toda la población, sólo de las
unidades últimas de muestreo.
Menor coste.
El error estándar es mayor
que en el muestreo aleatorio
simple o estratificado.
El cálculo del error estándar
es complejo.
Se seleccionan aleatoriamente cierto
Conglomerados- número de conglomerados y se investigan
todos los elementos de cada uno de ellos. El
Etapas
muestreo por etapas es una generalización,
que va de más grandes a más pequeños. Se
realizan varias fases de muestreo sucesivas.
2) Muestreo no aleatorio
A veces, para estudios exploratorios, el muestreo aleatorio resulta excesivamente costoso y se acude a
métodos no aleatorios, aun siendo conscientes de que no son adecuados para realizar generalizaciones,
pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la
población tienen la misma probabilidad de se elegidos. Sólo comentaremos aquí el muestreo por
cuotas y el de opinión.
Muestreo por cuotas.
También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen
conocimiento de los estratos de la población y/o de los individuos más "representativos" o
"adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo
aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.
10
A. Morillas: Muestreo en poblaciones finitas
En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen
unas determinadas condiciones (variables de control), por ejemplo: 20 individuos de 25 a 40 años, de
sexo femenino y residentes en Málaga. Siempre que se ajuste a las cuotas fijadas, el entrevistador tiene
libertad para elegir a los entrevistados. Este método se utiliza mucho en las encuestas de opinión.
Muestreo de juicio o de opinión.
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas"
mediante la inclusión en la muestra de grupos supuestamente típicos. Para la obtención de una muestra
mediante este método se puede acudir a criterios específicos de los investigadores o bien requerir las
opiniones de expertos en la materia. Por ejemplo, cuando el interés del estudio se centra en comparar
las características diferenciadoras de los clientes que han presentado cierta insatisfacción en el servicio
respecto a aquellos otros que no, se determina a juicio del investigador un número predeterminado de
encuestas a los clientes satisfechos y otro número de encuestas a clientes insatisfechos.
5. Tamaño de la muestra e inferencia.
La muestra debe reproducir las características del universo o población. Hay dos cuestiones básicas: la
primera, sobre la cantidad de elementos que debe incluir la muestra y, la segunda, hasta qué punto
puede generalizarse a la población el resultado obtenido en ella. Ambas cuestiones conducen al
problema de la exactitud o precisión de la estimación del parámetro desconocido. El objetivo es no
incurrir en errores a la hora de obtener los resultados. Pero como los errores son inevitables, lo
importante entonces es minimizarlos.
Una vez especificadas las características que ha de tener la muestra, hay que determinar su tamaño (n),
de forma que sea suficientemente representativa de la población y que asegure, para un nivel de
confianza (1-α) dado, un error muestral (ε) máximo permitido. La población puede ser infinita (a
veces, suele considerarse infinita cuando tiene más de 100.000 elementos) o de tamaño finito N, que
es lo más general. Vamos a ver, como introducción general al caso más real de poblaciones finitas, la
forma en que se puede tratar este tema cuando la población se supone infinita.
Caso de la media:
El error muestral se define como la diferencia entre el verdadero valor del parámetro y el arrojado por
su estimador para la muestra en cuestión:
ε = µ−x
Recordemos que un intervalo de confianza del 100(1-α) % para la media, en caso de normalidad,
vendría dado por:
11
A. Morillas: Muestreo en poblaciones finitas
x − z1−α / 2σ x ≤ µ ≤ x + z1−α / 2σ x
µ − x ≤ z1−α / 2σ x → σ x =
σ
n
Se desprende de la anterior expresión que siempre son el nivel de confianza y el error estándar o
desviación típica del estimador del parámetro desconocido los que determinan la amplitud del error
que cometemos al estimar dicho parámetro con una muestra de tamaño n. El error máximo para una
muestra de tamaño n, cuando se estima la media en una población normal con una confianza del
100(1-α) %, sería, por tanto:
ε = µ − x = z1−α / 2
σ
n
En esta expresión, σ es la desviación típica poblacional, x la media de la muestra y µ la media
poblacional.
Obsérvese una cuestión que va a ser muy importante desde un punto de vista conceptual: dado un
nivel de confianza (z, en definitiva), otorgar un determinado valor al error máximo que se puede
cometer, equivale exactamente a fijar la varianza del estimador. Despejando, resulta que el tamaño de
la muestra viene dado por la siguiente expresión:
n=
z12−α / 2σ 2
ε2
Recordemos que z1-α/2 es un valor (percentil) de la distribución normal tipificada que acumula a su
izquierda una probabilidad de (1-α/2), o lo que es igual, α/2 a su derecha. Este valor es de 1,96 para
un nivel de confianza del 95 %. Es bastante frecuente redondear los valores del percentil de Z a z =2 y
a z =3, siendo entonces del 95,5% y 99,5%, respectivamente, los correspondientes niveles de
confianza. Para el primer caso, por ejemplo, el tamaño de la muestra vendría dado por la expresión:
n=
4σ 2
ε2
En la mayoría de los casos se desconoce el valor de σ, por lo que es necesario establecer un proceso de
muestreo previo con información más reducida (muestra piloto) y a partir de ahí estimar la varianza σ,
o bien utilizar los resultados obtenidos en otro estudio.
12
A. Morillas: Muestreo en poblaciones finitas
Ejemplo:
Para llevar a cabo el análisis de un destino turístico con alta afluencia de turistas (200.000, en
concreto) se desea realizar una encuesta para determinar el gasto medio por turista. Se ha decidido
aceptar un error máximo en el gasto medio de 30 euros. Suponiendo una desviación estándar de la
población de 200 euros y un nivel de confianza del 95%, obtenga el tamaño adecuado de la muestra.
Solución:
Al ser una población mayor de 100.000 elementos, vamos a tratar el tema, por ahora, como si se
tratase de una población infinita, tal y como se ha dicho anteriormente. Así, la fórmula para obtener el
tamaño de la muestra es:
n=
z12−α / 2σ 2
ε2
=
1,962 × 2002
= 170, 74 ≈ 171
302
Caso de la proporción:
Cuando se estima una proporción, caso frecuente de respuestas dicotómicas, la varianza del estimador
de la proporción es, como se recordará:
σ p̂2 =
pq
n
El error máximo vendría dado, de acuerdo con lo que acabamos de ver, por:
ε = p − pˆ = z1−α / 2
pq
n
El tamaño de la muestra se obtendrá, como anteriormente, despejando n de esta expresión:
n=
z12−α / 2 pq
ε2
Generalmente, los valores poblacionales de la proporción buscada (p) y de su complementario (q=1-p)
se desconocen. Pero en este caso, en vez de obtenerlos mediante una muestra piloto, pueden sustituirse
por p=q=0,5, lo que conduce al máximo valor exigible de n, ya que cualquier otra combinación de
valores de p y q, al multiplicarlos, daría una valor inferior a 0,25. Obsérvese además que si se
considera una confianza del 95,5%, el valor de nmax queda sólo en función del error:
nmax =
4 pq
ε
2
=
4 × 0, 25
ε
2
=
1
ε2
13
A. Morillas: Muestreo en poblaciones finitas
Ejemplo
Para completar el análisis del anterior destino turístico, se desea realizar utilizar la encuesta para
determinar la proporción de visitantes de origen europeo. Se ha decidido aceptar un error máximo del
5%, y un nivel de confianza del 95,5%. Obtener el tamaño de la muestra.
Solución:
Con esta información, puesto que no sabemos nada acerca del valor poblacional de p, el tamaño de la
muestra sería:
nmax =
4 pq
ε
2
=
4 × 0, 25
= 400
(0, 05) 2
La respuesta a por qué en estudios de mercado y encuestas de opinión se utiliza a menudo un tamaño
muestral de 400, 1110 ó 2500 está en esta fórmula: se asume un desconocimiento total de la
proporción en la población, por lo que se considera p=0.5, se usa un nivel de confianza del 95.5% y la
imprecisión máxima admisible (error) se suele fijar en el 5, 3 ó 2%, respectivamente.
Caso del total:
Por último, el tercer parámetro en el que podemos estar interesados es por el total o suma de todos los
valores de la variable, que en una población, como se recordará, viene dado por N µ . Evidentemente,
si estamos hablando de conocer N, la población ha de ser finita, cosa que no hemos supuesto en los
dos casos anteriores. Pero vamos a continuar desarrollando este caso sólo con el objeto de cerrar el
tratamiento de la búsqueda del tamaño muestral, cuando se pretende hacer inferencia sobre los tres
parámetros más comunes. Ya veremos, sin embargo, como para poblaciones finitas todas estas
expresiones del tamaño de la muestra cambian. Pero, como hemos dicho anteriormente, sigamos el
argumento como simple ejercicio, para más adelante puntualizarlo debidamente.
Por ejemplo, se puede estar interesado en el gasto total anual de los turistas que visitan una cierta zona.
Es fácilmente comprensible que, en este caso, el mejor estimador de ese total vendría dado por Nx .
Y, puesto que N es constante, la varianza del total será:
2
σ Nx
= Var ( Nx ) = N 2σ x2 → σ Nx = N σ x
El error para el total, por tanto, será el de la media multiplicado por N:
ε T = N µ − Nx = z1−α / 2 N
σ
n
= Nε
14
A. Morillas: Muestreo en poblaciones finitas
Simplificando N en los dos últimos miembros de esta igualdad, se comprueba fácilmente que el
tamaño de la muestra debería de ser exactamente igual que para el caso de la media.
Ejemplo:
Para completar el análisis del destino en estudio se desea conocer también el gasto total que los
turistas realizarán en la zona. Se ha decidido aceptar un error máximo en el gasto total de 6 millones
de euros. Suponiendo un nivel de confianza del 95%, obtener el tamaño adecuado de la muestra.
Solución:
ε T = z1−α / 2 N
n=
σ
n
→n=
z 21−α / 2 N 2σ 2
ε T2
1,962 × 2000002 × 2002
= 170,74 ≈ 171
60000002
Obsérvese que, como era de esperar, se obtiene exactamente el mismo número de observaciones que
para el caso de la media, ya que el error del total se ha elegido a propósito multiplicando por N el de la
media. De esta forma se ha mantenido el especificado anteriormente para la media:
εT = Nε → ε =
εT
N
=
6000000
= 30
200000
Una vez fijado el tamaño de la muestra, y obtenida ésta mediante el procedimiento adecuado, la mejor
estimación por puntos del gasto medio será la media de la muestra. La de la proporción, la observada
en la muestra y la del total, la media de la muestra multiplicada por N.
Los correspondientes intervalos de confianza, que nos dan una idea de la horquilla en que se mueve el
verdadero valor del parámetro, se construirán para cada uno de los casos, según lo visto anteriormente,
como sigue:
Media : ( x − z1−α / 2σ x ≤ µ ≤ x + z1−α / 2σ x )
Proporción : ( pˆ − z1−α / 2σ pˆ ≤ p ≤ pˆ + z1−α / 2σ pˆ )
Total : ( Nx − z1−α / 2 Nσ x ≤ N µ ≤ Nx + z1−α / 2 Nσ x )
Es decir, una vez seleccionados los elementos de la muestra, se obtendrán, respectivamente, las
correspondientes estimaciones por puntos de la media, proporción y total. Con estos datos como centro
del intervalo, para un nivel de confianza dado y conocida la varianza del estimador, quedarían
determinados los correspondientes intervalos para los parámetros desconocidos.
15
A. Morillas: Muestreo en poblaciones finitas
6. Muestreo en poblaciones finitas.
Si el tamaño de la población o universo es conocido, la elección del tamaño de la muestra, aunque
siguiendo los argumentos expuestos en el epígrafe anterior, tiene ciertas especificidades, que veremos
a continuación. Las diferencias se basan fundamentalmente en el hecho (relativamente probable para
el caso de una población finita, pero imposible para una de tamaño infinito) de que nos podemos
encontrar con situaciones en las que el número de elementos de la muestra puede llegar a ser una
proporción apreciable de los de la población. En tal situación, puede entenderse fácilmente que la
precisión de la estimación sería superior, al estar mejor representada el conjunto de la población.
En concreto, para el caso de poblaciones finitas, puede demostrarse que la varianza del estimador (de
la media, proporción o total) propia de poblaciones infinitas, tal como la hemos visto anteriormente, ha
N -n⎞
de corregirse por un factor. Este factor de corrección sería ⎛⎜
⎟ , por lo que para el caso de la
⎝ N -1 ⎠
media su fórmula de cálculo quedaría como sigue:
σ x2 =
σ2 ⎛ N -n⎞
⎜
⎟
n ⎝ N -1 ⎠
Si nos fijamos en el numerador del factor de corrección, comprenderemos que no se puede valorar de
forma absoluta al tamaño de una muestra, sino que hay que confrontarlo con el de la población de la
que se extrae3. Si observamos dos poblaciones, siendo la muestra de la primera más pequeña que la de
la segunda, puede llegar a dar más precisión (menor varianza) si el tamaño de la población de la que
procede es proporcionalmente menor. Esto, dicho así, parece algo complicado cuando resulta obvio:
en igualdad de condiciones, una muestra de tamaño 100 nos informa mucho mejor sobre las
características de una población de tamaño 200, dónde representa la mitad de sus elementos, que otra
de tamaño 200 en una población de 20.000, que representa sólo el 1% de sus elementos.
Por tanto, independientemente del número de elementos que contenga, cuanto mayor sea el tamaño de
la muestra (n) en relación al de la población (N), mayor garantía tendremos en las estimaciones, como
se observa en la fórmula anterior. En el caso extremo de que N=n la varianza del estimador se hace
nula. Estaríamos, evidentemente, en presencia de una observación exhaustiva de la población, propia
de la estadística descriptiva, y no en un caso de inferencia estadística. Por el contrario, cuando el
tamaño de la muestra sea mínimo, de una sola observación (n=1), la varianza (precisión) del estimador
coincidiría con el caso de una población de tamaño infinito.
Obsérvese que si en dicha fórmula se considera que (N-1) ≈ N, la expresión del factor de corrección quedaría bien
expresada como la razón de estos dos tamaños, el de la muestra y el de la población, pues (N-n)/N = 1- n/N. Cuanto mayor es
la proporción de la muestra respecto a la población, más se reduce la varianza del estimador.
3
16
A. Morillas: Muestreo en poblaciones finitas
Teniendo en cuenta esta particularidad, se presenta a continuación la forma en que se debe de obtener
el tamaño de la muestra para el caso de poblaciones finitas y para los cada uno de los dos tipos de
muestreos aleatorios más utilizados, el aleatorio simple y el estratificado.
6.1. Muestreo aleatorio simple.
Caso de la media:
Como se dijo anteriormente, dado un determinado nivel de significación, fijar el tamaño del error
equivale a predeterminar la propia varianza del estimador. Es decir, varianza del estimador y error
máximo permitido son dos caras de una misma moneda, siendo el tamaño de la muestra el resultado
del supuesto que hagamos acerca de cualquiera de ambos. Por tanto, dicho tamaño se puede obtener a
partir de la definición del error o de la fórmula de la varianza del estimador. Obsérvese que, fijado el
valor de z por el nivel de confianza, el error es igual a la desviación estándar del estimador
multiplicado por una constante (para el caso del 95% el valor sería 1,96 ):
ε = z1−α / 2σ x → ε = 1, 96σ x
Si elevamos al cuadrado e introducimos el valor de la varianza del estimador, tendremos:
ε 2 = z2 α σ 2 = z2 α
1− / 2
x
1− / 2
σ2 ⎛ N −n⎞
n ⎝⎜ N − 1 ⎠⎟
A partir de esta expresión, si se suponen conocidos la varianza (σ) y el tamaño de la población (N), y
fijados el tamaño del error (ε) y el nivel de confianza que determina el valor de z1-σ/2, podemos obtener
el correspondiente tamaño de la muestra (n). Esta es la forma en que generalmente se obtiene el
tamaño adecuado de la muestra. Haremos este ejercicio una sola vez, ya que en adelante omitiremos
cálculos similares para el resto de los casos. Operando en la igualdad anterior:
n( N − 1)ε 2 = z12−α / 2σ 2 ( N − n ) = z12−α / 2σ 2 N − z12−α / 2σ 2n
n( N − 1)ε 2 + z12−α / 2σ 2 n = z12−α / 2σ 2 N
⎡ ( N − 1)ε 2 + z 2 σ 2 ⎤ n = z 2 σ 2 N
1−α / 2
1− α / 2
⎣
⎦
n=
Nz12−α / 2σ 2
( N − 1)ε 2 + z12−α / 2σ 2
→ ε 2 = z12−α / 2σ x2
17
A. Morillas: Muestreo en poblaciones finitas
Si en la fórmula obtenida para n sustituimos el error por la expresión del mismo que ya conocemos,
entonces obtendremos esta otra expresión para el tamaño de la muestra cuando se desea estimar una
media en poblaciones finitas:
ε 2 = z 2 α σ x2 → n =
1− / 2
Nσ 2
ε2
2
σ
←
=
x
z12−α / 2
( N − 1)σ x2 + σ 2
Esta expresión es exactamente la que se hubiera obtenido si se toma directamente la fórmula de la
varianza del estimador de la media en poblaciones finitas para despejar de ella el valor de n, cuestión
que dejamos como ejercicio para el alumno. En resumen, conocidos el tamaño y la varianza de la
población, por estudios anteriores o por una encuesta piloto desarrollada para el caso, se observa
claramente en la expresión anterior que fijar el error o la varianza del estimador son procesos
equivalentes, pudiéndose utilizar cualquiera de las dos expresiones de n que se acaban de mostrar.
Ejemplo (mismo caso de poblaciones infinitas):
Para llevar a cabo el análisis de un destino turístico con alta afluencia de turistas (200.000) se desea
realizar una encuesta para determinar el gasto medio por turista. Se ha decidido aceptar un error
máximo en el gasto medio de 30 euros. Suponiendo una desviación estándar de la población de 200
euros y un nivel de confianza del 95%, obtener el tamaño adecuado de la muestra.
Solución fórmula 1:
n=
Nz12−α / 2σ 2
( N − 1)ε 2 + z12−α / 2σ 2
=
200.000 × (1, 96) 2 × ( 200) 2
= 170, 59 ≈ 171
( 200.000 − 1) × ( 30) 2 + (1, 96) 2 × ( 200) 2
Solución fórmula 2:
n=
Nσ 2
=
( N − 1)σ x2 + σ 2
200.000 × ( 200) 2
2
⎛ 30 ⎞
2
( 200.000 − 1) × ⎜
⎟ + ( 200)
,
1
96
⎝
⎠
= 170, 59 ≈ 171
Como puede observarse, el tamaño muestral resultante es el mismo que cuando supusimos que la
población era infinita. Ello es debido al gran tamaño de la misma.
Intervalo para la media:
Una vez obtenida la muestra, se puede calcular un intervalo de confianza para el parámetro (media)
poblacional. Normalmente, la varianza poblacional es desconocida, por lo que el intervalo que se
definió anteriormente debe dejar paso a este otro, en el que se sustituye la varianza desconocida por su
estimador insesgado en poblaciones finitas, que llamaremos σˆ x2 :
18
A. Morillas: Muestreo en poblaciones finitas
x − z1−α / 2σˆ x ≤ µ ≤ x + z1−α / 2σˆ x
σˆ x2 =
sˆ 2 ( N - n)
n N
De esta forma, con los datos de la muestra se puede obtener un intervalo de confianza para el
verdadero valor del parámetro desconocido, con el error y el nivel de confianza predeterminados a la
hora de obtener el tamaño adecuado de la muestra.
Ejercicio:
Supongamos que la media y la desviación estándar obtenidas en la muestra de los 171 turistas del
ejercicio anterior son, respectivamente, de 450 y 320 euros. Determinar el intervalo de confianza del
95% para el verdadero valor del gasto medio por turista.
Solución:
Comenzaremos por obtener el estimador de la varianza:
σˆ x2 =
sˆ 2 ( N - n ) ( ns 2 / n − 1) ( N - n ) (171 × 3202 /170) (200.000 − 171)
=
=
= 601,84
n N
n
N
171
200.000
Por tanto, tendremos que σˆ x = 24,53 y el correspondiente intervalo de confianza vendría dado por:
x − z1−α / 2σˆ x ≤ µ ≤ x + z1−α / 2σˆ x
450 − 1,96 × 24,53 ≤ µ ≤ 450 + 1,96 × 24,53
401,92 ≤ µ ≤ 498,08
µ ∈ (450 ± 48,08)
En esta última expresión se da el intervalo, tomando como pivote del mismo la estimación por puntos
del parámetro (media de la muestra) y fijando el error máximo cometido a izquierda y derecha del
mismo (producto del valor de z, o sea 1,96, por la desviación estándar del estimador, que es 24,53).
Caso de la proporción:
Como ya hemos comentado, para obtener el tamaño adecuado de la muestra en el caso de estar
realizando inferencia sobre la proporción se procede de forma similar al caso anterior. La varianza del
estimador es ahora:
σ p2ˆ =
pq ⎡ N − n ⎤
n ⎢⎣ N − 1 ⎥⎦
19
A. Morillas: Muestreo en poblaciones finitas
Despejando n, se llega a obtener la siguiente expresión de cálculo para el tamaño de la muestra,
cuando se hace inferencia acerca de una proporción:
n=
Npq
( N − 1)σ p2ˆ + pq
Volviendo a tomar la ya conocida relación entre error y varianza del estimador, σ p2ˆ =
ε2
z12−α / 2
, una
segunda fórmula de cálculo es la siguiente:
n=
Nz12−α / 2 pq
( N − 1)ε 2 + z12−α / 2 pq
Generalmente, no se conoce el valor de p, por lo que habrá que estimarlo mediante una encuesta piloto
o tomando información procedente de investigaciones anteriores. La alternativa más inmediata es
optar por tomar el tamaño muestral máximo, considerando pq=0,25.
Ejemplo (mismo caso de poblaciones infinitas):
Para completar el análisis del anterior destino turístico, se desea realizar utilizar la encuesta para
determinar la proporción de turistas de origen europeo. Se ha decidido aceptar un error máximo del
5%, y un nivel de confianza del 95%. Obtener el tamaño de la muestra.
Solución fórmula 1:
Como no se tiene información sobre la proporción en la población, optaremos por obtener el n
máximo:
n=
0, 25N
=
( N − 1)σ p2ˆ + 0, 25
0, 25 × 200.000
2
⎛ 0,05 ⎞
(200.000 − 1) × ⎜
⎟ + 0, 25
⎝ 1,96 ⎠
= 383, 43 ≈ 384
Solución fórmula 2:
n=
Nz12−α / 2 pq
200.000 × 1,962 × 0, 25
=
= 383, 43 ≈ 384
( N − 1)ε 2 + z12−α / 2 pq (200.000 − 1) × 0,052 + 1,962 × 0, 25
Puede comprobarse de nuevo como el hecho de tener como referencia a una población de gran
tamaño, no cambia prácticamente el tamaño de la muestra.
20
A. Morillas: Muestreo en poblaciones finitas
Ejemplo:
En un hotel saben que el nivel de satisfacción de sus clientes ronda el 90% y quieren realizar un
estudio para ver si la nueva gestión de limpiezas ha sido de su agrado. ¿Cuál sería el tamaño necesario
para la muestra, si el total de clientes del hotel es de 10.000? Suponga un nivel de confianza para los
resultados del estudio del 95% y un error máximo permitido del 5%.
Solución:
n=
Nz12−α / 2 pq
10.000 × 1,962 × 0,90 × 0,10
=
= 136, 42 ≈ 137
( N − 1)ε 2 + z12−α / 2 pq (10.000 − 1) × 0,052 + 1,962 × 0,90 × 0,10
Luego, el tamaño necesario de la muestra sería de 137 clientes.
Intervalo para la proporción:
El intervalo de confianza para la proporción se puede obtener de forma similar, sin más que aplicar la
correspondiente expresión para el mismo:
pˆ − z1−α / 2σˆ pˆ ≤ p ≤ pˆ + z1−α / 2σˆ pˆ
Ahora, la varianza desconocida de la proporción muestral se estima mediante el siguiente estimador
insesgado:
σˆ p2ˆ =
ˆ ˆ ( N − n)
pq
( n − 1) N
Ejemplo:
En la muestra de 142 clientes, se ha obtenido que 105 están satisfechos con la limpieza. Obtenga un
intervalo de confianza para el verdadero valor de la proporción de clientes satisfechos.
Solución:
La proporción en la muestra es el estimador por puntos y será el pivote utilizado para establecer el
intervalo: pˆ =
105
= 0,7394
142
La varianza del estimador será:
σˆ p2ˆ =
ˆ ˆ ( N − n ) 0,7394 × (1 − 0,7394) (10.000 − 142)
pq
=
= 0,001347
( n − 1) N
(142 − 1)
10.000
La desviación estándar, por tanto, es 0,0367 y el intervalo queda como sigue:
21
A. Morillas: Muestreo en poblaciones finitas
pˆ − z1−α / 2σˆ pˆ ≤ p ≤ pˆ + z1−α / 2σˆ pˆ
0,7394 − 1,96 × 0,0367 ≤ p ≤ 0,7394 + 1,96 × 0,0367
0,6675 ≤ p ≤ 0,8113
p ∈ (0,7394 ± 0,0719)
Es decir, el porcentaje de clientes satisfecho está entre el 66,75% y el 81,13%, con una confianza del
95%. El error al estimar la proporción puede llegar a ser de ± 0,0719 (± 7,19%). Aproximadamente,
siete puntos arriba o abajo del 74%.
Caso del total:
El tamaño de la muestra a la hora de hacer inferencia sobre el total o suma de todos los valores de una
población, como ya se comentó, es exactamente el mismo que para la media, ya que la varianza para
poblaciones finitas sería la siguiente, que en nada cambia los cálculos para obtener n:
Var ( Nx ) = N 2σ x2 = N 2
σ2 ⎛ N -n⎞
⎜
⎟
n ⎝ N -1 ⎠
Sólo ha de tenerse en cuenta esta expresión y que el error del total sería N veces el error de la media,
como ya vimos en su momento. El intervalo de confianza es el de la media multiplicado por N,
evidentemente. Las fórmulas de cálculo, por tanto, serían:
n=
n=
Nz12−α / 2σ 2
( N − 1)ε 2 + z12−α / 2σ 2
←ε2 =
ε T2
N
Nσ 2
Var ( Nx )
← σ x2 =
2
2
( N − 1)σ x + σ
N2
Ejercicio (mismo de poblaciones infinitas):
En el estudio sobre el gasto total en la zona por los turistas se aceptó un error máximo en el gasto total
de 6 millones de euros. Suponiendo que la desviación estándar poblacional es de 200 euros y un nivel
de confianza del 95%, obtenga el tamaño muestral adecuado. Si de la muestra obtenida se obtuviese un
gasto medio de 450 euros con una desviación estándar de 320 euros, diga cuál es el intervalo para el
gasto total.
22
A. Morillas: Muestreo en poblaciones finitas
Solución:
Evidentemente, el resultado para n va a ser el mismo que para el caso de la media. Lo único que
hemos de hacer es pasar del error del total al error de la media:
n=
Nz12−α / 2σ 2
( N − 1)ε 2 + z12−α / 2σ 2
Nz12−α / 2σ 2
=
( N − 1)
ε T2
N
+ z1−α / 2σ
2
= 170, 59 ≈ 171
2
El intervalo de confianza no vale la pena volver a calcularlo, pues ya sabemos que es el mismo de la
media, pero multiplicado por N:
( 80.576.000 ≤ N µ ≤ 99.924.000 )
Es decir, el gasto total estaría entre algo más de 80 millones y algo menos de 100 millones de euros,
con una confianza del 95%.
6.2. Muestreo aleatorio estratificado.
Como paso previo al cálculo del tamaño de la muestra para cada uno de los tres parámetros con los
que venimos trabajando y a la obtención de los intervalos de confianza, vamos a proponer el uso de la
siguiente nomenclatura:
•
Población dividida en k estratos:
N1 + N2 + …. + Nk = N
•
Tamaños muestrales de los estratos:
n1 + n2 + …… + nk = n
•
Medias poblacionales en los estratos:
µ1 µ2 …… µk
•
Medias muestrales en los estratos:
x1 x2 ….. xk
•
Proporciones muestrales en los estratos:
p̂1 p̂2 ….. pˆ k
•
En cada estrato, se hará un muestreo aleatorio simple en el que se definen los siguientes
estimadores insesgados:
o
Para la media de cada estrato µi : xi
o
Para la proporción de cada estrato pi : pˆ i
o
Para las varianzas de las xi : σˆ x2 =
sˆi2 ( N i - ni )
ni
Ni
o
Para las varianzas de las pˆ i : σˆ p2ˆ =
pˆ i qˆi ( N i - ni )
( ni -1) N i
i
i
23
A. Morillas: Muestreo en poblaciones finitas
Para determinar el tamaño de una muestra por estratos se siguen dos etapas. En primer lugar, se
calcula el tamaño total de la muestra que se debe obtener, y posteriormente se estudia el número de
elementos que hay que asignar a cada uno de los estratos. A este reparto o asignación de los elementos
de la muestra a los distintos estratos se le denomina afijación, pudiéndose realizar según los siguientes
métodos o criterios:
•
Criterio uniforme: se trata de una forma muy simple de reparto, asignando el mismo número
de elementos a cada estrato.
•
Criterio proporcional: reparto de elementos entre los estratos de la muestra en la misma
proporción en que se presentan en la población:
N i ni
N
=
Æ ni = i n
N
N n
•
Criterio óptimo: reparto en función de la varianza de cada estrato, con la idea que a menor
varianza será precisa menor cantidad de información y viceversa. Si las varianzas de los
estratos fuesen iguales, coincidiría con el proporcional:
•
Media y total: ni =
N iσ i
K
∑ N iσ i
n Æ σi encuesta piloto
i =1
•
Proporción:
ni =
N i pi qi
K
∑ N i pi qi
n Æ p encuesta o n máxima
i =1
En realidad, el primer método carece de interés, siendo los más utilizados el segundo (el más
frecuente) y el tercero, en caso de estar especialmente interesados en la precisión de los estimadores.
Caso de la media y del total:
A partir de la idea inicial desarrollada para el muestreo aleatorio simple, pero haciendo algunas
simplificaciones para poder llegar a una solución, se obtiene la siguiente fórmula de cálculo:
K
•
•
∑ N iσ i
2
; con σ =
ε2
Asignación proporcional:
n=
Asignación óptima:
2
1 K
∑ N iσ i
ε2
; con σ x2 = 2
n = N i =1 K
1
z1-α / 2
N σ x2 + ∑ N iσ i2
N i =1
i =1
N σ x2 +
(
1 K
2
∑ N iσ i
N i =1
2
x
z1-2α / 2
)
24
A. Morillas: Muestreo en poblaciones finitas
Caso de la proporción:
K
•
•
Asignación proporcional:
Asignación óptima:
n=
∑ N i pi qi
i =1
Nσ p2ˆ +
(
1 K
∑ N i pi qi
N i =1
; con σ p2ˆ =
ε2
z12−α / 2
)
2
1 K
∑ N i pi qi
ε2
; con σ p2ˆ = 2
n = N i =1 K
1
z1−α / 2
Nσ p2ˆ + ∑ N i pi qi
N i =1
Ejemplo:
El parque hotelero de una determina zona turística consta de 4.200 hoteles. Se sabe que 1.150 de estos
hoteles son de 4 y 5 estrellas, 2.120 son de 3 estrellas y 930 de menos de 3 estrellas. Se pide:
1. Obtenga el tamaño de la muestra para estimar la facturación media semanal de los hoteles,
con un error máximo de 500 euros y con una confianza del 95,5%. Supondremos que por
estudios anteriores se sabe que la desviación estándar en cada uno de los estratos es de
4.000, 6.000 y 8.000 euros, respectivamente.
2. Determine el total de encuestas que habría que realizar para estimar el grado de ocupación,
con un error máximo del 5% y con una confianza del 95%.
3. Suponga ahora que, por estudios anteriores, se estima que el grado de ocupación fue,
respectivamente, del 70%, 90% y 60%. ¿cuál sería el correspondiente tamaño muestral?
4. Diga, finalmente, cuál debe ser el tamaño definitivo de la muestra y obtenga el número de
formularios que habría que asignar a cada uno de los tres grupos mencionados, utilizando
tanto el criterio proporcional como el óptimo.
Solución 1:
El tamaño muestral adecuado para hacer inferencia sobre la media y sobre el total, utilizando un
criterio proporcional de reparto entre estratos, sería el siguiente:
K
n=
∑ N iσ i
2
i =1
N σ x2 +
1 K
2
∑ N iσ i
N i =1
=
(1150 × 40002 + 2120 × 60002 + 930 × 80002 )
= 497, 47 ≈ 498
5002
1
2
2
2
+
4200
(1150 × 4000 + 2120 × 6000 + 930 × 8000 )
1,962 4200
Si consideramos ahora un reparto óptimo de las observaciones de la muestra entre los diferentes
estratos, el tamaño adecuado para garantizar el error y el nivel de confianza que se ha propuesto, sería
el siguiente:
25
A. Morillas: Muestreo en poblaciones finitas
(
)
2
1 K
1
2
∑ N iσ i
(1150 × 4000 + 2120 × 6000 + 930 × 8000 )
4200
n = N i =1 K
=
= 470,79 ≈ 471
2
1
500
1
2
2
2
2
2
N σ x + ∑ N iσ i 4200
(1150
4000
2120
6000
930
8000
)
+
×
+
×
+
×
N i =1
1,962 4200
Luego hay una diferencia de 27 cuestionarios entre utilizar una u otra forma de asignar los elementos
de la muestra entre los tres estratos contemplados.
Solución 2:
Comenzaremos determinando el tamaño de la muestra para estimar el grado de ocupación
(proporción). Como no se sabe nada acerca de las proporciones muestrales en los diferentes estratos,
buscaremos el n máximo:
K
n=
K
∑ N i pi qi
i =1
Nσ p2ˆ +
K
1
∑ N i pi qi
N i =1
0, 25∑ N i
=
N
ε
i =1
2
z12−α / 2
+
0, 25 K
∑ Ni
N i =1
0, 25 N
→ nmax =
N
ε2
z12−α / 2
+ 0, 25
Como se puede observar, al no distinguir entre las diferentes proporciones poblacionales de los
estratos, lo que implica varianzas iguales en todos ellos, la expresión del tamaño de la muestra
coincide prácticamente con el caso de muestreo aleatorio simple y, por supuesto, el resultado es
idéntico para ambos tipos de asignación (proporcional u óptima). Obteniéndolo por el proporcional, se
tiene:
0, 25 N
nmax =
N
ε
2
zα2 / 2
+ 0, 25
=
0, 25 × 4.200
= 351,97 ≈ 352
0, 052
4.200 ×
+ 0, 25
1, 962
Solución 3:
Si suponemos que por anteriores investigaciones se sabe que la ocupación fue, respectivamente, del
70%, 90% y 60%, los cálculos arrojarían este otro resultado para el criterio de asignación
proporcional:
K
n=
∑ Ni pi qi
i =1
1 K
Nσ p2ˆ + ∑ Ni pi qi
N i=1
=
1150 × 0,70 × 0,30 + 2120 × 0,90 × 0,10 + 930 × 0,60 × 0,40
= 226,87 ≈ 227
0,052
1
+
×
×
+
×
×
+
×
×
4.200 ×
1150
0,70
0,30
2120
0,90
0,10
930
0,60
0,40
(
)
1,962 4.200
Evidentemente, los resultados nos indican que, al tener mayor información sobre las varianzas de los
estratos, la precisión del estimador aumenta y la cantidad de elementos necesarios para hacer
inferencia sobre la población resulta más pequeña.
Si consideramos ahora el criterio de asignación óptima, el resultado sería el siguiente:
26
A. Morillas: Muestreo en poblaciones finitas
(
)
(
)
2
2
1 K
1
1150 0,7 × 0,3 + 2120 0,9 × 0,1 + 930 0,6 × 0, 4
∑ N i pi qi
i =1
N
4200
=
= 215,89 ≈ 216
n=
2
1 K
N σ p2ˆ + ∑ N i pi qi 4200 0,052 + 1 (1150 × 0,7 × 0,3 + 2120 × 0,9 × 0,1 + 930 × 0,6 × 0, 4 )
N i =1
1,96
4200
Luego se necesitarían 11 cuestionarios menos con este tipo de distribución del tamaño de la muestra
entre los distintos estratos. Veamos ahora exactamente cuantos debemos asignar a cada uno.
Solución 4:
La primera pregunta que hay que hacer es con qué tamaño de muestra hemos de trabajar finalmente, si
deseamos llevar a cabo en paralelo las dos investigaciones, sobre la facturación media y sobre el grado
de ocupación. Evidentemente, la respuesta no puede ser otra: hay que seleccionar el tamaño muestral
adecuado para conservar en el más desfavorable de los casos el grado de fiabilidad y el error que se
han propuesto. Es decir, tomaremos el tamaño exigible para hacer inferencia sobre la media, que es el
que arroja un mayor número de observaciones: 498 para el reparto proporcional y 471 para el óptimo.
Con ese tamaño aseguramos la precisión de la inferencia sobre la facturación media y sobre la
ocupación, mejorando en este último caso el error si se mantiene fijo el nivel de confianza. Veamos:
•
Asignación proporcional:
n1 =
ni =
Ni
n
N
n2 =
N1
1150
n=
498 = 136, 4 ≈ 137
N
4200
N2
2120
n=
498 = 251, 4 ≈ 252
N
4200
N
930
n3 = 3 n =
498 = 110,3 ≈ 111
N
4200
•
Tamaño final
500
(redondear por exceso)
Asignación óptima:
o
Caso de la media y del total:
n1 =
ni =
N iσ i
K
∑ N iσ i
i =1
n
n2 =
1150 × 4000
471 = 87,5 ≈ 88
24760000
2160 × 6000
471 = 246,5 ≈ 247
24760000
930 × 8000
n3 =
471 = 141,5 ≈ 142
24760000
Tamaño final
477
(redondear por exceso)
27
A. Morillas: Muestreo en poblaciones finitas
Como puede observarse, el reparto difiere significativamente, ampliando especialmente el número de
cuestionarios del grupo 3, que es el de mayor variabilidad y, por tanto, más difícil de predecir el valor
del parámetro a estimar, y reduciendo el del grupo 1, con menor dispersión. El incremento de
información en el mismo, a costa de una disminución de los que tienen menor variabilidad, muy
especialmente del primero, hace que la estimación sea más precisa.
Intervalos para la media, el total y la proporción:
El procedimiento para obtener los intervalos de confianza sigue siendo básicamente el mismo, como
es lógico. Una vez hechas las correspondientes estimaciones por puntos, el problema será calcular las
correspondientes estimaciones de las varianzas de cada uno de los estadísticos. Para la media y la
proporción, se llega fácilmente a las siguientes expresiones:
• Media (estimador y su varianza):
Población: µ =
K
1
N
∑ N i µi → Estimador: x =
i =1
Var ( x ) = Var (
1
N
K
∑N x
i =1
i i
1 K
1 K 2 2
2
∑ N i xi ) = σˆ x = 2 ∑ N i σˆ xi
N i =1
N i =1
siendo σˆ x2i =
sˆi2 N i − ni
ni N i
• Proporción (estimador y su varianza):
Población: p =
1
N
K
∑N p
Var ( pˆ ) = Var (
i
i =1
i
→ Estimador: pˆ =
1
N
K
∑ N pˆ
i =1
i
i
1 K
1 K 2 2
2
∑ N i pˆ i ) = σˆ pˆ = 2 ∑ N i σˆ pˆi
N i =1
N i =1
siendo σˆ p2ˆ =
i
pˆ i qˆi ( N i - ni )
(ni -1) N i
Una vez obtenidos los valores de las varianzas para la media muestral o para la proporción, los
intervalos se establecen exactamente igual que en muestreo aleatorio simple. Se toma la estimación
por puntos (media o proporción en la muestra obtenida) como pivote del intervalo y se le suma y resta
el error; es decir, el producto de z (por ejemplo, 1,96 para una confianza del 95%) por la desviación
estándar del estadístico correspondiente ( σˆ xi o σˆ pˆi , respectivamente). El intervalo para el total es el
de la media multiplicado por N, como siempre. Los cálculos son algo más farragosos, puesto que hay
que estimar previamente las varianzas para un muestreo simple en cada uno de los estratos, pero, en
28
A. Morillas: Muestreo en poblaciones finitas
esencia, se trata del mismo procedimiento. Las fórmulas de dichos intervalos serán, al fin y al cabo, las
mismas que para el muestreo aleatorio simple, pero tomando en consideración la diferente forma en la
que hay que obtener la varianza del estimador, tal como se ha expuesto en el párrafo anterior.
Ejercicio:
Tomando el reparto proporcional, establecer un intervalo de confianza para la facturación media,
suponiendo que en la muestra finalmente seleccionada las medias y correspondientes desviaciones
típicas, así como las proporciones en la muestra para los estratos fueron las siguientes:
N1 = 1.150; N 2 = 2.120; N 3 = 930; N = 4.200
x = 16.628; x = 21.593; x = 32.711
1
2
3
s = 4.187; s = 6.195; s = 8.243
1
2
3
pˆ1 = 0,80; pˆ 2 = 0,85; pˆ 3 = 0, 70
Solución:
Para comenzar, se obtiene la estimación puntual de la media:
x=
1
N
K
∑N x
i i
i =1
=
1
(1.150 × 16.628 + 2.120 × 21.593 + 930 × 32.711) = 22.695,38
4200
Como segundo paso, se calculan las estimaciones de las desviaciones típicas para cada uno de los
estratos:
σˆ x =
(1 3 7 × 4 1 8 7 2 ) / 1 3 6 (1 1 5 0 - 1 3 7 )
= 3 3 6, 9 7
137
1150
σˆ x =
(252 × 6195 2 ) / 251 (2120 - 252 )
= 367, 05
252
2120
σˆ x =
(1 1 1 × 8 2 4 3 2 ) / 1 1 0 ( 9 3 0 - 1 1 1)
= 737, 55
111
930
1
sˆ 2 ( N i - ni )
σˆ = i
ni
Ni
2
xi
2
3
Y la varianza del estimador de la media será, por tanto:
29
A. Morillas: Muestreo en poblaciones finitas
σˆx2 =
1 K 2 2
1
N σˆ =
(11502 ×336,972 +21202 ×367,052 +9302 ×737,552) =69.510,64
2 ∑ i xi
N i=1
42002
Así, pues, la desviación estándar del estimador de la media es σˆ x = 263,65. Con este dato, el
intervalo de confianza del 95% sería:
x − z1−α / 2σˆ x ≤ µ ≤ x + z1−α / 2σˆ x
22695,38 − 1,96 × 263,65 ≤ µ ≤ 22695,38 + 1,96 × 263,65
22178,63 ≤ µ ≤ 23212,13
µ ∈ (22695,38 ± 516,75)
La facturación media está entre los 22.178,63 y 23.212,13 euros con una confianza del 95%.
Por último, digamos que el intervalo para la proporción sigue el mismo esquema del que acabamos de
ver para la media (para el del total, bastaría con multiplicar el de ésta por N). La única complicación
que puede presentar es la laboriosidad que hemos visto implica su cálculo.
30
Descargar