Técnicas de Muestreo

Anuncio
Técnicas de Muestreo
Si la población que deseamos muestrear tiene N elementos y la muestra escogida n elementos, entonces
se llama:
1. Fracción de muestreo=n/N  cociente entre el tamaño muestral y el de la población.
2. Factor de elevación =N/n  inverso de la fracción de muestreo, es la cantidad de elementos de
la población representados por cada elemento de la muestra.
Ejemplo:
Población: N=10000 personas
Muestra: n=500 personas.
Fracción de muestreo=n/N = 500/10000=0,05
 se muestrea al 5% de la población
Factor de elevación =N/n= 10000/500= 20  cada persona en la muestra representa a 20 de la
población.
Parámetro poblacional: Es un valor que indica cierta característica de la población (se podría calcular si se
conocieran todos los valores de la población).
Ejemplo: La media y la varianza poblacional. Proporción.
Estimación: Llamaremos estimación a un valor calculado a partir de la muestra que proporciona
información acerca del valor de un parámetro.
Ejemplo: la media muestral es un estimador de la media poblacional.
Al tomar una muestra estamos ante el riesgo de que la misma no sea representativa de la población. Se
dice en esos casos que la muestra está sesgada.
Un sesgo posible es el llamado sesgo de selección. Se produce cuando los individuos de la población no
tienen la misma probabilidad de ser elegidos. Por ejemplo: encuesta telefónica domiciliaria en horario de
trabajo. Una persona que trabaja afuera no tiene la misma probabilidad de ser elegida que la que no lo
hace.
Otro sesgo que puede darse es el llamado sesgo de no-respuesta. Un ejemplo de este tipo de sesgo es la
negativa a responder determinadas preguntas o incluso la encuesta completa.
Una forma de estar alertas y ver si estamos ante una muestra sesgada si se trata de una encuesta, es la de
incluir en el cuestionario preguntas sobre características globales, como por ejemplo, edad, sexo, situación
laboral, nivel de instrucción, etc. De esta forma, podremos contrastar estas características de los
seleccionados con las de la población objetivo.
En este curso sólo veremos cómo estimamos la media de una variable cuantitativa y la proporción para el
caso de una variable cualitativa. Los estimadores que utilizaremos serán entonces 𝑋̅ y 𝑝̂ para la media y la
proporción respectivamente.
1
Para algunos cálculos que vamos a realizar también es necesario conocer unos valores llamados factores de
corrección. Con ellos lo que se consigue es tener más o menos certeza (confianza se dice en términos
estadísticos) sobre la probabilidad de que la estimación esté próxima al verdadero valor del parámetro.
Estos valores son:
1-
z/2
0,99
2,576
0,95
1,960
0,90
1,645
0,80
1,282
0,60
0,842
0,50
0,674
Observemos que cuanta más confianza queremos, es decir cuanto mayor es 1-, más grande es el valor del
factor de corrección.
Estudiemos ahora diferentes tipos de muestreo, sus características, ventajas y desventajas.
MUESTREO ALEATORIO SIMPLE
Este método consiste en hacer una selección aleatoria de los elementos de la muestra de entre los
elementos de la población, se puede realizar sólo si se cuenta con un listado de todos los elementos de la
población.
Este procedimiento nos asegura que todos los elementos de la población tienen la misma probabilidad de
ser elegidos.
Existen dos casos:
1- Muestreo con reposición: En este caso, la selección se hace de a uno en uno y cada elemento
seleccionado es devuelto, de manera que tiene la posibilidad de ser nuevamente elegido, de esta
manera la población no cambia con el muestreo.
2- Muestreo sin reposición: En este caso, no se repone el elemento seleccionado de manera que es
imposible que un elemento sea seleccionado más de una vez. Cuando la población es grande
respecto de la muestra ambos procedimientos son equivalentes.
Observación: Se recomienda siempre el muestreo sin reposición (en muchos casos es costoso tomar una
medición de un elemento y no tendría mucho sentido medir dos veces el mismo elemento), aunque haya
que utilizar el factor de corrección.
Ejemplo 1: Un colegio tiene 320 alumnos en total, de nivel primario y secundario. Se desea obtener una
muestra aleatoria simple (sin reposición) de 60 alumnos.
-
Se hace una sola lista de todos los alumnos numerados del 1 al 320.
Se eligen al azar 60 números del 1 al 320.
La muestra estará formada por los 60 alumnos a los que les correspondan los 60 números obtenidos
La fracción de muestreo será: n/N=60/320=0.1875
El factor de elevación es: N/n=320/60=5.33. Esto significa que cada elemento de la muestra está
representando a 5 elementos de la población. En otras palabras, hay 5 elementos de la población que
tienen un comportamiento similar a cada elemento de la muestra)
2
Observación: Si tengo N y conozco la fracción de muestreo puedo calcular n.
Ejemplo 2: Un libro contiene ecuaciones y figuras. Se desea tomar una muestra aleatoria simple de las
páginas del libro con fracción de muestreo 0.05. Utilice la calculadora para seleccionar los números
aleatorios.
a) Estime el número total de ecuaciones del libro.
b) Estime el número total de figuras del libro.
N=340 f = 0.05  n= 340*0.05=17
¿Cómo selecciono 17 páginas al azar? Usando tablas de dígitos aleatorios o calculadora o computadora.
Un dígito aleatorio es un número elegido al azar del intervalo (0, 1).
Una tabla de dígitos aleatorios la pueden encontrar en la Página 380 del texto. Para usarla debemos
agrupar los números que aparecen en cada bloque según la mayor posición decimal del tamaño
poblacional. Por ejemplo, si consideramos que tenemos una población de 10000 individuos, podemos
asignar a cada uno de ellos los números del 0 al 9999, luego agrupamos los números aleatorios de la tabla
en bloques de 4 cifras. Así el primer número aleatorio será 0380, el segundo 7732, etc. Hacemos esto
tantas veces como sea el tamaño muestral. Luego elegimos los individuos que tengan cada uno de estos
rótulos asignados.
Para usar la calculadora en general debemos encontrar la tecla con la función RAN (proviene de random,
aleatorio en inglés). Estos son números se denominan pseudo-aleatorios, ya que su valor está generado a
partir de una “semilla”. Tiene la limitación de la cantidad de dígitos y la ventaja de su inmediatez.
En computadora, podemos utilizar Excel. En Datos, Análisis, Análisis de datos, elegir Generación de
números aleatorios.
Una vez que tenemos los individuos seleccionados es hora de hacer la estimación.
Si ahora queremos asegurarnos que nuestra estimación de la media o la proporción se encuentran entre
dos valores predeterminados, digamos c con una probabilidad también determinada, digamos 1-,
entonces debemos realizar los siguientes cálculos:
Para determinar el tamaño muestral:
𝑁 𝐴
𝑛=
𝑐
)
𝑧/2
(𝑁−1)(
𝐴 = 2 si estimamos una media
donde
2
+𝐴
𝐴 =  (1 − ) si estimamos una proporción.
¿Cómo obtenemos A? Por información previa o muestra piloto.
Ejemplo:
Se desea estimar la proporción de hogares que cuentan con un determinado electrodoméstico. Los datos
son y los requisitos:
N=50000
c= 0,01
1-=0,95
Hace dos años el 40% de los hogares tenía el producto.
3
Esto nos dice que la población bajo estudio es de 50000 hogares, que se quiere que la estimación de la
proporción sea tal que la verdadera proporción se encuentre en el intervalo  - 0,01 y  + 0,01 con
probabilidad igual a 0,95 (o 95% de chance)
El cálculo del tamaño de la muestra es:
𝑛=
50000 𝑥 0,4 (1 − 0,4)
0,01 2
(50000 − 1) (
1,96) + 0,4 (1 − 0,4)
= 7784
Se necesita encuestar 7784 hogares de los 50000 para tener una estimación de la proporción que cumpla
los requisitos.
MUESTREO SISTEMÁTICO
Es otro tipo de muestreo posible y se puede realizar si se cuenta con un listado de los elementos. Entonces
se divide el listado en (aproximadamente)
k = [N/n] partes. El muestreo sistemático consiste en
seleccionar aleatoriamente un elemento del primer conjunto, llamemos n1 al lugar que ocupa en la lista,
luego se seleccionan los elementos que ocupen los lugares n1 + k, n1 + 2k, n1 + 3k hasta completar la lista.
Si el orden de los elementos de la lista no está relacionado con la variable a estudiar, este criterio es
equivalente al Muestreo aleatorio simple, y es más sencillo.
En el ejemplo anterior:
-
Se hace una lista de todos los alumnos numerados del 1 al 320.
Se calcula k = [N/n]=[320/60]=[5.3]=5
Se elije un número al azar entre 1 y 5, supongamos que sale 3, los siguientes alumnos se obtendrán
sumando 5 hasta completar los 60 alumnos.
Los alumnos seleccionados en la muestra serán:
3, 8, 13, 18, 23,…, 298.
MUESTREO ESTRATIFICADO
Se realiza cuando se cuenta con información adicional. Esta información la proporciona una variable que
divide a los elementos de la población en clases o estratos. Éstos son subconjuntos de la población tales
que dentro de cada estrato los elementos son homogéneos respecto de la variable de interés y entre
estratos los elementos son muy diferentes.
Obs: En este caso tengo dos variables en juego, la variable de interés y la variable de estratificación.
En el ejemplo anterior:
Seguimos pensando en un colegio que tiene 320 alumnos de los cuales quiero elegir 60. Una variable de
estratificación puede ser el nivel, entonces podemos pensar en dos estratos:
4
Estrato 1= Nivel primario
Estrato2 = Nivel secundario.
O también podemos pensar en estos estratos:
Estrato 1= Nivel Primario y mujer
Estrato 2= Nivel Primario y varón
Estrato 3= Nivel Secundario y mujer
Estrato 2= Nivel Secundario y varón
El muestreo estratificado consiste hacer un muestreo aleatorio simple dentro de cada estrato.
El tamaño de cada muestra se puede elegir según
-
El tamaño del estrato o
De la variabilidad dentro de cada estrato (si es que se cuenta con esta información desde el
principio).
El muestreo estratificado es más eficiente que el muestreo aleatorio simple en el sentido que con la misma
cantidad de datos se obtiene mayor precisión (menor varianza de los estimadores).
El tamaño muestral en cada estrato se puede tomar proporcional al tamaño del estrato, es decir: Si N =
N1+N2+ …+ Nk donde Ni es el tamaño del estrato i-ésimo y k es la cantidad de estratos, entonces se puede
tomar ni = n.(Ni/N) donde ni es la muestra del estrato i-ésimo.
En el ejemplo anterior:
Para dos estratos: Supongamos que el Nivel primario tiene N1= 130 alumnos y el Nivel secundario N2= 190,
entonces los tamaños muestrales serán:
n1= 60*(140/320)=24.3  24
n2= 60*(180/320)=35.6  36
Para 4 estratos: Necesitamos la información de cuántas mujeres y cuántos varones hay en cada nivel
educativo. Supongamos que en el primario hay 60 mujeres y 70 varones, y en el secundario 90 mujeres y
100 varones. Los tamaños muestrales serán:
n1= 60*(60/320)=11.2  11
n2= 60*(70/320)=13.2  13
n3= 60*(90/320)=16.9  17
n2= 60*(100/320)=18.8  19
También es recomendable tomar el tamaño muestral proporcional a la varianza de la variable de interés en
el estrato, si es que se cuenta con esa información desde el principio.
5
Al igual que con el muestreo aleatorio simple, es posible que queramos que la estimación del
parámetro poblacional cumpla con algunos requerimientos. Hablamos de que la estimación sea tal que el
parámetro desconocido esté en un intervalo de amplitud 2c con una probabilidad también de 1-. Para
conseguirlo tenemos que calcular:
Tamaño muestral sobre toda la población:
𝑛=
2
∑𝑘
𝑖=1 𝑁𝑖 𝐴𝑖 /𝑣𝑖
𝑐
𝑁2 (
)
𝑧/2
2
+∑𝑘
𝑖=𝑖 𝑁𝑖 𝐴𝑖
donde k es la cantidad de estratos, 𝑣𝑖 =
𝑁𝑖
𝑁
y 𝐴𝑖 en cada estrato.
𝑛𝑖 = 𝑛 𝑣𝑖
Tamaño muestral de cada estrato:
Los estimadores que utilizaremos son:
Para la media:
𝑌̅ = ∑𝑘𝑖=1 𝑤𝑖 𝑦̅𝑖
donde
𝑤𝑖 =
𝑛𝑖
𝑛
Para la proporción: 𝑝̂ = ∑𝑘𝑖=1 𝑤𝑖 𝑝̂𝑖
Observación: Estamos diciendo el aporte de la media de cada estrato a la estimación de la media global es
proporcional al tamaño muestral del estrato, que a su vez es proporcional al tamaño del estrato.
Ejemplo: Consideremos una población divida en dos estratos (varones-mujeres, Boca_River, etc) Se desea
estimar la media del ingreso. Considere c = 0,02 y 1-=0,90.
IMPORTANTE: la variable de interés no es la misma que la estratificadora.
Los datos son:
Población
Estratos
Muestra
ni
𝑌̅𝑖
Ni
wi
A
2500
0,053
92
B
45000
0,947
12
Total
47500
1
Importante: para poder obtener los tamaños muestrales según el valor de c y de 1- pedidos, necesitamos
conocer los valores 𝐴𝑖 , es decir necesitamos tener una idea de cuánto es la variabilidad de cada estrato.
Para ello necesitamos información previa o bien realizar una muestra piloto.
Ejercicio: Considere que se estima que la varianza en el estrato A es de 100 y en el estrato B es 1 y calcule el
tamaño muestral total n y los tamaños muestrales ni de cada estrato según las fórmulas correspondientes.
̅𝑖 que se muestran en la tabla.
Luego considere que se realiza el muestreo que se obtuvieron los valores de 𝑌
̅.
Calcule la media muestral global 𝑌
6
Descargar