Subido por Julio César Urango F

DIAPOSITIVA DE TEORIA DE MUESTREO

Anuncio
MAESTRIA EN DIDACTICA DE LAS
MATEMATICAS
TEORIA DE MUESTREO
Profesor: Kennedy Hurtado Ibarra.
Licenciado en Matemática y Física
Especialista en Estadística Aplicada
Magister en Estadística Aplicada
Doctor en Ciencias de la Educación
Celular: 3002426058
[email protected]
Referencia: Introducción al muestreo. David Ospina
INTRODUCCION
El muestreo ha sido una de las áreas de mayor importancia
en la investigación en los diversos campos de la ciencia.
Desafortunadamente, su aplicación no ha sido siempre la
más adecuada por la falta de conocimiento que se tiene
acerca de esta valiosa herramienta. Los conceptos básicos,
así como las diferentes fórmulas requeridas en su uso, en
general, no son bien asimiladas debido en parte a que no
parecen existir textos que, sin perder la rigurosidad
conceptual, introduzcan gradualmente a los estudiantes y
profesionales interesados en la comprensión de los
principales diseños muéstrales y su utilización.
Existen tres situaciones principales en donde es
conveniente seleccionar una muestra antes de llevar a
cabo un censo. Ellas son:
1. La población es grande y su estudio completo excede
los recursos asignados.
2. Existe suficiente homogeneidad en las unidades
poblacionales con respecto a lo que se quiere medir lo
cual permite que una muestra adecuada contenga la
información de interés necesaria al estudio.
3. El proceso de selección de la muestra es destructivo, lo
cual obliga al análisis de solo una parte de la población
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
DEFINICION BASICAS
Población: Es aquel conjunto de individuos o elementos que son de
interés para un problema dado. Estos se pueden observar, mediante
una característica o atributo. Ejemplo de población: Estudiantes de una
población, personas fumadoras de una región, usuarios que reciben un
puesto público especifico (agua, luz, teléfono etc).
Total poblacional: Es la suma de todos los valores de la variable en la
población. Es dado por:
Y = 𝑦𝑖
Muestra: subconjunto representativo de una población. Representativo
en el sentido que da a conocer las características deseables de una
población
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
MUESTREO:
Es el procedimiento empleado para obtener una o más muestras de
una población.
MARCO MUESTRAL:
Antes de seleccionar una muestra la población debe ser dividida en
partes que se denominan unidades de muestreo, estas pueden ser
objetos, personas, barrios, manzanas, cajas de artículos, áreas
especificas, etc. Dichas unidades deben cubrir la totalidad de la
población y no traslaparse, de tal manera que, todo elemento de la
población pertenezca a una y solo una unidad.
A la construcción de una lista de unidades de muestreo se le llama
marco muestral.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO
-
Ejemplo:
El médico que está interesado en realizar un estudio sobre
el efecto de una nueva medicina para la cura del sida, el
marco muestral está constituido por una lista que contenga
a todas aquellas personas (Unidades muestrales) que
utilizan la medicina, La población estará constituido por las
muestras de sangre que se tomen a cada persona.
(Unidades experimentales)
Parámetro:
Es una medida usada para describir alguna característica
de una población. Estas se obtienen de la distribución de
probabilidad de la población.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Estadístico:
Un estadístico es una medida usada para describir alguna
característica de una muestra. Estas representan una
estimación de los parámetros.
¿Qué tan buena será una estimación? ¿Cuanta confianza
tendremos de la validez de nuestra inferencia?
Una manera de evaluar la bondad de una estimación es a
través del error muestral o error de muestreo
Error Muestral: El error muestral es la diferencia entre un
estadístico de la muestra y el parámetro correspondiente
de la población. Mientras más pequeño el error muestral,
mayor es la precisión de la estimación
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Error no muestral:
Es otro tipo de error que suele cometerse al realizar un
análisis estadístico, es una estimación inexacta de los
parámetros, que puede presentarse aunque no hayamos
utilizado muestras en nuestro estudio. Los errores no
muéstrales pueden surgir de muchas causas, entre estas
tenemos: preguntas mal redactadas, encuestadores
inexpertos, falta de respuesta al cuestionario, errores de
tabulación y cálculo, manipulación de datos, respuestas
inconsistentes, etc. Los errores no muéstrales pueden
también ocurrir en una encuesta completa de la población
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Parámetros en variables Cuantitativas
Generalmente las variables mas importantes a estudiar
son de tipos cuantitativos. A continuación se definen los
parámetros mas frecuentemente utilizados.
Total poblacional: Es la suma de todos los valores de la
variable en la población. Esta dado por la formula.
Y = 𝑦𝑖
La media aritmética poblacional: Es la media aritmética de
todos los valores de la variable en la población y es dado
por la formula:
𝑌=
𝑦𝑖
𝑁
=
𝑌
𝑁
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
La varianza o cuasivarianza poblacional: Es el
promedio de las desviaciones al cuadrado de todos los
valores con respecto a la media y se obtiene como:
𝟐
(𝒚
−
𝒀)
𝒊
𝑺𝟐 =
𝑵−𝟏
La desviación estándar
Es la raíz cuadrada positiva de la varianza, a saber.
Desviación estándar poblacional S= 𝑆 2
Coeficiente de variación: Es el cociente entre la
desviación estándar y la media aritmética.
𝑆
CV =
𝑌
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
La varianza relativa:
Es igual al coeficiente de variación elevado al cuadrado.
V.Relativa= 𝑉𝑟𝑒𝑙𝑎𝑡 = (𝐶𝑉)2
La covarianza entre dos variables XY.
Correspondiente a los elementos de una población. Esta definida por:
(𝑥𝑖 − 𝑋)(𝑦𝑖 − 𝑌)
𝑆𝑥𝑦 =
𝑁−1
Coeficiente de correlación:
ρ𝒙𝒚
𝑺𝒙𝒚
=
𝑺𝒙 𝑺𝒚
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
EJEMPLO:
Consideremos la población de colegios de una ciudad. La lista de
ellos, identificados con dos letras del alfabeto, su numero total de
estudiantes y su carácter de funcionamiento (O oficial, P privado)
N°
1
2
3
4
5
6
7
8
9
10
Identificación
AA
AB
AC
AD
AF
AG
AH
EC
ED
EF
Carácter
P
P
O
P
O
P
P
P
P
O
N° de estudiantes
240
360
1338
845
664
540
788
446
360
880
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
EG
EH
EJ
EM
IB
IC
ID
IF
IG
IH
IM
OB
OC
OD
OF
OG
OH
UB
P
P
O
O
P
O
O
P
O
P
P
P
P
P
O
O
P
P
1180
244
1124
440
246
412
602
446
712
126
377
265
332
459
824
1455
326
548
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Y = 16579 estudiantes (total de los estudiantes en los colegios de la
ciudad.
𝑌 = 592,11 estudiantes, se aproxima a 592
𝑆 2 = 121867,88 estudiantes (varianza poblacional)
S = 349,10 estudiantes (desviación típica poblacional)
CV = 0,5896 coeficiente de variación, 58,96%
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
PARAMETROS DE VARIABLES CUALITATIVAS
En el caso de que las características sean un atributo, los parámetros
de interés pueden derivarse de las formulas anteriores, definiendo los
valores para la variable y, como:
𝑦𝑖 =
1, 𝑠𝑖 𝑒𝑙 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜 𝑒𝑠𝑡à 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑒 𝑒𝑛 𝑙𝑎 𝑖 − 𝑒𝑠𝑖𝑚𝑎 𝑢𝑛𝑖𝑑𝑎𝑑
𝑜, 𝑠𝑖 𝑒𝑙 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜 𝑛𝑜 𝑒𝑠𝑡à 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑒
Definición: El numero total de elementos en la población que poseen
el atributo considerado:
A = 𝑦𝑖
DEFINICION
La proporción poblacional con el atributo deseado está dada por:
𝑦
𝐴
P= 𝑖=
𝑁
𝑁
DEFINICION
La varianza (cuasivarianza) poblacional se define como:
𝑁
𝑆2 =
PQ, donde Q = 1 – P es la proporción de elementos que no
𝑁 −1
poseen el atributo considerado.
DEFINICION:
La desviación estándar poblacional, es la raíz cuadrada de la varianza
y se representa.
S = 𝑆2
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
DEFINICION
El coeficiente de variación se define como:
CV =
𝑁
𝑁 −1
𝑄
𝑃
EJEMPLO:
Consideremos de nuevo el ejemplo de los colegios, se puede definia
Y como el atributo “ ser de carácter privado”. Por lo tanto puede tomar
el valor de 1 si el e- eximo colegio es privado y cero en otro caso
(carácter oficial).
A= 18 numero total de colegios privados.
18
P= = 0,6429 proporción de colegios privados en la ciudad. En forma
28
de porcentaje seria 64, 29%
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
𝑆 2 = 0,2381 varianza de la variable Y.
S = 0,4879 desviación típica de la variable Y
CV = 0,5790 ( 57,90% coeficiente de variación)
Supongamos que el atributo Y se define “ pertenecer al sector oficial”.
En este caso los valores de 𝑦1 tomaran los valores de 1 si el e-esimo
atributo es de caracter oficial, 0 en otro caso. Los parámetros serian.
A= 10 numero total de colegios oficiales.
10
P= = 0,3571 proporción de colegio oficiales en la ciudad.
28
2
𝑆 = 0, 2381 varianza de la variable Y.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
S = 0,4879 desviación estándar de la variable y
CV = 1, 3663 coeficiente de variación de la variable y.
ESTADISTICOS.
VARIABLES CUANTITATIVAS.
La definición de los principales estadísticos, usados frecuentementes
para la estimación de los parámetros, son los siguientes:
DEFINICION: El total muestral es la suma de todos los valores de la
característica (variable y) en la muestra esta dado por:
y=
𝑦𝑖
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
DEFINICION:
L a media muestral, promedio de la característica (variable y) en
la muestra esta dado por:
𝑦𝑖
𝑦=
𝑛
DEFINICION:
La varianza muestral, medida de dispersión de la característica
(variable y), en la muestra es:
2
(𝑦
−
𝑦)
𝑖
𝑠2 =
𝑛−1
DEFINICION: La desviación estándar muestral, raíz cuadrada
s = 𝑠2
DEFINICION:
La varianza de la distribución de un estimador ө, esta dado por:
Var(ө) = (ө𝑖 − 𝐸 ө )2 𝛑𝑖
DEFINICION: La desviación estándar de la distribución de un
estimador ө, se denomina frecuentemente error estándar de
estimación y se define:
EE(ө𝑖 ) =
𝑣𝑎𝑟(ө𝑖 )
DEFINICION:
El coeficiente de variación de para un estimador ө, esta dado por:
EE(ө𝑖)
cv( ө𝒊 ) =
, mide la variabilidad muestral de la estimación
𝑬(ө𝑖 )
relativa al parámetro a ser estimado.
DEFINICION: El error del cuadrado medio de un estimador es una
medida de dispersión con respecto al parámetro poblacional y se
obtiene:
B[ө𝑖 ] = E[ө𝑖 ] − ө
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
DEFINICION:
Un estimador ө se dice que es insesgado B[ө] =0.
Si un estimador es insesgado su varianza es igual a su error
cuadrático medio. En general, la relación entre los dos parámetros
esta dada por:
ECM [ө] = VAR [ө] + 𝐵2 [ө]
Cuando se analizan dos estimadores ө1 𝑦 ө2 , de dos parámetros en la
misma población de elementos existen dos medidas importantes que
son esenciales en el análisis estadístico, esta son la covarianza y el
coeficiente de correlación entre los dos estimadores.
REPUBLICA DE COLOMBIA - UVERSIDAD DEL ATLÁNTICO -
DEFINICION:
La covarianza entre ө1 𝑦 ө2 dos estimadores distintos de ө𝑖 con media
E[ө1 ] y E[ө2 ], se define como:
COV[ө1 ; ө2 ] - E[ө1 ] E[ө2 ].
DEFINICION:
El coeficiente de correlación entre los dos estimadores ө1 𝑦 ө2 distinto
de ө, con error estándar EE[ө1 ] y EE[ө2 ], esta dado por:
Ρ(ө1 ; ө2 ) =
COV[ө1 ; ө2]
EE[ө1 ].EE[ө2 ],
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
DEFINICION:
Sean dos estimadores ө1 𝑦 ө2 distinto de ө con varianzas dadas
VAR [ө1 ] y VAR [ө2 ], respectivamente. Si VAR [ө2 ]>0, la
efiencia relativa (EFR) de ө1 con respecto a ө2 esta dado
por:
VAR [ө1 ]
EFR(ө1 ; ө2 ) = VAR
[ө ]
2
Según que EFR(ө1 ; ө2 ), sea inferior, igual o superior a la unidad,
se dirá que ө1 es mas, igual o menor que ө2
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Ejemplo:
Supóngase que una pequeña cafetería cuenta con un servicio de 8
mesas, en todas las cuales ya se han hecho diferentes pedidos. El
consumo por mesas en una hora determinada aparecen en la tabla
siguiente: (Datos en miles de pesos)
Mesa
Consumo
1
26
2 3
50 60
4
48
5
6
120 34
7
72
8
60
El parámetro a considerar es la media poblacional, es decir, el
consumo promedio por mesa en la cafetería. (Alternativamente se
podría considerar el total poblacional o cualquier otro parámetro.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
SOLUCION:
Si se quiere estimar ө a partir de la información obtenida considerando
8
solamente dos de las mesas, se tendrá un total de
= 28 medias
2
muéstrales o estimación.
j
1
2
3
4
5
6
7
Mes
as
1,2
1,3
1,4
1,5
1,6
1,7
1,8
J
38
43
37
73
30
49
43
8
9
10
11
12
13
14
Mes
as
2,3
2,4
2,5
2,6
2,7
2,8
3,4
j
55
49
85
42
61
55
54
15
16
17
18
19
20
21
Mes
as
3,5
3,6
3,7
3,8
4,5
4,6
4,7
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
j
90
47
66
60
84
41
60
22
23
24
25
26
27
28
Mes
as
4,8
5,6
5,7
5,8
6,7
6,8
7,8
54
77
96
90
53
47
66
En este caso se tiene que: ө = Y = 58.75.
E[ө] = 30
1
+
28
37
1
28
… … … … … … . 96
1
28
= 58,750 = $58750.
Como en este caso ө = E ө , se concluye que ө es un estimador insesgado.
Al ser ө un estimador insesgado, su varianza y error cuadrado medio
coinciden.
La varianza, el error estándar y el coeficiente de variación del estimador
considerado se obtienen a continuación.
1
1
VAR [ө] = (ө𝑖 − E ө )2 𝛑𝑖 = (30 − 58,75)2 + (37 − 58,75)2 ………….+
28
28
+ (96 − 58,75)2
1
=
28
311,116071.
EE[ө] = 311,116071 = 17,638 y CV [ө] =
17,638
=
58,75
30%.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
0,30
MUESTREO ALEATORIO DE POBLACIONES FINITAS.
En el muestro de poblaciones finitas se asume que el numero total de
elementos en la población es N, de los cuales se seleccionan
aleatoriamente n. La selección aleatoria es indispensable para poder
hacer uso correcto de los procesos de inferencia estadística.
(Selección aleatoria no es sinónimo de selección al azar).
El termino aleatorio implica el uso de un mecanismo de probabilidad
bien diseñado en la selección de la muestra. (muestras aleatoria
probabilística).
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
MUESTREO PROBABILISTICO
Existen condiciones que deben cumplirse para poder hablar de una
muestra probabilística.
 Poder definir el conjunto total de muestras posibles
S= 𝑠1 , 𝑠2 … … … … . 𝑠𝑛 , que pueden seleccionarse de la población
de acuerdo con el procedimiento muestral.
 Conocer para cada una de las muestras posibles la probabilidad
𝛑(𝑠) de que sea seleccionada.
 El procedimiento utilizado debe dar a cada elemento de la
población una probabilidad de selección diferente de cero.
 La selección, como se menciono antes, debe ser aleatoria, esto es,
el mecanismo de probabilidad diseñado para la selección debe ser
tal que cada muestra posible tenga la probabilidad de selección
asignada previamente 𝛑(s).
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
MUESTREO NO PROBABILISTICO
En general, todo tipo de muestreo que no cumpla con algunas de las
condiciones enumeradas anteriormente es un muestreo no
probabilístico. Los siguientes son ejemplos típicos de muestreo no
probabilístico:
 La muestra ha sido restringida a la parte de la población que es
fácilmente accesible.
 La muestra se selecciona teniendo en cuenta el azar mas no la
aleatoriedad.
 Con una población heterogénea y pequeña.
 La muestra está compuesta esencialmente de voluntarios.
 Un caso típico y ampliamente usado es el muestreo por cuotas.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
DISEÑOS MUESTRALES BÁSICOS
Entre los distintos métodos de muestreos probabilísticos para
poblaciones finitas existen los considerados básicos que al
combinarse originan otros denominados métodos políetópicos, más
complejos de estudiar. Una descripción general de los diseños
básicos se da a continuación:
 Muestreo aleatorio simple sin reemplazo.
 Muestreo aleatorio simple con reemplazo.
 Muestreo estratificado aleatorio simple.
 Muestreo sistemático aleatorio.
 Muestreo por conglomerado.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
MUESTREO ALEATORIO SIMPLE (MAS)
Definición: Es uno de los procedimiento de muestreo conocido como de
muestreo de elementos, aquellos donde las unidades elementales son las
mismas unidades de muestreo.
Característica.
 Todas las muestras posibles de tamaño n, de una población de tamaño N,
tienen la misma probabilidad de ser seleccionada. Esto conlleva a que
todos los elementos de la población también tengan la misma
probabilidad de ser seleccionado.
 La selección de las unidades en el MAS se lleva acabo seleccionando una
unidad a la vez. Esta selección puede ser con reemplazo o sin reemplazo.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO.
Definición: En el MAS sin remplazo ninguna de la unidad de la población
puede estar representada en la muestra mas de una vez.
La probabilidad de seleccionar una muestra especifica es:
𝑁!
(𝑁−𝑛)!𝑛!
, que es el numero total de subconjuntos (muestra) de tamaño n
que pueden ser seleccionados de un conjunto
( población) de tamaño N.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Ejemplo:
Supóngase que se tiene una población de 20 personas (unidades
poblacional) de las cuales se desea seleccionar una muestra aleatoria simple
sin reemplazo de tamaño 4.
Solución:
El numero total de muestras distintas que se pueden seleccionar
20!
20
son:
=
= 4845
(20−4)!4
4
La probabilidad de seleccionar una muestra compuesta por cuatro personas
1
determinadas son:
= 0,000206.
4845
Así mismo la probabilidad de que una persona cualquiera pertenezca a la
4
muestra es igual a = 0,20
20
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
GENERACION DE UNA MUESTRA ALEATORIA.
 Asignar a cada unidad del marco muestral (o elemento de la
población) un numero de 1 a N.
 Seleccionar aleatoriamente n de esos números mediante el uso de
algún proceso aleatorio.
ESTIMACION DE LA MEDIA POBLACIONAL
En el MAS sin reemplazo la media muestral, definida como:
𝑦
𝑦 = 𝑖 ; es un estimador insesgado de la media poblacional Y
𝑛
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
La varianza muestral esta dada por :
𝑠2
=
(𝑦𝑖 − 𝑦)2
𝑛 −1
Es un estimador insesgado de la varianza poblacional
finita σ2 .
La varianza de la media muestral es:
var[𝑦] = ( 1 -
𝑛
𝑁
𝜎2
)
𝑛
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
La raíz cuadrada de la varianza anterior se conoce con el error
estándar de estimación de la media muestral.
𝑛
σ
)
𝑁
𝑛
EE[𝑦] = (1 −
Los estimadores de la VAR[𝑦] y EE[𝑦] se obtiene reemplazando
σ2 y σ por sus respectivos estimadores 𝑠 2 y s, siendo el
estimador de la varianza un estimador insesgado.
Var [𝑦] = (1 −
𝑛 𝑠2
)
𝑁 𝑛
ee [𝑦] = (1 −
𝑛 𝑠
)
𝑁 𝑛
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
ESTIMACION DEL TOTAL POBLACIONAL.
Existen situaciones donde el objetivo principal es estimar el total de
los valores de una variable.
Un estimador insesgado del total poblacional esta dado por:
𝑌 = Ny =
𝑁
𝑛
𝑦𝑖
INTERVALO DE CONFIANZA PARA LA MEDIA Y EL TOTAL
POBLACIONAL
Los intervalos de confianza aproximados del 100(1 – α)%
Para la media y el total poblacional esta dado por:
𝑦 ± 𝑡𝑛−1 ee[𝑦]
y
𝑌 ± 𝑡𝑛−1 ee[𝑦]
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
ESTIMACION DE LA PROPORCION Y DEL TOTAL DE
ELEMENTOS EN LA POBLACION CON UN ATRIBUTO
ESPECIFICO.
Muchas dela s investigaciones que se llevan a cabo buscan conocer
las preferencias que las personas tienen por un candidato, producto o
la cantidad de elementos de una población que puede clasificarse en
grupo especifico.
Esto implica la estimación proporcional.
Definicion:
La proporción poblacional P, y el numero total de unidades en la
población con atributo deseado A, se definen:
𝑎
P=
𝐴 = 𝑁𝑝 =
𝑛
atributo deseado.
𝑁
𝑛
a, donde a es el numero de elementos con el
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
La varianza y el error estándar de estimación de la proporción muestral
están dados por:
𝑁 −𝑛 𝑃𝑄
𝑁 −1 𝑛
VAR[𝑝] =
EE [𝑝] =
𝑁 −𝑛
𝑁 −1
𝑃𝑄
𝑛
Con estimadores
𝑁 −𝑛 𝑝𝑞
var[𝑝] =
. var[𝑝] es un estimador de VAR[𝑝]
y
𝑁 −1 𝑛
𝑁 −𝑛
ee[𝑝] =
𝑁 −1
𝑝𝑞
𝑛
. ee[𝑝] es u n estimador de EE [𝑝]
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
La varianza y el error estándar del estimador del total de unidades con las
características son:
𝑁 −𝑛 𝑃𝑄
VAR [𝐴]= 𝑁 2
𝑁 −1 𝑛
EE[𝐴] = N
𝑁 −𝑛
𝑁 −1
𝑃𝑄
𝑛
Sus estimadores son:
var [𝐴]= N(N – n)
𝑝𝑞
𝑛 −1
ee[𝐴] = N(N – n)
𝑝𝑞
𝑛 −1
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN Y EL
TOTAL DE ELEMENTOS DE LA POBLACIÓN.
Cuando se trabaja con proporciones, los requisitos acerca del tamaño
de la muestra, para poder utilizar la aproximación normal en el
establecimiento de los intervalos de confianza, son mayores. El valor
de n adecuado es sensible al valor de p, proporción estimada a partir
de la muestra.
Según COCHRAN, la siguiente tabla presenta los valores mínimos
requeridos de n, como función de p.
P
n
0,5
30
0,4 0,3
50 80
0,2 0,1
200 600
0,05
1400
< 0,05
>1400
Si se cumple el requisito anterior, los limites de confianza para la proporción
poblacional y para el numero de elementos con atributos desados, estará
dado por:
𝑝 ± 𝑡𝑛−1 𝑒𝑒[𝑝]
𝐴 ± 𝑡𝑛−1 𝑒𝑒[𝐴]
Cuando el tamaño de la muestra no cumple los requisitos establecidos los
intervalos de confianzas son inconsistentes. En este caso es necesario hacer
el uso de la distribución hipergeometrica.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Ejemplo:
Consideremos nuevamente la población de 28 establecimientos educativos
de la tabla anterior. Se desea seleccionar una muestra de 8 colegios con el fin
de estimar el tamaño promedio de los establecimientos (𝑌), el numero total
de estudiantes en la ciudad (Y), la proporción (P) y el numero total de ellos
(𝐴), con funcionamiento privado.
Solución:
Seleccionamos una muestra aleatoria
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO
Tabla de la muestra seleccionada
Números
Aleatorios
Identtif.
carácter
N° orden
N° de
estud.
26
OG
O
1
1455
27
OH
P
2
326
22
0B
P
3
265
14
EM
O
4
440
02
AB
P
5
360
08
EC
P
6
446
06
AG
P
7
540
16
IC
O
8
412
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
𝑦𝑖
𝑛
Para la media 𝑦 =
establecimientos.
= 530,5 , se aproxima 530 estudiantes por
s 2 = 146506,29
8 146506,29
var[y] = (1 - )
= 13080,92
28
8
ee[𝑦]= 13080,92 = 114,37 estudiantes por establecimientos.
El intervalo de confianza del 90%, esta dado por:
[530 ± 1,895(114,37)] = [313; 748] estudiantes por establecimientos
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Para el total 𝑌
𝑌 = N𝑦 = (28)(530,5) = 14854 estudiantes.
ee[𝑌] = (28)(114,37) = 3202,36 estudiantes por establecimientos.
Intervalo de confianza del 90%.
[8785; 20923], estudiantes.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Para la proporción.
5
8
Usando la aproximación normal 𝑝 = = 0,625 = 62,5%
𝑁 −𝑛 𝑝𝑞
𝑁 𝑛−1
VAR[𝑝] =
ee [𝑝] =
𝑁 −𝑛
𝑁
= (
𝑝𝑞
𝑛−1
28−8 (0,625)(0,375)
)
28
8−1
=
28−8
28
= 0,023916
(0,625)(0,375)
8−1
= 0,1546
Intervalo de confianza para el 90%
[0,332 ; 0,918]
Intervalo de confianza para A
[9 ; 26]
Ejercicio:
Una muestra aleatoria simple sin reemplazo de 56 personas fue
seleccionada de una población de 1000 trabajadores de una empresa.
Además de su ingreso mensual en miles de pesos (I), se registró su
género (G)(H=hombre; M=mujer). La información obtenida se
encuentra en la siguiente tabla.
Estime:
a.El ingreso promedio de los trabajadores. Establezca un intervalo de
95%.
b.El ingreso total de todos los trabajadores de la empresa. Establezca
un intervalo del 95%.
c.Estime la proporción y el numero total de mujeres en la empresa.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Tabla de muestra aleatoria de trabajadores de una emprea
N°
1
2
3
4
5
I
800
960
670
688
1025
G
M
H
H
M
M
N°
8
9
10
11
12
I
1126
1780
2135
1446
2245
G
H
H
H
H
H
N°
15
16
17
18
19
I
686
997
1335
1567
1456
G
H
M
H
M
M
N°
22
23
24
25
26
I
1456
1388
1785
1653
2121
G
H
M
H
M
H
N°
29
30
31
32
33
I
1256
946
2000
2037
3111
G
H
M
M
M
H
N°
36
37
38
39
40
I
1222
1768
1984
2348
876
G
M
H
H
H
M
N°
43
44
45
46
47
I
1678
1326
1843
880
760
G
H
M
H
H
M
N°
50
51
52
53
54
I
2880
1890
1033
2668
3345
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
6
2346
H
13
1760
M
20
1234
H
27
880
M
34
1042
M
41
890
H
48
1146
M
55
2156
7
780
M
14
2287
H
21
2678
H
28
984
H
35
1564
H
42
1452
H
49
1680
M
56
1880
d. Establezca un intervalo del 95% tanto para la
proporción como para el numero total de mujeres en la
empresa.
e. ¿Considera valida la aproximación normal en este
caso?
f. ¿Cómo estimaría el ingreso promedio y total de las
mujeres para toda la empresa si no se conociera el
numero total de ellas.
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
TAMAÑO DE LA MUESTRA
La determinación del tamaño de la muestra es tal vez el
principal problema a resolver en las investigaciones por
muestreo. Análisis apresurados de la situación estudiada
pueden conducir a definir tamaños de muestras
insuficientes que no proporcionan estimaciones con la
precisión y confiabilidad requerida o en el otro extremo,
tamaños muy grandes que, aunque puedan cumplir con
los objetivos trazados, desbordan el presupuesto
asignado.
TAMAÑOS DE MUESTRAS PARA MEDIAS Y TOTALES EN MAS
En el caso de MAS sin reemplazo la formula para calcular el tamaño de la
muestra es:
𝑠2
n=
var[y]
1+
𝑠2
𝑁
var[y]
Cuando se desea controlar el error máximo absoluto, se tiene que:
n=
𝑧2 𝑠2
δ2
1 𝑧2 𝑠2
1 +𝑁 ( 2 )
δ
, donde var[y] se reemplaza por
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
δ 2
𝑧
Si n es suficientemente grande o el muestreo es con reemplazo, n puede
aproximarse por 𝑛0 =
𝑧 2𝑠2
δ
2
n puede ser expresada como función de 𝑛0 así:
n=
𝑛0
𝑛
1+ 𝑁0
Para la selección de una muestra piloto de tamaño 𝑛1 (generalmente
<30) y calculo de la varianza de esta muestra. Esta varianza se toma
como estimación de la varianza poblacional.
𝑛0 =
𝑧 2𝑠2
δ
2
1+
2
𝑛1
Ejemplo:
Considere la información que aparece en la tabla
correspondiente a una muestra de 30 personas. Una vez las
personas fueron seleccionadas, además de ingreso mensual (I),
se registro su género (G) (masculino m; femenino f) y su
estado civil (EC) (soltero s: casado c; otros o).
Tabla
de
ingreso
mensual,
genero
y
estado
N°
I
G
EC
N°
I
G
EC
N°
I
G
EC
1
2,0
f
c
11
3,5
f
o
21
7,1
f
c
2
2,5
m
s
12
5,7
f
s
22
4,9
f
s
3
4,0
f
c
13
10,0 m
s
23
2.3
m
o
4
3,8
m
s
14
8,1
m
s
24
3,9
f
c
5
7,2
f
c
15
4,4
m
c
25
11,1 m
s
6
10.0 m
c
16
6,6
f
o
26
7,3
f
o
7
5,6
f
c
17
7,3
m
s
27
6,5
m
s
8
4,9
f
o
18
8,0
f
o
28
5,8
f
o
9
3,3
f
o
19
9,0
f
c
29
4,0
m
c
10
4,0
m
s
20
3,9
m
s
30
3,0
f
s
civil.
Suponga que la muestra es una muestra piloto seleccionadas
por los expertos de una comunidad de 10000 personas. Se
desea determinar el tamaño de la muestra minimo para estimar
el ingreso promedio y total con un error absoluto no mayor de
0,2 salarios mínimo (de 2000 en el caso total) y una
confiabilidad del 95%
Solución:
Z= 1,96 valor correspondiente a una confiabilidad del 95%
δ = 0,2
𝑠 2 = 5,9977 varianza de la muestra
N = 10000
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Entonces:
n=
𝑧2 𝑠2
δ2
1 𝑧2 𝑠2
1 +𝑁 ( 2 )
δ
=
(1,96)2 (5,9977)2
(0,2)2
1
(1,96)2 (5,9977)2
1 +10000 (
)
(0,2)2
= 544,65 = 545
Que es el numero de personas sin incluir a la muestra piloto.
Considere ahora que l muestra piloto es una muestra aleatoria
simple:
n=
(1,96)2 (5,9977)2
(0,2)2
1 +
2
30
= 614,42 aproximado 615
Lo cual indica que se tendrá que escoger 615 sin incluir la
muestra piloto.
TAMAÑO DE MUESTRA PARA PROPORCIONES EN EL MAS
El tamaño de muestra cuando se desea controlar el error
máximo absoluto.
n=
𝑧2 𝑃𝑄
δ2
𝑁−1 1 𝑧2 𝑃𝑄
+ . 2
𝑁
𝑁 δ
Si el muestreo es con reemplazo, o la población es
suficientemente grande para ser asumida como infinita, se
reduce a:
n=
𝑧 2 𝑃𝑄
δ2
El problema de la estimación del tamaño de la muestra en
proporciones es, en general, mas fácil de solucionar que en el
caso de la media, ya que la proporción es un numero real entre
0 y 1, lo cual permite, en el peor de los casos establecer un
tamaño de muestra suficiente.
Esto implica que en ningún caso el tamaño de la muestra debeb
ser mayor que:
𝑧2
𝑛0 =
4δ2
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Tamaño de muestra cuando se desea controlar el error
máximo relativo.
En el caso de la proporción, controlar el error máximo relativo
es de gran importancia cuando existe un desconocimiento de las
proporciones poblacionales.
n=
𝑧2 𝑄∗
2 ∗
𝑃
1 𝑧2 𝑄∗
1 +𝑁 2
𝑃∗
ε
, desafortunadamente este tamaño de muestra es
ε
muy sensible a ligeros cambios en la estimación previa de P.
Si el tamaño de la población es muy grande, la anterior formula
puede aproximarse por: 𝑛0 =
𝑧 2 𝑄∗
ε2 𝑃∗
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
EJEMPLO.
Consideremos la información contenida en la tabla anterior y
asúmase que corresponde a una muestra piloto. Se desea
estimar el porcentaje de hombres, con un error absoluto no
mayor de 0,04 y una confiabilidad de 90%.
SOLUCION.
Con base a una muestra piloto de 30 personas se puede estimar
P denotado como 𝑃∗ y la cual es:
14
𝑃∗ =
¨= 0,4667 y 𝑄∗ = 0,533
30
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Reemplazando en la formula:
n=
𝑧2 𝑃𝑄
δ2
𝑁−1 1 𝑧2 𝑃𝑄
+𝑁 . 2
𝑁
δ
=
1,642 (0,4667)(0,533)
(0,04)2
9999
1
1,642 (0,4667)(0,5333)
+
.
10000 10000
δ2
= 403,98 aprox.
404 que es el numero de personas a seleccionar
Si la muestra final fue aleatoria, esas 30 personas pueden
formar parte de la muestra final, en caso contrario no.
S i el objetivo es controlar el error relativo en la estimación de la
proporción, estableciendo como máximo el 10%, se utilza:
n=
𝑧2 𝑄∗
2 ∗
𝑃
1 𝑧2 𝑄2
1+
𝑁 2 𝑃∗
ε
ε
=
𝑧1,64 (0,5333)
0,102 (0,46767)
1 1,642 (0,5333)
1+
10000 0,102 (0,4667)
= 299,94 se aprox. 300
PROPORCION SIMULTANEA
Los investigadores frecuentemente se enfrentan a problemas de
definir un tamaño de muestra n para un MAS sin reemplazo de
una población finita, pero grande de tamaño N, de la cual se
conoce que esta dividida en k categorías mutuamente
excluyentes.
Si N es pequeña , el tamaño de la muestra mas pequeño puede
obtenerse mediante la expresión :
𝑛0
n= 𝑁 −1 𝑛0
𝑁
+ 𝑁
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
GRACIAS
REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -
Descargar