Clase 4 - Universidad del CEMA

Anuncio
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
IV - DISTRIBUCIONES MUESTRALES
4.1 Muestreo
Muestreo, distribuciones, procedimientos, etc. conciernen todos con el siguiente tipo de
situacion.
En primera instancia estamos interésados en ganar información acerca de particulares
medidas asociadas con un set bien definido de unidades. Nos referimos a este grupo de
unidades como la población (objetivo). Por ejemplo, la población puede muy bien ser los
clientes de una compañía, y la variable de interés puede ser el monto de dinero qie se gasta
con la compañía, sus niveles de satisfacción con el servicio, etc. Idealmente nos gustaría
contar con la totalidad de información sobre estas variables entrevistando a toda la
población (referendum), pero esto es muy costos, y los relevamientos llevan mucho tiempo.
En consecuencia, lo que hacemos es tomar un subconjunto del grupo y obtener los datos de
interés, procediendo a hacer inferencias desde esos datos hacia el total de la población.
Este subconjunto es denominado la MUESTRA, y existen métodos bien definidos a los
efectos de extraer la mayor cantidad de informacion util de la misma.
La población puede ser finita (los empleados de una compañía en particular) o infinita (tirar
una moneda indefinidamente), siendo que una población muy grande puede ser tomada
como infinita en tamaño a los efectos prácticos.
En este capítulo las distribuciones muestrales de algunos estadísticos importantes, cuando
una muestra es extraida de una población infinita (a los efectos practicos). Por Muestra
Aleatoria Simple entendemos que la muestra es elegida de manera tal que cada miembro de
la población tiene la misma probabilidad de integrar la muestra, independientemente de
otros miembros de la población. Para ello se pueden usar tablas o generadores de numeros
aleatorios. No obstante, el muestreo simple no es necesariamente el método mas eficiente
1
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
cuando la población objeto posee heterogeneidades bien conocidas. Tampoco es el mas
eficiente desde el punto de vista económico. Por ello al elaborar un muestreo, otras técnicas
deben ser objeto de análisis.
4.2 Planificación y Dirección de un Muestreo o Encuesta
Conducir una encuesta o muestreo implica mas que seleccionar un diseño, implica
planificación. Esta plainificación requiere de pasos, siendo los sugeridos por Scheaffer,
Mendenhall y Ott (1986) los siguientes:
1- Seleccione los objetivos: Que inferencias necesitamos obtener, y que es lo que no
sabemos?
2- Identifique la población objetivo: Sobre quienes queremos obtener conclusiones?
3- Seleccione un marco de muestreo: en esta etapa pueden ocurrir lo siguientes problemas;
bases de datos a ser utilizadas no se encuentran completas, error de selección o sesgo de
diseño de la muestra, error de falta de respuesta, lo que hace que la muestra no sea
representativa.
4- Seleccione un diseño de muestreo: como se seleccionarán los encuestados y cual será el
tamaño de la muestra.
5- Seleccione un método de muestreo: decidiendo como se recogerán los datos, sea en
forma personal, telefónica, por correo, étc.
6- Desarrolle un cuestionario: escriba el cuestionario, decidiendo el tipo y cantidad de
preguntas. El error de respuesta sucede a menudo en encuestas de opinión; depende de
cómo se formule una pregunta o que tipo de palabras se utilicen se recibirán distintos
porcentajes de opinión.
7- Realice un prueba previa del cuestionario: lleve a cabo la encuesta en una pequeña
muestra, y vea como evoluciona la misma.
2
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
8- Lleve a cabo el muestreo: monitoree los encuestadores para verificar habilidades de
entrevista consistentes.
9- Analice los datos: aún antes de llevar a cabo la encuesta, determine el método de
análisis de los datos.
4.3 Comparación de distintos diseños de Muestreo
Diseño
Como seleccionar la
Fortalezas/Debilidades
muestra
Muestra Simple
Asigne números a los
El elemento básico de
elementos de la población.
construcción.
Utilice tabla de números
Simple, pero usualmente
aleatorios para seleccionar la
costoso.
muestra.
No se puede utilizar a menos
que se asigne un número a
cada elemento de la
población
Muestra estratificada
Divida la población en
Con estratos apropiados
grupos que sean homogéneos puede producir estimadores
Muestra Sistemática
internamente y heterogéneos
muy acertados.
entre sí.
Más barato que el muestreo
Utilice números aleatorios
simple, requiere de una
para seleccionar muestras en
correcta estratificación de la
cada estrato
población.
Seleccione cada elemento kth Produce estimadores
de una lista a partir de un
acertados cuando los
comienzo aleatorio.
elementos en la población
3
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
exhiben un cierto orden.
Utilizar cuando muestreo
simple o estratificado es
impracticable: e.g. no se
conoce el tamaño
poblacional.
Simplifica el proceso de
selección.
No utilizar con poblaciones
de características repetidas
en forma periódica.
Muestreo por agrupamientos Agrupamientos (clusters)
Con agrupamientos
(clustering)
elegidos en forma aleatoria y
apropiados, puede producir
luego encuesta de cada
estimadores muy acertados.
elemento del cluster.
Util cuando un marco de
muestreo no está disponible o
los costos de traslado son
altos.
Los agrupamientos deben ser
representativos de la
población.
4.4 Principios Generales al escribir preguntas
Un estudio exitoso requiere que se encueste a la persona correcta, que la misma posea la
información de interés, y que esté dispuesta a proporcionarla. Las preguntas pueden ser: de
final abierto (Que fábrica construye los mejores autos?), de final cerrado (Que fábrica
construye los mejores autos?A- Una, B-Dos, étc.), y entre las de final cerrado: alternativas
4
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
sin orden, de final cerrado parciales (se incluye Otro), alternativas en orden (Mucho, Poco,
Nada), alternativas binarias (Sí, Nó). Entre los principios generales al escribir preguntas se
puedne citar:
Entendiendo la Pregunta
Dirija la elección de palabras a la inteligencia o nivel del encuestado.
Evite preguntas vagas
Evite preguntas con doble interpretación
Haga las respuesta excluyentes entre sí.
Teniendo la Información
Escriba preguntas que la gente pueda contestar
Escriba preguntas que la gente pueda contestar sin mucho esfuerzo
Disposición a dar información
Evite preguntas que invaden la privacidad de las personas
Diseñe las preguntas de manera tal que incentivos sociales no jueguen un rol al
elegir una respuesta.
Nunca haga preguntas embarazosas
Evite preguntas que dirijan al encuestado a elegir una respuesta en lugar de otra.
4.5 Distribuciones Muestrales
En la práctica, un set de datos es considerado como una muestra, y sus estadísticos como
representativos estimadores de los parámetros poblacionales. Una notación diferente es
utilizada para distinguir entre elementos de una muestra y población.
5
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
Asi tendremos
Muestra
Población
Histograma
Distribución de probabilidad
Media m
Media µ
Desviacion Estándar s
Desviacion Estándar σ
Varianza, s2
Varianza, σ2
Proporcion muestral r/n,
Proporcion p
Existe generalmente confusion entre características muestrales y poblacionales. Es
importante tener a esta altura una visión clara de la diferencia para entender los siguientes
tópicos. Como veremos, los estadísticos muestrales (bajo ciertas condiciones) se acercan a
sus contrapartes poblacionales a medida que el tamaño de la muestra se agranda;
haciendose iguales cuando la muestra es igual a la población. Sin embargo, cuando el
tamaño de la muestra es chico, segundas y terceras muestras tendran asociadas distintos (o
no) estadísticos muestrales, en tanto que las caracteristicas poblaciónales se mantienen
constantes.
Estadísticos muestrales varían de muestra a muestra debido a la naturaleza aleatoria de la
muestra, de alli que los estadísticos muestrales tengan asociados distribuciones de
probabilidades.
Asi, obtenemos lo que es denominado DISTRIBUCIÓN MUESTRAL. Tenemos la
distribución muestral del maximo, del rango, de la media muestral, etc.
El principal proposito de este capitulo es estudiar estas distribuciónes.
6
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
4.6 Distribución Muestral de la media muestral
Consideremos una gran población (infinita) que posee una distribución normal con media µ
y deviacion estándar σ. Tomemos ahora una muestra aleatoria de n valores y computemos
su media m1; tomemos ahora otra muestra de igual tamaño y computemos su media m2, y
asi sucesivamente, hasta obtener un gran numero de medias mi. Estos valores por lo general
variarán de muestra en muestra, con lo que podemos construir un histograma que los
describa, como ya lo hicimos, para tener una imagen de los mismos. Esto pone énfasis en el
hecho que la media muestral tiene asociada una distribución de frecuencia, y estaremos
capacitados para determinar la forma exacta de esta distribución desde la teoria sin tener
que correr una simulación como la descripta.
Ahora derivamos la distribución muestral de la media muestral de n valores muestreados en
forma aleatoria, x1, x1, ......xn de N {µ, σ2}.
Consideremos la variable T = x1 + x2 + ..........xn,
Como la variable T es una función lineal de variables aleatorias normalmente distribuidas,
T es normal. Solo queda por derivar su media y su varianza:
E (T) = E(x1) + E(x2) + ......E(xn) = nµ
µ
V (T) = V(x1) + V(x2) + ......V(xn) = nσ
σ 2,
Entonces, T se distribuye normalmente con media nµ y varianza nσ2,
Dividiendo T por n, obtenemos la distribución muestral de T/n
7
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
E (T/n) = {E(x1) + E(x2) + ......E(xn)}/n = µ
V (T/n) = {V(x1) + V(x2) + ......V(xn)}/n2 = σ2/n
Resumimos este resultado importante de la siguiente manera: si m es la media muestral de
n valores de una distribución N {µ, σ2}, entonces m:
(a) Se distribuye normalmente
(b) Tiene media µ.
(c) Tiene varianza σ2/n
Nótese que la distribución de la media muestral es la misma que para las observaciones
particulares , excepto por el hecho de estar la varianza dividida por n; esto nos dice que
medias muestrales son menos variables que los valores individuales, y su variabilidad
decrece a medida que la muestra se agranda, tornandose 0 cuando N tiende a ∞, de forma
tal que m se hace µ con certeza en el limite.
La deviacion estándar de m es σ√n, pero para distingirla de su contraparte poblaciónal se lo
suele denominar ERROR ESTÁNDAR.
Asi, una media muestral simple m es en si misma una muestra de la población normal, con
media µ y desviacion estándar √σ/n.
Es fácil mostrar que si una muestra similar es tomada de una población con una
distribución no conocida, pero con media µ y varianza σ2,b y c todavia se mantienen. Lo
qie si es mas sorpresivo es que si n es razonablemente grande, entonces a es
aproximadamente cierto. Este poderoso resultado es conocido como teorema del Limite
Central, y puede ser verificado tanto teóricamente como empíricamente. Una consecuencia
8
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
es que si estamos tratando con una media muestral, y el tamaño de la muestra supera 30,
podemos asumir que ha sido obtenida de una distribución normal.
Notese que los resul;tados (b) y (c) implican que
(a)
medias muestrales basadas en muestras grandes tienen mayores chances de
estar cerca del verdadero valor poblacional que aquellas obtenidas de
muestras pequeñas.
(b)
Si incrementamos el tamaño de la muestra indefinidamente, la distribución
normal resultante se transforma en una linea sobre la media poblaciónal.
De aquí nuestro uso de la media muestral como un estimado de la media poblaciónal.
Corrección de la Varianza de la media muestral para poblaciones finitas
Si la muestra se toma, sin reposición de una población finita de tamaño N, entonces es
inmediatamente aparente que el error estándar de m es 0 cuando n = N y no √σ/n.
En este caso es necesario utilizar una fórmula mas general para el error estandar de la
media muestral, de manera que,
Varianza de la media muestral = {σ2/n} * (1 – 1/N), donde el factor (1 – 1/N) es conocido
como Factor de Corrección de Poblaciones Finitas, y se hace insignificante cuando el
tamaño de la muestra es pequeño comparado con el tamaño de la población.
9
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
4.7 Distribución Muestral de la Población
La Aproximacion de la Distribución Normal a la Binomial
Esta distribución se aplica cando tenemos n pruebas de Bernoulli con parámetro de éxito p,
donde n es bastante grande pero p no es un valor muy extremo. Nótese que cuando p si es
extremo, podemos usar la aproximacion de Poisson a la Binomial, conforme fuera ya
explicado. Caso contrario, la distribución normal es la que corresponde utilizar.
Asumamos que tenemos n pruebas de Bernoulli con parametros de éxito p; la distribución
exacta del numero de exitos es la Binomial pero si n es grande podemos utilizar el siguiente
argumento:
Definamos Xi = 1 si la i – gesima prueba es exitosa, y = 0 si es fracaso,
Entonces el número total de éxitos es igual a
R = X1 + X2 +............Xi, de manera tal que la proporcion de exitos es igual a R/n = X
De alli que la proporción es la media muestral de un gran número de variables aleatorias
independientemente e idénticamente distribuidas, se sigue entonces del Teorema del Límite
Central que la proporción muestral se distribuye en forma normal. De la distribución
Binomial se sigue que que R posee una media igual a np, y varianza igual a npq, de donde
se sigue que la aproximacion normal a la binomial posee los mismos parametros.
La distribución muestral de la proporcion es igual entonces a
10
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
R/n ~ N { p, pq/n}, siendo conocida como la aproximacion normal a la Binomial.
Es particularmente relevante para realizar inferencias sobre proporciones poblaciónales
como veremos mas adelante. Notese que tambien significamos que
R ~ N { np, npq}
Ejemplo
Un vendedor inicia contactos telefónicos con potenciales clientes que luego puede o
no redituar en una visita personal. Su experiencia le indica que en un 40% de los casos, los
contactos telefónicos conducen a una visita personal. En caso que el núemro de personas a
contactar fuese 100, cual es la probabilidad que entre 45 y 55 personas arreglen una vista
personal?. Si X es el numero de visitas, que sigue una distribución binomial con n=100 y
p=.4, entonces la aproximación será:
 45 − (100).4
50 − (100).6 
P(45 ≤ X ≤ 55) ≈ P 
≤Z≤

(100)(.4)(.6) 
 (100)(.4)(.6)
= P(1.02 ≤ Z ≤ 2.04)
= Fz(2.04)-Fz(1.02) = .1332
La Aproximación de la Distribución Normal a la Poisson
Cuando el número de ocurrencias λ es grande, y el intervalo de tiempo de interés es
subdividido en partes mas pequeñas de igual tamaño. Entonces el total de ocurrencias en un
período dado es igual a la suma de las ocurrencias en cada uno de los subintervalos.
11
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
Entonces se puede ver que cuando λ es grande, el número total de ocurrencias puede ser
visto como una suma moderada de variables aleatorias, donde cada una represneta
ocurrencias en el subintervalo. Invocando el Teorema del Límite Central, se podría decir
que
Z=
X − E( X ) X − λ
=
Var ( X )
λ
es aproximadamente normal estándar.
Ejemplo
Un centro de servicios al consumidor recibe en promedio 25 llamadas por dia,
pudiéndose asumir que la distribución de las llamadas es Poisson. Estimando la
probabilidad que el numero de llamadas en un dia esté entre 20 y 30, tenemos que λ=25
 20 − 25
30 − 25 
P(20 ≤ X ≤ 30) ≈ P 
≤Z≤

25) 
 25
= P(-1 ≤ Z ≤ 1)
= Fz(1)-Fz(-1) = .6826
4.8 Distribución Muestral de la Varianza Muestral
A diferencia de la media muestral, esta distribución es sensitiva a la distribución subyacente
de las variables de donde la muestra fue obtenida. Como hemos visto en la sección anterior,
12
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
es en nuestro provecho si podemos construir un estadístico relacionado cuya distribución
sea independiente de los parámetros (el caso de la distribución normal estándar), lo que será
extremadamente útil.
Puede ser mostrado que la varianza muestral s2 para una muestra aleatoria de una
distribución normal con media µ y varianza σ2, tiene una distribución conocida con media
σ2 y varianza 2σ4/(n-1). Sin embargo, podemos remover la dependencia del error estándar
del parámetro desconocido a través de simplemente tomar una funcion de s2,
(n − 1)
s 2 S yy
o
σ2 σ2
La forma matematica de esta distribución es conocida y tabulada, y es llamada la
distribución CHI – CUADRADA (χ2). La media de esta distribución es (n-1) y su varianza
2(n-1), de manera tal que claramente se ve que para diferentes tamaños de muestras se
obtienen diferentes distribuciones.
No obstante la dependencia en s2 ha sido removida, todavia tenemos distintas distribuciones
χ2 (no como en el caso de la norma, que una vez estandarizada es única). Esto es asi porque
la distribución chi- cuadrada depende en el número de observaciones que han sido
utilizados para computar la varianza muestral. Mas formalmente, depende en los GRADOS
DE LIBERTAD asociados con el cálculo de la varianza muestral; para una varianza
muestral calculada de una muestra de tamaño n, los grados de libertad son siempre (n-1).
Explicaremos mas adelante el término de grados de libertad cuando los encontremos en un
contexto mas general.
13
Universidad del CEMA
Métodos Cuantitativos
Prof. José P Dapena
De esta manera, utilizamos tablas estadisticas o softwares especiales para calcular las
probabilidades que la varianza muestral se encuentre en un determinado rango. También se
utiliza para testear valores probables de la varianza poblacional.
14
Descargar