Taller STATA 2016 (transparencias)

Anuncio
Estadı́stica y sus aplicaciones en Ciencias Sociales
Taller - Estadı́stica
Facultad de Ciencias Sociales, UdelaR
Junio de 2016
ESTADÍSTICA Y SUS APLICACIONES EN CIENCIAS SOCIALES
TALLER I
5 ventanas en Stata:
Results: los comandos ejecutados y sus resultados
Review: almacena los comandos ejecutados
Command: lı́nea en que se ejecuta comandos con ”enter”
Variables: nombre y etiqueta de las variables en la base
Properties: maneja las caracterı́sticas de las variables
Modos de trabajo:
programa: se escribe un archivo de texto ”do file” con terminación.do
menú: los comandos se despliegan interactivamente
lı́nea de comandos: se teclean una a una las instrucciones dando ”enter”
Trabajando en la lı́nea de comandos:
clear
Usando display y haciendo cálculos en la lı́nea de comandos:
display 10/5
display invnorm(.95)
Cambiando el directorio de trabajo para grabar, leer, etc.:
cd “C:\. . . \taller”
Cargando el archivo Salarios.dta
use Salarios.dta
Mirando o editando los datos
edit
Trabajando con un archivo de programa (do-file)
En el menú, seleccionar el botón que tiene una hoja de cuaderno (New
Do-file editor)
-
Se abre una nueva ventana de un editor de archivo de texto.
Escribir uno o varios comandos
Para ejecutarlos, seleccionar la parte del texto correspondiente
Desde el menú ejecutar Tools-Execute(do)
Ejemplo: summ educ if casado==1
- El do-file puede guardarse con extensión .do, y puede editarse en
cualquier editor de texto. En lo sucesivo, escribir los comandos en el
archivo do y guardar (file-save desde el menú del propio do-editor)
Crear una nueva variable
gen edad = educ + exper + 6
tablas de frecuencias
tab educ
medidas de resumen de los datos: x y s. mı́nimo, máximo, no. de
observaciones.
summ s hora
estadı́sticos adicionales:
summ s hora, detail
estadı́sticas para parte de la muestra
summ s hora if mujer==1
summ s hora if educ=<12
Histograma de frecuencias
histogram s hora
hist exper
Gráfica de dispersión de los datos
scatter s hora educ
scatter s hora exper
Covarianza y correlación:
correlate s hora educ
correlate s hora educ, covariance
Intervalos de confianza:
El comando ci produce intervalos para variables distribuidas normalmente
o variables con otras distribucions con tamaño de muestra que soporte una
aproximación normal.
Ejemplo:
ci s hora edad
Por defecto el nivel de confianza es 95%. Se puede obtener otro nivel
escribiendo
ci s hora edad, level(99)
Pruebas de hipótesis:
El comando ttest produce pruebas de hipótesis respecto a la media de una
variable (cola derecha, dos colas y cola izquierda).
Ejemplo:
ttest s hora==6
Utiliza la distribución t, por lo que debe tenerse en cuenta o población
normal o que el tamaño de la muestra permita aproximación por el TCL.
Simular la extracción de una muestra
Hay dos comandos para extraer una muestra de una base de datos:
sample (sin reposición) y bsample (con reposición).
Ejemplo:
sample 40, count
bsample 40, count
Stata inmediatamente borra todos los demás datos. Podemos correrlo
muchas veces y observar cada vez el nuevo valor que tiene la media en la
muestra extraı́da. Cada vez haremos:
clear
use Salarios.dta
sample 50, count
summ s hora
dis r(mean)
Para ello creamos un bucle o ”loop”, trozo de programa que se repite
muchas veces, como un conjunto de comandos en renglones comprendidos
entre llaves { }.
Creamos una variable especial (llamada ”local”) con el nombre i y le
damos un valor inicial de 1. Luego de cada realización del procedimiento la
incrementamos una unidad, y establecemos una condición de seguir
realizando el proceso en tanto ésta variable no alcance cierto valor, en este
caso 30.
Eso nos permite cargar el archivo de datos 30 veces, tomar una muestra de
tamaño 50 cada vez, calcular la media, y guardarla en un archivo. Luego
unimos todos los archivos en uno, y podemos estudiar la distribución de
las medias muestrales obtenidas.
Programa para extraer 30 muestras de tamaño 50 y calcular en
cada caso la media muestral. Se crean los archivos muestra1,
muestra2, . . . , muestra 30.
local i = 1
while ‘i’ <= 30 {
clear
use ”Salarios.DTA”
sample 50, count
summ s hora
dis r(mean)
keep if n == 1
gen n = ‘i’
gen x = r(mean)
keep n x
save muestra‘i’.dta
local i= ‘i’ + 1
}
Segunda parte: reúne en un solo archivo las medias muestrales de
cada muestra y borra los archivos intermedios.
clear
use muestra1.dta
local k = 2
while ‘k’ <= 30 {
append using muestra‘k’.dta
local k = ‘k’ +1
}
local j = 1
while ‘j’ <= 30 {
erase muestra‘j’.dta
local k = ‘j’ +1
}
Especificando regresiones simples de salarios en educ y en experiencia por
separado
reg s hora educ
reg s hora exper
Interpretando la salida
tabla de las sumas de cuadrados: ss (sum of squares)
2
total: y0 y − nY = ∑N
i =1 yi − Y
residual: u
b0 u
b = ∑N
bi2
i =1 u
model: total - residual
2
Number of obs: N
F(K-1,N-K): Estadı́stico F para la prueba de de hipótesis H0 : todos los
β k son cero con excepción del correspondiente a la constante.
Prob > F : valor p asociado a la prueba F
R-squared: ”R cuadrado”: 1-(residual sum squares/total sum squares)
Adj. R-squared: ”R cuadrado ajustado”: 1 − NN−−K1 1 − R 2 corrige el
denominador de la suma de residuos al cuadrado por N-K y totales por N-1
Root MSE:
s
bi2
∑N
i =1 u
(N − K )
(estimación de la desviación estándar de los errores del modelo)
Coef: bk
Std. Err: EE (bk )
t: βbk /EE (bk ), estadı́stico asociado a H0 : β k = 0
[95% Conf. Interval]: Intervalo para β k con α = 0, 05
Prueba de hipótesis
Comprobar la significación de β educ en la prueba con H0 : β educ = 0 y la
alternativa bilateral H0 : β educ 6= 0 al 5% de significación.
Obtener el valor de una función distribución t con 525 grados de libertad
que acumula probabilidad igual a 1 - 0,025 usando ”dis invttail(525,
0.025)” y tomar la decisión de rechazo o no rechazo.
Considerar el valor-p reportado por Stata en relación con la pregunta
anterior.
Discutir qué información aporta respecto a la prueba el intervalo de
confianza que presenta la salida.
Residuos:
predict resid, res crea variable igual a u
b
Graficar la distribución de los residuos:
histogram resid
Dispersión y lı́nea de regresión, juntos
twoway (scatter s hora educ) (lfit s hora educ)
Regresión múltiple:
reg s hora educ exper
Inclusión en la regresión de una variable binaria:
reg s hora educ exper mujer
Correr la regresión para las submuestras de hombres y mujeres:
reg s hora educ exper if mujer==1
reg s hora educ exper if mujer==0
Descargar