Taller STATA 2016 (transparencias)

Estadı́stica y sus aplicaciones en Ciencias Sociales Taller - Estadı́stica Facultad de Ciencias Sociales, UdelaR Junio de 2016 ESTADÍSTICA Y SUS APLICACIONES EN CIENCIAS SOCIALES TALLER I 5 ventanas en Stata: Results: los comandos ejecutados y sus resultados Review: almacena los comandos ejecutados Command: lı́nea en que se ejecuta comandos con ”enter” Variables: nombre y etiqueta de las variables en la base Properties: maneja las caracterı́sticas de las variables Modos de trabajo: programa: se escribe un archivo de texto ”do file” con terminación.do menú: los comandos se despliegan interactivamente lı́nea de comandos: se teclean una a una las instrucciones dando ”enter” Trabajando en la lı́nea de comandos: clear Usando display y haciendo cálculos en la lı́nea de comandos: display 10/5 display invnorm(.95) Cambiando el directorio de trabajo para grabar, leer, etc.: cd “C:\. . . \taller” Cargando el archivo Salarios.dta use Salarios.dta Mirando o editando los datos edit Trabajando con un archivo de programa (do-file) En el menú, seleccionar el botón que tiene una hoja de cuaderno (New Do-file editor) - Se abre una nueva ventana de un editor de archivo de texto. Escribir uno o varios comandos Para ejecutarlos, seleccionar la parte del texto correspondiente Desde el menú ejecutar Tools-Execute(do) Ejemplo: summ educ if casado==1 - El do-file puede guardarse con extensión .do, y puede editarse en cualquier editor de texto. En lo sucesivo, escribir los comandos en el archivo do y guardar (file-save desde el menú del propio do-editor) Crear una nueva variable gen edad = educ + exper + 6 tablas de frecuencias tab educ medidas de resumen de los datos: x y s. mı́nimo, máximo, no. de observaciones. summ s hora estadı́sticos adicionales: summ s hora, detail estadı́sticas para parte de la muestra summ s hora if mujer==1 summ s hora if educ=<12 Histograma de frecuencias histogram s hora hist exper Gráfica de dispersión de los datos scatter s hora educ scatter s hora exper Covarianza y correlación: correlate s hora educ correlate s hora educ, covariance Intervalos de confianza: El comando ci produce intervalos para variables distribuidas normalmente o variables con otras distribucions con tamaño de muestra que soporte una aproximación normal. Ejemplo: ci s hora edad Por defecto el nivel de confianza es 95%. Se puede obtener otro nivel escribiendo ci s hora edad, level(99) Pruebas de hipótesis: El comando ttest produce pruebas de hipótesis respecto a la media de una variable (cola derecha, dos colas y cola izquierda). Ejemplo: ttest s hora==6 Utiliza la distribución t, por lo que debe tenerse en cuenta o población normal o que el tamaño de la muestra permita aproximación por el TCL. Simular la extracción de una muestra Hay dos comandos para extraer una muestra de una base de datos: sample (sin reposición) y bsample (con reposición). Ejemplo: sample 40, count bsample 40, count Stata inmediatamente borra todos los demás datos. Podemos correrlo muchas veces y observar cada vez el nuevo valor que tiene la media en la muestra extraı́da. Cada vez haremos: clear use Salarios.dta sample 50, count summ s hora dis r(mean) Para ello creamos un bucle o ”loop”, trozo de programa que se repite muchas veces, como un conjunto de comandos en renglones comprendidos entre llaves { }. Creamos una variable especial (llamada ”local”) con el nombre i y le damos un valor inicial de 1. Luego de cada realización del procedimiento la incrementamos una unidad, y establecemos una condición de seguir realizando el proceso en tanto ésta variable no alcance cierto valor, en este caso 30. Eso nos permite cargar el archivo de datos 30 veces, tomar una muestra de tamaño 50 cada vez, calcular la media, y guardarla en un archivo. Luego unimos todos los archivos en uno, y podemos estudiar la distribución de las medias muestrales obtenidas. Programa para extraer 30 muestras de tamaño 50 y calcular en cada caso la media muestral. Se crean los archivos muestra1, muestra2, . . . , muestra 30. local i = 1 while ‘i’ <= 30 { clear use ”Salarios.DTA” sample 50, count summ s hora dis r(mean) keep if n == 1 gen n = ‘i’ gen x = r(mean) keep n x save muestra‘i’.dta local i= ‘i’ + 1 } Segunda parte: reúne en un solo archivo las medias muestrales de cada muestra y borra los archivos intermedios. clear use muestra1.dta local k = 2 while ‘k’ <= 30 { append using muestra‘k’.dta local k = ‘k’ +1 } local j = 1 while ‘j’ <= 30 { erase muestra‘j’.dta local k = ‘j’ +1 } Especificando regresiones simples de salarios en educ y en experiencia por separado reg s hora educ reg s hora exper Interpretando la salida tabla de las sumas de cuadrados: ss (sum of squares) 2 total: y0 y − nY = ∑N i =1 yi − Y residual: u b0 u b = ∑N bi2 i =1 u model: total - residual 2 Number of obs: N F(K-1,N-K): Estadı́stico F para la prueba de de hipótesis H0 : todos los β k son cero con excepción del correspondiente a la constante. Prob > F : valor p asociado a la prueba F R-squared: ”R cuadrado”: 1-(residual sum squares/total sum squares) Adj. R-squared: ”R cuadrado ajustado”: 1 − NN−−K1 1 − R 2 corrige el denominador de la suma de residuos al cuadrado por N-K y totales por N-1 Root MSE: s bi2 ∑N i =1 u (N − K ) (estimación de la desviación estándar de los errores del modelo) Coef: bk Std. Err: EE (bk ) t: βbk /EE (bk ), estadı́stico asociado a H0 : β k = 0 [95% Conf. Interval]: Intervalo para β k con α = 0, 05 Prueba de hipótesis Comprobar la significación de β educ en la prueba con H0 : β educ = 0 y la alternativa bilateral H0 : β educ 6= 0 al 5% de significación. Obtener el valor de una función distribución t con 525 grados de libertad que acumula probabilidad igual a 1 - 0,025 usando ”dis invttail(525, 0.025)” y tomar la decisión de rechazo o no rechazo. Considerar el valor-p reportado por Stata en relación con la pregunta anterior. Discutir qué información aporta respecto a la prueba el intervalo de confianza que presenta la salida. Residuos: predict resid, res crea variable igual a u b Graficar la distribución de los residuos: histogram resid Dispersión y lı́nea de regresión, juntos twoway (scatter s hora educ) (lfit s hora educ) Regresión múltiple: reg s hora educ exper Inclusión en la regresión de una variable binaria: reg s hora educ exper mujer Correr la regresión para las submuestras de hombres y mujeres: reg s hora educ exper if mujer==1 reg s hora educ exper if mujer==0

Taller STATA 2016 (transparencias)

Documentos relacionados

Productos

Apoyo

Taller STATA 2016 (transparencias)

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib